خطا! ورودی را کنترل کنید
خطا! ورودی را کنترل کنید
ورود خودکار ؟
اگر فرم ثبت نام برای شما نمایش داده نمیشود، اینجا را کلیک کنید.
اگر فرم بازیابی کلمه عبور برای شما نمایش داده نمیشود، اینجا را کلیک کنید.
انجمن گفتگو استارتاپ و کار آفرینی
شما در حال مشاهده انجمن گفتگو استارتاپ های ایران هستید، این انجمن با هدف ایجاد بستر گفتگو پیرامون موضوعات حوزه کارآفرینی و کسب و کار های نوپا ایجاد شده است. با عضویت در این انجمن می توانید با اعضای اکوسیستم کارآفرینی کشور در ارتباط باشید.
این انجمن همچنین مرجع کاملی از شتاب دهنده ها، مراکز رشد و پارک های علم و فناوری، استارتاپ ها، اسامی منتور ها، سرمایه گذاران و فعالان کارآفرینی کشور را گرداوری نموده است.
ما به شما این اطمینان را می دهیم که با جستجو در این انجمن بتوانید هر موضوعی را در رابطه با استارتاپ ها پیدا کنید. کارشناسان ما نیز بطور 24 ساعته پاسخگوی سوالات شما خواهند بود.
محققان دانشگاه آکسفورد به تازگی با استفاده از هوش مصنوعی، فناوری جدیدی را در قالب یک نرم افزار برای لب خوانی ایجاد کرده اند که عملکرد آن به مراتب بهتر از عملکرد انسان در این زمینه است. به گزارش کلیک، علم لب خوانی اصول و قاعده مشخصی ندارد. نگاه دقیق به حرکات دهان افراد و ربط دادن اصوات مختلف به هر یک از حرکات دهان، کار دشواری است. محققان علوم کامپیوتری در دانشگاه آکسفورد با مشارکت اعضای شرکت هوش مصنوعی DeepMind که متعلق به گوگل است، موفق شده اند با استفاده از نرم افزار خود موسوم به Watch، Attend و Spell یا WAS (ببین، دقت کن و هجی کن) هوش مصنوعی را برای لب خوانی به کار گیرند. عملکرد این نرم افزار در آزمایش اولیه، بهتر از یک فرد متخصص لب خوانی بود. این توانایی هوش مصنوعی می تواند به برقراری ارتباط بین افراد ناشنوا و سایر افراد، کمک شایانی کند. آمار و ارقام مربوط به دقت تشخیص حرکات لب به وسیله هوش مصنوعی، متفاوت است؛ اما چیزی که واضح و مشخص است این است که توانایی هوش مصنوعی در لب خوانی، برای فهم کامل سخنان یک حرف ناشنوا، فاصله بسیار زیادی تا حد ایده آل دارد. طبق اطلاعات ذکر شده در مقاله ای که به تازگی توسط محققان دانشگاه آکسفورد منتشر شده است، میزان متوسط دقت افراد دارای مشکلات شنوایی در زمینه لب خوانی، ۵۲ درصد است. در ضمن محققان موسسه Georgia Tech معتقد هستند که تنها ۳۰ درصد از سخنان فرد از طریق لب خوانی قابل فهم است. به هر حال هدف محققان دانشگاه آکسفورد طراحی و ساخت نرم افزاری است که بتواند این کار را به صورت خودکار انجام دهد و میزان دقت در لب خوانی را نیز به میزان قابل توجهی افزایش دهد. در صورتی که این نرم افزار ایجاد شود، می تواند تغییر بزرگی در زندگی افراد دچار مشکلات شنوایی ایجاد کند. همان طور که گفتیم محققان دانشگاه آکسفورد برای کسب نتیجه بهتر، با اعضای شرکت DeepMind مشارکت داشته اند. محققان با بهره گیری از ۵۰۰۰ ساعت فیلم و از طریق فناوری بینایی کامپیوتری و یادگیری ماشینی، اطلاعات لازم را به نرم افزار WAS آموزش داده اند. این فیلم دربردارنده ۱۱۸۰۰۰ جمله و ۱۷۵۰۰ کلمه بود و در آن ۱۰۰۰ نفر صحبت کرده بودند. محققان با انجام یک آزمایش، عملکرد این نرم افزار را با عملکرد انسان مقایسه کردند. آن ها در این آزمایش یک فیلم بدون صدا پخش کردند و از یک متخصص لب خوانی خواستند تنها با مشاهده حرکت لب افراد در حال صحبت در فیلم، سخنان آن ها را تشخیص دهد. فرد مورد نظر موفق شد ۱۲ درصد از کلمات گفته شده را به درستی تشخیص دهد؛ اما نرم افزار WAS موفق شد ۵۰ درصد کلمات را به درستی تشخیص دهد. البته نرم افزار اشتباهاتی هم در کار خود داشت؛ اما به گفته اعضای تیم تحقیقاتی، این اشتباهات، اشتباهات کوچکی بودند؛ مثلا یک حرف s در پایان یک کلمه تشخیص داده نشد و یا یکی از حرف های یک کلمه به اشتباه هجی شد. اگرچه این نرم افزار هنوز در ابتدای راه خود قرار دارد و عملکرد آن باید با روش های مختلفی مورد آزمایش قرار بگیرد؛ اما محققان اذعان کرده اند که هدف آن ها این است که این نرم افزار بتواند همزمان با لب خوانی، کلمات را تشخیص دهد و آن ها معتقدند که چنین کاری شدنی است. در ضمن محققان مدعی هستند اطلاعات لازم می تواند از طریق فیلم های بدون صدا و به صورت نامحدود به نرم افزار آموزش داده شود. فناوری لب خوانی به وسیله هوش مصنوعی می تواند سرعت و دقت فرایند تبدیل صدا به متن را مخصوصا در محیط های شلوغ بهبود ببخشد. در ضمن امکان انجام تحقیقات بیشتر و دستیابی به پیشرفت های بیشتر هم در این زمینه وجود دارد. https://click.ir/1396/01/01/ai-set-b...-reading-lips/
ویرایش توسط Sina homaei : 2018/05/29 در ساعت 17:10
هوش مصنوعی «یادگیری ژرف» راهی برای حل مشکل لب خوانی لب خوانی کاری است که نیاز به مهارت زیادی دارد. تنوع زیادی در نتایج تست ها دیده می شود ولی به طور میانگین، بیشتر افراد در حین لب خوانی، از هر ۱۰ کلمه تنها ۱ کلمه را تشخیص می دهند و با توجه به این که در دقت کارشناسان این زمینه نیز تفاوت های زیادی وجود دارد، می توان گفت که کسی در لب خوانی به درجه استادی نرسیده است! اما هم اکنون، برخی از محققان بر این باورند که با استفاده از روش هایی بر مبنای هوش مصنوعی -مانند یادگیری ژرف- می توان این مشکل را حل کرد. با در نظر داشتن این که شیوه های مختلفی از هوش مصنوعی به بهبود توانایی تشخیص گفتار نزدیک به انسان کمک بسیاری کرده اند، باید قابلیت انجام همین کار را با لب خوانی نیز داشته باشند. برای کسب اطلاعات بیشتر پیرامون این موضوع، با سکان آکادمی همراه باشید. دقتی فراتر از انسان، ولی با داده های بسیار محدود محققان آزمایشگاه هوش مصنوعی دانشگاه آکسفورد با استفاده از Deep Leaning یا «یادگیری ژرف»، یک برنامه ی لب خوانی ساخته اند که در این عرصه پیشرفتی چشمگیر و در عین حال محدودی به حساب می آید. این نرم افزار که LipNet نام دارد، به طرز چشمگیری توانسته است با دقت ۹۳.۴ درصد خبرگان عرصه لب خوانی را شکست دهد و این در حالی است که انسان ها امتیاز ۵۲.۳ درصدی را به دست آورده اند. با در نظر گرفتن این که این برنامه در مراحل اولیه خود به سر می برد، اما از سرعت بالایی برخوردار است به طوری فیلم های صامت را همزمان به رونوشت تبدیل می کند. قبل از این که در کابوس فیلم های تخیلی مانند A Space Odyssey گم شویم، باید بدانیم که این پژوهش آکسفورد محدودیت هایی جدی نیز به همراه دارد. برای شروع، این سیستم در یک مجموعه داده های تحقیقاتی به نام GRID آزمایش شده است که مجموعه ای از ده ها هزار فیلم کوتاه از ۳۴ داوطلب است که جملاتی کاملا بی معنی را می خوانند. این کلیپ های ۳ ثانیه ای، دارای یک جمله ساده متشکل از: فعل امر، یک رنگ، حرف اضافه، یک حرف، یک رقم و یک قید هستند. به عنوان مثال، Place red at C zero again. حتی کلمات این جملات هم محدود هستند به طوری که فقط ۴ فعل امری و رنگ متفاوت به کار می روند. این باعث شده است که برخی از محققان این زمینه به این باور برسند که یافته های این پژوهش بیش از حد بزرگ شده اند، به خصوص پس از انتشار یک تویت که به طرزی احساسی ادعا کرد که در نتیجه این تحقیق، هیچ رمز و رازی باقی نخواهد ماند. این به هیچ وجه درست نیست. ۲ نفر از محققان این پروژه -یانیس آسیال و براندن شیلینگفورد- در مصاحبه ای با The Verge اعلام کردند که این سرویس «با دایره لغت و گرامر محدودی کار می کنند» ولی دلیل آن به خاطر کمبود داده ی اولیه است. آسیال گفت: مجموعه داده کوچک است، اما نشانه خوب این است که ما می توانیم با یک مجموعه داده بسیار بزرگتر هم این کار را به خوبی انجام دهیم. این سرویس به سیستم نظارت جمعی کمکی نمی کند! آسیال و شیلینگفورد هر دو شدیدا اسرار دارند که کار آن ها استفاده ای در دنیای امنیت و نظارت بر رفتار شهروندان ندارد (درباره ی موضوع نظارت، آسیال بیان کرده است با این که یکی از ناظران پروژه، همزمان با بخش هوش مصنوعی گوگل همکاری می کند، گوگل هیچ مشارکتی در ساخت LipNet نداشته است.) به این دلیل که لب خوانی در صورتی ممکن است که حرکات زبان شخص کاملا معلوم باشد. این بدان معنا است که فیلم باید از مقابل و همراه با نور کافی گرفته شود تا نتایج مورد نظر به دست آیند به طوری که آسیال اعتقاد دارد: «این کار از لحاظ فنی غیر ممکن، یا حداقل بسیار، بسیار مشکل است.» اضافه کردن Rate فریم نیز یک عامل مهم است، موردی که در تلویزیون های مدار بسته یا CCTV فراموش می شود. این دو محقق فکر می کنند که لب خوانی هوش مصنوعی می تواند به افراد معلول شنوایی کمک کند، به خصوص در محیط های پر سر و صدا که کامپیوترها به سختی می توانند سخن را تشخیص دهند. برای مثال، عینکی مجهز به دوربین می تواند به راحتی تصویری واضح از فرد مقابل تهیه و با لب خوانی، سخنان را به رونوشت تبدیل و به صورت صوتی به گوش هدایت کند. در همین راستا، آسیال اعتقاد دارد که «هر جایی که تشخیص گفتار و یک دوربین داشته باشید، می توانیم آن را بهبود بدهیم.» همچنین دستور های صامت به دستیار های صوتی مانند Siri یا Google Assistant نیز یکی از استفاده های این نرم افزار است به طوری که در آینده کسانی که علاقه ای به صحبت با رایانه ها را ندارند، می توانند با لب زدن، منظور خود را برسانند. https://sokanacademy.com/blog/983/%D...A7%D9%86%DB%8C
هوش مصنوعی گوگل لبخوانی میکند محققان مرکز هوشمند مصنوعی شرکت گوگل که DeepMind نام دارد، توانستهاند امکان لبخوانی کردن را به هوش مصنوعی گوگل اضافه کنند. براساس ادعای محققان این سیستم دقیقترین روش موجود برای لب خوانی کردن است. محققان با استفاده از ساعتها برنامهی تلویزیونی از خبرگزاریهای مختلف و سخرانیهای معمولی توانستهاند دقت هوش مصنوعی شرکت گوگل برای لبخوانی را به ۴۶٫۸ درصد برسانند. شاید در نگاه اول این آمار چندان شگفت انگیز نباشد؛ اما باید به این موضوع اشاره کنیم که لبخوانهای حرفهای با دقت ۱۲٫۴ درصد میتوانند این کار را انجام دهند. البته گروهی دیگر از محققان چند وقت پیش توانسته بودند یک برنامهی لب خوانی با نام LipNet خلق کنند که در شرایط خاص دقت آن به ۹۳٫۴ درصد هم میرسید. البته این برنامه روی افرادی خاص که یکسری جملات رسمی بیان میکردند، آزمایش شده بود. هوش مصنوعی گوگل در لحظه ویدیوها را نگاه میکند و در شرایط مختلف میتواند صحبتها را حدس بزند؛ به همین دلیل چالشهای بیشتری را پشتسر میگذارد. این هوش مصنوعی میتواند صحبتهایی که از قبل مشخص نشدهاند و یا در برنامههای زنده گفته میشوند را هم تشخیص دهد. برای بالا بردن دقت این هوش مصنوعی از ۵۰۰۰ ساعت ویدیو استفاده شده است. این ویدیوها شامل ۱۷۵۰۰ کلمهی منحصر به فرد بودند. محققان مرکز DeepMind گفتهاند که از هوش مصنوعی گوگل میتوان برای ترجمه کردن صحبت مهاجران استفاده کرد. حتی میتوان از آن در فیلمهای بیصدا و حتی برای کنترل کردن دستیارهای دیجیتالی مانند سیری و الکسا استفاده کرد. افراد کافی است تنها جلوی دوربین لبهای خودشان را تکان دهند تا هوش مصنوعی متوجه گفته آنها بشود و دستور را اجرا کند. منبع: The Verge https://www.digikala.com/mag/%D9%87%...9%D9%86%D8%AF/
بعد ازهزاران ساعت تماشای برنامههای تلویزیونی، تکنولوژی Alشرکت گوگل لب خوانی را از انسانها بهتر انجام میدهد محققین شرکت گوگل در بخش "DeepMind" و دانشگاه آکسفورد با استفاده از هوش مصنوعی موفق به ساختن دقیقترین برنامه لبخوانی شدهاند. دانشمندان با استفاده از هزاران ساعت برنامه تلویزیونی شبکه BBC، موفق به آموزش یک سری شبکه عصبی شدند که قادر است تصاویر ویدیوئی را با دقت %46.8 لبخوانی کرده و به نوشتار تبدیل کند. شاید در نگاه اول خیلی تاثیر گذار به نظر نیاید، مخصوصا در مقایسه با تکنولوژی Al در بخش تبدیل صداها به نوشتار. اما در مقایسه با یک لبخوان حرفهای(انسان) که تنها 12.4% دقت در لبخوانی داشت، این تکنولوژی فوق العاده عمل میکند. این تحقیق در راستای تحقیقات گروهی دیگر در اوایل این ماه در دانشگاه آکسفورد صورت گرفته است. دانشمندان گروه اول با استفاده از تکنیکهای مشابه موفق به ساخت برنامهای با نام "LipNet" شدند که در مقایسه با تست انسانی که 52.3% بود، برنامه موفق به لبخوانی با دقت 93.4% شد. با این وجود "LipNet" بر روی ویدیوهای از پیش ضبط شده توسط داوطلبان که جملات با قواعد خاصی را تکرار میکردند، تست و اجرا شده بود. در حالی که نرمافزار "DeepMind" بر روی ویدیوهای خیلی پیچیدهتر اجرا شد که در آن مکالمات افراد در برنامههای سیاسی شبکه BBC، توسط این برنامه به متن تبدیل شد. برنامه لبخوانی "DeepMind" با 5000 ساعت برنامه تلویزیونی آموزش داده شد بیش از 5000 ساعت از برنامههای تلویزیونی از جمله "Newsnight" ، "Question Time" و "World Today" برای آموزش این برنامه انتخاب شدند تا مراحل "تماشا"، "شنیدن"، "ساماندهی کلمات" و "نوشتن" به بهترین نحو ممکن توسط برنامه اجرا شود. برنامههای تلویزیونی شامل 118000 جمله مختلف و 17.500 کلمه منحصر به فرد بود در حالی که تست "LipNet" تنها 51 کلمه را در بر میگرفت. محققان "DeepMind" اظهار میکنند که این برنامه برای مقاصد مختلفی کاربرد دارد، از جمله افراد دارای ضعف شنوایی که در درک مکالمات با مشکل مواجه هستند. همچنین برای به متن درآوردن فیلمهای صامت یا استفاده در دستیارهای دیجیتالی از جمله "Siri" یا "Alexa"(برای استفاده در مکانهای عمومی) میتواند کاربردی باشد. اما زمانی که افراد میفهمند که این تکنولوژی میتواند مکالماتشان را لبخوانی کند، اولین فکری که به ذهنشان میرسد مسائل نظارتی و امنیتی خواهد بود. دانشمندان گفته اند که هنوز اختلاف زیادی بین ویدیوهای با کیفیت HD و دوربینهای نظارتی با نرخ فریم پایین، وجود دارد. اما نمیتوان از بین بردن این خلاء توسط هوش مصنوعی را نادیده گرفت. لبخوانی هوش مصنوعی گوگل بهتر از انسان است | ITIRAN
هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند لب خوانی عملی دشوار و پیچیده است. نتایج به دست آمده از این تکنیک تفاوت های زیادی را بین افراد نشان می دهد، اما در مجموع می توان گفت شخص عادی با نگاه به چهره دیگران، می تواند از هر 10 واژه یکی را به درستی حدس بزند، و این موضوع در بین متخصصین لب خوانی کمی بالاتر است. با این حال، اگر با به کار گیری روش های هوش مصنوعی و یادگیری عمیق توانسته ایم تشخیص گفتار صوتی را به عملکردی در سطح انسان برسانیم، پس چرا از همین رویه برای لب خوانی بهره نگیریم؟ به تازگی محققین دانشگاه اکسفورد مقاله ای را منتشر کرده اند که به کار گیری روش یادگیری عمیق را در لب خوانی نشان می دهد، و نتایج آن نسبتاً امیدوارکننده است. این نرم افزار که LipNet نام دارد، در شرایط کنترل شده به دقت 93.4 درصدی در تشخیص لغات دست یافته، در حالی که متخصصین لب خوانی در شرایطی مشابه حداکثر 52.3 درصد واژه ها را به درستی شناسایی کردند. نکته مهم در مورد این نرم افزار، عملکرد سریع و بلادرنگ آن است و با اینکه سیستم هنوز در مراحل اولیه قرار دارد، باز هم می تواند ویدیوی صامت را به صورت آنی به متن نوشتاری تبدیل نماید. آموزش سیستم فوق با استفاده از مجموعه داده GRID صورت گرفته، که ده ها هزار ویدیوی کوتاه از 34 نفر داوطلب را در بر می گیرد. این افراد در کلیپ های 3 ثانیه ای، جملاتی با الگوی مشخص و کلمات محدود را بیان می کردند. به همین دلیل منتقدین پروژه فوق می گویند این پژوهش در جهان واقعی کاربرد نخواهد داشت. البته محققین مورد بحث در دفاع از خود عنوان داشتند دلیل استفاده از GRID صرفاً به خاطر محدودیت داده های استاندارد کنونی بوده و در صورتی که مجموعه داده غنی تر و گسترده تری در اختیار داشته باشند، می توانند همین نتایج مثبت را به دست آورند. گفتنیست افرادی که در مورد حریم شخصی و مشکلات امنیتی این تکنولوژی بدبین هستند نیز نگران نباشند. به گفته این پژوهشگران، لب خوانی دقیق به تصویربرداری مستقیم از چهره با وضعیتی ثابت و قابلیت مشاهده زبان وابسته است، بنابراین دوربین های شهری هیچگاه محتوایی با کیفیت را برای استفاده از این فناوری تولید نخواهند کرد. هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند - دیجیاتو
هوش مصنوعی گوگل لب خوانی را هم یاد گرفتایانه های مجهز به هوش مصنوعی گوگل با تماشای ساعتها برنامه تلویزیونی یاد گرفتند که چگونه بهتر از انسانها صحبت های مجریان تلویزیونی را لب خوانی کنند. عصر بانک؛به گزارش فارس به نقل از نکست وب، محققان هوش مصنوعی گوگل در لندن با همکاری دانشمندان دانشگاه آکسفورد پیشرفته ترین نرم افزار لب خوانی جهان را ابداع کرده اند که با مشاهده تصاویر تلویزیونی قادر به درک مباحث طرح شده است. محققان برای تکمیل این طرح هزاران ساعت برنامه تلویزیونی شبکه بی بی سی را در اختیار شبکه عصبی این نرم افزار گذاردند و به آن آموزش دادند که چگونه با تحلیل حرکات لب و دهان انسان ها صحبت ها را درک کند. دقت این نرم افزار در آزمایش های اولیه 46.8 درصد بوده و بنابراین برای تکمیل آن هنوز زمان قابل توجهی نیاز است. البته دقت این نرم افزار چهار برابر بیشتر از یک لب خوان حرفه ای بوده است. این فرد با مشاهده ویدئوهای پخش شده تنها توانست با دقت 12.4 درصد گفتار مختلف را درک کند. پیش از این اساتید دانشگاه آکسفورد از روش مشابهی برای طراحی یک برنامه موبایلی لب خوان به نام LipNet استفاده کرده بودند که می توانست با دقت 90 درصد محتوای برخی ویدئوهای ضبط شده داوطلبان را درک کند. اما نرم افزار جدید که Watch, Listen, Attend, and Spell نام گرفته قادر به لب خوانی از انواع ویدئوها بدون محدودیت است. هوش مصنوعی گوگل لب خوانی را هم یاد گرفت
سامانه هوش مصنوعی دانشگاه آکسفورد بهتر از انسان لب خوانی میکند!آموزش هوش مصنوعی برای لب خوانی یک مهارت پایه است که در موقعیتهای بیشماری از جمله کمک به ناشنوایان برای درک مکالمات پیرامونشان میتواند استفاده شود. سامانه جدید هوش مصنوعی دانشگاه آکسفورد قادر است بهتر از انسان لب خوانی کند. حتی لب خوانهای حرفهای هم تنها ۲۰ تا ۶۰٪ از آنچه که یک فرد میگوید را تشخیص میدهند. تشخیص حرکت لبهای فردی که با سرعت طبیعی صحبت میکند فوق العاده دشوار است به ویژه از راه دور و یا زمانی که لب پنهان باشد. لب خوانی تنها یک نقشه در NCIS (سریال آمریکایی) نیست، بلکه ابزاری ضروری برای درک جهان توسط افراد دچار اختلال شنوایی است و اگر قابل اعتماد و خودکار باشد میتواند به میلیونها انسان کمک کند. دانشگاه آکسفورد با کمک مالی DeepMind در مقالهای یک سیستم هوش مصنوعی به نام LipNet را معرفی و ویدئویی را منتشر کرده که در آن افرادی صحبت میکنند و سیستم، متن تطبیقی با حرکت دهان آنها را با دقت ۹۳٫۴٪ مشخص میکند. سیستمهای قبلی، کلمه به کلمه کار میکردند و دقت آنها ۷۹٫۶٪ بود. پژوهشگران آکسفورد میگویند موفقیت این سیستم جدید به دلیل روش منحصر بفرد تفکر در مورد این مسئله است که به جای آموزش هر حرکت دهان با استفاده از یک سامانه واج بصری به AI، پژوهشگران سیستمی برای پردازش تمام جملات در یک زمان ساختند. این روش به AI اجازه میدهد که خود آن حرفی که مربوط به هر حرکت دهان است را تشخیص دهد. پژوهشگران برای آموزش سیستم نزدیک به ۲۹،۰۰۰ فیلم برچسب دار شده با طول سه ثانیه را به هوش مصنوعی نشان دادند. برای اینکه ببینید چگونه لب خوانهای انسانی همان کار را انجام میدهند، این گروه سه نفر از اعضای دانشجویان جامعه معلولین آکسفورد را استخدام و آنها را با ۳۰۰ فیلم تصادفی شبیه به آنهایی که برای آموزش سیستم AI استفاده شد، آزمایش کردند. این افراد نرخ خطای متوسط ۴۷٫۷٪ داشتند، در حالی که نرخ خطای هوش مصنوعی تنها ۶٫۶ درصد بود. با وجود موفقیت این پروژه، سیستم هنوز هم برخی از محدودیتهای پژوهش مدرن هوش مصنوعی را دارد. این گروه هنگام آموزش AI برای لب خوانی از یک مجموعه فیلمهای ویژه استفاده کردند. هر شخص رو به جلو بود و به خوبی و واضح یک ساختار جمله استاندارد را بیان میکرد. به عنوان مثال: «Place blue in m 1 soon » یکی از عبارات استاندارد سه ثانیهای مورد استفاده در آموزش و متشکل از یک دستور، رنگ، حرف اضافه، عدد از ۱تا۱۰ و قید بود. همه جملات این الگو را دنبال میکنند. بنابراین دقت فوق العادهی AI ممکن است به این علت باشد که آن در شرایط فوقالعادهای آموزش دیده و تست شده است. برای نمونه اگر بخواهید فیلمهایی از یوتیوب را لب خوانی کنید، نتایج احتمالاً دقت بسیار کمتری دارند. برخی از گفتمانهای عمومی جالب در مورد مقالات AI در گستره وسیعی از توییتر اتفاق افتاد. هنگامی که دیگر پژوهشگران اشاره کردند که استفاده از چنین فیلمهای آموزشی تخصصی در دنیای واقعی کاربردی ندارد، نویسنده ناندو د فریتاس از نتایج مقاله خود دفاع و اشاره کرد گروهش از مجموعه فیلمهای دیگری نیز استفاده کرده که بسیار نویزی هستند. د فریتاس نوشت: مطمئن است که با توجه به اطلاعات صحیح استفاده شده این نتایج امری قابل انتظار بوده است. به گفته جک کلارک از آزمایشگاه هوش مصنوعی OpenAI، برای انجام اینکار در دنیای واقعی سه بهبود عمده باید انجام شود: استفاده از ویدئوهای بسیاری که مردم در موقعیتهای دنیای واقعی بیان میکنند، قابلیت لب خوانی از زوایای متعدد و هوش مصنوعی بتواند انواع گوناگونی از عبارتها را پیش بینی کند. کلارک نوشت: «فناوری چنین ابزاری را دارد، هر چند به نظر میرسد که ساخت آن اجتناب ناپذیر است». آموزش هوش مصنوعی برای لب خوانی یک مهارت پایه است که در موقعیتهای بیشماری میتواند استفاده شود. یک سیستم مشابه میتواند به ناشنوایان برای درک مکالمات پیرامون کمک کند و یا اشکال دیگری از AI را تقویت کند که به صدای ویدئو گوش میدهد و به سرعت شرح تصاویر را تولید میکند. منبع: QUARTZ سامانه هوش مصنوعی دانشگاه آکسفورد بهتر از انسان لب خوانی میکند!
هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیندبه گزارش ملت بازار، اگر با به کار گیری روش های هوش مصنوعی و یادگیری عمیق توانسته ایم تشخیص گفتار صوتی را به عملکردی در سطح انسان برسانیم، پس چرا از همین رویه برای لب خوانی بهره نگیریم؟ به تازگی محققین دانشگاه اکسفورد مقاله ای را منتشر کرده اند که به کار گیری روش یادگیری عمیق را در لب خوانی نشان می دهد، و نتایج آن نسبتاً امیدوارکننده است. این نرم افزار که LipNet نام دارد، در شرایط کنترل شده به دقت 93.4 درصدی در تشخیص لغات دست یافته، در حالی که متخصصین لب خوانی در شرایطی مشابه حداکثر 52.3 درصد واژه ها را به درستی شناسایی کردند. نکته مهم در مورد این نرم افزار، عملکرد سریع و بلادرنگ آن است و با اینکه سیستم هنوز در مراحل اولیه قرار دارد، باز هم می تواند ویدیوی صامت را به صورت آنی به متن نوشتاری تبدیل نماید. آموزش سیستم فوق با استفاده از مجموعه داده GRID صورت گرفته، که ده ها هزار ویدیوی کوتاه از 34 نفر داوطلب را در بر می گیرد. این افراد در کلیپ های 3 ثانیه ای، جملاتی با الگوی مشخص و کلمات محدود را بیان می کردند. به همین دلیل منتقدین پروژه فوق می گویند این پژوهش در جهان واقعی کاربرد نخواهد داشت. البته محققین مورد بحث در دفاع از خود عنوان داشتند دلیل استفاده از GRID صرفاً به خاطر محدودیت داده های استاندارد کنونی بوده و در صورتی که مجموعه داده غنی تر و گسترده تری در اختیار داشته باشند، می توانند همین نتایج مثبت را به دست آورند. گفتنیست افرادی که در مورد حریم شخصی و مشکلات امنیتی این تکنولوژی بدبین هستند نیز نگران نباشند. به گفته این پژوهشگران، لب خوانی دقیق به تصویربرداری مستقیم از چهره با وضعیتی ثابت و قابلیت مشاهده زبان وابسته است، بنابراین دوربین های شهری هیچگاه محتوایی با کیفیت را برای استفاده از این فناوری تولید نخواهند کرد. هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند
هوش مصنوعی DeepMind گوگل در زمینه لب خوانی، از انسان جلو زد به گزارش New Scientist، هوش مصنوعی DeepMind گوگل و دانشگاه آکسفورد در حال توسعه یک سیستم لب خوانی جدید هستند که به هوش مصنوعی مجهز می باشد. سیستم هوش مصنوعی مذکور، کارآیی بهتری نسبت به لب خوان های حرفه ای و آزموده به نمایش گذاشته که خود خالق فرصت های جدیدی در زمینه تکنولوژی مصرف کننده می باشد. این دو سازمان یک سیستم یادگیری عمیق را برای یک مجموعه داده بزرگ از برنامه های بی بی سی اعمال کردند و با استفاده از ۵۰۰۰ ویدیو، از ۶ برنامه تلویزیونی که بین ژانویه ۲۰۱۰ و دسامبر ۲۰۱۵ پخش شده بودند، مجموع ۱۱۸۰۰۰ جمله به این هوش مصنوعی آموزش داده شد، سپس سیستم در پخش های زنده بین ماه های مارچ و سپتامبر مورد آزمایش قرار گرفت. در یک آزمون کنترل، هوش مصنوعی توانست لب خوان های حرفه ای و انسانی را پشت سر گذارد. وظیفه این هوش مصنوعی ثبت ۲۰۰ کلیپ از این مجموعه داده بود که به طور تصادفی انتخاب شده بودند، لب خوان حرفه ای توانست ۱۲.۴ درصد از کلمات را به ثبت رساند، در حالی که هوش مصنوعی ۴۶.۸ درصد از کلمات را به درستی تشخیص داد و بر اساس بیانات، این سیستم هوش مصنوعی از دقت بیشتری نسبت به سایر سیستم های لب خوانی خودکار بهره مند است. این سیستم قابل استفاده در تمامی زمینه هایی است که از تشخیص گفتار و دوربین استفاده می کنند و برای نمونه می توان به موارد زیر اشاره کرد: – افزودن قابلیت تشخیص گفتار به سمعک ها. می توان از سیستم های لب خوانی جهت تقویت سمعک ها برای ثبت مکالمات در ریل تایم استفاده کرد. بر اساس یافته های Hearing Loss Association آمریکا، حدود ۲۰ درصد از آمریکایی ها از مشکلات شنوایی رنج می برند و با وجود جمعیت سال خورده، تقاضا برای سمعک یا دستگاه های لب خوانی در حال افزایش می باشد. – عینک های مجهز به دوبین. این تکنولوژی قابل استفاده در محصولاتی همچون Spectacles و عینک هایی مجهز به دوربین Snap می باشد. افرادی که این تکنولوژی را مورد استفاده قرار می دهند، قادر به دریافت ترنسکریپت از مکالمات در ریل تایم هستند، البته در صورتی که دستگاه به لب های فرد سخنگو دید کاملی و کافی داشته باشد. – فعال سازی دیکته بی صدا و دستورات صوتی. یکی دیگری از موارد کاربرد تکنولوژی لب خوانی، قادر ساختن افراد به املای دستورات به گوشی به صورت بی صدا می باشد. در این حالت، دیگری نیازی به حرف زدن با صدای بلند برای Siri احساس نمی شود. این تکنولوژی فرصتی برای استفاده از پسوردهای بصری را فراهم می کند، زیرا لب افراد به گونه متفاوتی حرکت می کند. شاید یکی از دلایلی که افراد نسبت به استفاده از دستیارهای صوتی بی میل هستند، خجالت کشیدن از حرف زدن با صدای بلند با دستگاه ها در اماکن عمومی باشد که با بهره گیری از چنین سیستم هایی، این قبیل مشکلات برطرف می شوند. منبع: http://www.businessinsider.com https://appreview.ir/%D9%87%D9%88%D8...-%D8%A7%D8%B2/
هوش مصنوعی گوگل لب خوانی را هم یاد گرفترایانه های مجهز به هوش مصنوعی گوگل با تماشای ساعتها برنامه تلویزیونی یاد گرفتند که چگونه بهتر از انسانها صحبت های مجریان تلویزیونی را لب خوانی کنند. به گزارش خبرنگار فناوری اطلاعات خبرگزاری فارس به نقل از نکست وب، محققان هوش مصنوعی گوگل در لندن با همکاری دانشمندان دانشگاه آکسفورد پیشرفته ترین نرم افزار لب خوانی جهان را ابداع کرده اند که با مشاهده تصاویر تلویزیونی قادر به درک مباحث طرح شده است. محققان برای تکمیل این طرح هزاران ساعت برنامه تلویزیونی شبکه بی بی سی را در اختیار شبکه عصبی این نرم افزار گذاردند و به آن آموزش دادند که چگونه با تحلیل حرکات لب و دهان انسان ها صحبت ها را درک کند. دقت این نرم افزار در آزمایش های اولیه 46.8 درصد بوده و بنابراین برای تکمیل آن هنوز زمان قابل توجهی نیاز است. البته دقت این نرم افزار چهار برابر بیشتر از یک لب خوان حرفه ای بوده است. این فرد با مشاهده ویدئوهای پخش شده تنها توانست با دقت 12.4 درصد گفتار مختلف را درک کند. پیش از این اساتید دانشگاه آکسفورد از روش مشابهی برای طراحی یک برنامه موبایلی لب خوان به نام LipNet استفاده کرده بودند که می توانست با دقت 90 درصد محتوای برخی ویدئوهای ضبط شده داوطلبان را درک کند. اما نرم افزار جدید که Watch, Listen, Attend, and Spell نام گرفته قادر به لب خوانی از انواع ویدئوها بدون محدودیت است. https://www.farsnews.com/news/139509...b1%d9%81%d8%aa
نمایش برچسبها
مشاهده قوانین انجمن