هوش مصنوعی در لب خوانی از انسان پیشی گرفت

**Sina homaei** · 2018/05/01, 20:25

محققان دانشگاه آکسفورد به تازگی با استفاده از هوش مصنوعی، فناوری جدیدی را در قالب یک نرم افزار برای لب خوانی ایجاد کرده اند که عملکرد آن به مراتب بهتر از عملکرد انسان در این زمینه است. به گزارش کلیک، علم لب خوانی اصول و قاعده مشخصی ندارد. نگاه دقیق به حرکات دهان افراد و ربط دادن اصوات مختلف به هر یک از حرکات دهان، کار دشواری است. محققان علوم کامپیوتری در دانشگاه آکسفورد با مشارکت اعضای شرکت هوش مصنوعی DeepMind که متعلق به گوگل است، موفق شده اند با استفاده از نرم افزار خود موسوم به Watch، Attend و Spell یا WAS (ببین، دقت کن و هجی کن) هوش مصنوعی را برای لب خوانی به کار گیرند. عملکرد این نرم افزار در آزمایش اولیه، بهتر از یک فرد متخصص لب خوانی بود. این توانایی هوش مصنوعی می تواند به برقراری ارتباط بین افراد ناشنوا و سایر افراد، کمک شایانی کند. آمار و ارقام مربوط به دقت تشخیص حرکات لب به وسیله هوش مصنوعی، متفاوت است؛ اما چیزی که واضح و مشخص است این است که توانایی هوش مصنوعی در لب خوانی، برای فهم کامل سخنان یک حرف ناشنوا، فاصله بسیار زیادی تا حد ایده آل دارد. طبق اطلاعات ذکر شده در مقاله ای که به تازگی توسط محققان دانشگاه آکسفورد منتشر شده است، میزان متوسط دقت افراد دارای مشکلات شنوایی در زمینه لب خوانی، ۵۲ درصد است. در ضمن محققان موسسه Georgia Tech معتقد هستند که تنها ۳۰ درصد از سخنان فرد از طریق لب خوانی قابل فهم است. به هر حال هدف محققان دانشگاه آکسفورد طراحی و ساخت نرم افزاری است که بتواند این کار را به صورت خودکار انجام دهد و میزان دقت در لب خوانی را نیز به میزان قابل توجهی افزایش دهد. در صورتی که این نرم افزار ایجاد شود، می تواند تغییر بزرگی در زندگی افراد دچار مشکلات شنوایی ایجاد کند. همان طور که گفتیم محققان دانشگاه آکسفورد برای کسب نتیجه بهتر، با اعضای شرکت DeepMind مشارکت داشته اند. محققان با بهره گیری از ۵۰۰۰ ساعت فیلم و از طریق فناوری بینایی کامپیوتری و یادگیری ماشینی، اطلاعات لازم را به نرم افزار WAS آموزش داده اند. این فیلم دربردارنده ۱۱۸۰۰۰ جمله و ۱۷۵۰۰ کلمه بود و در آن ۱۰۰۰ نفر صحبت کرده بودند. محققان با انجام یک آزمایش، عملکرد این نرم افزار را با عملکرد انسان مقایسه کردند. آن ها در این آزمایش یک فیلم بدون صدا پخش کردند و از یک متخصص لب خوانی خواستند تنها با مشاهده حرکت لب افراد در حال صحبت در فیلم، سخنان آن ها را تشخیص دهد. فرد مورد نظر موفق شد ۱۲ درصد از کلمات گفته شده را به درستی تشخیص دهد؛ اما نرم افزار WAS موفق شد ۵۰ درصد کلمات را به درستی تشخیص دهد. البته نرم افزار اشتباهاتی هم در کار خود داشت؛ اما به گفته اعضای تیم تحقیقاتی، این اشتباهات، اشتباهات کوچکی بودند؛ مثلا یک حرف s در پایان یک کلمه تشخیص داده نشد و یا یکی از حرف های یک کلمه به اشتباه هجی شد. اگرچه این نرم افزار هنوز در ابتدای راه خود قرار دارد و عملکرد آن باید با روش های مختلفی مورد آزمایش قرار بگیرد؛ اما محققان اذعان کرده اند که هدف آن ها این است که این نرم افزار بتواند همزمان با لب خوانی، کلمات را تشخیص دهد و آن ها معتقدند که چنین کاری شدنی است. در ضمن محققان مدعی هستند اطلاعات لازم می تواند از طریق فیلم های بدون صدا و به صورت نامحدود به نرم افزار آموزش داده شود. فناوری لب خوانی به وسیله هوش مصنوعی می تواند سرعت و دقت فرایند تبدیل صدا به متن را مخصوصا در محیط های شلوغ بهبود ببخشد. در ضمن امکان انجام تحقیقات بیشتر و دستیابی به پیشرفت های بیشتر هم در این زمینه وجود دارد.
https://click.ir/1396/01/01/ai-set-b...-reading-lips/

**Sina homaei** · 2018/05/01, 20:26

هوش مصنوعی

«یادگیری ژرف» راهی برای حل مشکل لب خوانی

لب خوانی کاری است که نیاز به مهارت زیادی دارد. تنوع زیادی در نتایج تست ها دیده می شود ولی به طور میانگین، بیشتر افراد در حین لب خوانی، از هر ۱۰ کلمه تنها ۱ کلمه را تشخیص می دهند و با توجه به این که در دقت کارشناسان این زمینه نیز تفاوت های زیادی وجود دارد، می توان گفت که کسی در لب خوانی به درجه استادی نرسیده است! اما هم اکنون، برخی از محققان بر این باورند که با استفاده از روش هایی بر مبنای هوش مصنوعی -مانند یادگیری ژرف- می توان این مشکل را حل کرد. با در نظر داشتن این که شیوه های مختلفی از هوش مصنوعی به بهبود توانایی تشخیص گفتار نزدیک به انسان کمک بسیاری کرده اند، باید قابلیت انجام همین کار را با لب خوانی نیز داشته باشند. برای کسب اطلاعات بیشتر پیرامون این موضوع، با سکان آکادمی همراه باشید.
دقتی فراتر از انسان، ولی با داده های بسیار محدود
محققان آزمایشگاه هوش مصنوعی دانشگاه آکسفورد با استفاده از Deep Leaning یا «یادگیری ژرف»، یک برنامه ی لب خوانی ساخته اند که در این عرصه پیشرفتی چشمگیر و در عین حال محدودی به حساب می آید. این نرم افزار که LipNet نام دارد، به طرز چشمگیری توانسته است با دقت ۹۳.۴ درصد خبرگان عرصه لب خوانی را شکست دهد و این در حالی است که انسان ها امتیاز ۵۲.۳ درصدی را به دست آورده اند. با در نظر گرفتن این که این برنامه در مراحل اولیه خود به سر می برد، اما از سرعت بالایی برخوردار است به طوری فیلم های صامت را همزمان به رونوشت تبدیل می کند.
قبل از این که در کابوس فیلم های تخیلی مانند A Space Odyssey گم شویم، باید بدانیم که این پژوهش آکسفورد محدودیت هایی جدی نیز به همراه دارد. برای شروع، این سیستم در یک مجموعه داده های تحقیقاتی به نام GRID آزمایش شده است که مجموعه ای از ده ها هزار فیلم کوتاه از ۳۴ داوطلب است که جملاتی کاملا بی معنی را می خوانند. این کلیپ های ۳ ثانیه ای، دارای یک جمله ساده متشکل از: فعل امر، یک رنگ، حرف اضافه، یک حرف، یک رقم و یک قید هستند. به عنوان مثال، Place red at C zero again. حتی کلمات این جملات هم محدود هستند به طوری که فقط ۴ فعل امری و رنگ متفاوت به کار می روند. این باعث شده است که برخی از محققان این زمینه به این باور برسند که یافته های این پژوهش بیش از حد بزرگ شده اند، به خصوص پس از انتشار یک تویت که به طرزی احساسی ادعا کرد که در نتیجه این تحقیق، هیچ رمز و رازی باقی نخواهد ماند.
این به هیچ وجه درست نیست. ۲ نفر از محققان این پروژه -یانیس آسیال و براندن شیلینگفورد- در مصاحبه ای با The Verge اعلام کردند که این سرویس «با دایره لغت و گرامر محدودی کار می کنند» ولی دلیل آن به خاطر کمبود داده ی اولیه است. آسیال گفت:
مجموعه داده کوچک است، اما نشانه خوب این است که ما می توانیم با یک مجموعه داده بسیار بزرگتر هم این کار را به خوبی انجام دهیم.
این سرویس به سیستم نظارت جمعی کمکی نمی کند!
آسیال و شیلینگفورد هر دو شدیدا اسرار دارند که کار آن ها استفاده ای در دنیای امنیت و نظارت بر رفتار شهروندان ندارد (درباره ی موضوع نظارت، آسیال بیان کرده است با این که یکی از ناظران پروژه، همزمان با بخش هوش مصنوعی گوگل همکاری می کند، گوگل هیچ مشارکتی در ساخت LipNet نداشته است.) به این دلیل که لب خوانی در صورتی ممکن است که حرکات زبان شخص کاملا معلوم باشد. این بدان معنا است که فیلم باید از مقابل و همراه با نور کافی گرفته شود تا نتایج مورد نظر به دست آیند به طوری که آسیال اعتقاد دارد: «این کار از لحاظ فنی غیر ممکن، یا حداقل بسیار، بسیار مشکل است.» اضافه کردن Rate فریم نیز یک عامل مهم است، موردی که در تلویزیون های مدار بسته یا CCTV فراموش می شود.
این دو محقق فکر می کنند که لب خوانی هوش مصنوعی می تواند به افراد معلول شنوایی کمک کند، به خصوص در محیط های پر سر و صدا که کامپیوترها به سختی می توانند سخن را تشخیص دهند. برای مثال، عینکی مجهز به دوربین می تواند به راحتی تصویری واضح از فرد مقابل تهیه و با لب خوانی، سخنان را به رونوشت تبدیل و به صورت صوتی به گوش هدایت کند. در همین راستا، آسیال اعتقاد دارد که «هر جایی که تشخیص گفتار و یک دوربین داشته باشید، می توانیم آن را بهبود بدهیم.» همچنین دستور های صامت به دستیار های صوتی مانند Siri یا Google Assistant نیز یکی از استفاده های این نرم افزار است به طوری که در آینده کسانی که علاقه ای به صحبت با رایانه ها را ندارند، می توانند با لب زدن، منظور خود را برسانند.
https://sokanacademy.com/blog/983/%D...A7%D9%86%DB%8C

**Sina homaei** · 2018/05/29, 17:12

هوش مصنوعی گوگل لب‌خوانی می‌کند

محققان مرکز هوشمند مصنوعی شرکت گوگل که DeepMind نام دارد، توانسته‌اند امکان لب‌خوانی کردن را به هوش مصنوعی گوگل اضافه کنند. براساس ادعای محققان این سیستم دقیق‌ترین روش موجود برای لب خوانی کردن است. محققان با استفاده از ساعت‌ها برنامه‌ی تلویزیونی از خبرگزاری‌های مختلف و سخرانی‌های معمولی توانسته‌اند دقت هوش مصنوعی شرکت گوگل برای لب‌خوانی را به ۴۶٫۸ درصد برسانند. شاید در نگاه اول این آمار چندان شگفت انگیز نباشد؛ اما باید به این موضوع اشاره کنیم که لب‌خوان‌های حرفه‌ای با دقت ۱۲٫۴ درصد می‌توانند این کار را انجام دهند. البته گروهی دیگر از محققان چند وقت پیش توانسته بودند یک برنامه‌ی لب خوانی با نام LipNet خلق کنند که در شرایط خاص دقت آن به ۹۳٫۴ درصد هم می‌رسید. البته این برنامه روی افرادی خاص که یکسری جملات رسمی بیان می‌کردند، آزمایش شده بود. هوش مصنوعی گوگل در لحظه‌ ویدیوها را نگاه می‌کند و در شرایط مختلف می‌تواند صحبت‌ها را حدس بزند؛ به همین دلیل چالش‌های بیشتری را پشت‌سر می‌گذارد. این هوش مصنوعی می‌تواند صحبت‌هایی که از قبل مشخص نشده‌اند و یا در برنامه‌های زنده گفته می‌شوند را هم تشخیص دهد.

برای بالا بردن دقت این هوش مصنوعی از ۵۰۰۰ ساعت ویدیو استفاده شده است. این ویدیوها شامل ۱۷۵۰۰ کلمه‌ی منحصر به فرد بودند. محققان مرکز DeepMind گفته‌اند که از هوش مصنوعی گوگل می‌توان برای ترجمه کردن صحبت مهاجران استفاده کرد. حتی می‌توان از آن در فیلم‌های بی‌صدا و حتی برای کنترل کردن دستیارهای دیجیتالی مانند سیری و الکسا استفاده کرد. افراد کافی است تنها جلوی دوربین لب‌های خودشان را تکان دهند تا هوش مصنوعی متوجه گفته آن‌ها بشود و دستور را اجرا کند. منبع: The Verge
https://www.digikala.com/mag/%D9%87%...9%D9%86%D8%AF/

**Sina homaei** · 2018/05/29, 17:12

بعد ازهزاران ساعت تماشای برنامه‌های تلویزیونی، تکنولوژی Alشرکت گوگل لب خوانی را از انسانها بهتر انجام می‌دهد
محققین شرکت گوگل در بخش "DeepMind" و دانشگاه آکسفورد با استفاده از هوش مصنوعی موفق به ساختن دقیق‌ترین برنامه لب‌خوانی شده‌اند. دانشمندان با استفاده از هزاران ساعت برنامه تلویزیونی شبکه BBC، موفق به آموزش یک سری شبکه عصبی شدند که قادر است تصاویر ویدیوئی را با دقت %46.8 لب‌خوانی کرده و به نوشتار تبدیل کند. شاید در نگاه اول خیلی تاثیر گذار به نظر نیاید، مخصوصا در مقایسه با تکنولوژی Al در بخش تبدیل صداها به نوشتار. اما در مقایسه با یک لب‌خوان حرفه‌ای(انسان) که تنها 12.4% دقت در لب‌خوانی داشت، این تکنولوژی فوق العاده عمل می‌کند.
این تحقیق در راستای تحقیقات گروهی دیگر در اوایل این ماه در دانشگاه آکسفورد صورت گرفته است. دانشمندان گروه اول با استفاده از تکنیک‌های مشابه موفق به ساخت برنامه‌ای با نام "LipNet" شدند که در مقایسه با تست انسانی که 52.3% بود، برنامه موفق به لب‌خوانی با دقت 93.4% شد. با این وجود "LipNet" بر روی ویدیوهای از پیش ضبط شده توسط داوطلبان که جملات با قواعد خاصی را تکرار می‌کردند، تست و اجرا شده بود. در حالی که نرم‌افزار "DeepMind" بر روی ویدیوهای خیلی پیچیده‌تر اجرا شد که در آن مکالمات افراد در برنامه‌های سیاسی شبکه BBC، توسط این برنامه به متن تبدیل شد.
برنامه لب‌خوانی "DeepMind" با 5000 ساعت برنامه تلویزیونی آموزش داده شد
بیش از 5000 ساعت از برنامه‌های تلویزیونی از جمله "Newsnight" ، "Question Time" و "World Today" برای آموزش این برنامه انتخاب شدند تا مراحل "تماشا"، "شنیدن"، "ساماندهی کلمات" و "نوشتن" به بهترین نحو ممکن توسط برنامه اجرا شود. برنامه‌های تلویزیونی شامل 118000 جمله مختلف و 17.500 کلمه منحصر به فرد بود در حالی که تست "LipNet" تنها 51 کلمه را در بر می‌گرفت.
محققان "DeepMind" اظهار می‌کنند که این برنامه برای مقاصد مختلفی کاربرد دارد، از جمله افراد دارای ضعف شنوایی که در درک مکالمات با مشکل مواجه هستند. همچنین برای به متن درآوردن فیلم‌های صامت یا استفاده در دستیارهای دیجیتالی از جمله "Siri" یا "Alexa"(برای استفاده در مکان‌های عمومی) می‌تواند کاربردی باشد.
اما زمانی که افراد می‌فهمند که این تکنولوژی می‌تواند مکالماتشان را لب‌خوانی کند، اولین فکری که به ذهنشان می‌رسد مسائل نظارتی و امنیتی خواهد بود. دانشمندان گفته اند که هنوز اختلاف زیادی بین ویدیوهای با کیفیت HD و دوربین‌های نظارتی با نرخ فریم پایین، وجود دارد. اما نمی‌توان از بین بردن این خلاء توسط هوش مصنوعی را نادیده گرفت.
لب‌خوانی هوش مصنوعی گوگل بهتر از انسان است | ITIRAN

**Sina homaei** · 2018/05/29, 17:13

هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند

لب خوانی عملی دشوار و پیچیده است. نتایج به دست آمده از این تکنیک تفاوت های زیادی را بین افراد نشان می دهد، اما در مجموع می توان گفت شخص عادی با نگاه به چهره دیگران، می تواند از هر 10 واژه یکی را به درستی حدس بزند، و این موضوع در بین متخصصین لب خوانی کمی بالاتر است.
با این حال، اگر با به کار گیری روش های هوش مصنوعی و یادگیری عمیق توانسته ایم تشخیص گفتار صوتی را به عملکردی در سطح انسان برسانیم، پس چرا از همین رویه برای لب خوانی بهره نگیریم؟
به تازگی محققین دانشگاه اکسفورد مقاله ای را منتشر کرده اند که به کار گیری روش یادگیری عمیق را در لب خوانی نشان می دهد، و نتایج آن نسبتاً امیدوارکننده است. این نرم افزار که LipNet نام دارد، در شرایط کنترل شده به دقت 93.4 درصدی در تشخیص لغات دست یافته، در حالی که متخصصین لب خوانی در شرایطی مشابه حداکثر 52.3 درصد واژه ها را به درستی شناسایی کردند.
نکته مهم در مورد این نرم افزار، عملکرد سریع و بلادرنگ آن است و با اینکه سیستم هنوز در مراحل اولیه قرار دارد، باز هم می تواند ویدیوی صامت را به صورت آنی به متن نوشتاری تبدیل نماید.
آموزش سیستم فوق با استفاده از مجموعه داده GRID صورت گرفته، که ده ها هزار ویدیوی کوتاه از 34 نفر داوطلب را در بر می گیرد. این افراد در کلیپ های 3 ثانیه ای، جملاتی با الگوی مشخص و کلمات محدود را بیان می کردند. به همین دلیل منتقدین پروژه فوق می گویند این پژوهش در جهان واقعی کاربرد نخواهد داشت.
البته محققین مورد بحث در دفاع از خود عنوان داشتند دلیل استفاده از GRID صرفاً به خاطر محدودیت داده های استاندارد کنونی بوده و در صورتی که مجموعه داده غنی تر و گسترده تری در اختیار داشته باشند، می توانند همین نتایج مثبت را به دست آورند.
گفتنیست افرادی که در مورد حریم شخصی و مشکلات امنیتی این تکنولوژی بدبین هستند نیز نگران نباشند. به گفته این پژوهشگران، لب خوانی دقیق به تصویربرداری مستقیم از چهره با وضعیتی ثابت و قابلیت مشاهده زبان وابسته است، بنابراین دوربین های شهری هیچگاه محتوایی با کیفیت را برای استفاده از این فناوری تولید نخواهند کرد.

هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند - دیجیاتو

**Sina homaei** · 2018/05/29, 17:13

هوش مصنوعی گوگل لب خوانی را هم یاد گرفت

ایانه های مجهز به هوش مصنوعی گوگل با تماشای ساعت‌ها برنامه تلویزیونی یاد گرفتند که چگونه بهتر از انسان‌ها صحبت های مجریان تلویزیونی را لب خوانی کنند. عصر بانک؛به گزارش فارس به نقل از نکست وب، محققان هوش مصنوعی گوگل در لندن با همکاری دانشمندان دانشگاه آکسفورد پیشرفته ترین نرم افزار لب خوانی جهان را ابداع کرده اند که با مشاهده تصاویر تلویزیونی قادر به درک مباحث طرح شده است.

محققان برای تکمیل این طرح هزاران ساعت برنامه تلویزیونی شبکه بی بی سی را در اختیار شبکه عصبی این نرم افزار گذاردند و به آن آموزش دادند که چگونه با تحلیل حرکات لب و دهان انسان ها صحبت ها را درک کند.

دقت این نرم افزار در آزمایش های اولیه 46.8 درصد بوده و بنابراین برای تکمیل آن هنوز زمان قابل توجهی نیاز است. البته دقت این نرم افزار چهار برابر بیشتر از یک لب خوان حرفه ای بوده است. این فرد با مشاهده ویدئوهای پخش شده تنها توانست با دقت 12.4 درصد گفتار مختلف را درک کند.

پیش از این اساتید دانشگاه آکسفورد از روش مشابهی برای طراحی یک برنامه موبایلی لب خوان به نام LipNet استفاده کرده بودند که می توانست با دقت 90 درصد محتوای برخی ویدئوهای ضبط شده داوطلبان را درک کند. اما نرم افزار جدید که Watch, Listen, Attend, and Spell نام گرفته قادر به لب خوانی از انواع ویدئوها بدون محدودیت است.
هوش مصنوعی گوگل لب خوانی را هم یاد گرفت

**Sina homaei** · 2018/05/29, 17:29

سامانه هوش مصنوعی دانشگاه آکسفورد بهتر از انسان لب خوانی می‌کند!

آموزش هوش مصنوعی برای لب خوانی یک مهارت پایه است که در موقعیت‌های بیشماری از جمله کمک به ناشنوایان برای درک مکالمات پیرامونشان می‌تواند استفاده شود. سامانه جدید هوش مصنوعی دانشگاه آکسفورد قادر است بهتر از انسان لب خوانی کند.

حتی لب خوان‌های حرفه‌ای هم تنها ۲۰ تا ۶۰٪ از آنچه که یک فرد می‌گوید را تشخیص می‌دهند. تشخیص حرکت لب‌های فردی که با سرعت طبیعی صحبت می‌کند فوق العاده دشوار است به ویژه از راه دور و یا زمانی که لب پنهان باشد. لب خوانی تنها یک نقشه در NCIS (سریال آمریکایی) نیست، بلکه ابزاری ضروری برای درک جهان توسط افراد دچار اختلال شنوایی است و اگر قابل اعتماد و خودکار باشد می‌تواند به میلیون‌ها انسان کمک کند.
دانشگاه آکسفورد با کمک مالی DeepMind در مقاله‌ای یک سیستم هوش مصنوعی به نام LipNet را معرفی و ویدئویی را منتشر کرده که در آن افرادی صحبت می‌کنند و سیستم، متن تطبیقی با حرکت دهان آنها را با دقت ۹۳٫۴٪ مشخص می‌کند.
سیستم‌های قبلی، کلمه به کلمه کار می‌کردند و دقت آنها ۷۹٫۶٪ بود. پژوهشگران آکسفورد می‌گویند موفقیت این سیستم جدید به دلیل روش‌ منحصر بفرد تفکر در مورد این مسئله است که به جای آموزش هر حرکت دهان با استفاده از یک سامانه واج بصری به AI، پژوهشگران سیستمی برای پردازش تمام جملات در یک زمان ساختند. این روش به AI اجازه می‌دهد که خود آن حرفی که مربوط به هر حرکت دهان است را تشخیص دهد.

پژوهشگران برای آموزش سیستم نزدیک به ۲۹،۰۰۰ فیلم برچسب دار شده با طول سه ثانیه را به هوش مصنوعی نشان دادند. برای اینکه ببینید چگونه لب خوان‌های انسانی همان کار را انجام می‌دهند، این گروه سه نفر از اعضای دانشجویان جامعه معلولین آکسفورد را استخدام و آنها را با ۳۰۰ فیلم تصادفی شبیه به آنهایی که برای آموزش سیستم AI استفاده شد، آزمایش کردند. این افراد نرخ خطای متوسط ۴۷٫۷٪ داشتند، در حالی که نرخ خطای هوش مصنوعی تنها ۶٫۶ درصد بود.
با وجود موفقیت این پروژه، سیستم هنوز هم برخی از محدودیت‌های پژوهش مدرن هوش مصنوعی را دارد. این گروه هنگام آموزش AI برای لب خوانی از یک مجموعه فیلم‌های ویژه استفاده کردند. هر شخص رو به جلو بود و به خوبی و واضح یک ساختار جمله استاندارد را بیان می‌کرد.
به عنوان مثال: «Place blue in m 1 soon » یکی از عبارات استاندارد سه ثانیه‌ای مورد استفاده در آموزش و متشکل از یک دستور، رنگ، حرف اضافه، عدد از ۱تا۱۰ و قید بود. همه جملات این الگو را دنبال می‌کنند. بنابراین دقت فوق العاده‌ی AI ممکن است به این علت باشد که آن در شرایط فوق‌العاده‌ای آموزش دیده و تست شده است. برای نمونه اگر بخواهید فیلم‌هایی از یوتیوب را لب خوانی کنید، نتایج احتمالاً دقت بسیار کمتری دارند.

برخی از گفتمان‌های عمومی جالب در مورد مقالات AI در گستره وسیعی از توییتر اتفاق افتاد. هنگامی که دیگر پژوهشگران اشاره کردند که استفاده از چنین فیلم‌های آموزشی تخصصی در دنیای واقعی کاربردی ندارد، نویسنده ناندو د فریتاس از نتایج مقاله خود دفاع و اشاره کرد گروهش از مجموعه فیلم‌های دیگری نیز استفاده کرده که بسیار نویزی هستند. د فریتاس نوشت: مطمئن است که با توجه به اطلاعات صحیح استفاده شده این نتایج امری قابل انتظار بوده است.
به گفته جک کلارک از آزمایشگاه هوش مصنوعی OpenAI، برای انجام اینکار در دنیای واقعی سه بهبود عمده باید انجام شود: استفاده از ویدئوهای بسیاری که مردم در موقعیت‌های دنیای واقعی بیان می‌کنند، قابلیت لب خوانی از زوایای متعدد و هوش مصنوعی بتواند انواع گوناگونی از عبارت‌ها را پیش بینی کند. کلارک نوشت: «فناوری چنین ابزاری را دارد، هر چند به نظر می‌رسد که ساخت آن اجتناب ناپذیر است».
آموزش هوش مصنوعی برای لب خوانی یک مهارت پایه است که در موقعیت‌های بیشماری می‌تواند استفاده شود. یک سیستم مشابه می‌تواند به ناشنوایان برای درک مکالمات پیرامون کمک کند و یا اشکال دیگری از AI را تقویت کند که به صدای ویدئو گوش میدهد و به سرعت شرح تصاویر را تولید می‌کند.
منبع: QUARTZ

سامانه هوش مصنوعی دانشگاه آکسفورد بهتر از انسان لب خوانی می‌کند!

**Sina homaei** · 2018/05/29, 17:30

هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند

به گزارش ملت بازار، اگر با به کار گیری روش های هوش مصنوعی و یادگیری عمیق توانسته ایم تشخیص گفتار صوتی را به عملکردی در سطح انسان برسانیم، پس چرا از همین رویه برای لب خوانی بهره نگیریم؟
به تازگی محققین دانشگاه اکسفورد مقاله ای را منتشر کرده اند که به کار گیری روش یادگیری عمیق را در لب خوانی نشان می دهد، و نتایج آن نسبتاً امیدوارکننده است. این نرم افزار که LipNet نام دارد، در شرایط کنترل شده به دقت 93.4 درصدی در تشخیص لغات دست یافته، در حالی که متخصصین لب خوانی در شرایطی مشابه حداکثر 52.3 درصد واژه ها را به درستی شناسایی کردند.
نکته مهم در مورد این نرم افزار، عملکرد سریع و بلادرنگ آن است و با اینکه سیستم هنوز در مراحل اولیه قرار دارد، باز هم می تواند ویدیوی صامت را به صورت آنی به متن نوشتاری تبدیل نماید.
آموزش سیستم فوق با استفاده از مجموعه داده GRID صورت گرفته، که ده ها هزار ویدیوی کوتاه از 34 نفر داوطلب را در بر می گیرد. این افراد در کلیپ های 3 ثانیه ای، جملاتی با الگوی مشخص و کلمات محدود را بیان می کردند. به همین دلیل منتقدین پروژه فوق می گویند این پژوهش در جهان واقعی کاربرد نخواهد داشت.
البته محققین مورد بحث در دفاع از خود عنوان داشتند دلیل استفاده از GRID صرفاً به خاطر محدودیت داده های استاندارد کنونی بوده و در صورتی که مجموعه داده غنی تر و گسترده تری در اختیار داشته باشند، می توانند همین نتایج مثبت را به دست آورند.
گفتنیست افرادی که در مورد حریم شخصی و مشکلات امنیتی این تکنولوژی بدبین هستند نیز نگران نباشند. به گفته این پژوهشگران، لب خوانی دقیق به تصویربرداری مستقیم از چهره با وضعیتی ثابت و قابلیت مشاهده زبان وابسته است، بنابراین دوربین های شهری هیچگاه محتوایی با کیفیت را برای استفاده از این فناوری تولید نخواهند کرد.
هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند

**Sina homaei** · 2018/05/29, 17:30

هوش مصنوعی DeepMind گوگل در زمینه لب خوانی، از انسان جلو زد

به گزارش New Scientist، هوش مصنوعی DeepMind گوگل و دانشگاه آکسفورد در حال توسعه یک سیستم لب خوانی جدید هستند که به هوش مصنوعی مجهز می باشد.

سیستم هوش مصنوعی مذکور، کارآیی بهتری نسبت به لب خوان های حرفه ای و آزموده به نمایش گذاشته که خود خالق فرصت های جدیدی در زمینه تکنولوژی مصرف کننده می باشد.

این دو سازمان یک سیستم یادگیری عمیق را برای یک مجموعه داده بزرگ از برنامه های بی بی سی اعمال کردند و با استفاده از ۵۰۰۰ ویدیو، از ۶ برنامه تلویزیونی که بین ژانویه ۲۰۱۰ و دسامبر ۲۰۱۵ پخش شده بودند، مجموع ۱۱۸۰۰۰ جمله به این هوش مصنوعی آموزش داده شد، سپس سیستم در پخش های زنده بین ماه های مارچ و سپتامبر مورد آزمایش قرار گرفت.
در یک آزمون کنترل، هوش مصنوعی توانست لب خوان های حرفه ای و انسانی را پشت سر گذارد. وظیفه این هوش مصنوعی ثبت ۲۰۰ کلیپ از این مجموعه داده بود که به طور تصادفی انتخاب شده بودند، لب خوان حرفه ای توانست ۱۲.۴ درصد از کلمات را به ثبت رساند، در حالی که هوش مصنوعی ۴۶.۸ درصد از کلمات را به درستی تشخیص داد و بر اساس بیانات، این سیستم هوش مصنوعی از دقت بیشتری نسبت به سایر سیستم های لب خوانی خودکار بهره مند است.

این سیستم قابل استفاده در تمامی زمینه هایی است که از تشخیص گفتار و دوربین استفاده می کنند و برای نمونه می توان به موارد زیر اشاره کرد:

– افزودن قابلیت تشخیص گفتار به سمعک ها. می توان از سیستم های لب خوانی جهت تقویت سمعک ها برای ثبت مکالمات در ریل تایم استفاده کرد. بر اساس یافته های Hearing Loss Association آمریکا، حدود ۲۰ درصد از آمریکایی ها از مشکلات شنوایی رنج می برند و با وجود جمعیت سال خورده، تقاضا برای سمعک یا دستگاه های لب خوانی در حال افزایش می باشد.

– عینک های مجهز به دوبین. این تکنولوژی قابل استفاده در محصولاتی همچون Spectacles و عینک هایی مجهز به دوربین Snap می باشد. افرادی که این تکنولوژی را مورد استفاده قرار می دهند، قادر به دریافت ترنسکریپت از مکالمات در ریل تایم هستند، البته در صورتی که دستگاه به لب های فرد سخنگو دید کاملی و کافی داشته باشد.
– فعال سازی دیکته بی صدا و دستورات صوتی. یکی دیگری از موارد کاربرد تکنولوژی لب خوانی، قادر ساختن افراد به املای دستورات به گوشی به صورت بی صدا می باشد. در این حالت، دیگری نیازی به حرف زدن با صدای بلند برای Siri احساس نمی شود. این تکنولوژی فرصتی برای استفاده از پسوردهای بصری را فراهم می کند، زیرا لب افراد به گونه متفاوتی حرکت می کند. شاید یکی از دلایلی که افراد نسبت به استفاده از دستیارهای صوتی بی میل هستند، خجالت کشیدن از حرف زدن با صدای بلند با دستگاه ها در اماکن عمومی باشد که با بهره گیری از چنین سیستم هایی، این قبیل مشکلات برطرف می شوند.

منبع:
http://www.businessinsider.com

https://appreview.ir/%D9%87%D9%88%D8...-%D8%A7%D8%B2/

**Sina homaei** · 2018/05/29, 17:31

هوش مصنوعی گوگل لب خوانی را هم یاد گرفت

رایانه های مجهز به هوش مصنوعی گوگل با تماشای ساعت‌ها برنامه تلویزیونی یاد گرفتند که چگونه بهتر از انسان‌ها صحبت های مجریان تلویزیونی را لب خوانی کنند.

به گزارش خبرنگار فناوری اطلاعات خبرگزاری فارس به نقل از نکست وب، محققان هوش مصنوعی گوگل در لندن با همکاری دانشمندان دانشگاه آکسفورد پیشرفته ترین نرم افزار لب خوانی جهان را ابداع کرده اند که با مشاهده تصاویر تلویزیونی قادر به درک مباحث طرح شده است.
محققان برای تکمیل این طرح هزاران ساعت برنامه تلویزیونی شبکه بی بی سی را در اختیار شبکه عصبی این نرم افزار گذاردند و به آن آموزش دادند که چگونه با تحلیل حرکات لب و دهان انسان ها صحبت ها را درک کند.
دقت این نرم افزار در آزمایش های اولیه 46.8 درصد بوده و بنابراین برای تکمیل آن هنوز زمان قابل توجهی نیاز است. البته دقت این نرم افزار چهار برابر بیشتر از یک لب خوان حرفه ای بوده است. این فرد با مشاهده ویدئوهای پخش شده تنها توانست با دقت 12.4 درصد گفتار مختلف را درک کند.
پیش از این اساتید دانشگاه آکسفورد از روش مشابهی برای طراحی یک برنامه موبایلی لب خوان به نام LipNet استفاده کرده بودند که می توانست با دقت 90 درصد محتوای برخی ویدئوهای ضبط شده داوطلبان را درک کند. اما نرم افزار جدید که Watch, Listen, Attend, and Spell نام گرفته قادر به لب خوانی از انواع ویدئوها بدون محدودیت است.
https://www.farsnews.com/news/139509...b1%d9%81%d8%aa

انجمن گفتگو استارتاپ و کار آفرینی

انجمن گفتگو استارتاپ و کار آفرینی

تـــوجـــه

موضوع: هوش مصنوعی در لب خوانی از انسان پیشی گرفت

لینک بک

ابزارهای موضوع

هوش مصنوعی در لب خوانی از انسان پیشی گرفت

موضوعات مشابه

کاربرد مهم هوش مصنوعی _ سیستم ارائه‌ی پیشنهاد

پنج پیش‌بینی درباره آینده هوش مصنوعی در سال ۲۰۱۸

پیش‌بینی تاخیر پرواز هواپیماها با استفاده از هوش مصنوعی

پیشروهای ثبت و انتشار پتنت در حوزه فناوری هوش مصنوعی

نوپانا: کانادا؛ کلید پیشرفت استارت‌آپ‌های حوزه هوش مصنوعی در کره جنوبی

کلمات کلیدی این موضوع

مجوز های ارسال و ویرایش

استارتاپ‌فاروم - انجمن گفتگو استارت‌آپ‌ها

دوستان ما

لینک‌های مفید