هوش مصنوعی در لب خوانی از انسان پیشی گرفت

**Sina homaei** · 2018/05/29, 17:32

وقتی که کامپیوترها لب خوانی می کنند!

محققان در دانشگاه آکسفورد، به کمک هوش مصنوعی، موفق به ساخت نرم افزار کامپیوتری شدند که قادر است لبخوانی کند؛ یعنی کلمات را از حالت لب ها تشخیص دهد و جالبتر اینجاست که این کار را بسیار دقیقتر و بهتر از انسان انجام میدهد همچنین میتواند برای افراد ناشنوا کمک بزرگی باشد. این نرم افزار هوش مصنوعی، به کمک بینایی سیستم(computer vision) و یادگیری ماشین (machine learning)، به سیستم یاد میدهد که چگونه لبخوانی کند؛ برای اینکار 5000 ساعت از فیلم برنامه های BBC را برای این سیستم پخش کردند و مجموعه ای از داده ها وارد سیستم شد؛ که در این فیلم ها، بیش از 118،000 جمله و 17،000 کلمه ی مختلف که توسط 1000 نفر صحبت شده وجود دارد.
https://www.sakhtafzarmag.com/%D8%A7...86%D9%86%D8%AF

**Sina homaei** · 2018/05/29, 17:33

تشخیص لب در لب خوانی بازی های رایانه ای

۱. مقدمه :

لب خوانی روشی است برای فهم و تفسیر گفتار بدون شنیدن آن ، روشی که مردم ناشنوا یا کم شنوا برای درک سخنان دیگران به منظور برقراری ارتباط استفاده می کنند. پیشرفت های اخیر در زمینه ی کامپیوتر ، شناسایی الگو ها و پردازش سیگنال ها ، علاقه مندی به خودکار سازی لب خوانی را افزایش داده است. خودکارسازی قابلیت انسان در لب خوانی نیاز مند پردازشی تحت عنوان تشخیص گفتار از طریق تصویر ¹ می باشد.
تشخیص گفتار از طریق تصویر توجه بسیار زیادی را در این دهه به خود معطوف کرده است زیرا کاربرد بسیار زیادی در برنامه های ² HCI ، تشخیص سمعی و بصری گفتار ³ ، تشخیص سخنران ، تشخیص زبان علائم (زبان مخصوص ناشنوایان ) و برنامه های نظارت بر تصاویر دارد.

۱.۱. تشخیص گفتار از طریق تصویر (VSR) :

هدف اصلی آن شناسایی کلمات سخنگو با پردازش سیگنال های بصری است . این فرآیند شامل پردازش تصویر ، هوش مصنوعی ، تشخیص اشیا ، تشخیص الگو ها و مدل سازی آماری می باشد . این پردازش میتواند از طریق دو روش صورت گیرد، 1) visemic و 2) holistic
برای انجام فرآیند VSR باید تعدادی پیش پردازش جهت شناسایی دقیق محل لب و دهان انجام شود.

تصویر وی اس آر
۱.۲. پردازش تصویر برای شناسایی دهان :

در ابتدا نگاه ما بدین گونه می باشد که ما در یک تصویر میخواهیم دهان را تشخیص داریم چه راه هایی برای تشخیص آن وجود دارد ؟ و بعد دنباله ای از تصاویر را بررسی میکنیم .
یکی از کاربرد های پردازش تصویر مربوط به پردازش تصاویر انسان ها برای اهداف مختلف می باشد که از جمله ی آنها میتوان به پی بردن به حرکت لب بوسیله ی پردازش دنباله ای از عکس ها اشاره کرد.

بخش بندی تصویر ⁴
معمولاً مرحله ی اول در تحلیل یک تصویر، بخشبندی آن است. بخشبندی، یکی از شاخه های اصلی در علم پردازش تصویر است که مهمترین کارکرد آن، تصحیح مرزهای مخدوش بین بخشهای مختلف تصویر است. هدف از بخش بندی، جداسازی اجزای اصلی تشکیل دهنده ی تصویر است. دقت بخش بندی تصویر، اثر مستقیمی در کارایی کل سیستم میگذارد به طوری که میتواند موفقیت یا شکست احتمالی تحلیل نهایی تصویر را تعیین کند. در کاربردهای هوایی وسنجش از دور، تنها شناسایی اشیای روی زمین برای بخش بندی مورد نظر است. بخش بندی به طور گستردهای در علم سنجش از دور به کار میرود. این پیش پردازش به عنوان
فرایند تقسیم یک تصویر به گروه های همگن تعریف میشود به طوری که هر ناحیه همگن باشد ولی اجتماع هیچ یک از دو ناحیه ی مجاور آن همگن نباشد.

تصویر وی اس آر ## الگوریتم های پیشنهادی :

۲. الگوریتم بخش بندی Watershed :

الگوریتم watershed بر مبنای بخش بندی ناحیه ای در تصویر عمل میکند . در این الگوریتم، محاسبه ی watershed دو مرحله دارد: یکی پیوستن و دیگری غوطه ور کردن .
تماس و همپوشانی اشیای درون یک تصویر، یکی از معضلات اصلی در بخش بندی تصاویر می باشد به طوری که بسیاری از روشهای متداول بخش بندی قادر به حل آن نیستند. الگوریتم watershed با ارائه ی یک روش قوی برای بخش بندی تصاویر ، قادر به جدا سازی اجزای بهم چسبیده و همپوشانی کننده می باشد .
این الگوریتم بر اساس تغییر مقیاس سطح خاکستری پیکسلها عمل کرده و با استفاده از گرفتن گرادیان از تصویر قابل اجرا می باشد
تعریف گرادیان به صورت زیر است:

که در آن B عنصر ساختاری مربوط به عملیات مورفولوژی است . فرایند محاسباتی watarshed یک فرایند برچسب زنی پیاپی است . زمانی که این الگوریتم به طور مستقیم استفاده گردد، به علت برخی عوامل مثل نویز در تصویر، به دست آمدن نتایج مطلوب از بخش بندی غالباً مشکل است . در اینلگوریتم، تعداد نواحی تشخیص داده شده از تعداد اشیای موجود در تصویر بسیار بیشتر است. این مسئله باعث به وجود آمدن پدیده ی over segmentation می شود که منجر به خراب شدن تصویر بخش بندی شده می شود . بنابراین بایستی نواحی مشابه بعد از بخش بندی تصویر ترکیب شوند.

تصویر

پیدا کردن اطراف لب :
در این روش از دوطرف راست و چپ تصویر به سمت مرکز حرکت کرده و هر بار به صورت ستونی تحلیل میکنیم که آیا نقطه ی سفیدی در این ستون وجود دارد یا خیر ؟ اولین نقطه ی سفیدی که پیدا از دو طرف پیدا خواهیم کرد راست ترین و چپ ترین نقاط لب هستند که با داشتن این نقاط عرض لب را محاسبه میکنیم :
$$ ( width=abs( left_lip -left_right $$
برای محاسبه ی بالاترین و چپ ترین نقطه ی لب از فرمول زیر استفاده میکنیم :
$$ ( Tpls[x] =left_lip(x)+ (0.2*Width $$
. برای محاسبه ی بالاترین وراست ترین نقطه ی لب از فرمول زیر استفاده میکنیم
$$ { (Tprs[x]} ={right_lip(x) -(0.2*Width} $$
و بوسیله ی یک سری فرمول پیچیده تر تمام نقاط لازم را بدست می آوریم و بدین شکل دور هر لب یک شش ضلعی فرض کرده و شش نقطه ی راسی این شش ضلعی را پیدا میکنیم . در نتیجه ما توانستیم به نوعی یک گراف ساده دور لب بکشیم و اطلاعات نقاط آن را بدست آوریم .

تصویر وی اس آر
۲.۱. دنباله ای از تصاویر :

یک فیلم شامل چندین فرم می باشد سوال پیش می آید که کدام فرم ها را برای پردازش انتخاب کنیم ؟ که پاسخ به این سوال نیازمند تحقیق و گردآوری بیشتری است
با فرض انتخاب فرم های مناسب طبق روش پیشنهادی و فرمول ها گراف ها را کشیده و بدین وسیله همه چیز برای مرحله ی پردازش معنایی تصاویر آماده و مهیا میشود.

تصویر وی اس آر
۳. مشکل :

یکی از مشکلات رایج در این زمینه حساس بودن الگوریتم های تشخیص ، نسبت به noise در تصاویر می باشد که تصاویر شامل ریش یا سبیل یا حتی زینت آلات باعث بروز خطا خواهند شد.

تصویر وی اس آر
۴. کار های مرتبط با موضوع لب خوانی :

۴.۱. پردازش و تشخیص گفتار ⁵ :

برای عمل تشخیص گفتار ، سیگنال های صوتی توسط سنسور های ورودی دریافت شده و سپس با انجام پردازش هایی به منظور استخراج ویژگی های صوتی شخص صحبت کننده تشخیص تحقق می یابد . در این روش صرفا از اطلاعات صوتی استفاده میشود .) کنترل رخدادهای درون بازی با پردازش و تشخیص گفتار )
امّا در دهه ی کنونی برای بالا بردن دقت این تشخیص از تصاویر و حالات دهان هم استفاده می کنند که با عنوان پردازش و تشخیص گفتار به صورت صوتی و سمعی ⁶ بیان می شوند .
در یکی از روش های بررسی شده ،با فرض وجود دوربینی در نزدیکی گوشی تلفن، عکسهایی از نیم رخ شخص گرفته شده و حالت دهان فرد پردازش میشود
در این پردازش از اطلاعاتی چون شکل هندسی لب ، کانتور لب ، حرکت و سرعت آن ، استفاده می شود.

تصویر تشخیص گفتار

تصویر پردازش ۴.۲. رمز گشایی تصویری :

گاهی مردم برای آنکه دیگران حرف هایشان را نفهمند ، زمزمه وار یا حتی بدون تولید هیچ گونه صدایی صحبت میکنند. در رمزگشایی تصویری نیز سعی می شود تا کاربر با زمزمه ی کلمه ی عبور خود بدون آنکه نیاز به تولید صدا باشد ، در محدوده ی امنیتی راه یابد.
رمزگشایی تصویری با هدف افزایش امنیت وتقلیل سو استفاده های هویتی در دست بررسی و تحقیق می باشد. در تحقیقات صورت گرفته نتیجه ی حاصل حاکی از آن دارد که مردم با ظاهر متفاوت و گفتار خاص خود میتوانند به صورت تصویری رمز عبور خود را با استفاده از حرکت لب تولید کنند . مزیت این روش این است که همیشه تولید رمز به وسیله ی صدا میسر نیست ، چرا که ممکن است محیط پیرامون شلوغ و پر ازدحام باشد.
در این روش رمز گذاری یک ویدیو از چهره ی کاربر ضبط شده و سپس این ویدیو طبق دامنه ی لغات تعریف شده پردازش شده سپس دنباله ای از بردار های ویژگی استخراج میشود .
در مرحله ی تایید رمز رویه قبل اجرا شده و بردار های جدید استخراج شده با بردار های فیلم اصلی مقایسه می شوند در صورت صحت و تطابق این دو بردار ، رمز گشوده می شود.
آزمایش های انجام شده نشان داده است که کارایی سیستم های رمز گشایی تصویری با فرض کلمه ی عبور چند کلمه ای افزایش می یابدو سیگنال قوی تری را فراهم می آورد که احتمال هک شدن را کاهش می دهد.

تصویر وی اس آر ۴.۳. تشخیص لب در عکس هایی با رزولوشن پایین :

در یکی از موضوعات بررسی شده تحت عنوان تشخیص لب در عکس هایی با رزولوشن پایین برای کاهش نویز در تصویر از تشخیص لبه و فیلتر های رنگی استفاده می شود.
علارغم وجود دوربین های خوب با عکس هایی با کیفیت بالا ، باز هم عکس هایی موجود است که کیفیت پایینی دارند اما پردازش آنها اهمیت بسیار زیادی دارد.
در این مبحث ابتدا باید نویز از تصاویر پاک شوند و در بعضی موارد لازم است تا عکس از یک فضای رنگی به فضایی دیگر منتقل شود . ⁷

تصویر نویز دار ۵. لینک کد مربوطه :

کد متلب

۶. مراجع و منابع :

Petajan, E. (1984). Automatic lipreading to enhance speech recognition, Ph.D. Dissertation,
University of Illinois at Urbana-Champaign, USA.
Chan, T. Michael, 2002. Automatic Lip Model Extraction for Constrained Contour-Based Tracking. Rockwell Science Center.
Gurban, M. & Thiran, J. (2005). Audio-Visual Speech Recognition With A Hybrid Svm-Hmm
System, Proceedings of the 13th European Signal Processing Conference (EUSIPCO).
Lihin, M., R. Delmas, P.Y. Codon, F. Luthon and V. Fristot, 2000. Automatic Lip Tracking.
Hassanat,Ahmad.(2005).Visual Password using Automatic LipReading
Iwano et al. - 2007 - Audio-Visual Speech Recognition Using Lip Information Extracted from Side-Face Images
Werda, Mahdi, Hamadou - 2007 - Lip Localization and Viseme Classification for Visual Speech Recognition
Chiang et al. - 2003 - A novel method for detecting lips, eyes and faces in real time
Shirgahi et al. - 2008 - A New Approach for Detection by Movement of Lips Base on Image Processing and Fuzzy Decision
Hassanat - 2009 - Visual Speech Recognition
Kadlec et al. - Unknown - Lips detection in low resolution images

+Sajjad.Asma, 2013, Virtual Makeover Software

http://en.wikipedia.org/wiki/File:Re...ing_forest.png
http://en.wikipedia.org/wiki/Top-hat_transform
http://www.lipreading.org/vowel-eyedrills
بخش بندی تصاویر پزشکی با استفاده از مدل های شکل پذیر. 1386.بهار ، داوودی
http://www.mathworks.ch/ch/help/imag...IP&language=en
پروژه تشخیص لب در لب خوانی بازی های رایانه ای - ارزیابی انجام آزمایش‌ها و گزارش نتایج - درس هوش مصنوعی - بوته

**Sina homaei** · 2018/05/29, 17:34

لب خوانی به امکانات متنوع هوش مصنوعی گوگل افزوده میشود

محققان مرکز هوشمند مصنوعی شرکت گوگل که DeepMind نام دارد ، توانسته اند امکان لب خوانی کردن را به هوش مصنوعی گوگل اضافه کنند. بر اساس ادعای محققان این سیستم دقیق ترین روش موجود برای لب خوانی کردن است. محققان با استفاده از ساعت ها برنامه تلویزیونی از خبرگزاری های مختلف و سخرانی های معمولی توانسته اند دقت هوش مصنوعی شرکت گوگل برای لب خوانی را به ۴۶٫۸ درصد برسانند. شاید در نگاه اول این آمار چندان شگفت انگیز نباشد اما باید به این موضوع اشاره کنیم که لب خوان های حرفه ای با دقت ۱۲٫۴ درصد میتوانند این کار را انجام دهند. البته گروهی دیگر از محققان چند وقت پیش توانسته بودند یک برنامه لب خوانی با نام LipNet خلق کنند که در شرایط خاص دقت آن به ۹۳٫۴ درصد هم می‌رسید. البته این برنامه روی افرادی خاص که یکسری جملات رسمی بیان میکردند ، آزمایش شده بود. هوش مصنوعی گوگل در لحظه‌ ویدیو ها را نگاه میکند و در شرایط مختلف میتواند صحبت ها را حدس بزند به همین دلیل چالش های بیشتری را پشت سر میگذارد. این هوش مصنوعی میتواند صحبت هایی که از قبل مشخص نشده اند و یا در برنامه های زنده گفته میشوند را هم تشخیص دهد. برای بالا بردن دقت این هوش مصنوعی از ۵۰۰۰ ساعت ویدیو استفاده شده است. این ویدیو ها شامل ۱۷۵۰۰ کلمه منحصر به فرد بودند. محققان مرکز DeepMind گفته اند که از هوش مصنوعی گوگل میتوان برای ترجمه کردن صحبت مهاجران استفاده کرد. حتی میتوان از آن در فیلم های بی صدا و حتی برای کنترل کردن دستیار های دیجیتالی مانند سیری و الکسا استفاده کرد. افراد کافی است تنها جلوی دوربین لب های خودشان را تکان دهند تا هوش مصنوعی متوجه گفته آن ها بشود و دستور را اجرا کند.
موبیا نیوز لب خوانی به هوش مصنوعی گوگل اضافه میشود

**Sina homaei** · 2018/05/29, 17:36

امکان لب خوانی توسط کامپیوتر

همانطور که می دانید لب خواندن وقتی که مقابل فرد قرار گرفته باشید ، امکان پذیر است، ولی اینکه کامپیوتر و یا تلفن همراه امکان چنین کاری را داشته باشند دور از ذهن است. اما به تازگی دانشمندان کامپیوتر دانشگاه آکسفورد با همکاری DeepMind گوگل، تیمی را برای توسعه هوش مصنوعی ایجاد کرده اند که می تواند علاوه بر لب خوانی صحبت های شنیداری را نیز به همراه املاء صحیح آن تشخیص دهند.
اینکه چه میزان از صحبت هایی که لب خانی می شود قابل تشخیص باشد متفاوت است. این آمار که قبلاً توسط دانشمندان کامپیوتر آکسفورد در مقاله ای عنوان شده بود، در افراد کم شنوا به طور متوسط ۵۲٫۳ درصد بود، ولی محققان فناوری گرجستان می گویند، تنها ۳۰ درصد از صحبت ها توسط لب ها قابل تشخیص هستند.
و حالا به کمک این نرم افزار جدید، به صورت خودکار با دقت بالایی امکان تشخیص کلمات وجود دارد. در آزمونی که برای تست آن انجام دادند با استفاده از یک دوریبن و بیش از ۵۰۰۰ ساعت برنامه ای که توسط شبکه BBC پخش شده بود و شامل ۱۱۸۰۰۰ جمله و ۱۷۵۰۰ لغت که توسط ۱۰۰۰ نفر متفاوت اجرا شده بود، در کنار یک متخصص لب خوانی از این ۵۰۰۰ هزار ساعت فیلم، انسان تنها ۱۲درصد از کلمات را تشخیص داد در حالی که نرم افزار ۵۰ درصد کلمات را تشخیص داد.
از این فناوری می توان در موارد بسیاری استفاده کرد و محققان می گویند با افزایش کارایی هوش مصنوعی می توان در آینده نزدیک شاهد افزایش سرعت و دقت این فناوری بود.
این مقاله تحقیقاتی در اینجا قابل دسترسی است.
منبع: دانشگاه آکسفورد
امکان لب خوانی توسط کامپیوتر | | ديجيتِ دريچهاي به مرزهاي دانش و فناوري روز دنيا

**Sina homaei** · 2018/05/29, 17:37

هوش مصنوعی به کجا می‌رود؟

هوش مصنوعی علمی مهیج، کارگشا، پیچیده، ترسناک و خطرناک قلمداد می‌شود. بسیاری از دانشمندان و صاحبنظران اعتقاد دارند هوش مصنوعی آینده بشریت را دگرگون خواهد ساخت. بسیاری از مشکلات بشر را حل خواهد نمود. به عنوان مثال؛ در گذشته مردم برای کسب دانش یا اطلاعاتی مجبور بودند ساعت‌ها در کتابخانه‌های مختلف وقت بگذرانند، با انسان‌های زیادی مشورت کنند و در نهایت احتمالا به اطلاعات مورد نظر دست پیدا می‌کردند. امروزه مردم برای کسب دانش از ابزاری قدرتمند (فعلا به نظر قدرتمند) به نام اینترنت استفاده می کنند. برای این منظور معمولا ساعت‌ها پشت رایانه به جستجو می‌پردازیم و از لابه‌لای سایت‌های معتبر و غیر معتبر، اطلاعاتی را که می‌خواهیم کسب می‌کنیم، در حالی که در آینده من و شما در لحظه می‌توانیم اطلاعاتی را که می‌خواهیم بدست آوریم.

در رابطه با هوش مصنوعی ترس های بسیاری نیز وجود دارد . از فیلم های تخیلی که در رابطه با هوش مصنوعی ساخته می شوند ، تقریبا اکثر آنها این نتیجه می رسند که هوش مصنوعی روزی بر انسان پیروز خواهد شد و انسان را شکست خواهد داد .الون ماسک (ELON MUSK) موسس دو شرکت تسلا موتورز و شرکت فضایی SpaceX ، چندی پیش در مصاحبه خود اعلام نمود مشکلات ناشی از روند پیشرفت روبات ها و توسعه های نرم افزاری در حوزه هوش مصنوعی تا ۲۰ سال آینده خطرناک تر از بمب های هسته ای است ! الون در مصاحبه خود اعلام کرد که هوش مصنوعی لزوما در ساختار انسانی ظهور نخواهد کرد و در حال حاضر هم ما تا حدودی کنترل زندگی عادی خود را از دست داده و این بخش از کنترل خود را به دست ماشین ها سپرده ایم. وی برای اثبات این گفته خود مثال شبکه های بانکی را عرضه کرد و بیان کرد که هم اکنون کنترل انتقالات و امور بانکی بدون استفاده از شبکه های رایانه ای مطلقا در شبکه بانکی امریکا ناممکن شده است و این یعنی برتری ماشین بر انسان. چنین پیشرفتی توسط ماشین ها می تواند در آینده به تدریج افزایش هم پیدا کند. برنده جایزه نوبل فیزیک «هاوکینگ» معتقد است ، دستاورد تاریخی در توسعه این فناوری می‌تواند آخرین موفقیت انسان محسوب شود، اگر بشر نحوه برخورد و اجتناب از خطرات هوش مصنوعی را یاد نگیرد.
کشورهای در حال توسعه به دنبال ساخت سیستم‌های تسلیحاتی خودکار هستند ، همزمان سازمان ملل به دنبال ممنوعیت استفاده از این تجهیزات است و از سویی دیگر IBM در حال توسعه تراشه‌های هوشمند است که مسیر را برای ساخت شبکه‌های حسگر با قابلیت تقلید ادراک، رفتار و افکار مغز انسان هموار می کند.
در اینصورت امکان ساخت ماشین‌های هوشمند با مغز که از هوشی فراتر از انسان برخوردار هستند، فراهم می‌شود.این ماشین ها می توانند در جنگ ها نیز مورد استفاده قرار گیرند .
«هاوکینگ» خاطر نشان کرد، اگر با خطر حمله موجودات بیگانه طی چند دهه آینده مواجه باشیم، تا زمان حمله آنها صبر نکرده و اقدامات دفاعی اضطراری انجام خواهیم داد؛ بنابراین باید تا پیش از توسعه ماشین‌هایی با هوش ابرانسانی که تهدید جدی برای آینده بشریت محسوب می‌شوند، اقدامات پیشگیرانه‌ای انجام دهیم که از وقوع فاجعه جلوگیری کند.
از سویی دیگر بر اساس تحقیقاتی که در ژاپن انجام گرفته ۵۲ درصد از محققان و کارشناسان معتقدند با ورود هوش مصنوعی به زندگی انسان ها نه تنها به زندگی انسان ها چیزی اضافه نمی شود بلکه این ورود به معنای پایان و ویرانی زندگی انسان هاست.
دانشمندان نوروساینس در دانشگاه پلی تکنیک لوزان در سویس در حال شبیه سازی مغز هستند. این گروه از محققان به سرپرستی هنری مارکرام تا به حال فاز اول این پروژه بلند پروازانه یعنی کپی کامل مغز انسان بر روی ابرکامپیوتر دوم جهان یعنی بلوژن-ال را مدتی قبل کامل کرده اند. آنها نورون به نورون مغز را بر روی بلوژن کپی می کنند. تقریبا می توان گفت هر تراشه مسئول شبیه سازی کار یک نورون است.
در یک اتفاق عجیب مرکز تحقیقاتی این پروژه در ساحل دریاچه ژنو واقع شده است؛ همان جایی که ماری شلی شخصیت داستانش دکتر فرانکشتاین را در آنجا تصور کرده. فرانکشتاین هیولایی انسان مانند می‌سازد که دارای نیرویی مخرب می‌شود و در نهایت خالقش را می‌کشد. آیا این تخیل به واقعیت خواهد پیوست ؟
از سویی دیگر بسیاری از کارشناسان و مخصوصا مسئولین حقوق بشر نسبت به نقض حریم شخصی هشدار داده اند . با همه گیر شدن اپلیکیشن های هوشمند ، افکار ، فعالیت ها ، علاقمندی ها و بسیاری از ویژگی های خصوصی انسان توسط اپلیکیشن های هوشمند دیده می شود . این امر می تواند حریم شخصی انسان ها را نقض کند .
قطعا همه این تفکر و ترس ها به علت قدرت هوش مصنوعی است . به خاطر همین است که در جستجو هایی که درباره هوش مصنوعی انجام می دهید بیشتر با این ترس ها آشنا می شوید . اما واقعا آینده هوش مصنوعی چیست ؟
بسیاری از شرکت ها و محققان در نقطه مقابل نظریات بالا ، هوش مصنوعی را نجات دهنده بشر می دانند . ۴۸% محققان و کارشناسان در ژاپن معتقدند ورود هوش مصنوعی به زندگی انسان ها گریز ناپذیر است پس باید با آغوش باز به استقبال آن رفت.
ری کورزویل، آینده گرا و مدیر بخش مهندسی گوگل نگاه مثبتی به آینده فناوری داشته و می گوید: “در سال های آتی و با برنامه های نرم افزاری مختلفی که نوشته می شوند، کاربران قادر به ارائه پرسش و پاسخ با گوگل خواهند بود. کارشناسان گوگل پیش بینی کرده اند که تا سال ۲۰۳۰ میلادی، هوش مصنوعی جایگزین هوش انسان شده و قادر به حل مسائل پیچیده خواهد بود .
پژوهشگران بسیاری پیش بینی می کنند که به کمک فناوی نرم افزاری جدید شبکه های عصبی و هوش مصنوعی بتوان پیش بینی های بسیار دقیقی از بازار سهام به عمل آورد و پیش بینی های دقیق تری مانند مکان فیزیکی سیاره ها درسال های آتی و اوضاع کره زمین از نظر شرایط زیست محیطی و غیره نیز میسر خواهد شد.
اما بهترین راه برای پیش بینی آینده هوش مصنوعی پیگیری پروژه های در دست انجام فعلی در این موضوع است . هرچه بیشتر درباره هوش مصنوعی جستجو کنید ، بیشتر به پروژه های شرکت گوگل برخورد می کنید . این شرکت غول فناوری اطلاعات پروژه های بسیاری را در دست اقدام دارد که مهمترین آن پروژه تعامل انسان با محیط است . برای پیش بینی هوش مصنوعی در آینده به بررسی بعضی از این پروژه ها می پردازیم .
بسیاری از شرکت ها امروزه به سراغ پوشیدنی های هوشمند رفته اند . کامپیوترهای پوشیدنی، ابزارهای الکترونیکی کوچکی هستند که توسط کاربر پوشیده می‌شوند که به هدف توسعه تکنولوژی اطلاعات ایجاد شده‌اند. وقتی به کامپیوترهای پوشیدنی فکر می‌کنیم – عینک‌های هوشمند مانند Google Glass یا ساعت‌ مچی‌های هوشمند مانند Pebble – کامپیوترهای موبایل بسیار کوچکی که به بدن یا لباس ما متصل هستند، به ذهن می‌آیند. ویژگی اصلی این ابزارها به اعتقاد ما کوچک‌سازی و راحتی استفاده از این ابزارها است. مثلا یک ساعت هوشمند، شما را از زحمت حمل یک گوشی برای چک کردن پیام‌ها نجات می‌دهد. اما واقعیت این است که این ابزار ها امکانات فوق العاده زیادی برای ما به همراه دارند .
پروژه REFRESH : پروژه Refresh گوگل ، تقریبا مانند اپلیکیشن اپل عمل می کند . این برنامه برای ارائه «پرونده سوابق» یا چکیده اطلاعات در مورد افراد مختلف طراحی شده‌ است . چون نسخه Google Glass اپلیکیشن Refresh روی چشم شما قرار می‌گیرد، می‌توان آن را نمونه ساده‌ای از عملکرد ابزارهای پوشیدنی در آینده دانست؛ یعنی هر چه را بخواهید بدانید کشف می‌کند و در اختیار شما قرار می‌دهد.
به عنوان مثال، ابزارهای پوشیدنی می‌توانند کمک کنند که بیشتر در مورد افرادی که ملاقات می‌کنید اطلاعات داشته باشید، بدانید که قبلا آنها را دیده‌اید و سابقه آشنایی، علایق و تاریخچه مشترکی با آنها دارید یا نه.
این قابلیت بسیار کوچکی از این ابزار است. اما آینده‌ای را تصور کنید که هر چه می‌خواهید بدانید به سادگی و بدون هیچ تلاش و اقدامی از سوی شما، پیش چشمتان ظاهر شود. می‌توانید در حال غذا خوردن در یک رستوران باشید و Google Glass ناگهان به شما اطلاع می‌دهد که مثلا این همان مکانی است پدرتان از مادرتان خواستگاری کرده است؛ یا اگر با دوستتان قرار دارید، به شما اطلاع می‌دهد که او به علت ترافیک سنگین کمی دیر می‌رسد؛ شارژ کارت پارکینگ شما تا ۲۰ دقیقه دیگر به پایان می‌رسد و یا دستشویی در طبقه بالای رستوران سمت راست قرار دارد. تصور کنید این اطلاعات در همان لحظه‌ای که می‌خواهید آن را بدانید، به سادگی جلوی چشمتان ظاهر می‌شوند. این آینده تکنولوژی کامپیوترهای پوشیدنی است. به همین دلیل است که انقلاب ابزارهای پوشیدنی بیشتر انقلاب هوش مصنوعی محسوب می‌شود. هوش مصنوعی، حوزه‌ای از علم کامپیوتر است که بر آفرینش دستگاه‌های هوشمندی که عملکرد و واکنش انسانی دارند تاکید می‌کند. برخی از فعالیت‌هایی که کامپیوترهای مجهز به هوش مصنوعی دربرمی‌گیرند، عبارتند از: شناسایی صدا، آموزش، برنامه‌ریزی و حل مشکلات. هوش مصنوعی جزئی ضروری از صنعت تکنولوژی است. ظهور این پدیده به اوایل دهه ۵۰ میلادی برمی‌گردد. آن چیزی که در مورد رایانش پوشیدنی جالب است، کاری است که سرورهای پشتیبان انجام می‌دهند تا کشف کنند شما چه چیزی را می‌خواهید بدانید و سپس به آن اطلاعات دست می‌یابند. در این صورت دیگر چیزی برای بخش انتقال اطلاعات به مغز باقی نمی‌ماند.
اپلیکیشن‌های آینده، به جای اینکه مانند Refresh موضوعات مورد علاقه شما را فقط از طریق چک کردن تقویم موبایل‌تان کشف کنند، علاوه بر آن، ایمیل، شبکه‌های اجتماعی، تماس‌های تلفنی و کلیه منابعی را که به دوستان و همراهان شما متصل‌اند، چک می‌کنند. همچنین این اپلیکیشن‌ها تاریخچه اقدامات و حرکات شما را زیر نظر خواهند گرفت و سپس با فشرده‌سازی اعداد، اطلاعاتی را که می‌خواهید بدانید، به شما منتقل خواهند کرد.
شرکت گوگل برای ورود هرچه بیشتر به دنیای هوش مصنوعی ، شرکتی به نام DeepMind را تملک کرده است، که تکنولوژی هوش مصنوعی تولید می‌کند و خیلی سریع به سوی تولید کامپیوترهایی حرکت می‌کند که مثل بشر تفکر می‌کنند.
گوگل برای اینکه قابلیت‌های DeepMind را نشان دهد، این سیستم را در بازی‌های رایانه‌ای مستقر در مکان‌های عمومی بکار گرفته است. شرکت DeepMind می‌داند چگونه این بازی‌ها را اجرا کند و سپس بر آنها تسلط یابد.
این تکنولوژی مورد استفاده گوگل قرار می‌گیرد تا نسخه‌های آینده Google Now را قدرتمندتر کند. Google Now دستیار شخصی هوشمندی است که در سیستم عامل اندروید قابل استفاده است. به محض اجرای این برنامه اطلاعات فراوانی در اختیار کاربران قرار می‌گیرد؛ از نتایج مسابقات ورزشی گرفته تا وضعیت آب و هوا، رستوران‌های خوب و غیره. این سرویس با ارائه اطلاعات به شما و نظارت بر اینکه چگونه از این اطلاعات استفاده می‌کنید، اولویت‌ها، تمایلات و کنجکاوی‌های شما را می‌داند. همچنین در طول زمان دقیقا درمی‌یابد چه نوع اطلاعاتی را در چه زمانی می‌خواهید بدانید و سپس این اطلاعات را به ابزار پوشیدنی شما منتقل می‌کند.
قدرت هوش مصنوعی برای کشف اطلاعاتی که می‌خواهید بدانید (و البته زمان آن) وقتی تقویت می‌شود که کامپیوترهای پوشیدنی این اطلاعات را به سادگی به شما منتقل می‌کنند.
شما با یک PC، لپ‌تاپ، تبلت یا تلفن می‌توانید به دنبال اطلاعات بروید یا با انجام اقدامی به هشدارها واکنش نشان دهید. انقلاب تکنولوژی پوشیدنی اطلاعات را بدون اینکه هیچ تلاشی انجام دهید ارائه می‌کند. این اطلاعات به سادگی ظاهر و سپس محو می‌شوند. فرقی هم که ایجاد می‌کند مساله راحتی است.
امروزه همه در مورد «واقعیت افزوده» (نمایی زنده از محیط فیزیکی دنیای واقعی که عوامل آن با ورودی‌های حسی تولید شده توسط کامپیوتر مانند صدا، ویدئو، گرافیک یا جی‌پی‌اس افزوده می‌شوند) صحبت می‌کنند. اما باید گفت این واقعیت نیست که افزوده می‌شود، بلکه واقعیت امری بسیار ساده است. در واقع این ذهن شما است که افزوده می‌شود (با دانشی که جایگزین نادانی می‌کنید). تجربه و زندگی شما است که افزوده می‌شود.
به همین دلیل است که انقلاب رایانش پوشیدنی انقلاب بکارگیری هوش مصنوعی و داده‌های شخصی است که اطلاعات را وقتی به آن نیاز دارید در اختیار شما قرار می‌دهد. بخش رایانش پوشیدنی این اطلاعات را به سادگی و مستقیم‌ترین شکل ممکن در ذهن شما جا می‌دهد.
تعامل انسان با محیط
شیوه ارتباط انسان‌ها با کامپیوتر در چند سال اخیر به‌شدت دست‌خوش تغییر و تحول شده است. از کوچ غالب ابزارهای همراه به رابط‌های لمسی گرفته تا واسط‌های گران‌قیمتی که امکان کنترل تجهیزات دیجیتال را با امواج مغزی فراهم می‌کنند، همه نشانه‌های این تغییر و تحول هستند.
نکته تازه این است که این روند تغییر و تحول رابط کاربری اکنون از «دستگاه‌ها» به‌سوی سرویس‌ها و خدمات آنلاین و آفلاین کشیده شده است و بیشترین تلاش‌ها در این عرصه، در جهت پردازش (شاید مهم‌تر از آن درک) زبان طبیعی یا به‌اصطلاح NLP (سرنام Natural Language Processing) صورت می‌پذیرد. این حرکت که شاید نخست با Siri اپل رنگ کاربردی شدن به خود گرفت، به قدری مهم شده است که غول دیگر دره سیلیکون یعنی گوگل را هم وادار کرده است تا با تکیه بر دانش و خلاقیت کسی مانند ری کرتزوایل، بحث پردازش زبان طبیعی را با جدیت دنبال کند.
سی‌ری اپل به‌رغم پیشرفت روز به روزش، دامنه تأثیر به نسبت اندکی دارد که به دارندگان محصولات اپل و حوزه‌هایی خاص از مکالمات روزمره (تنظیم قرار ملاقات‌ها، اطلاعات ورزشی، مکان‌های تفریحی و موارد مشابه) محدود است. در مقابل اهمیت حرکتی که گوگل در حال انجام آن است، به دو دلیل بسیار بیشتر خواهد بود.
نخست آن‌که دامنه نفوذ گوگل در میان کاربران در سراسر دنیا بسیار وسیع‌تر است و تعداد سرویس‌های گوگلی هم که می‌توانند از چنین توانمندی بهره ببرند، بسیار زیاد است. تا پیش از این هم کاربران می‌توانستند به صورت صوتی و مثلاً با گفتن نام محل مورد نظر از سرویسی مانند نقشه گوگل استفاده کنند. اما این سیستم‌تعامل صوتی تنها محدود به تبدیل اصوات به کلمات و پس از آن اجرای جست‌وجویی ساده روی آن کلمات بود. با راه افتادن سیستم پردازش زبان طبیعی، کاربر خواهد توانست از طریق صحبت با کامپیوتر با تمام سرویس‌های قدیمی و جدید گوگل «تعامل» کرده و حتی بسته به مورد، جوابش را بشنود.
دلیل دوم اما بیش از سرویس‌هایی که گوگل ارائه می‌دهد، به زیرساخت و ابزاری که در‌اختیار دارد مربوط می‌شود. اگر این شرکت بتواند سیستم تشخیص زبان طبیعی را روی خزنده وب‌اش (Web Crawler) پیاده کند، می‌تواند محتوای میلیاردها صفحه‌ای که ایندکس می‌کند را «بفهمد» به سیستمی قابل درک برای ماشین تبدیل کند. به این ترتیب گراف دانش گوگل دیگر تنها به ارتباط دو شیء یا صفحه محدود نخواهد بود، بلکه می‌تواند معانی و مفاهیم نیز را در این میان دخیل کند. در این صورت شاید بتواند اطلاعات صفحات را به هم ربط دهد و از آن‌ها «دانش» استخراج کند. هم‌اکنون هم یکی از ساده‌ترین راه‌های یافتن جواب هر پرسشی، جست‌و‌جوی گوگل است! اما در آن صورت شاید گوگل بتواند موضوعات پیچیده را نیز برای کاربر به‌صورت جامع «توضیح دهد.»
کرتزوایل اعلام کرده است که قصد دارد با این پروژه سیستمی بسازد که «درباره همه چیزهایی که می‌بیند و می‌خواند خبره باشد و این خبرگی را در‌اختیار تمام دنیا قرار دهد».
این کار شاید ادامه کاری باشد که آی‌بی‌ام با واتسون آغاز کرد. اما در برابر واتسونی که تمام دانشش را از ویکی‌پدیا گرفته بود و به‌صورت آفلاین کار می‌کرد، سیستم گوگل به صورتی پویا هر روز با «مطالعه بیشتر وب» بر میزان دانش خود خواهد افزود.
اما آن‌چه در این میان برای من جذاب و تفکر برانگیز است، کلمه Natural و امکان تعمیم آن به سایر جنبه‌های تعامل انسان و ماشین و به‌خصوص فرم و شکل ماشین‌ها است. از بدو تکامل ذهن انسان و توانایی او در ساخت و به کارگیری ابزار، این انسان بوده است که خود را با نحوه کار یک ابزار تطبیق داده است. شاید نهایت فناوری این باشد که ابزار بتواند خود را با زندگی روزمره و «طبیعی» ما تطابق دهد.
در بیشتر داستان‌ها و فیلم‌های علمی‌تخیلی با ربات‌هایی برخورد می‌کنیم که با درجه‌های متفاوت شباهت، همانند انسان ساخته شده‌اند. این امر شاید تنها حاصل ساده‌انگاری ذهن خالق اثر نباشد که خواسته است هیئتی انسانی را مکانیکی کند. شاید این درست‌ترین شیوه کار باشد.
کامپیوتر، ابزار محاسب، دستیار دیجیتال یا هر ابزار فناورانه دیگری را که در نظر بگیریم، برای کار در محیطی ساخته شده است که ما انسان‌ها در آن زندگی می‌کنیم و برای بدن و تناسبات اندامی ما بهینه شده است. به این ترتیب شاید آن ابزار هم باید به شکل و ابعادی مانند ما درآید و با سیستمی شبیه ما با محیط و خود ما تعامل کند. اگر این ماشین علاوه‌بر فیزیک «طبیعی» رابط کاربری طبیعی نیز داشته باشد، پذیرش، برقراری ارتباط و استفاده از آن بسیار ساده‌تر و بهینه‌تر خواهد بود.
فراموش نکنیم هدف فناوری ساده‌تر و بهتر کردن زندگی ما انسان‌ها است. پس شاید بهتر باشد به جای آن‌که ما تعامل با ماشین را یاد بگیریم، ماشین به گونه‌ای ساخته شود که با سیستم ذاتی‌مان با ما تعامل کند. شاید واقعاً «آر دنیل اولیواو» آسیموف فقید واقعاً بهترین ماشینی باشد که تا‌کنون ساخته شده است!
آینده هوش مصنوعی :
قطعا نمی توان پیش بینی نمود در آینده چگونه هوش مصنوعی پیشرفت خواهد نمود ، اما می توان پیش بینی نمود در چه حوزه هایی پیشرفت خواهد کرد .
هوش مصنوعی در چه حوزه هایی پیشرفت خواهد نمود :
۱- رباتیک : هرچه بیشتر زمان می گذرد ، ربات هایی بیشتر شبیه انسان تولید می شود . ممکن است این پیشرفت تا جایی باشد که ربات ها از انسان پیشی گیرند . ربات های آتش نشان ، ربات های فوتبالیست ، ربات های اکتشافی ، ربات های جاسوس ، ربات های حسابدار ، صندوقدار ، ربات های آشپز و …. ربات در آینده به کمک هوش مصنوعی وجود خواهند داشت .
۲- شبیه سازی مغز : تا به امروز تلاش های بسیار زیادی برای شبیه سازی مغز انسان و هوش انجام گرفته است.بطور یقین این تلاش ها تا رسیدن به نتیجه مطلوب ادامه پیدا خواهد نمود . شاید روزی بتوان مغزی قوی تر از مغز انسان توسط انسان تولید شود !
۳- تشخیص گفتار : گوگل ، اپل و چندین شرکت دیگر تمرکز خود را برروی تشخیص گفتار انسان انجام داده اند و به موفقیت هایی نیز درست یافته اند . اینکه این تشخیص گفتار ، کاملا گفتار انسان های متفاوت را به درستی درک و تجزیه و تحلیل نماید گام بعدی هوش مصنوعی در این زمینه در سالهای آتی خواهد بود .
۴- درک احساس متفاوت انسان ها توسط ماشین : پیش بینی می شود ماشین ها با تشخیص زبان هایی به جز زبان انگلیسی و با تشخیص علائمی به جز زبان ( حرکت ، لب خوانی ، صدا) بتوانند مانند انسان ادراک و رفتار کنند . در یک مهد کودک در نزدیکی دانشگاه کالیفرنیا سان دیاگو ، یک ربات به نام روبی وجود دارد که صحبت کودکان را درک می کند ، سر و صورت آنها را نوازش می کند و به حرف آنها گوش می دهد .
۵- ربات هایی برای استفاده در جنگ و امنیت : متاسفانه هوش مصنوعی در ساخت سلاح های کشتار جمعی ، ربات های کماندو هوشمند نیز کاربرد زیادی دارد . به راحتی می توان متصور شد جنگ های آتی جنگ هایی با خرابیهای هدفمند ، همراه با ربات هایی جنگجو خواهد بود . همچنین این ربات ها در امنیت مرزها و کشور ها نیز به کار گرفته خواهند شد .
۶- حمل و نقل هوشمند : امروزه کمپانی های بزرگ خودرو سازی و البته شرکت گوگل به دنیال ساخت خودروهای هوشمند هستند . همانطور که چندی پیش دیدیم ، گوگل خودرو هوشمند خود را آزمایش کرد و شرکت بنز نیز تریلر سنگین هوشمند خود را آزمود . پس دور از ذهن نخواهد بود که هوش مصنوعی در این زمینه نیز کمک زیادی به انسان ها خواهد نمود .
۷- بازاریابی هوشمند : در آینده قطعا با دستگاه هایی مانند گوگل گلس ، بازاریابی شکل جدید خواهد گرفت . دیگر احتمالا از تبلیغات مزاحم پیامکی ، تلویزیونی یا شهری خبری نخواهد بود و هر کسی با توجه به فکر و نیازی که دارد ، تبلیغات برایش به نمایش در خواهد آمد .
قطعا اتفاقات بسیار بیشتری در دنیای هوش مصنوعی خواهد افتاد که در این گفتار بیان نشد ، اما قطعا همین نکات بیان شده نیز قابل تامل خواهد بود.
هوش مصنوعی به کجا می‌رود؟ | وبلاگ‌ موسسه آموزش عالی مهرآستان

**Sina homaei** · 2018/05/29, 17:37

فناوری جدید برای لب‌خوانی و افشای گفت و گوی مظنونان

دانش > فناوری - ایرنا نوشت: محققان دانشگاه ایست انگلیا در انگلیس می گویند نرم افزاری را ابداع کرده اند که می تواند با دقتی به مراتب بیشتر از انسان لب خوانی کند.

این محققان معتقدند که نرم افزار یاد شده کاربرد وسیعی خواهد داشت، از تحقیقات جنایی گرفته تا مقابله با تروریسم یا هر شرایطی که 'صدا آنقدر خوب نیست که بشود فهمید دیگران چه می گویند.'
یکی از نیازهای نیروهای امنیتی و پلیس این است که در بازبینی دوربین های مدار بسته از محتوای مکالمات مظنونان مطلع شوند.
علاوه بر این، مترجمین و خبرنگاران هم برای فهمیدن آنچه چهره های سرشناس می گویند به چنین نرم افزاری نیاز دارند.
هلن بر از دانشکده علوم کامپیوتر دانشگاه ایست انگلیا می گوید: اگر تکنولوژی لب خوانی خوبی داشتیم، می توانستیم واکنش زیدان را بهتر درک کنیم، شاید هم هر دو اخراج می شدند.
اشاره این محقق انگلیسی به فینال جام جهانی 2006 بین ایتالیا و فرانسه است که در آن، زیدان، ستاره فوتبال فرانسه، به دلیل کله زدن به مارکو ماتراتزی بازیکن ایتالیا اخراج شد، در حالی که به نظر می رسید حرف هایی که ماتراتزی به او زده بود، باعث واکنش زیدان شد.
وی ادامه داد: از لب خوانی برای فهمیدن آنچه بازیکنان فوتبال در لحظات پرتنش مسابقه می گویند قبلا استفاده شده اما به احتمال زیاد عملی ترین کاربرد آن در مواقعی است که سر و صدای زیادی وجود دارد، مثلا در ماشین یا در کابین خلبان هواپیما. گرچه این نرم افزار هنوز باید دقیق تر شود، اما نکته مهم این است که آن را در موارد بسیاری می توان به کار گرفت، مثلا برای کسانی که نقص شنوایی یا گفتاری دارند.
به گفته محققان، برای افرادی که متخصص لب خوانی هستند، تمایز بین صداهایی مثل /ب/ یا /پ/ یا /م/ دشوار است اما این نرم افزار می تواند بین این صداها تمایز بگذارد و متن دقیق تری فراهم کند.
پروفسور ریچارد هاروی یکی از دیگر مبتکران این سیستم می گوید: لب خوانی یکی از بزرگ ترین چالش ها در هوش مصنوعی است بنابراین پیشرفت این جنبه اتفاق بسیار خوبی است، یعنی این که بتوان ماشین را برای تشخیص ظاهر و شکل لب انسان تخصصی کنیم.

https://www.khabaronline.ir/detail/5...nce/technology

**Sina homaei** · 2018/05/29, 17:37

لب خوانی کامپیوترها از انسان ها بهتر است

آیا تا به حال تلاش کرده اید صحبت های کسی را لب خوانی کنید؟ اگر بازی هایی مثل چالش زمزمه را امتحان کرده باشید حتماً متوجه شده اید که این کار تا چه اندازه سخت است؛ چرا که کلمات زیادی وجود دارند که در تلفظ آنها حالت لب و دهان درست مثل سایر کلمات است. به این ترتیب به میزان سختی و گمراه کنندگی لب خوانی اضافه می شود. اما ظاهراً این بار هم کامپیوترها از انسان ها پیشی گرفته اند.
امروزه افرادی وجود دارند که در لب خوانی حرفه ای هستند اما متاسفانه به نظر می رسد که کامپیوترها یک بار دیگر توانسته اند از انسان ها جلو بزنند. ظاهراً چند دپارتمان مختلف در دانشگاه آکسفورد به چند روش کارآمد اما مختلف دست یافته اند تا لب خوانی را به کامپیوترها نیز آموزش دهند.
دپارتمان علوم کامپیوتری آکسفورد موفق به توسعه سیستمی به نام LipNet شده و آن را با استفاده از مجموعه داده هایی به نام GRID ساخته اند که بر اساس ویدیوهای کاملاً واضح از افرادی که جلوی دوربین قرار گرفته اند و کلمات سه ثانیه ای را ادا می کنند تهیه شده است. از این رو آنها یک شبکه عصبی آموزش داده اند که بر اساس تست های صورت گرفته قادر است 93.4 درصد کلمات را به درستی تشخیص دهد. افراد داوطلب برای لب خوانی نیز در همان تست مشابه موفق شده اند تنها 52.3 درصد کلمات را درست تشخیص دهند.
دپارتمان علوم تجربی نیز سیستم دیگری توسعه داده است که با هوش مصنوعی DeepMind گوگل کار می کند. این سیستم بر اساس یک سری ویدیوی 100.000 تایی از بی بی سی ساخته شده است که بر اساس کشفیات این گروه، توانسته در 46.8 درصد موارد موفقیت آمیز عمل کند. در حالی که تلاش های متخصصین لب خوانی تنها منجر به 12.4 درصد تشخیص صحیح شده است.
در حالی که این پیشرفت ها در دنیای تکنولوژی بسیار خارق العاده به نظر می رسد اما باید روی مفاهیم و پیاده سازی آن نیز تامل بیشتری شود.
منبع: تک شات
لب خوانی کامپیوترها از انسان ها بهتر است

**Sina homaei** · 2018/05/29, 17:38

نرم‌افزار لب‌خوانی که راز تصاویر بی‌صدا را فاش می‌کند

محققان دانشگاه ایست انگلیا در بریتانیا ادعا می‌کنند نرم‌افزاری را ابداع کرده‌اند که می‌تواند با دقتی به مراتب بیشتر از انسان لب‌خوانی کند.

به گزارش گروه علم و فناوری آنا به نقل از BBC، این محققان معتقدند که این نرم‌افزار کاربرد وسیعی خواهد داشت، از تحقیقات جنایی گرفته تا مقابله با تروریسم یا هر شرایطی که صدا آنقدر خوب نیست که بشود فهمید دیگران چه می‌گویند.
یکی از نیازهای پلیس و نیروهای امنیتی این است که در بازبینی دوربین‌های مدار بسته از آنچه مظنونان می‌گویند مطلع شوند. علاوه بر این خبرنگاران هم برای فهمیدن آنچه چهره‌های سرشناس می‌گویند به چنین نرم‌افزاری نیاز و علاقه خواهند داشت.
هلن بر، از دانشکده علوم کامپیوتر دانشگاه ایست انگلیا، می‌گوید: «اگر تکنولوژی لب‌خوانی خوبی داشتیم، می‌توانستیم واکنش زیدان را بهتر درک کنیم، شاید هم هر دو اخراج می‌شدند».
اشاره بر به فینال جام جهانی ۲۰۰۶ بین ایتالیا و فرانسه است که زیدان، ستاره فوتبال فرانسه، به دلیل کله زدن به مارکو ماتراتزی بازیکن ایتالیا اخراج شد در حالی که به نظر می‌رسید حرف‌هایی که ماتراتزی به او می‌زد باعث واکنش زیدان شد.
او می‌گوید: «از لب‌خوانی برای فهمیدن آنچه بازیکنان فوتبال در لحظات پرتنش مسابقه می‌گویند قبلا استفاده شده اما به احتمال زیاد عملی‌ترین کاربرد آن در مواقعی است که سر و صدای زیادی وجود دارد مثلا در ماشین یا در کابین خلبان هواپیما».
او می‌افزاید: «با اینکه این نرم‌افزار هنوز باید دقیق‌تر شود، نکته مهم این است که آن را در موارد بسیاری می‌توان به کار گرفت، مثلا برای کسانی که نقص شنوایی یا گفتاری دارند».
محققان می‌گویند برای افرادی که متخصص لب‌خوانی هستند تمایز بین صداهایی مثل «ب» یا «پ» یا «م» کار بسیار دشواری است اما این نرم‌افزار می‌تواند بین این صداها تمایز بگذارد و متن دقیق‌تری فراهم کند.
ریچارد هاروی یکی از دیگر مبتکران این سیستم می‌گوید: «لب‌خوانی یکی از بزرگ‌ترین چالش‌ها در هوش مصنوعی است بنابراین پیشرفت این جنبه‌ دشوار اتفاق بسیار خوبی است، یعنی اینکه بتوانیم ماشین را برای تشخیص ظاهر و شکل لب انسان تخصصی کنیم».

نرم‌افزار لب‌خوانی که راز تصاویر بی‌صدا را فاش می‌کند

**Sina homaei** · 2018/05/29, 17:38

نرم افزار تشخیص گفتار از روی حرکات لب طراحی شد

نرم افزار تشخیص گفتار از روی حرکات لب طراحی شد. نرم افزار تشخیص گفتار از روی حرکات لب توسط فارغ التحصیلان کارشناسی ارشد دانشکده مهندسی پزشکی دانشگاه صنعتی امیر کبیر طراحی شد.
به گزارش خبرگزاری مهر، رضا شالباف - مجری طرح، کاربرد سامانه های لب خوانی رایانه ای را در تشخیص فرامین ناتوانان گفتاری، تشخیص برخی کلمات خاص، مکمل بازشناسی گفتار صوتی و همچنین کاربردهای نظامی و اطلاعاتی و حفاظتی ذکر کرد.

این محقق گفت : فرآیند بازشناسی تصویری گفتار شامل دو مرحله استخراج ویژگی از دنباله تصاویر لب و طبقه بندی ویِژگی های بدست آمده است.

وی افزود : ویژگی های گفتاری تصویر حرکات لب این افراد که دارای رنگ پوست و ظاهر متفاوتی بودند به کمک طراحی یک الگوریتم جدید استخراج شده و در مرحله بعد با استفاده از الگوریتم مدل مخفی مارکوف، حرکات و گفتار تصویری تشخیص داده شد.

شالباف افزود: این نرم افزار به معلولینی کمک می کند که دچار آسیب در سیستم صوتی بوده و قادر به برقراری ارتباط با دیگران نیستند. این افراد معمولا توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایده آل می توان با انجام لب خوانی به مقصود آنها پی برد.

مجری طرح اضافه کرد: بهره گیری از اطلاعات تصویری از شکل های لب و حرکات آن، دقت و اطمینان سیستم های تشخیص اتوماتیک گفتار صوتی را خصوصا در محیط های نویزی بطور قابل توجهی بهبود می دهد.

این فارغ التحصیل دانشگاه امیر کبیر خاطرنشان کرد: در کاربرد حفاظتی، این سامانه می تواند با بهره گیری از حرکات لب و بدون ثبت سیگنال صوتی، کلمات خاصی را شناسایی و تصویر گوینده آن را در مراکز عمومی و محل های تردد ثبت کند.

وی گفت : آزمایش این نرم افزار بر روی مجموعه دادگان جمع آوری شده شامل 20 نفر زن و مرد بین سنین 20 تا 50 سال صورت گرفته و روی 6 واژه گفتاری 1، 2،3،4،5،6با 91 درصد موفقیت، بازشناسی گفتار انجام شده است.

شالیباف گفت: این پژوهش ها در مراحل تکمیلی می توانند با افزایش تعداد کلمات قابل شناسایی، محدوده تشخیص را هر چه بیشتر افزایش دهند.

مجری طرح افزود: این نرم افزار به معلولینی که از صندلی چرخدار استفاده می کنند و فقط توانایی انجام صحیح حرکات لبشان را دارند کمک می کند. بدین ترتیب که با کمک دوربین فیلمبرداری، حرکات لب آنها ثبت می شود و پس از آنالیز، فرامین لازم به ویلچر داده می شود.
منبع : " خبرگزاری مهر "
مهندسی نرم افزار-E-commerc -هوش مصنوعی - نرم افزار تشخیص گفتار از روی حرکات لب طراحی شد

انجمن گفتگو استارتاپ و کار آفرینی

انجمن گفتگو استارتاپ و کار آفرینی

تـــوجـــه

موضوع: هوش مصنوعی در لب خوانی از انسان پیشی گرفت

لینک بک

ابزارهای موضوع

موضوعات مشابه

کاربرد مهم هوش مصنوعی _ سیستم ارائه‌ی پیشنهاد

پنج پیش‌بینی درباره آینده هوش مصنوعی در سال ۲۰۱۸

پیش‌بینی تاخیر پرواز هواپیماها با استفاده از هوش مصنوعی

پیشروهای ثبت و انتشار پتنت در حوزه فناوری هوش مصنوعی

نوپانا: کانادا؛ کلید پیشرفت استارت‌آپ‌های حوزه هوش مصنوعی در کره جنوبی

کلمات کلیدی این موضوع

مجوز های ارسال و ویرایش

استارتاپ‌فاروم - انجمن گفتگو استارت‌آپ‌ها

دوستان ما

لینک‌های مفید