کاربرد مهم هوش مصنوعی _ تشخیص گفتار

2018/04/26, 18:53
Sina homaei

بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود

آکاایران: بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود

آکاایران: صدا هوش مصنوعی
شرکت DeepMind بریتانیا با استفاده از فناوری هوش مصنوعی خود یک سیستم گفتگو تلفیقی به نام WaveNet را سال ۲۰۱۶ معرفی کرد. این سیستم بر مبنی یک شبکه عصبی مصنوعی عمل کرده که قادر است نمونه گفتاری با وضوح بهتر از نمونه های مشابه ارائه دهد.
به کمک چنین سیستمی صدا هوش مصنوعی به صدا انسان بسیار نزدیک تر است. WaveNet از این رو توسعه یافته تا گوگل اسیستنت روی سیستم عامل های مختلف بازدهی قابل توجهی داشته باشد. در حال حاضر WaveNet با صدا انسان گونه خود حتی بهبودی پیدا کرده و صدای نزدیک تر به یک انسان دارد.
این سیستم در ژانویه سال ۲۰۱۸ توسط گوگل راه اندازی می شود و سیستم قادر است به همکاری با سیستم متن به گفتار Tacotron 2 بپردازد. در ابتدا Tacotron 2 متن را به شکل نمایش بصری از طریق فرکانس های صوتی در طی مدت زمانی ترجمه می کند که به عنوان طیف سنجی محسوب می شود. سپس WaveNet به خواندن طیف سنجی پرداخته و یک نموداری با عناصر صوتی مربوطه ایجاد خواهد کرد.
براساس این مطالعه، امتیاز مدل به شکل متوسط ۴٫۵۳ بوده که برای سخنرانی های حرفه ای برابر است با ۴٫۵۸٫ به عبارتی ساده این نوع سخنرانی شباهت نزدیکی به سخنرانی ساده دارد.
در حقیقت گوگل صدا ضبط شده و AI خود را در کنار باقی قرار می دهد و معلوم است که دستگاه همانند یک شخص است.
سیستم سخنرانی SYNTHETIC
امروز سیستم های مبتنی بر هوش مصنوعی بهبودی پیدا کرده و موجب نزدیک شدن عملکرد آنها به انسان شدند. اگرچه هوش مصنوعی قادر نیست عملکردی دقیقا مشابه انسان داشته باشد اما می تواند نزدیک عمل کند. دیگر هوش مصنوعی می تواند به ایجاد ویدئوهای جعلی بپردازد و همچنین نمی توان حضور پر رنگ هوش مصنوعی در کنار انسان را نادیده گرفت.
تقلید کردن صدای انسانی همیشه چالشی برای هوش های مصنوعی بود. در حال حاضر دو سیستم WaveNet و Tacotron 2 شرکت DeepMind در حال تغییراتی هستند و موجب نزدیک شدن به عملکرد انسان می باشند. نه تنها این نوع هوش های مصنوعی می توانند تلفط نزدیکی دارا باشند، بلکه قادرند در آینده تلفظ کلمات و جملات را به سادگی انجام دهند. در حال حاضر تنها لغات مشخصی تلفظ می شود اما در آینده این امر گسترده تر خواهد شد.
البته نباید پنداشت سیستم نوین AI کامل است و نقصی ندارد. تکرار صدا آن تنها براساس سیستم آموزش داده شده بوده که گوگل برای آن زنی را استخدام کرد تا صدا را به ثبت برساند. برای Tacotron 2و WaveNet نیز یک زن و مردی نیاز بوده و به کار گرفته شد.
گذشته از گوگل اسیستنت که به عنوان یک دستیار فوری شناخته می شود، گوگل در تلاش است Tacotron 2 و امثال آن را نیز بزودی به کار گیرد تا سیستم AI مختلفی را به مشتریان خود ارائه دهد.
0

.منبع : ech.gamefa.com

بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود
2018/04/26, 18:52
Sina homaei

به گزارش نوداد (سکوی اجتماعی خبر) این مسئله زمانی مشاهده می شود که به یک اسپیکر هوشمند دستور العمل هایی در محل های شلوغ یا دسته های خانگی داده شود.
اکنون بنظر می رسد که انسان ها در حال از دست دادن برتری خود مبنی بر تشخیص گفتار می باشند. تکنولوژی جدید گوگل به هوش مصنوعی خود این قابلیت را می دهد که صداهای مختلفی را که بطور همزمان بیان می شوند، تشخیص دهد.
این توسعه ی پیشگام در زمینه تشخیص گفتار به دستایاران هوشمند بر پایه هوش مصنوعی این امکان را می دهد که یک صدای خاص را در جمعیت تشخیص دهد و بخوبی آن را درک کند.
چند روز پیش بود که محققان گوگل از این تکنولوژی روزمره پرده برداشتند. تیم گوگل مدت زیادی است که بر روی جدا کردن منابع صدا مانند گفتار در فیلم کار می کنند، کاری که برای سیستم های خودکار سخت می باشد.
سیستم جدید نشخیص گفتار گوگل چگونه کار می کند؟
این سیستم از مدل تفکیک گفتار صوتی و تصویری استفاده می‎کند که وقتی افراد صحبت می کنند، از طریق نظارت بر چهره آن ها، صدای آن ها را تشخیص دهد. شبکه عصبی این مدل جوری برنامه ریزی شده است که صداها را از افراد مختلف از طریق ‘دسته های جعلی’ که توسط محققان ایجاد شده است انتخاب کند.

صداهای پس زمینه در این دسته های جعلی ترکیب شده تا به هوش مصنوعی یاد بدهد که چگونه آهنگ های صوتی را توسط جداسازی صداهای مختلف، شناسایی کند. نتایج بدست آمده شگفت آور بود. نه تنها این سیستم توانست اصوات را بلکه، گفتار ۲ فرد را که همزمان صحبت می کنند جداسازی کند.

با این حال، پیامدهای حریم خصوصی سیستم تشخیص گفتار گوگل می تواند کمی ناخوشایند باشد. اگر این تکنولوژی در یک مقیاس بزرگ اجرا شود، می تواند توسط برنامه های ترد بصورت جاسوس مورد استفاده قرار بگیرد و گفت و گوی افراد را گوش کند.

https://nodud.com/tech/technology/1523887753.990621
2018/04/26, 18:52
Sina homaei
تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند!

گوگل در حوزه هوش مصنوعی بسیار فعال عمل می کند. این بار نیز این کمپانی با معرفی تاکوترون 2 حیرت همگان را برانگیخته است. تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند ! البته تاکوترون 2 به گونه ای این کار را انجام می دهد که شما متوجه نمی شوید گوینده متن، فقط یک ربات است! شبیه سازی گفتار انسان و تبدیل متن به گفتار در تاکوترون 2 واقعا حیرت انگیز است. گوگل گام های بلندی را برای پروژه « AI firstl» خود برداشته است. همان طور که ممکن است شنیده باشید ،گوگل در تلاش است که با کمک فناوری هوش مصنوعی متن را به گفتار تبدیل کند، به گونه ای که شنونده نتواند تشخیص دهد یک انسان صحبت می کند یا یک ربات! بر اساس گزارش هایی که اخیرا از سوی سایت فناوری اطلاعات Inc.com منتشر شده است، فناوری جدید تبدیل متن به گفتار که با کمک هوش مصنوعی و توسط کمپانی گوگل معرفی میشود، تاکوترون 2 ( Tacotron 2) نام دارد که می تواند با کمک سیستم کامپیوتری مجهز به هوش مصنوعی، صدایی شبیه به صدای انسان تولید کند. در کنفرانس توسعه دهندگان گوگل I / O 2017، مدیر اجرایی این شرکت در هند یعنی ساندار پیچای، اعلام کرد که غول اینترنت جهان یعنی گوگل قصد دارد اولین تلفن همراه مجهز به فناوری AI first که مبتنی بر هوش مصنوعی است به همراه چندین محصول جدید با ویژگی های خوب از جمله گوگل لنز( Google Lens)، پاسخ دهی هوشمند برای جی میل ( Smart Response) دستیار گوگل برای آیفون به همه جهان معرفی کند. بر اساس مقاله منتشر شده در سایت arXiv.org، این سیستم و فناوری جدید اسپکترامی از متن را ایجاد می کند و مشخص می نماید صدای گوینده باید به چه صورتی باشد. این اسپکترام یا نمایش بصری به خواندن بهتر متن توسط رایانه کمک می کند. این تصویر از طریق الگوریتم WaveNet موجود در گوگل مورد بررسی قرار می گیرد. در این الگوریتم با کمک تصاویر و هوش مصنوعی کار جلو می رود و رایانه می تواند با توجه به میمیک های انسانی و به صورت تقلیدی از انسان، متن را به گفتار تبدیل کند. این الگوریتم به راحتی می تواند صداهای مختلف را یاد بگیرد و حتی نفس های مصنوعی ایجاد کند. محققان معتقدند: « این مدل نمره متوسط 4.53 را دریافت خواهد کرد در صورتی که اگر همین متن توسط یک گوینده حرفه ای خوانده شود می تواند نمره 4.58 را دریافت کند.» بر اساس نمونه های صوتی تهیه شده توسط تاکوترون 2، گوگل ادعا کرده است که این سیستم آنقدر هوشمند است که واژه های شبیه به هم را هم شناسایی می کند. مثلا تاکوترون می تواند واژه هایی مثل « desert» به قالب اسم را از « desert» به عنوان فعل تشخیص دهد. وقتی اسم و فعل از یکدیگر در جمله قابل تفکیک باشند، جملات صحیح تر ادا خواهند شد. تاکوترون 2 با کمک جفت شبکه عصبی این کار را انجام می دهد. همان طور که گفته شد طریق الگوریتم WaveNet به صورت بصری فرکانس های صوتی خاص مشخص می شود و اطلاعات دیداری و بصری در قالب صوت بازسازی می شوند. گوگل این اطلاعات را در سایتی منتشر نموده است و توانایی این سیستم یعنی تاکوترون 2 را به نمایش گذاشته است. در این وب سایت نمونه های صدای تاکوترون 2 را می توانید بشنوید. سیستم تبدیل متن به گفتار به قدری حرفه ای این کار را انجام داده است که واقعا تشخیص صدای انسان واقعی از صدای ماشین کمی سخت به نظر می رسد. هم چنین کمپانی گوگل اعلام کرده است که این سیستم هوش مصنوعی می تواند حین تبدیل متن به گفتار، کلماتی که نیاز به تاکید در حین خواندن دارند را تشخیص بدهد. یا حتی می تواند جملات را سئوالی یا خبری بخواند. البته مهندسان گوگل هنوز اطلاعات زیادی در مورد تاکوترون 2 منتشر نکرده اند ولی این سیستم می تواند برای بسیاری از توسعه دهندگان که برنامه هایی مرتبط با تبدیل متن به گفتار تهیه می کنند، بسیار مهم و حایز اهمیت باشد. بر اساس گزارش منتشر شده در مورد این فناوری، هر یک از نمونه فایل های صوتی با فرمت .wav می تواند دارای یک نام پرونده جداگانه باشد که با فرمت gen یا gt. دیده می شود. بر اساس این مقاله منتشر شده در مورد تاکوترون 2، احتمال دارد که gen گفتار تولید شده توسط تاکوترون 2 را نشان دهد و فرمت gt گفتار واقعی انسان را به نمایش بگذارد. به نظر می رسد هوش مصنوعی هر روز بیش از پیش می تواند ربات ها را شبیه تر به انسان ها کند. گوگل در این مسیر توانسته گام های بزرگی برای تبدیل متن به گفتار بردارد که واقعا حیرت انگیز است. آیا واقعا روزی می توان گفت که هوش مصنوعی بتواند به جای گوینده های رادیو و تلویزیون عمل کند؟ آیا می توان با این روش فیلم های ویدئویی را دوبله کرد؟
- منبع
- gadgetsnow
تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند! | پلازامگ
2018/04/26, 18:51
Sina homaei
تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند!

گوگل در حوزه هوش مصنوعی بسیار فعال عمل می کند. این بار نیز این کمپانی با معرفی تاکوترون 2 حیرت همگان را برانگیخته است. تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند ! البته تاکوترون 2 به گونه ای این کار را انجام می دهد که شما متوجه نمی شوید گوینده متن، فقط یک ربات است! شبیه سازی گفتار انسان و تبدیل متن به گفتار در تاکوترون 2 واقعا حیرت انگیز است. گوگل گام های بلندی را برای پروژه « AI firstl» خود برداشته است. همان طور که ممکن است شنیده باشید ،گوگل در تلاش است که با کمک فناوری هوش مصنوعی متن را به گفتار تبدیل کند، به گونه ای که شنونده نتواند تشخیص دهد یک انسان صحبت می کند یا یک ربات! بر اساس گزارش هایی که اخیرا از سوی سایت فناوری اطلاعات Inc.com منتشر شده است، فناوری جدید تبدیل متن به گفتار که با کمک هوش مصنوعی و توسط کمپانی گوگل معرفی میشود، تاکوترون 2 ( Tacotron 2) نام دارد که می تواند با کمک سیستم کامپیوتری مجهز به هوش مصنوعی، صدایی شبیه به صدای انسان تولید کند. در کنفرانس توسعه دهندگان گوگل I / O 2017، مدیر اجرایی این شرکت در هند یعنی ساندار پیچای، اعلام کرد که غول اینترنت جهان یعنی گوگل قصد دارد اولین تلفن همراه مجهز به فناوری AI first که مبتنی بر هوش مصنوعی است به همراه چندین محصول جدید با ویژگی های خوب از جمله گوگل لنز( Google Lens)، پاسخ دهی هوشمند برای جی میل ( Smart Response) دستیار گوگل برای آیفون به همه جهان معرفی کند. بر اساس مقاله منتشر شده در سایت arXiv.org، این سیستم و فناوری جدید اسپکترامی از متن را ایجاد می کند و مشخص می نماید صدای گوینده باید به چه صورتی باشد. این اسپکترام یا نمایش بصری به خواندن بهتر متن توسط رایانه کمک می کند. این تصویر از طریق الگوریتم WaveNet موجود در گوگل مورد بررسی قرار می گیرد. در این الگوریتم با کمک تصاویر و هوش مصنوعی کار جلو می رود و رایانه می تواند با توجه به میمیک های انسانی و به صورت تقلیدی از انسان، متن را به گفتار تبدیل کند. این الگوریتم به راحتی می تواند صداهای مختلف را یاد بگیرد و حتی نفس های مصنوعی ایجاد کند. محققان معتقدند: « این مدل نمره متوسط 4.53 را دریافت خواهد کرد در صورتی که اگر همین متن توسط یک گوینده حرفه ای خوانده شود می تواند نمره 4.58 را دریافت کند.» بر اساس نمونه های صوتی تهیه شده توسط تاکوترون 2، گوگل ادعا کرده است که این سیستم آنقدر هوشمند است که واژه های شبیه به هم را هم شناسایی می کند. مثلا تاکوترون می تواند واژه هایی مثل « desert» به قالب اسم را از « desert» به عنوان فعل تشخیص دهد. وقتی اسم و فعل از یکدیگر در جمله قابل تفکیک باشند، جملات صحیح تر ادا خواهند شد. تاکوترون 2 با کمک جفت شبکه عصبی این کار را انجام می دهد. همان طور که گفته شد طریق الگوریتم WaveNet به صورت بصری فرکانس های صوتی خاص مشخص می شود و اطلاعات دیداری و بصری در قالب صوت بازسازی می شوند. گوگل این اطلاعات را در سایتی منتشر نموده است و توانایی این سیستم یعنی تاکوترون 2 را به نمایش گذاشته است. در این وب سایت نمونه های صدای تاکوترون 2 را می توانید بشنوید. سیستم تبدیل متن به گفتار به قدری حرفه ای این کار را انجام داده است که واقعا تشخیص صدای انسان واقعی از صدای ماشین کمی سخت به نظر می رسد. هم چنین کمپانی گوگل اعلام کرده است که این سیستم هوش مصنوعی می تواند حین تبدیل متن به گفتار، کلماتی که نیاز به تاکید در حین خواندن دارند را تشخیص بدهد. یا حتی می تواند جملات را سئوالی یا خبری بخواند. البته مهندسان گوگل هنوز اطلاعات زیادی در مورد تاکوترون 2 منتشر نکرده اند ولی این سیستم می تواند برای بسیاری از توسعه دهندگان که برنامه هایی مرتبط با تبدیل متن به گفتار تهیه می کنند، بسیار مهم و حایز اهمیت باشد. بر اساس گزارش منتشر شده در مورد این فناوری، هر یک از نمونه فایل های صوتی با فرمت .wav می تواند دارای یک نام پرونده جداگانه باشد که با فرمت gen یا gt. دیده می شود. بر اساس این مقاله منتشر شده در مورد تاکوترون 2، احتمال دارد که gen گفتار تولید شده توسط تاکوترون 2 را نشان دهد و فرمت gt گفتار واقعی انسان را به نمایش بگذارد. به نظر می رسد هوش مصنوعی هر روز بیش از پیش می تواند ربات ها را شبیه تر به انسان ها کند. گوگل در این مسیر توانسته گام های بزرگی برای تبدیل متن به گفتار بردارد که واقعا حیرت انگیز است. آیا واقعا روزی می توان گفت که هوش مصنوعی بتواند به جای گوینده های رادیو و تلویزیون عمل کند؟ آیا می توان با این روش فیلم های ویدئویی را دوبله کرد؟
- منبع
- gadgetsnow
http://mag.plaza.ir/139610/30955/%D8...8%D8%B9%DB%8C/
2018/04/26, 18:50
Sina homaei

صدا هوش مصنوعی
شرکت DeepMind بریتانیا با استفاده از فناوری هوش مصنوعی خود یک سیستم گفتگو تلفیقی به نام WaveNet را سال ۲۰۱۶ معرفی کرد. این سیستم بر مبنی یک شبکه عصبی مصنوعی عمل کرده که قادر است نمونه گفتاری با وضوح بهتر از نمونه‌های مشابه ارائه دهد.
به کمک چنین سیستمی صدا هوش مصنوعی به صدا انسان بسیار نزدیک‌تر است. WaveNet از این رو توسعه یافته تا گوگل اسیستنت روی سیستم عامل‌های مختلف بازدهی قابل توجهی داشته باشد. در حال حاضر WaveNet با صدا انسان گونه خود حتی بهبودی پیدا کرده و صدای نزدیک‌تر به یک انسان دارد.
این سیستم در ژانویه سال ۲۰۱۸ توسط گوگل راه اندازی می‌شود و سیستم قادر است به همکاری با سیستم متن به گفتار Tacotron 2 بپردازد. در ابتدا Tacotron 2 متن را به شکل نمایش بصری از طریق فرکانس‌های صوتی در طی مدت زمانی ترجمه می‌کند که به عنوان طیف سنجی محسوب می‌شود. سپس WaveNet به خواندن طیف سنجی پرداخته و یک نموداری با عناصر صوتی مربوطه ایجاد خواهد کرد.
براساس این مطالعه، امتیاز مدل به شکل متوسط ۴٫۵۳ بوده که برای سخنرانی‌های حرفه‌ای برابر است با ۴٫۵۸٫ به عبارتی ساده این نوع سخنرانی شباهت نزدیکی به سخنرانی ساده دارد.
در حقیقت گوگل صدا ضبط شده و AI خود را در کنار باقی قرار می‌دهد و معلوم است که دستگاه همانند یک شخص است.
سیستم سخنرانی SYNTHETIC
امروز سیستم‌های مبتنی بر هوش مصنوعی بهبودی پیدا کرده و موجب نزدیک شدن عملکرد آنها به انسان شدند. اگرچه هوش مصنوعی قادر نیست عملکردی دقیقا مشابه انسان داشته باشد اما می‌تواند نزدیک عمل کند. دیگر هوش مصنوعی می‌تواند به ایجاد ویدئوهای جعلی بپردازد و همچنین نمی‌توان حضور پر رنگ هوش مصنوعی در کنار انسان را نادیده گرفت.
تقلید کردن صدای انسانی همیشه چالشی برای هوش‌های مصنوعی بود. در حال حاضر دو سیستم WaveNet و Tacotron 2 شرکت DeepMind در حال تغییراتی هستند و موجب نزدیک شدن به عملکرد انسان می‌باشند. نه تنها این نوع هوش‌های مصنوعی می‌توانند تلفط نزدیکی داشته باشند، بلکه قادرند در آینده تلفظ کلمات و جملات را به سادگی انجام دهند. در حال حاضر تنها لغات مشخصی تلفظ می‌شود اما در آینده این امر گسترده‌تر خواهد شد.
البته نباید پنداشت سیستم جدید AI کامل است و نقصی ندارد. تکرار صدا آن تنها براساس سیستم آموزش داده شده بوده که گوگل برای آن زنی را استخدام کرد تا صدا را به ثبت برساند. برای Tacotron 2و WaveNet نیز یک زن و مردی نیاز بوده و به کار گرفته شد.
گذشته از گوگل اسیستنت که به عنوان یک دستیار فوری شناخته می‌شود، گوگل در تلاش است Tacotron 2 و امثال آن را نیز بزودی به کار گیرد تا سیستم AI مختلفی را به مشتریان خود ارائه دهد.

بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود
2018/04/26, 18:50
Sina homaei
متأسفانه باید اعتراف کرد که بر اساس گزارش سازمان جهانی بهداشت، در ۴۵ سال گذشته موارد منجر به خودکشی ۶۰ درصد بیشتر شده است. بر اساس همین گزارش، سالانه یک میلیون نفر در سرتاسر جهان با اقدام به خودکشی از دنیا می‌روند. سازمان بهداشت جهانی انتظار دارد تا سال ۲۰۲۰ نرخ خودکشی از وضعیت فعلی یعنی هر ۴۰ ثانیه یک خودکشی در سرتاسر جهان، به نرخ هر ۲۰ ثانیه برسد.

گروهی از پژوهشگران دانشگاه کارنگی‌ ملون و هاروارد در آمریکا دست به طراحی الگوریتمی زده‌اند که با استفاده از فناوری یادگیری ماشینی می‌تواند بازنمایی عصبی حالات منجر به خودکشی را به دست آورد. این الگوریتم با کمک تصویرسازی تشدید مغناطیسی کارکردی (fMRI) کار می‌کند.
پژوهشگران، افراد مورد آزمایش را به دو گروه مطالعه و کنترل تقسیم‌بندی کردند که در هر گروه ۱۷ نفر حضور داشتند. در گروه آزمایش ۱۷ نفر افکاری در مورد خودکشی داشتند. در طی این پژوهش، دانشمندان ۶ واژه‌ی مرگ، ستم، مشکل،‌ بی‌خیالی، خوبی و تشویق را به اعضای گروه‌ها نشان دادند و به دنبال کشف الگوهای مغزی مرتبط با خودکشی در این افراد گشتند. الگوریتم توسعه داده‌شده موفق به کشف ۱۵ بیمار از ۱۷ بیمار با تفکر‌های مرتبط با خودکشی شد. در این بین ۱۶ نفر از ۱۷ عضو گروه آزمایش، از ام‌آر‌آی برای تعیین الگوی عصبی استفاده کردند که در نهایت دقت ۹۱ درصدی الگوریتم را نشان داد.
در حال حاضر، روانشناسان گفت‌و‌گو با فرد و پرسیدن سؤال‌های مستقیم برای پیدا کردن افکار مرتبط با خودکشی را به روش‌های دیگر ترجیح می‌دهند؛ هرچند بر اساس مطالعات انجام‌شده نزدیک به ۸۰ درصد از بیماران در جلسات مشاوره‌ی خود، افکار خودکشی را انکار کرده‌اند. الگوریتم جدید توسعه‌یافته توسط دانشمندان می‌تواند این مشکل را با دقت بالایی حل کند.
مقاله‌ی مرتبط:
- ۱۰ شغل با بیشترین آمار خودکشی در جهان
استفاده از هوش مصنوعی برای پیدا کردن افرادی که قصد خودکشی دارند در شرکت‌هایی نظیر فیس‌بوک هم آزمایش شده است؛ این شرکت برای پیدا کردن جریان‌های فکری مرتبط با خودکشی از هوش‌مصنوعی بهره می‌برد. نقطه‌ی مشترک تمامی این پژوهش‌ها تأکید بر تفاوت‌های موجود در مغز افرادی با قصد خودکشی در مقایسه با افراد عادی به‌حساب می‌آید. در پژوهش دانشگاه کارنگی‌ ملون با استفاده از یادگیری ماشینی و تصاویر به‌دست‌آمده از ام‌آر‌آی می‌توان این تفاوت‌ها را به‌ دست آورد.
مارسل جوست، محقق ارشد این پژوهش، می‌گوید:

یکی از محدودیت‌های اصلی این تحقیق استفاده از دستگاه ام‌آر‌آی است؛ استفاده از این دستگاه هزینه‌بر و دسترسی به آن به‌خصوص در محیط‌هایی مثل مطب سخت یا غیر ممکن به شمار می‌رود. ما به دنبال ثبت فعالیت‌های مغزی با استفاده از نوار مغزی یا الکتروانسفالوگرافی هستیم. مشکل دوم به همکاری بیمار برمی‌گردد که شرط اصلی پیدا کردن الگوهای مغزی است؛ قطع همکاری وی فرآیند تشخیصی را متوقف می‌کند.
استفاده از هوش مصنوعی و فناوری‌هایی نظیر یادگیری ماشینی در تشخیص الگوهای مغزی منتهی به خودکشی می‌تواند به کاهش نرخ خودکشی در جوامع مختلف و درمان افراد مستعد به خودکشی کمک زیادی کند.
نتایج این پژوهش علمی در نشریه‌ی Nature Human Behavior به چاپ رسیده است.

https://www.zoomit.ir/2017/11/12/244...ental-illness/
2018/04/26, 18:50
Sina homaei

الگوریتم هوش مصنوعی گوگل می تواند بهتر از لب خوان های حرفه ای، گفتار را تشخیص دهد

الگوریتم هوش مصنوعی گوگل به معنای واقعی باهوش است. لب خوانی می تواند برای انسان ها، کار بسیار دشواری باشد، اما با هوش مصنوعی، شاید تشخیص گفتار به کار بسیار ساده تری تبدیل شود. محققان دیپ مایند گوگل و دانشگاه آکسفورد، الگوریتم هوش مصنوعی برای لب خوانی توسعه داده اند که حتی از لب خوان های حرفه ای هم عملکرد بهتری دارد. بر اساس مقاله ای که ماه جاری منتشر شده، الگوریتم لب خوان در مجموع از ۱۱۸ هزار جمله که از شش برنامه تلویزیونی مختلف از جمله، برنامه صبحانه، نیوزنایت و وقت پرسش تلویزیون بی‌بی‌سی گرفته شده اند، تغذیه شده است. حال، این الگوریتم تنها با نگاه کردن به لب های هر گوینده به درستی، تمام جملات را تشخیص می دهد. الگوریتم لب خوان گوگل قادر به تشخیص ۴۶.۸ درصد از تمام کلمات گفته شده، بدون اشتباه است و این در حالیست که لب خوان های حرفه ای، تنها قادر به تشخیص درست ۱۲.۴ درصد کلمات هستند.

زیر نویس فوق گفتارهایی است که الگوریتم هوش مصنوعی دیپ مایند گوگل تشخیص داده است. ژیانگ ژو از دانشگاه اولو، فنلاند، گفت: “این گام بزرگی برای توسعه سیستم های لب خوان کاملا اتوماتیک است.”
الگوریتم هوش مصنوعی گوگل کاربردهای مفید بسیاری خواهد داشت. با این الگوریتم لب خوان امکان برقراری تماس تصویری حتی در اتاق های شلوغ و یا در جاده هم بسیار ساده می شود. ممکن است دیگر مجبور نباشید برای فرمان دادن به دستیار صوتی هوشمند فریاد بزنید! .
منبع: thetechnews

https://techrato.com/2016/11/22/googles-lip-reading-ai/
2018/04/26, 18:49
Sina homaei

تشخیص اختلال استرس پس از سانحه یا PTSD یکی از موارد بسیار سخت در علم روانپزشکی است که فهمیدن آن به تجربه ی زیاد درمانگر نیاز دارد، اما محققان هوش مصنوعی می خواهند این کار را آسان کنند و با تشخیص الگوهای آوایی این امر را میسر کنند. به گزارش کلیک، محققان هوش مصنوعی با استفاده از الگوهای آوایی افراد درصدد تشخیص اختلال استرس پس از سانحه (PTSD) و یا حتی بیماری قلبی هستند و قصد دارند از طریق گوشی‌های هوشمند و یادگیری ماشینی (الگوریتم) به این نتایج برسند. بیماری PTSD پس از اتفاق ناخوشایندی که برای شخص روی می دهد،به وجود می آید و ذکر این نکته هم لازم است که تشخیص آن بسیار سخت است، چارلز مرمر روانپزشکی با ۴۰ سال تجربه در این زمینه توضیح می دهد که با استفاده از روش‌های قدیمی هنوز هم نمی‌تواند اختلال استرس پس از سانحه را با دقت ۱۰۰ درصد تشخیص دهد. مرمر اظهار کرد که اگر یک رزمنده جنگی به دفتر من مراجعه کند و به دلیل خجالت و یا هر دلیل دیگری از گفتن حقایقی در مورد مشکلاتPTSD خودداری کند، تشخیص وضعیت و مشکل او مطمئنا سخت خواهد بود. این روانپزشک که رئیس بخش روانپزشکی در مرکز پزشکی لانگون دانشگاه نیویورک است، امیدوار است که بتواند پاسخ سوالات خود را از صحبت و صدای شخص مراجعه‌کننده دریابد. نمونه صدای یک منبع غنی از اطلاعات در مورد سلامتی فرد است و محققان بر این باورند که نشانه‌های صوتی ظریف می‌تواند زمینه‌ای از بیماری‌ها و یا خطر ابتلا به بیماری را نشان دهند. این محققان امیدوارند که بتوان در چند سال آینده، از راه دور و با استفاده از گوشی‌های هوشمند و دیگر ابزارهای پوشیدنی بر وضعیت سلامتی فرد نظارت کرد. این کار را می‌توان از طریق ضبط نمونه‌های گفتار کوتاه مدت و تجزیه و تحلیل آنها برای نشانگرهای زیستی بیماری انجام داد. برای اختلالات روانی مانند PTSD هیچ آزمایش خونی وجود ندارد و مردم اغلب از صحبت کردن در مورد وضعیت خود خجالت می‌کشند. بنابراین این شرایط اغلب غیرقابل تشخیص باقی می‌ماند. بنابراین در این مورد آزمون‌های آوایی می‌تواند مفید واقع شود. این روانپزشک حاذق به عنوان بخشی از یک مطالعه پنج ساله، مرمر نمونه‌های صوتی جانبازان را جمع‌آوری کرده است و نشانه‌های صوتی مانند تن صدا، زیر و بمی صدا، ریتم، سرعت و حجم آن را برای یافتن نشانه‌هایی از آسیب‌های نامرئی مانند PTSD، آسیب‌های مغزی (TBI) و افسردگی مورد بررسی قرار داد. مرمر از فناوری یادگیری ماشینی برای یافتن ویژگی‌هایی در صدا و یک الگوریتم برای انتخاب کردن الگوهای آوایی در افراد مبتلا به این شرایط و مقایسه آنها با نمونه‌های صوتی افراد سالم استفاده کرد. به عنوان مثال، افراد مبتلا به مشکلات روانی یا شناختی صداهای خاصی را به صورت کشیده و طولانی ادا کرده یا در تلفظ عباراتی که نیاز به حرکات ماهیچه‌های صورت دارد دچار مشکل می‌شوند

https://click.ir/1395/11/09/ai-can-d...-thoer-sounds/
2018/04/26, 18:49
Sina homaei

سیستم Tacotron 2 دومین نسل از فناوری اختصاصی گوگل برای تولید صدای انسان توسط ماشین‌ها است. این سیستم از دو شبکه عصبی عمیق سود می‌برد.
نزدیک شدن گفتار ماشین‌ها به انسان‌ها

اولین شبکه عصبی متن را به یک اسپکتروگرام (Spectrogram) تبدیل می‌کند؛ روشی بصری برای نشان دادن فرکانس‌های صوتی در طول زمان. اسپکتروگرام الگوی صدای به دست آمده را به یک شبکه عصبی دیگر به نام WaveNet می‌دهد.

سیستم WaveNet در آزمایشگاه هوش مصنوعی DeepMind شرکت آلفابت توسعه داده شده است و می‌تواند نموداری از عناصر صوتی برای تلفظ یک متن را ترسیم کند. دقت این سیستم بسیار بالا است و یک صدا را به صد میلی‌ثانیه یا هزار میلی‌ثانیه تجزیه می‌کند تا عناصر صدا مشخص شود.
به دو صدای زیرگوش کنید:
به نظر شما کدام‌یک توسط هوش مصنوعی گوگل خوانده شده و دیگری توسط یک انسان؟ بسیار سخت و در واقع غیرقابل‌تشخیص است.
پخش‌کننده صوت00:00

00:00
برای افزایش یا کاهش صدا از کلیدهای بالا و پایین استفاده کنید.

پخش‌کننده صوت00:00

00:00
برای افزایش یا کاهش صدا از کلیدهای بالا و پایین استفاده کنید.

یک مثال دیگر:
پخش‌کننده صوت00:00

00:00
برای افزایش یا کاهش صدا از کلیدهای بالا و پایین استفاده کنید.

پخش‌کننده صوت00:00

00:00
برای افزایش یا کاهش صدا از کلیدهای بالا و پایین استفاده کنید.

البته؛ می‌توان با مراجعه به سورس گوگل و یافتن نام فایل‌ها هر صدا و مطالعات دیگر می‌توان فهمید کدام‌ توسط هوش مصنوعی خوانده شده ولی در حالت عادی این دو صدا بسیار شبیه هم هستند.
محققان گوگل می‌گویند سیستم Tacotron 2 می‌تواند کلمات سخت را نیز درست تلفظ کند یا برخی کلمات بولد شده و مهم در متن را به حالتی بخواند که شنونده متوجه شود روی آن‌ها تاکید بیشتری هست.
برخلاف بسیاری از تحقیقاتی که در گوگل انجام می‌شود؛ طراحی سیستم Tacotron 2 می‌تواند
در آینده برای گوگل بسیار مفید و کاربردی باشد. گوگل شرکتی است که چندین محصول صوتی هوشمند وارد بازار کرده است و از Tacotron 2 می‌تواند روی Google Assistant و غیره بهره ببرد یا به صورت یک سرویس مستقل به بازار عرضه کند.
راستی در دو مثال بالا، صداهای دوم را هوش مصنوعی گوگل تولید کرده است.
منبع

هوش مصنوعی یک خصلت دیگر انسان‌ها را هم یاد گرفت: دیگر صدای انسان از ماشین قابل تشخیص نیست - یک پزشک
2018/04/26, 18:44
Sina homaei

این هوش مصنوعی پوشیدنی لحن مکالمه را تشخیص می‌دهد!

پژوهشگران وسیله‌ای پوشیدنی توسعه داده‌اند که می‌تواند به کمک هوش مصنوعی لحن گوینده(شاد، غمگین و خنثی) را تشخیص دهد. این سامانه می‌تواند به عنوان یک مربی اجتماعی عمل کند و به طرز چشمگیری چگونگی ارتباط ما با یکدیگر را بهبود بخشد.
Samsung Simband

این یک واقعیت است که یک مکالمه را می‌توان به شیوه‌های بسیار متفاوت تفسیر کرد. برای افراد مبتلا به اضطراب یا شرایط دیگری همچون آسپرگر، موقعیت‌های اجتماعی می‌تواند بسیار استرس‌زا باشد. اما آیا روشی علمی برای اندازه‌گیری و درک متقابل ما وجود دارد؟
پژوهشگران علوم کامپیوتر و آزمایشگاه هوش مصنوعی (CSAIL) دانشگاه MIT می‌گویند که به یک راهکار بالقوه دست پیدا کرده‌اند: یک سامانه پوشیدنی هوش مصنوعی که می‌تواند بر اساس الگوهای گفتاری هر فرد پیش بینی کند که یک مکالمه شاد، غمگین و یا خنثی است.
توکا الحانی، دانشجوی کارشناسی ارشد است و با همکاری محمد قاسمی، دانشجوی دکترا این مقاله را نوشته‌اند و آن را در کنفرانس انجمن پیشرفت هوش مصنوعی (AAAI) در سانفرانسیسکو ارائه خواهند داد. توکا الحانی می‌گوید: «تصور کنید که در پایان یک مکالمه، بتوانید به عقب بازگردید و لحظاتی را ببینید که مردم اطراف شما احساس اضطراب بیشتری دارند. کار ما یک گام در این جهت است که نباید دور از جهانی باشیم که در آن مردم می‌توانند یک مربی اجتماعی هوش مصنوعی را در جیب خود داشته باشند».
این سامانه می‌تواند همزمان با اینکه یک شرکت کننده صحبت می‌کند، صدا را پردازش و متن را رونویسی کند و سیگنال‌های فیزیولوژیکی را برای تعیین لحن کلی صحبت‌ها با دقت ۸۳ درصد تجزیه و تحلیل کند. با استفاده از روش یادگیری عمیق، این سامانه همچنین می‌تواند یک نمره احساسی ویژه برای فواصل پنج ثانیه‌ای از مکالمه فراهم کند.
قاسمی می‌گوید: «تا آنجا که ما می‌دانیم، این آزمایش نخستین آزمایشی است که هر دو داده‌های فیزیکی و گفتاری را با روش انفعالی اما مقاوم جمع‌آوری می‌کند، حتی زمانی که افراد تعاملات بدون ساختار و طبیعی دارند. نتایج ما نشان می‌دهد که امکان طبقه‌بندی لحن احساسی مکالمات در زمان واقعی وجود دارد».
این گروه مشتاق است تا به این نکته نیز اشاره کند که سامانه آنها با حفظ حریم شخصی توسعه یافته است: الگوریتم قابل اجرا بر روی دستگاه کاربر از اطلاعات شخصی حفاظت می‌کند. الحانی می‌گوید که نسخه مصرف کننده نیازمند جلب رضایت از افراد درگیر در مکالمه است.
این پوشیدنی هوش مصنوعی چگونه کار می‌کند

مطالعات گذشته در این زمینه اغلب به صورت تصویری نشان می‌دهد که شرکت کنندگان «شاد» هستند یا «غمگین»، یا از آنها می‌خواهد تا به صورت مصنوعی حالت احساسی خاصی داشته باشند. اما این گروه در تلاش برای استخراج عواطف ذاتی بیشتر، از افراد خواست تا یک داستان شاد یا غمگین به انتخاب خود تعریف کنند.
شرکت کنندگان یک Samsung Simband پوشیدند. Samsung Simband یک دستگاه است که شکل موج‌های فیزیولوژیکی با کیفیت بالا از اندازه‌گیری ویژگی‌هایی همچون حرکت، ضربان قلب، فشار خون، جریان خون و دمای پوست را دریافت می‌کند. این سامانه همچنین داده‌های صوتی و رونوشت متن را می‌گیرد تا لحن، فرکانس گام، انرژی، و واژگان را تجزیه وتحلیل کند.
محمد قاسمی و توکا الحانی در حال مکالمه با این دستگاه پوشیدنی

Björn Schuller استاد سامانه‌های پیچیده و هوشمند در دانشگاه پاساو در آلمان که در این پژوهش مشارکتی نداشته می‌گوید: «استفاده این گروه از دستگاه‌های مصرفی موجود در بازار برای جمع‌آوری داده‌های فیزیولوژیکی و داده‌های گفتار نشان می‌دهد که ما چقدر به داشتن چنین ابزارهایی در وسایل روزمره نزدیک هستیم. فناوری به زودی می تواند هوش هیجانی را درک کند و یا حتی خود «احساس» را».
گروه پس از ثبت ۳۱ گفتگوی چند دقیقه‌ای مختلف، دو الگوریتم بر اساس این داده‌ها آموزش داد: یکی طبقه‌بندی ماهیت کلی یک مکالمه به صورت شاد یا غمگین و الگوریتم دوم هر پنجره زمانی پنج ثانیه‌ای از مکالمه را به صورت مثبت، منفی یا خنثی طبقه‌بندی می‌کند.
الحانی اشاره می‌کند که در شبکه‌های عصبی سنتی، تمام ویژگی‌های داده‌ها را برای الگوریتم استخراج می‌کنند. اما این گروه متوجه شد که می‌تواند عملکرد دستگاه را با سازماندهی ویژگی‌های مختلف در لایه‌های گوناگون شبکه بهبود بخشد.
نتایج

در واقع یافته‌های الگوریتم به خوبی با نکاتی که ما انسان‌ها ممکن است انتظار داشته باشیم مطابقت دارد. برای نمونه، مکث‌های طولانی و یک تن آوازی یکنواخت با داستان غمگین همراه بود، در حالی که الگوهای گفتاری متنوع و پر انرژی‌تر با داستان‌های شادتر همراه بود. از نظر زبان بدن نیز داستان غمگین به شدت با افزایش بی‌قراری و فعالیت قلبی عروقی و همچنین حالت‌های خاص مانند قرار دادن یک دست روی صورت ارتباط داشتند.
نمودار تعیین احساسات در زمان واقعی

این مدل به طور متوسط می‌تواند خلق و خوی در هر بازه پنج ثانیه‌ای را با دقتی که تقریباً ۱۸ درصد بالاتر از حالت تصادفی و ۷٫۵ درصد بهتر از روش‌های موجود بود طبقه بندی کند. این گروه در کار آینده امیدوار است برای جمع‌آوری داده‌ها در یک مقیاس بسیار بزرگتر، از دستگاه‌های تجاری همچون Apple Watch که اجازه می‌دهد آنها به راحتی سامانه را درجهان گسترش دهند، استفاده کنند.
الحانی می‌گوید: «گام بعدی ما بهبود الگوریتم برای تک تک احساسات است. پس از آن دستگاه می‌تواند به جای مثبت یا منفی لحظه‌های خسته کننده، ناراحت و هیجان زده را مشخص کند. توسعه فناوری می‌تواند نبض احساسات و عواطف انسانی را در دست بگیرد و به طرز چشمگیری چگونگی ارتباط ما با یکدیگر را بهبود ببخشد».

این هوش مصنوعی پوشیدنی لحن مکالمه را تشخیص می‌دهد! - مجلۀ فناوریهای توان‌افزا و پوشیدنی

انجمن گفتگو استارتاپ و کار آفرینی

انجمن گفتگو استارتاپ و کار آفرینی

تـــوجـــه

پاسخ به موضوع

پیام شما

امکانات اضافی این بخش

نمایش پست ها (ابتدا جدیدترین)

مجوز های ارسال و ویرایش

استارتاپ‌فاروم - انجمن گفتگو استارت‌آپ‌ها

دوستان ما

لینک‌های مفید