چگونه هوش مصنوعی فعالیت مغزی را به گفتار تبدیل می کند؟ + پادکست

اشتراک گذاری این مطلب:

Share on whatsapp
Share on telegram
Share on email
Share on twitter
Share on print
0 0 vote
Article Rating

چگونه فناوری هوش مصنوعی فعالیت مغزی را با ۹۷ درصد دقت به گفتار تبدیل می کند؟

ایده ی دستگاهی که می تواند افکار شما را رمز گشایی کند ممکن است غیر عادی به نظر برسد اما برای هزاران نفر که قدرت تکلم خود را بر اثر بیماری یا ناتوانی از دست داده اند می تواند بسیار موثر باشد. افراد عادی نیز از طریق ارتباط افکار با دستیار دیجیتال خود قادر به تایپ ایمیل یا هر نوشته ی دیگر خواهند بود در حالی که فقط به آن فکر می کنند!

این دیدگاه ممکن است یه گام به هدف خود نزدیک تر شود زمانی که محققان دانشگاه کالیفرنیا در سان فرانسیسکو نشان دادند که می توان سیگنال های مغزی را با خطای کمتر از سه درصد که از آستانه ی خطای رونوشت گفتار های حرفه ای نیز پایین تر است ، به جملات کامل تبدیل کرد.

در حالی که ما در حدود یک دهه توانسته ایم بخش هایی از گفتار را از سیگنال های مغزی رمز گشایی کنیم ، اما تا کنون اکثر راه حل ها طولانی تر از ترجمه ی مداوم جملات قابل فهم بوده اند.

و اما سال گذشته ، محققان با استفاده از سیگنال های مغزی برای تحریک دستگاه صوتی شبیه سازی شده، از یک روش جدید استفاده کردند که تا کنون به برخی از محال ترین نتایج دست یافته اند، اما فقط ۷۰ درصد کلمات قابل فهم بوده اند.

نکته ی کلیدی برای بهبود عملکرد به دست آمده توسط نویسندگان مقاله ی جدید در Nature neuroscience، درک آن ها از این بود که بین ترجمه ی سیگنال های مغزی به متن و ترجمه ی ماشینی بین زبان ها با استفاده از شبکه های عصبی (neural network)، توازن و برابری قابل توجهی وجود دارد.

در حالی که بیش تر تلاش ها برای رمز گشایی سیگنال های مغز بر روی شناسایی فعالیت های عصبی متناظر با واج های خاص ( تکه های متمایز صدا که کلمات را تولید می کنند) متمرکز شده اند، محققان تصمیم گرفتند که از شیوه ی ترجمه ی ماشینی تقلید کنند که در این روش کل جمله به طور همزمان ترجمه می شود. این یک رویکرد قدرتمند را اثبات کرده است؛ از آن جا که کلمات خاص به احتمال زیاد همیشه نزدیک به هم ظاهر می شوند، سیستم می تواند برای پر کردن شکاف ها به بستر و زمینه متن اعتماد کند.

این تیم از همان رویکرد رمزگذار-رمزگشایی (encoder-decoder) استفاده می کنند که معمولاً برای ترجمه ماشینی مورد استفاده قرار می گیرد، که در آن یک شبکه عصبی سیگنال ورودی ( به طور معمول متن ) را تحلیل می کند. در مغز نیز مطابق با این روش یک شبکه ی عصبی داده های ورودی را بازنمایی می کند و سپس شبکه ی عصبی دوم داده های ورودی را به زبان مقصد ترجمه می کند.

آن ها سیستم خود را با استفاده از فعالیت های مغزی ثبت شده از ۴ خانم ارتقا دادند. الکترود های جاگذاری شده در مغز هنگام خواندن مجموعه ای از ۵۰ جمله که شامل ۲۵۰ کلمه ی منحصر به فرد بود، واکنش های مغز را ارزیابی می کرد. این روش به شبکه اول اجازه داد تا این مسئله را حل کند که کدام فعالیت عصبی با کدام بخش از گفتار به یک دیگر وابسته است

آزمایش فقط به سیگنال های عصبی متکی بود و در ۲ مورد از ۴ موضوع توانست به خطای زیر ۸ درصد برسد که مطابق با انواع دقت به دست آمده توسط گیرنده های حرفه ای است.

به ناچار مشکلاتی و محدودیت هایی در این مسیر وجود دارد. نخست، این سیستم فقط توانایی رمز گشایی ۳۰ تا ۵۰ جمله ی خاص را با استفاده از واژگان محدود به ۲۵۰ کلمه داشت. هم چنین، به افرادی نیاز دارد که التکرود در مغز آن ها قرار داده شود که در حال حاضر فقط برای تعداد محدودی از اهداف بسیار خاص پزشکی مجاز است. با این وجود نشانه هایی وجود دارد که نشان می دهد این مسیر در آینده بسیار موثر و موفق خواهد بود.

یکی از نگرانی ها این بود که چون این سیستم بر روی جملاتی که در داده های آموزشی آن گنجانده شده بود، آزمایش می شد؛ ممکن است به سادگی بیاموزد که جملات خاص را با نشان های عصبی خاص تطبیق دهد. در واقع این نشان می دهد که سیستم، اجزای خاص گفتار را نمی آموزد و این تعمیم دادن به جملات نا آشنا را سخت تر می کند.

اما هنگامی که محققان مجموعه ی دیگری از نگارش های ثبت شده را که در آزمایش قرار نداشت به داده های اولیه اضافه کردند، میزان خطا به طور قابل توجهی کاهش یافت که نشان می دهد این سیستم در حال یادگیری اطلاعات زیر جمله مانند کلمات است.

آن ها همچنین دریافتند که قبل از آموزش نهایی سیستم حتی توسط بدترین مجریان، اگر بر روی سیستم به وسیله ی داده های داوطلب که به بالاترین درجه ی دقت رسیده اند، پیش آموزش انجام گیرد؛ میزان خطا به طور قابل توجهی کاهش می یابد. این نشان می دهد که در برنامه های کاربردی می توان بسیاری از آموزش ها، قبل از اینکه سیستم به کاربر نهایی داده شود، انجام شود و کاربر فقط باید آن را با توجه به تغییرات سیگنال های مغز خود تنظیم کند.

واژگان چنین سیستمی به احتمال زیاد با پیشرفت افراد بر روی این رویکرد به طور قابل توجهی بهبود می یابد. اما حتی یک صفحه محدود متشکل از ۲۵۰ کلمه می تواند برای افراد ناتوان و فاقد قدرت تکلم به طور شگفت انگیزی مفید باشد و به احتمال زیاد می تواند برای کنترل تله پاتیک سایر دستگاه ها به وسیله ی مجموعه ای از دستورات خاص مناسب باشد.

و حال چالش نوظهوری که برای شرکت ها، مخصوصا از نوع دانش بنیان بوجود آمده تا اولین رابط های عصبی کاربردی را به خط تولید برسانند…

🔍 پژوهشگر: صبا حسین زاده پزشکی گیلان

🎙 #پادکست

➖ پادکست های “تصویری” در پیج اینستاگرام انجمن آینده پژوهی علوم پزشکی منتشر می شوند 👇

📲 http://instagram.com/medical_futurology

🆔 @medical_futorlogy

🌐 Medicalfuturology.ir

مربوط پست ها

Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments