سیستم تشخیص گفتار مایکروسافت به اندازه یک انسان دقیق است!

تعداد بازدید 665 پنج شنبه , 1396/03/11

پس از 25 سال تلاش، اینک سیستم تشخیص گفتار مایکروسافت (Microsoft Speech Recognition) به اندازه یک انسان واقعی دقیق شده است. به گفته محققان، هدف بعدی به جای تشخیص، درک مکالمه توسط این سیستم است. جزئیات بیشتری از این دستاورد بزرگ را در ادامه مطالعه خواهید کرد.
محققان مایکروسافت 25 سال مشغول ساخت یک تکنولوژی فوق‌العاده مهم برای بشریت بوده‌اند. سیستم تشخیص گفتار مایکروسافت ظاهرا پس از مدت‌ها آزمون و خطا موفق شده نرخ خطای بسیار اندک 5.1 درصدی را از خود به جای بگذارد. این برای نخستین باری است که سیستم مذکور موفق شده به دقت و صراحت مترجمان حرفه‌ای انسانی عمل کند.
یک سال قبل، تیم تحقیقاتی گفتگو و دیالوگ مایکروسافت اعلام کرد که نرخ خطای سیستم تشخیص گفتار این شرکت به 5.9 درصد رسیده است. این نرخ تقریبا همسان با نرخ اشتباهات انسان‌های عادی بود، اما تداوم کار آن‌ها باعث به دست آمدن نرخ 5.1 درصدی شده است که دیگر نزدیک به گفتگوی گویندگان حرفه‌ای انسانی است.
سوییچ‌برد (Switchboard) بخشی از مکالمه‌های تلفنی ضبط شده است که تیم تحقیقاتی مایکروسافت بیش از 20 سال است که از آن برای آزمون سیستم‌های تشخیص گفتار مورد استفاده قرار می‌دهد. از جمله وظایف این برد می‌توان به بازنویسی مکالمه‌های بین افراد غریبه تحت موضوعات مختلفی نظیر ورزش و سیاست اشاره کرد.

به منظور کاهش میزان خطای سیستم در حدود 12 درصد نسبت به معیارهای سال گذشته، این گروه تحقیقاتی مجموعه‌ای از پیشرفت‌ها را در آکوستیک مبتنی بر شبکه و مدل‌های صوتی گنجانده‌اند. در پس ارتقا کلی تمامی اجزای سیستم نیز افزایش تعداد واژگان مدل از 30.000 کلمه به 165.000 کلمه قرار دارد. مهم‌تر از همه محققان چیزی را ثبت کرده‌اند که «حافظه بلند مدت و کوتاه مدت مبتنی بر هر دوره محاوره» نامیده می‌شود. به عبارت ساده‌تر، این بدان معناست که مدل جدید زبان آن‌ها اجازه می دهد سیستم برای مشخص کردن عباراتی خاص، از کل کمالمه‌های ثبت شده در پیشین استفاده کند. این به سیستم اجازه می‌دهد تا به طور مثال اگر بحثی در زمینه ورزش شکل گرفته بود آن شناسایی کند و ترجمه و شناسایی عبارات تخصصی برای آن عملا بدون مشکل باشد.
این تیم عنوان می‌کند همچنان باید بر روی حوزه تشخیص گفتار کار کرد، چرا که این دستاورد جدید هنوز نمی‌تواند کارهای پیچیده‌تری را نظیر تشخیص گفتار در محیط‌های شلوغ و یا سخنرانی با سرعت بسیار زیاد را انجام دهد. “Xuedong Huang” متخصص فنی مایکروسافت اینگونه توضیح می‌دهد:
علاوه بر این‌ها، ما نه تنها مشغول یاد دادن به کامپیوترها برای بازگویی کلمات هستیم، بلکه سعی داریم به آن‌ها فهمیدن معنی و نیت کلمات را نیز آموزش دهیم. حرکت از تشخیص به سمت فهمیدن گفتمان هدف بزرگ بعدی در این تکنولوژی است.
هدف بعدی سیستم تشخیص گفتار مایکروسافت

سیستم تشخیص گفتار مایکروسافت در حال حاضر در سرویس‌هایی همچون کورتانا و مترجک گفتار (Speech Translator) مورد استفاده قرار می‌گیرد و جزئیات آخرین نسخه از آن را نیز می‌توانید از این لینک مشاهده کنید.