حمایت مالی شد
فناوری تشخیص گفتار در حال ایجاد پلی بین انسان و ماشین است، اما نه چندان برای جمعیت جهان. ایا این یک مشکل است؟ یا راه حل؟
ارائه شده توسط بنیاد قطر
به لطف پیشرفت در پردازش گفتار و زبان طبیعی، این امید وجود دارد که روزی بتوانید از دستیار مجازی خود بپرسید بهترین مواد تشکیل دهنده سالاد چیست. در حال حاضر، این امکان وجود دارد که از ابزار خانگی خود بخواهید موسیقی پخش کند یا با فرمان صوتی باز شود، که این ویژگی قبلاً در بسیاری از دستگاه ها یافت شده است.
اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر یک از لهجه‌های دیگر زبان عربی صحبت می‌کنید، که از منطقه‌ای به منطقه‌ای بسیار متفاوت است، جایی که برخی از آنها متقابلاً نامفهوم هستند، داستان متفاوت است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که کنار گذاشته شده‌اید.
این ساختارهای پیچیده احمد علی را برای یافتن راه حلی مجذوب کرد. او مهندس اصلی گروه فناوری‌های زبان عربی در مؤسسه تحقیقات محاسباتی قطر (QCRI) است – بخشی از دانشگاه حمد بن خلیفه بنیاد قطر و بنیان‌گذار ArabicSpeech، «جامعه‌ای که به نفع علم گفتار و فناوری‌های گفتار عربی وجود دارد. "
علی سال‌ها پیش در IBM مجذوب ایده صحبت کردن با ماشین‌ها، لوازم خانگی و ابزارها شد. آیا می‌توانیم دستگاهی بسازیم که قادر به درک لهجه‌های مختلف باشد – یک پزشک اطفال مصری برای خودکار کردن نسخه، یک معلم سوری برای کمک به بچه‌ها در دریافت بخش‌های اصلی درسشان، یا یک آشپز مراکشی که بهترین دستور پخت کوسکوس را توصیف می‌کند؟» او بیان می کند. با این حال، الگوریتم‌هایی که این ماشین‌ها را نیرو می‌دهند، نمی‌توانند تقریباً 30 نوع زبان عربی را غربال کنند، چه رسد به اینکه آنها را معنا کنند. امروزه اکثر ابزارهای تشخیص گفتار فقط به زبان انگلیسی و تعداد انگشت شماری از زبان های دیگر کار می کنند.
همه‌گیری ویروس کرونا باعث تقویت اتکای فزاینده به فناوری‌های صوتی شده است، جایی که روشی که فناوری‌های پردازش زبان طبیعی به مردم کمک می‌کند از دستورالعمل‌های ماندن در خانه و اقدامات فاصله‌گذاری فیزیکی پیروی کنند. با این حال، در حالی که ما از دستورات صوتی برای کمک به خرید تجارت الکترونیک و مدیریت خانواده خود استفاده می کنیم، در آینده برنامه های کاربردی بیشتری وجود دارد.
میلیون‌ها نفر در سراسر جهان از دوره‌های آنلاین باز گسترده (MOOC) برای دسترسی آزاد و مشارکت نامحدود آن استفاده می‌کنند. تشخیص گفتار یکی از ویژگی‌های اصلی در MOOC است که در آن دانش‌آموزان می‌توانند در قسمت‌های خاصی در محتوای گفتاری دوره‌ها جستجو کنند و ترجمه را از طریق زیرنویس فعال کنند. فناوری گفتار، سخنرانی ها را دیجیتالی می کند تا کلمات گفتاری را به عنوان متن در کلاس های درس دانشگاه نمایش دهد.
بر اساس مقاله اخیر در مجله فناوری گفتار، پیش‌بینی می‌شود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیون‌ها مصرف‌کننده و شرکت در سراسر جهان به ربات‌های صوتی تکیه می‌کنند نه تنها برای تعامل با دستگاه‌ها یا خودروهای خود، بلکه همچنین برای بهبود خدمات مشتری، هدایت نوآوری های مراقبت های بهداشتی، و بهبود دسترسی و فراگیری برای افرادی که دارای مشکلات شنوایی، گفتاری یا حرکتی هستند.
در نظرسنجی سال 2019، Capgemini پیش‌بینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرف‌کننده به جای بازدید از فروشگاه‌ها یا شعب بانک، دستیار صوتی را انتخاب می‌کنند. سهمی که با توجه به زندگی و تجارت خانگی و از نظر فیزیکی دور از خانه که بیش از یک سال و نیم است که این بیماری همه گیر بر جهان تحمیل کرده است، می تواند به طور موجه افزایش یابد.
با این وجود، این دستگاه‌ها قادر به تحویل به بخش‌های وسیعی از جهان نیستند. برای آن 30 نوع زبان عربی و میلیون ها نفر، این یک فرصت از دست رفته است.
ربات‌های صوتی انگلیسی یا فرانسوی زبان بسیار عالی هستند. با این حال، آموزش ماشین‌ها برای درک زبان عربی به دلایل مختلفی دشوار است. اینها سه چالش رایج شناخته شده هستند:
علی می گوید: «اما میدان با سرعت رعد و برق در حال حرکت است. این یک تلاش مشترک بین بسیاری از محققان است تا آن را حتی سریعتر کنند. آزمایشگاه فناوری زبان عربی علی پروژه ArabicSpeech را برای گردآوری ترجمه های عربی با گویش های بومی هر منطقه رهبری می کند. به عنوان مثال، گویش های عربی را می توان به چهار گویش منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، با توجه به اینکه لهجه ها با مرزها مطابقت ندارند، این می تواند به اندازه یک گویش در هر شهر دقیق باشد. برای مثال، یک زبان مادری مصری می‌تواند بین لهجه اسکندریه خود از همشهری خود از اسوان (فاصله 1000 کیلومتری روی نقشه) تفاوت قائل شود.
در این مرحله، ماشین‌ها تقریباً به اندازه رونویس‌کنندگان انسان دقیق هستند، تا حد زیادی به لطف پیشرفت‌ها در شبکه‌های عصبی عمیق، زیرشاخه‌ای از یادگیری ماشین در هوش مصنوعی که بر الگوریتم‌های الهام‌گرفته از نحوه عملکرد مغز انسان، از نظر بیولوژیکی و عملکردی متکی است. با این حال، تا همین اواخر، تشخیص گفتار با هم کمی هک شده بود. این فناوری سابقه تکیه بر ماژول های مختلف برای مدل سازی آکوستیک، ساخت واژگان تلفظ و مدل سازی زبان را دارد. همه ماژول هایی که نیاز به آموزش جداگانه دارند. اخیراً، محققان مدل‌هایی را آموزش داده‌اند که ویژگی‌های صوتی را مستقیماً به رونویسی متن تبدیل می‌کنند و به طور بالقوه همه قسمت‌ها را برای کار نهایی بهینه می‌کنند.
حتی با وجود این پیشرفت‌ها، علی هنوز نمی‌تواند به اکثر دستگاه‌ها به زبان عربی مادری خود فرمان صوتی بدهد. او می‌گوید: «سال 2021 است و من هنوز نمی‌توانم با بسیاری از دستگاه‌ها به گویش خود صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می‌تواند انگلیسی من را بفهمد، اما تشخیص ماشینی گفتار عربی چند گویش هنوز اتفاق نیفتاده است.»
تحقق این امر محور کار علی است که در اولین تبدیل کننده برای تشخیص گفتار عربی و لهجه های آن به اوج خود رسیده است. یکی که تا به حال به عملکرد بی نظیری دست یافته است. این فناوری که QCRI Advanced Transcription System نام دارد، در حال حاضر توسط شبکه های پخش الجزیره، DW و BBC برای رونویسی محتوای آنلاین استفاده می شود.
چند دلیل وجود دارد که علی و تیمش در حال حاضر در ساخت این موتورهای گفتاری موفق بوده اند. او در درجه اول می گوید: «نیاز به داشتن منابع در همه گویش ها وجود دارد. ما باید منابعی را ایجاد کنیم تا بتوانیم این مدل را آموزش دهیم.» پیشرفت در پردازش کامپیوتری به این معنی است که یادگیری ماشین فشرده محاسباتی اکنون در یک واحد پردازش گرافیکی اتفاق می افتد، که می تواند به سرعت گرافیک های پیچیده را پردازش و نمایش دهد. همانطور که علی می گوید، "ما یک معماری عالی، ماژول های خوب و داده هایی داریم که واقعیت را نشان می دهد."
محققان QCRI و Kanari AI اخیراً مدل‌هایی ساخته‌اند که می‌توانند به برابری انسانی در اخبار پخش عربی دست یابند. این سیستم تأثیر زیرنویس کردن گزارش‌های روزانه الجزیره را نشان می‌دهد. در حالی که میزان خطای انسانی انگلیسی (HER) حدود 5.6٪ است، این تحقیق نشان داد که HER عربی به طور قابل توجهی بالاتر است و به دلیل پیچیدگی صرفی در زبان و فقدان قوانین املایی استاندارد در عربی گویش، می تواند به 10٪ برسد. به لطف پیشرفت‌های اخیر در یادگیری عمیق و معماری پایان به انتها، موتور تشخیص گفتار عربی موفق می‌شود در اخبار پخش از سخنرانان بومی پیشی بگیرد.
در حالی که به نظر می رسد تشخیص گفتار عربی استاندارد مدرن به خوبی کار می کند، محققان QCRI و Kanari AI غرق در آزمایش مرزهای پردازش گویش و دستیابی به نتایج عالی هستند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، توجه به گویش چیزی است که ما به آن نیاز داریم تا بتوانیم دستیاران صوتی خود را درک کنند.
این محتوا توسط موسسه تحقیقات محاسبات قطر ، دانشگاه حمد بن خلیفه، عضو بنیاد قطر نوشته شده است. این توسط هیات تحریریه MIT Technology Review نوشته نشده است.
غول‌های فناوری میلیون‌ها دلار به اپراتورهای صفحات کلیک می‌پردازند و از خراب شدن اکوسیستم‌های اطلاعاتی در سراسر جهان حمایت مالی می‌کنند.
انرژی خورشیدی می تواند سفرهای فضایی را در مصرف سوخت بیشتر کند.  
مقامات فرانسوی در اوایل سال جاری به خرید ابزار نظارتی بحث برانگیز Pegasus از NSO نزدیک بودند. اکنون ایالات متحده این شرکت اسرائیلی را تحریم کرده است و خودی ها می گویند که این شرکت در طناب است.
چگونه یک ویروس شناس کهنه کار شواهد تازه ای برای تأیید این نظریه پیدا کرد که کووید از حیوانات به انسان ها در یک بازار بدنام چین جهش کرده است – به جای اینکه از نشت آزمایشگاهی ظاهر شود.
پیشنهادهای ویژه، داستان های برتر، رویدادهای آینده و موارد دیگر را کشف کنید.
از اینکه ایمیل خود را ثبت کردید، متشکریم!
به نظر می رسد مشکلی پیش آمده است.
ما در ذخیره تنظیمات برگزیده شما با مشکل روبرو هستیم. سعی کنید این صفحه را بازخوانی کنید و یک بار دیگر آنها را به روز کنید. اگر همچنان این پیام را دریافت می‌کنید، با فهرستی از خبرنامه‌هایی که می‌خواهید دریافت کنید، از طریق customer-service@technologyreview.com با ما تماس بگیرید.
ماموریت ما این است که از طریق روزنامه نگاری معتبر، تأثیرگذار و قابل اعتماد، تصمیمات آگاهانه تر و آگاهانه تر در مورد فناوری را اتخاذ کنیم.
اشتراک در برای حمایت از روزنامه نگاری ما
© 2021 بررسی فناوری MIT

source

توسط techkhabari