هدفونهای هوش مصنوعی که قادر به ترجمه همزمان صحبت چند نفر هستند

هدفونهایی که به فناوری هوش مصنوعی مجهز هستند، میتوانند بهطور همزمان ترجمه گروهی را با شبیهسازی صدا ارائه دهند.
«توچائو چن»(Tuochao Chen)، دانشجوی «دانشگاه واشنگتن»، بهتازگی از یک موزه در مکزیک دیدن کرد. از آنجایی که چن به زبان اسپانیایی تسلط نداشت، به استفاده از یک اپلیکیشن ترجمه بر روی گوشی همراه خود پرداخت و میکروفون را به سمت راهنمای تور گرفت. با این حال، حتی در شرایط آرام موزه، سر و صدای پسزمینه بهقدری زیاد بود که نتیجهای که بهدست آورد، چندان کارآمد نبود.
به نقل از تک اکسپلور، در سالهای اخیر، فناوریهای متنوعی به عرصه آمدهاند که وعده ترجمه روان را میدهند، اما هیچیک از این فناوریها قادر به رفع مشکل چن در محیطهای عمومی نبودند. بهعنوان مثال، عینکهای نوین شرکت «متا»(Meta) به یک بلندگوی جداگانه نیاز دارند و فقط پس از کامل شدن صحبت گوینده، ترجمهای صوتی را ارائه میدهند.
اکنون چن و گروهی از محققان «دانشگاه واشنگتن»، یک سیستم هدفون توسعه دادهاند که قابلیت ترجمه همزمان گفتار چند گوینده را داراست و در عین حال، کیفیت و سمت صدای آنها را نیز حفظ میکند. این تیم پژوهشی، این سیستم را با استفاده از هدفونهای نویزگیر موجود در بازار که به میکروفون مجهزند، طراحی کردهاند. الگوریتمهای بهکار رفته در این پروژه، توانایی تفکیک گویندگان مختلف در یک محیط را دارند، بهطوریکه آنها را در حین حرکت دنبال کرده، گفتارشان را ترجمه میکنند و با تأخیری در حدود دو تا چهار ثانیه پخش مینمایند.
«شیام گولاکوتا»(Shyam Gollakota)، استاد دانشکده علوم رایانه و مهندسی دانشگاه واشنگتن و یکی از پژوهشگران اصلی این پروژه اظهار داشت: کد دستگاه در دسترس عموم قرار دارد تا دیگران بتوانند بر اساس آن فعالیت کنند. سایر فناوریهای ترجمه معمولاً بر این پیشفرض بنا شدهاند که تنها یک نفر در حال صحبت است، اما در واقعیت نمیتوان به تنها یک صدای رباتیک اکتفا کرد که بهطور همزمان صحبتهای چند نفر را در یک اتاق ارائه دهد. برای نخستین بار توانستهایم صدای هر فرد و سمت صدای وی را حفظ کنیم.
این سیستم دارای سه نوآوری کلیدی است. نخستین نوآوری این است که به محض روشن شدن، بهسرعت میتواند تعداد گویندگان موجود در فضای داخلی یا خارجی را شناسایی کند. چن توضیح داد: الگوریتمهای ما بهطور مشابه به تجهیزات رادار عمل میکنند؛ بهگونهای که محیط را با زاویه ۳۶۰ درجه مورد آنالیز قرار میدهند و بهطور مداوم بهروزرسانی شده تا تعداد گویندگان فعال را مشخص سازند.
سپس، این سیستم گفتار را ترجمه کرده و کیفیت بیان و بلندی صدای هر گوینده را هنگام پخش بر روی دستگاههایی با چیپست «Apple M۲»، نظیر لپتاپها و هدست «اپل ویژن پرو»(Apple Vision Pro) حفظ میکند. پژوهشگران به دلیل نگرانیهای مرتبط با حریم خصوصی در مبحث شبیهسازی صدا، از استفاده از محاسبات ابری پرهیز کردند. در نهایت، هنگامی که گویندگان حرکت میکنند، سیستم به ردیابی سمت و کیفیت صدای آنها به همراه تغییراتی که اعمال میشود، ادامه میدهد.
این سیستم در ۱۰ محیط مختلف اعم از داخلی و خارجی آزمایش گردید و نتایج یک آزمایش با ۲۹ شرکتکننده نشان داد که کاربران این سیستم را به مدلهای بدون ردیابی صدای گویندگان ترجیح میدهند.
در یک آزمایش مستقل دیگر، چشمگیر آن بود که اکثر شرکتکنندگان تأخیری در حدود سه تا چهار ثانیه را به تأخیر یک تا دو ثانیهای ترجیح دادند، زیرا در دومین حالت، خطاهای بیشتری رخ میداد. این گروه پژوهشی در تلاشاند تا سرعت ترجمه در نسخههای آتی را کاهش دهند. هماکنون، این سیستم تنها بر روی گفتار روزمره عملکرد دارد و نه زبانهای تخصصی نظیر اصطلاحات فنی. پژوهشگران در این پروژه بهخصوص با زبانهای اسپانیایی، آلمانی و فرانسوی کار کردند، اما تحقیقات پیشین در زمینه مدلهای ترجمه نشان داده است که قابلیت آموزش برای ترجمه نزدیک به ۱۰۰ زبان راهم دارا میباشند.
چن اظهار داشت: این یک گام به سوی رفع موانع زبانی بین فرهنگهای مختلف است. بنابراین، اگر من در خیابان مکزیک قدم بزنم، حتی بدون تسلط به زبان اسپانیایی نیز قادر خواهم بود تا صدای همه افراد را ترجمه کرده و بدانم هر یک چه گفته است.