هدفون‌های هوش مصنوعی که قادر به ترجمه هم‌زمان صحبت چند نفر هستند

هدفون‌هایی که به فناوری هوش مصنوعی مجهز هستند، می‌توانند به‌طور هم‌زمان ترجمه گروهی را با شبیه‌سازی صدا ارائه دهند.

«توچائو چن»(Tuochao Chen)، دانشجوی «دانشگاه واشنگتن»، به‌تازگی از یک موزه در مکزیک دیدن کرد. از آن‌جایی که چن به زبان اسپانیایی تسلط نداشت، به استفاده از یک اپلیکیشن ترجمه بر روی گوشی همراه خود پرداخت و میکروفون را به سمت راهنمای تور گرفت. با این حال، حتی در شرایط آرام موزه، سر و صدای پس‌زمینه به‌قدری زیاد بود که نتیجه‌ای که به‌دست آورد، چندان کارآمد نبود.

به نقل از تک اکسپلور، در سال‌های اخیر، فناوری‌های متنوعی به عرصه آمده‌اند که وعده ترجمه روان را می‌دهند، اما هیچ‌یک از این فناوری‌ها قادر به رفع مشکل چن در محیط‌های عمومی نبودند. به‌عنوان مثال، عینک‌های نوین شرکت «متا»(Meta) به یک بلندگوی جداگانه نیاز دارند و فقط پس از کامل شدن صحبت گوینده، ترجمه‌ای صوتی را ارائه می‌دهند.

اکنون چن و گروهی از محققان «دانشگاه واشنگتن»، یک سیستم هدفون توسعه داده‌اند که قابلیت ترجمه هم‌زمان گفتار چند گوینده را داراست و در عین حال، کیفیت و سمت صدای آنها را نیز حفظ می‌کند. این تیم پژوهشی، این سیستم را با استفاده از هدفون‌های نویزگیر موجود در بازار که به میکروفون مجهزند، طراحی کرده‌اند. الگوریتم‌های به‌کار رفته در این پروژه، توانایی تفکیک گویندگان مختلف در یک محیط را دارند، به‌طوری‌که آن‌ها را در حین حرکت دنبال کرده، گفتارشان را ترجمه می‌کنند و با تأخیری در حدود دو تا چهار ثانیه پخش می‌نمایند.

«شیام گولاکوتا»(Shyam Gollakota)، استاد دانشکده علوم رایانه و مهندسی دانشگاه واشنگتن و یکی از پژوهشگران اصلی این پروژه اظهار داشت: کد دستگاه در دسترس عموم قرار دارد تا دیگران بتوانند بر اساس آن فعالیت کنند. سایر فناوری‌های ترجمه معمولاً بر این پیش‌فرض بنا شده‌اند که تنها یک نفر در حال صحبت است، اما در واقعیت نمی‌توان به تنها یک صدای رباتیک اکتفا کرد که به‌طور هم‌زمان صحبت‌های چند نفر را در یک اتاق ارائه دهد. برای نخستین بار توانسته‌ایم صدای هر فرد و سمت صدای وی را حفظ کنیم.

این سیستم دارای سه نوآوری کلیدی است. نخستین نوآوری این است که به محض روشن شدن، به‌سرعت می‌تواند تعداد گویندگان موجود در فضای داخلی یا خارجی را شناسایی کند. چن توضیح داد: الگوریتم‌های ما به‌طور مشابه به تجهیزات رادار عمل می‌کنند؛ به‌گونه‌ای که محیط را با زاویه ۳۶۰ درجه مورد آنالیز قرار می‌دهند و به‌طور مداوم به‌روزرسانی شده تا تعداد گویندگان فعال را مشخص سازند.

سپس، این سیستم گفتار را ترجمه کرده و کیفیت بیان و بلندی صدای هر گوینده را هنگام پخش بر روی دستگاه‌هایی با چیپست «Apple M۲»، نظیر لپ‌تاپ‌ها و هدست «اپل ویژن پرو»(Apple Vision Pro) حفظ می‌کند. پژوهشگران به دلیل نگرانی‌های مرتبط با حریم خصوصی در مبحث شبیه‌سازی صدا، از استفاده از محاسبات ابری پرهیز کردند. در نهایت، هنگامی که گویندگان حرکت می‌کنند، سیستم به ردیابی سمت و کیفیت صدای آنها به همراه تغییراتی که اعمال می‌شود، ادامه می‌دهد.

این سیستم در ۱۰ محیط مختلف اعم از داخلی و خارجی آزمایش گردید و نتایج یک آزمایش با ۲۹ شرکت‌کننده نشان داد که کاربران این سیستم را به مدل‌های بدون ردیابی صدای گویندگان ترجیح می‌دهند.

در یک آزمایش مستقل دیگر، چشم‌گیر آن بود که اکثر شرکت‌کنندگان تأخیری در حدود سه تا چهار ثانیه را به تأخیر یک تا دو ثانیه‌ای ترجیح دادند، زیرا در دومین حالت، خطاهای بیشتری رخ می‌داد. این گروه پژوهشی در تلاش‌اند تا سرعت ترجمه در نسخه‌های آتی را کاهش دهند. هم‌اکنون، این سیستم تنها بر روی گفتار روزمره عملکرد دارد و نه زبان‌های تخصصی نظیر اصطلاحات فنی. پژوهشگران در این پروژه به‌خصوص با زبان‌های اسپانیایی، آلمانی و فرانسوی کار کردند، اما تحقیقات پیشین در زمینه مدل‌های ترجمه نشان داده است که قابلیت آموزش برای ترجمه نزدیک به ۱۰۰ زبان راهم دارا می‌باشند.

چن اظهار داشت: این یک گام به سوی رفع موانع زبانی بین فرهنگ‌های مختلف است. بنابراین، اگر من در خیابان مکزیک قدم بزنم، حتی بدون تسلط به زبان اسپانیایی نیز قادر خواهم بود تا صدای همه افراد را ترجمه کرده و بدانم هر یک چه گفته است.

نوشته های مشابه

دیدگاهتان را بنویسید

دکمه بازگشت به بالا