هدفون‌های هوش مصنوعی که قادر به ترجمه هم‌زمان صحبت چند نفر هستند

21 اردیبهشت 1404 - 2:12 ب.ظ

زمان تقریبی مطالعه 3 دقیقه

هدفون‌های هوش مصنوعی که صحبت چندین گوینده را هم‌زمان ترجمه می‌کنند

هدفون‌هایی که به فناوری هوش مصنوعی مجهز هستند، می‌توانند به‌طور هم‌زمان ترجمه گروهی را با شبیه‌سازی صدا ارائه دهند.

«توچائو چن»(Tuochao Chen)، دانشجوی «دانشگاه واشنگتن»، به‌تازگی از یک موزه در مکزیک دیدن کرد. از آن‌جایی که چن به زبان اسپانیایی تسلط نداشت، به استفاده از یک اپلیکیشن ترجمه بر روی گوشی همراه خود پرداخت و میکروفون را به سمت راهنمای تور گرفت. با این حال، حتی در شرایط آرام موزه، سر و صدای پس‌زمینه به‌قدری زیاد بود که نتیجه‌ای که به‌دست آورد، چندان کارآمد نبود.

به نقل از تک اکسپلور، در سال‌های اخیر، فناوری‌های متنوعی به عرصه آمده‌اند که وعده ترجمه روان را می‌دهند، اما هیچ‌یک از این فناوری‌ها قادر به رفع مشکل چن در محیط‌های عمومی نبودند. به‌عنوان مثال، عینک‌های نوین شرکت «متا»(Meta) به یک بلندگوی جداگانه نیاز دارند و فقط پس از کامل شدن صحبت گوینده، ترجمه‌ای صوتی را ارائه می‌دهند.

اکنون چن و گروهی از محققان «دانشگاه واشنگتن»، یک سیستم هدفون توسعه داده‌اند که قابلیت ترجمه هم‌زمان گفتار چند گوینده را داراست و در عین حال، کیفیت و سمت صدای آنها را نیز حفظ می‌کند. این تیم پژوهشی، این سیستم را با استفاده از هدفون‌های نویزگیر موجود در بازار که به میکروفون مجهزند، طراحی کرده‌اند. الگوریتم‌های به‌کار رفته در این پروژه، توانایی تفکیک گویندگان مختلف در یک محیط را دارند، به‌طوری‌که آن‌ها را در حین حرکت دنبال کرده، گفتارشان را ترجمه می‌کنند و با تأخیری در حدود دو تا چهار ثانیه پخش می‌نمایند.

«شیام گولاکوتا»(Shyam Gollakota)، استاد دانشکده علوم رایانه و مهندسی دانشگاه واشنگتن و یکی از پژوهشگران اصلی این پروژه اظهار داشت: کد دستگاه در دسترس عموم قرار دارد تا دیگران بتوانند بر اساس آن فعالیت کنند. سایر فناوری‌های ترجمه معمولاً بر این پیش‌فرض بنا شده‌اند که تنها یک نفر در حال صحبت است، اما در واقعیت نمی‌توان به تنها یک صدای رباتیک اکتفا کرد که به‌طور هم‌زمان صحبت‌های چند نفر را در یک اتاق ارائه دهد. برای نخستین بار توانسته‌ایم صدای هر فرد و سمت صدای وی را حفظ کنیم.

این سیستم دارای سه نوآوری کلیدی است. نخستین نوآوری این است که به محض روشن شدن، به‌سرعت می‌تواند تعداد گویندگان موجود در فضای داخلی یا خارجی را شناسایی کند. چن توضیح داد: الگوریتم‌های ما به‌طور مشابه به تجهیزات رادار عمل می‌کنند؛ به‌گونه‌ای که محیط را با زاویه ۳۶۰ درجه مورد آنالیز قرار می‌دهند و به‌طور مداوم به‌روزرسانی شده تا تعداد گویندگان فعال را مشخص سازند.

سپس، این سیستم گفتار را ترجمه کرده و کیفیت بیان و بلندی صدای هر گوینده را هنگام پخش بر روی دستگاه‌هایی با چیپست «Apple M۲»، نظیر لپ‌تاپ‌ها و هدست «اپل ویژن پرو»(Apple Vision Pro) حفظ می‌کند. پژوهشگران به دلیل نگرانی‌های مرتبط با حریم خصوصی در مبحث شبیه‌سازی صدا، از استفاده از محاسبات ابری پرهیز کردند. در نهایت، هنگامی که گویندگان حرکت می‌کنند، سیستم به ردیابی سمت و کیفیت صدای آنها به همراه تغییراتی که اعمال می‌شود، ادامه می‌دهد.

این سیستم در ۱۰ محیط مختلف اعم از داخلی و خارجی آزمایش گردید و نتایج یک آزمایش با ۲۹ شرکت‌کننده نشان داد که کاربران این سیستم را به مدل‌های بدون ردیابی صدای گویندگان ترجیح می‌دهند.

در یک آزمایش مستقل دیگر، چشم‌گیر آن بود که اکثر شرکت‌کنندگان تأخیری در حدود سه تا چهار ثانیه را به تأخیر یک تا دو ثانیه‌ای ترجیح دادند، زیرا در دومین حالت، خطاهای بیشتری رخ می‌داد. این گروه پژوهشی در تلاش‌اند تا سرعت ترجمه در نسخه‌های آتی را کاهش دهند. هم‌اکنون، این سیستم تنها بر روی گفتار روزمره عملکرد دارد و نه زبان‌های تخصصی نظیر اصطلاحات فنی. پژوهشگران در این پروژه به‌خصوص با زبان‌های اسپانیایی، آلمانی و فرانسوی کار کردند، اما تحقیقات پیشین در زمینه مدل‌های ترجمه نشان داده است که قابلیت آموزش برای ترجمه نزدیک به ۱۰۰ زبان راهم دارا می‌باشند.

چن اظهار داشت: این یک گام به سوی رفع موانع زبانی بین فرهنگ‌های مختلف است. بنابراین، اگر من در خیابان مکزیک قدم بزنم، حتی بدون تسلط به زبان اسپانیایی نیز قادر خواهم بود تا صدای همه افراد را ترجمه کرده و بدانم هر یک چه گفته است.

21 اردیبهشت 1404 - 2:12 ب.ظ

زمان تقریبی مطالعه 3 دقیقه

هدفون‌های هوش مصنوعی که قادر به ترجمه هم‌زمان صحبت چند نفر هستند

دیدگاهتان را بنویسید لغو پاسخ

تحلیل روندهای آینده بازار خودرو

هشدار نارنجی؛ بارش intensively باران و آسیب به محصولات کشاورزی در منطقه شمالی کشور

امین حیایی در آب‌های آرام

ایزدی انتقادی اسکوچیچ به طارمی

استاندار مازندران به توضیح درباره نظراتش در خصوص معیشت و حجاب پرداخت؛ آیا امکان دارد که در جامعه اسلامی نسبت به اصول دینی بی‌توجهی شود؟

لندن: نشست آلاسکا فرصتی ایده‌آل برای به پایان رساندن جنگ اوکراین محسوب می‌شود

واکنش حماس به حمله بن گویر به انفرادی «مروان برغوثی»

اخبار جدید درباره “طرح گسترش ایام تعطیل” چیست؟

پیش بینی وضعیت جوی ۱۴۰۴/۰۵/۲۴؛ بارش باران و رعد و برق در تعدادی از نواحی

عکسی از کهنسال‌ترین شتر بدون کوهان در جهان

پند و اخطار مفتی عمان به کسانی که به همکاری با رژیم صهیونیستی پرداخته‌اند

احتمال مشارکت سران اروپایی در نشست پوتین و زلنسکی محتمل است

خرابی خط انتقال و قطع آب در درگز

همکاری سپاهان با یک مهاجم فرانسوی

تشریح جزییات مراسم وداع و دفن پیکر استاد فرشچیان

در ۱۹ روز اخیر، ۱۴۹ نفر جان خود را در حوادث رانندگی از دست دادند

شایعه درباره پیشنهاد برای صیادمنش به گوش رسید

علت‌های تمایل جوانان به مصرف «گل» کدامند؟ یافته‌های یک مطالعه میدانی تازه

معاون اول رئیس جمهور به قرقیزستان سفر کرد

هکرهای روسی سد نروژ را به تصرف خود درآوردند

طرح توجیهی چیست؟

4 سفر داخلی برای بازسازی روحی بعد از شرایط جنگی

چگونه یک قطعی برق ساده می‌تواند میلیون‌ها تومان خسارت به کسب‌و‌کارتان وارد کند؟

چطور خسارت افت قیمت خودرو را دریافت کنیم؟

چطور بدون گرفتن طلاق، مهریه بگیریم؟⚖️【سال1404】

بررسی همراه بانک سپه و چالش‌های آن پس از حمله سایبری؛ راهکارهای جایگزین برای کاربران آیفون

جدول کامل نرخ خودرو امروز + تحلیل بازار

نمایندگی اینوت در لاله زار: راهنمای خرید و خدمات بی‌رقیب

تی‌تایم؛ نرم‌افزار حضور و غیاب آنلاین خبر ساز این روز ها

راهنمای جامع هتل در آنتالیا

نوشته های مشابه

تحلیل روندهای آینده بازار خودرو

هشدار نارنجی؛ بارش intensively باران و آسیب به محصولات کشاورزی در منطقه شمالی کشور

امین حیایی در آب‌های آرام

ایزدی انتقادی اسکوچیچ به طارمی

دیدگاهتان را بنویسید لغو پاسخ