گوگل مدل زبانی جدیدی را معرفی کرد + فیلم
حجم ویدیو: 17.63M | مدت زمان ویدیو: 00:02:59

به گزارش رکنا به نقل از گجت‌نو، محققان گوگل مدل زبانی«AudioPaLM» را معرفی کرده‌اند که دارای یک معماری چندوجهی است و می‌تواند در گوش دادن، صحبت کردن و ترجمه خوب عمل کند. آدیوپالم با توانایی خود در مدیریت زبان‌های مختلف و حفظ صداهای متمایز، ابزاری قدرتمند برای برنامه‌های مرتبط با زبان است.

این مدل با ترکیب قابلیت‌های مدل زبان بزرگ پالم-2 که گوگل طی رویداد2023 خود رونمایی کرد و مدل صوتی تولیدی آن آدیو‌ال‌ام که سال گذشته منتشر شد، ساخته شده است. آدیوپالم یک چارچوب جامع چندوجهی ایجاد می کند که قادر به مدیریت و تولید هر دو زبان گفتاری و نوشتار است.

پالم-2 و آدیو‌ال‌ام  دو مدل موجود هستند که در یک معماری چندوجهی به نام آدیوپالم ترکیب شده‌اند. این سیستم قادر است هم متن و گفتار را مدیریت کند و می تواند برای تولید ترجمه با صدای فرد یا برای تشخیص گفتار استفاده شود.

 پالم-2 یک مدل زبان مبتنی بر متن است که در درک اطلاعات زبانی خاص ماهر است. آدیو‌ال‌ام اطلاعات فرازبانی مانند شناسایی لحن گوینده را به خوبی به خاطر می‌سپارد.

مدل آدیوپالم با ادغام این دو مدل، از قابلیت‌های زبانی پالم-2 و حفظ اطلاعات فرازبانی آدیو‌ال‌ام برای تولید متن و صدایی که به طور کامل درک می‌شود، استفاده می‌کند. این قابلیت می تواند برای برنامه های کاربردی دنیای واقعی مانند ارتباطات چند زبانه آنی مفید باشد.

علاوه بر این، آدیوپالم می‌تواند صداهای جداگانه را به زبان‌های دیگر ضبط و منتشر کند و بر اساس دستورالعمل‌های گفتاری کوتاه، صداها را بین زبان‌ها منتقل کند.

در فیلم زیر می‌توانید نمونه‌ای از کار  آدیوپالم را مشاهده کنید که در آن افراد به زبان خودشان صحبت می‌کنند و این مدل آن را به زبان انگلیسی ترجمه می‌کند.