AudioPaLM: یک مدل زبان که می تواند گوش کند، صحبت کند و ترجمه کند
AudioPaLM یک معماری چندوجهی است که به آرامی دو مدل قدرتمند موجود، PaLM-2 و AudioLM را ادغام میکند تا از قابلیتهای خود ایجاد شده توسط Google استفاده کند. PaLM-2، یک مدل زبان مبتنی بر متن، درک کاملی از پیچیدگی های زبانی منحصر به فرد برای محتوای متنی دارد.
AudioLM، از سوی دیگر، در ثبت عوامل فرازبانی مانند شناسایی و لحن گوینده برتر است. اما AudioPaLM با ترکیب این مدلها به درک و تولید گسترده متن و گفتار دست مییابد و معیارهای جدیدی را برای سیستمهای هوش مصنوعی آینده تعیین میکند.
نمای اجمالی AudioPaLM
نوآوری کلیدی پشت AudioPaLM این است که به طور موثر گفتار و متن را با استفاده از تعداد محدودی از نشانههای مجزا نشان میدهد. این پیشرفت، امکان ادغام بسیاری از وظایف، مانند تشخیص صدا، سنتز متن به گفتار، و ترجمه گفتار به گفتار را در یک معماری و روش آموزشی واحد فراهم میکند.
تست و ارزیابی گسترده نشان داده است که AudioPaLM از سیستمهای ترجمه صوتی قبلی بهتر عمل میکند. با کمال تعجب، میتواند ترجمه صفر شات گفتار به متن را برای جفتهای زبانی که قبلاً هرگز با آنها مواجه نشده بود، اجرا کند. این ظرفیت بینظیر به کاربران اجازه میدهد تا به راحتی در میان موانع زبانی گفتگو کنند، و اتصال جهانی را مانند قبل ممکن میسازد.

AudioPaLM همچنین دارای ویژگی منحصربهفرد انتقال صداها به زبانها بر اساس دستورات گفتاری کوتاه است. کاربران اکنون می توانند با حفظ ویژگی های صوتی متمایز خود، حتی در هنگام برقراری ارتباط به بسیاری از زبان ها، به راحتی به زبان انتخابی خود ارتباط برقرار کنند. این کشف پیامدهای گستردهای برای افراد و سازمانهای چندزبانه دارد که در محیطهای زبانی مختلف فعالیت میکنند.
تبدیل گفتار به گفتار
مدل زبان AudioPaLM توانایی خود را در تبدیل گفتار به گفتار با حفظ صدای گوینده اصلی حتی در صدای ترجمه شده ثابت کرده است. این کشف با آزمایش کامل بر روی مجموعه داده های CVSS-T امکان پذیر شد که معیار جدیدی را در ترجمه های زبان ایجاد می کند و اعتبار ارتباطات را در میان موانع زبانی بهبود می بخشد.
مقایسه خروجی صوتی ترجمه به چندین ستون تقسیم میشود:
صدای اصلی در مثال CVSS-T: این نشاندهنده محتوای صوتی اولیه ارائهشده به زبان مشخصشده است.
نمونه صوتی CVSS-T در زبان مقصد: این ستون خروجی صوتی مجموعه دادههای CVSS-T را به زبان مقصد نمایش میدهد.
این ستون، خروجی صوتی مجموعه دادههای CVSS-T را در زبان مقصد نشان میدهد. به زبان مقصد و در عین حال که لهجه انگلیسی گوینده حفظ می شود.
صوت به زبان مقصد بدون حفظ صدا: این ستون خروجی Translatotron 2 را نشان می دهد، همانطور که در کار جیا و همکاران به تفصیل شرح داده شده است. (2022)، بدون ویژگی خاص حفظ صدا.

تبدیل گفتار به متن
ترجمه انگلیسی صدای اصلی توسط AudioPaLM یک موفقیت بزرگ است. ذکر این نکته ضروری است که ترجمه اغلب شامل خوانشهای معتبر است که به انعطافپذیری بیشتری در انتقال معنای جمله اجازه میدهد. همچنین باید به خاطر داشته باشید که چندین رویکرد معتبر برای ترجمه یک جمله وجود دارد.
بنابراین، در نتیجه، برای همسویی کامل با مراجع ارائه شده در مجموعه داده CVSS-T، نیازی به ترجمه صحیح نیست. در حال حاضر، AudioPaLM خروجی با علائم نگارشی تولید نمی کند زیرا داده های آموزشی فاقد آنها هستند. ممکن است در آینده AudioPaLM علائم نگارشی را نیز در خروجی ادغام کند.

زبان بومی به انگلیسی
ساختن یک فیلم در وب سایت AudioPalLM که در آن همه به زبان مادری خود صحبت می کنند و AudioPalM آن را به انگلیسی ترجمه می کند فوق العاده است و نشان می دهد که چگونه یک مدل واحد می تواند همه این زبان های مختلف را بفهمد و ترجمه کند.
مثالی برای هندی

مثال برای آلمانی

همانطور که چشم انداز هوش مصنوعی در حال تکامل است، برنامه های کاربردی فناوری هایی مانند AudioPaLM در حال تغییر صنایع مختلف از جمله آموزش، کسب و کار، مراقبت های بهداشتی و غیره هستند. با پیشروی گوگل در این سفر تحول آفرین، آینده ارتباطات و درک مبتنی بر هوش مصنوعی روشن تر از همیشه به نظر می رسد.
همچنین بخوانید: همچنین ممکن است راهنمای ما در مورد نتیجه گیری
محققان Google AudioPaLM را اختراع کردهاند، یک مدل زبان جدید که میتواند با دقت باورنکردنی گوش کند، صحبت کند و ترجمه کند. AudioPaLM با ادغام نقاط قوت دو مدل فعلی، درک جامع و ایجاد متن و گفتار را فراهم می کند. این پیشرفت، پتانسیل جالبی را برای ارتباط و درک بین زبانی ایجاد می کند و نحوه تعامل ما با فناوری هوش مصنوعی را تغییر می دهد.