» اخبار » AudioPaLM: یک مدل زبان که می تواند گوش کند، صحبت کند و ترجمه کند
اخبار

AudioPaLM: یک مدل زبان که می تواند گوش کند، صحبت کند و ترجمه کند

دی 11, 1348 2035

AudioPaLM یک معماری چندوجهی است که به آرامی دو مدل قدرتمند موجود، PaLM-2 و AudioLM را ادغام می‌کند تا از قابلیت‌های خود ایجاد شده توسط Google استفاده کند. PaLM-2، یک مدل زبان مبتنی بر متن، درک کاملی از پیچیدگی های زبانی منحصر به فرد برای محتوای متنی دارد.

AudioLM، از سوی دیگر، در ثبت عوامل فرازبانی مانند شناسایی و لحن گوینده برتر است. اما AudioPaLM با ترکیب این مدل‌ها به درک و تولید گسترده متن و گفتار دست می‌یابد و معیارهای جدیدی را برای سیستم‌های هوش مصنوعی آینده تعیین می‌کند.

نمای اجمالی AudioPaLM

نوآوری کلیدی پشت AudioPaLM این است که به طور موثر گفتار و متن را با استفاده از تعداد محدودی از نشانه‌های مجزا نشان می‌دهد. این پیشرفت، امکان ادغام بسیاری از وظایف، مانند تشخیص صدا، سنتز متن به گفتار، و ترجمه گفتار به گفتار را در یک معماری و روش آموزشی واحد فراهم می‌کند.

تست و ارزیابی گسترده نشان داده است که AudioPaLM از سیستم‌های ترجمه صوتی قبلی بهتر عمل می‌کند. با کمال تعجب، می‌تواند ترجمه صفر شات گفتار به متن را برای جفت‌های زبانی که قبلاً هرگز با آن‌ها مواجه نشده بود، اجرا کند. این ظرفیت بی‌نظیر به کاربران اجازه می‌دهد تا به راحتی در میان موانع زبانی گفتگو کنند، و اتصال جهانی را مانند قبل ممکن می‌سازد.

Audiopalm

AudioPaLM همچنین دارای ویژگی منحصربه‌فرد انتقال صداها به زبان‌ها بر اساس دستورات گفتاری کوتاه است. کاربران اکنون می توانند با حفظ ویژگی های صوتی متمایز خود، حتی در هنگام برقراری ارتباط به بسیاری از زبان ها، به راحتی به زبان انتخابی خود ارتباط برقرار کنند. این کشف پیامدهای گسترده‌ای برای افراد و سازمان‌های چندزبانه دارد که در محیط‌های زبانی مختلف فعالیت می‌کنند.

معرفی

تبدیل گفتار به گفتار

مدل زبان AudioPaLM توانایی خود را در تبدیل گفتار به گفتار با حفظ صدای گوینده اصلی حتی در صدای ترجمه شده ثابت کرده است. این کشف با آزمایش کامل بر روی مجموعه داده های CVSS-T امکان پذیر شد که معیار جدیدی را در ترجمه های زبان ایجاد می کند و اعتبار ارتباطات را در میان موانع زبانی بهبود می بخشد.

مقایسه خروجی صوتی ترجمه به چندین ستون تقسیم می‌شود:

صدای اصلی در مثال CVSS-T: این نشان‌دهنده محتوای صوتی اولیه ارائه‌شده به زبان مشخص‌شده است.
نمونه صوتی CVSS-T در زبان مقصد: این ستون خروجی صوتی مجموعه داده‌های CVSS-T را به زبان مقصد نمایش می‌دهد.
این ستون، خروجی صوتی مجموعه داده‌های CVSS-T را در زبان مقصد نشان می‌دهد. به زبان مقصد و در عین حال که لهجه انگلیسی گوینده حفظ می شود.
صوت به زبان مقصد بدون حفظ صدا: این ستون خروجی Translatotron 2 را نشان می دهد، همانطور که در کار جیا و همکاران به تفصیل شرح داده شده است. (2022)، بدون ویژگی خاص حفظ صدا.

Audiopalm

تبدیل گفتار به متن

ترجمه انگلیسی صدای اصلی توسط AudioPaLM یک موفقیت بزرگ است. ذکر این نکته ضروری است که ترجمه اغلب شامل خوانش‌های معتبر است که به انعطاف‌پذیری بیشتری در انتقال معنای جمله اجازه می‌دهد. همچنین باید به خاطر داشته باشید که چندین رویکرد معتبر برای ترجمه یک جمله وجود دارد.

بنابراین، در نتیجه، برای همسویی کامل با مراجع ارائه شده در مجموعه داده CVSS-T، نیازی به ترجمه صحیح نیست. در حال حاضر، AudioPaLM خروجی با علائم نگارشی تولید نمی کند زیرا داده های آموزشی فاقد آنها هستند. ممکن است در آینده AudioPaLM علائم نگارشی را نیز در خروجی ادغام کند.

Audiopalm

زبان بومی به انگلیسی

ساختن یک فیلم در وب سایت AudioPalLM که در آن همه به زبان مادری خود صحبت می کنند و AudioPalM آن را به انگلیسی ترجمه می کند فوق العاده است و نشان می دهد که چگونه یک مدل واحد می تواند همه این زبان های مختلف را بفهمد و ترجمه کند.

مثالی برای هندی

Audiopalm

مثال برای آلمانی

Audiopalm

همانطور که چشم انداز هوش مصنوعی در حال تکامل است، برنامه های کاربردی فناوری هایی مانند AudioPaLM در حال تغییر صنایع مختلف از جمله آموزش، کسب و کار، مراقبت های بهداشتی و غیره هستند. با پیشروی گوگل در این سفر تحول آفرین، آینده ارتباطات و درک مبتنی بر هوش مصنوعی روشن تر از همیشه به نظر می رسد.

همچنین بخوانید: همچنین ممکن است راهنمای ما در مورد نتیجه گیری

محققان Google AudioPaLM را اختراع کرده‌اند، یک مدل زبان جدید که می‌تواند با دقت باورنکردنی گوش کند، صحبت کند و ترجمه کند. AudioPaLM با ادغام نقاط قوت دو مدل فعلی، درک جامع و ایجاد متن و گفتار را فراهم می کند. این پیشرفت، پتانسیل جالبی را برای ارتباط و درک بین زبانی ایجاد می کند و نحوه تعامل ما با فناوری هوش مصنوعی را تغییر می دهد.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×