Voicebox AI – Meta ChatGPT را مانند Text to Speech AI راه اندازی می کند
Meta، یک شرکت فناوری نوآور که به دلیل پیشرفتهای خود در هوش مصنوعی (AI) شناخته شده است، آخرین پیشرفت خود را اعلام کرده است: Voicebox AI. این مدل تبدیل متن به گفتار مولد پیشگامانه این پتانسیل را دارد که کلام گفتاری را به همان روشی که ChatGPT و Dall-E به ترتیب برای تولید متن و تصویر انجام دادند، تبدیل کند.
Meta امیدوار است با Voicebox شکاف بین ورودیهای متن و خروجیهای صوتی واقعی را پر کند و تجربه صوتی همهجانبهتر و طبیعیتر را در چندین زبان و برنامه ارائه دهد.
Voicebox AI: تبدیل متن به صدا
همانطور که قبلاً گفته شد ، متا جعبه صوتی ، یک مدل متن تولیدی برش به گفتار. با ایجاد نمونه های صوتی واقعی از ورودی های متن، این کشف جدید امیدوار است دنیای کلام را متحول کند.
Voicebox این توانایی را دارد که نحوه مصرف اطلاعات صوتی را به همان روشی که GPT و Dall-E به ترتیب برای تولید متن و تصویر انجام دادند، متحول کند.

فعال کردن گفتار مکالمه و چند زبانه
Voicebox از تخصص متا در رویکردهای آموزشی هوش مصنوعی و مجموعه داده بزرگی از بیش از 50000 ساعت صدای بدون فیلتر استفاده می کند. این مجموعه داده حاوی گفتار ضبطشده و رونوشتهایی از کتابهای صوتی دامنه عمومی است که به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی نوشته شدهاند.
Voicebox در تولید گفتار با صدای مکالمه با آموزش انواع ورودیهای زبانی، شکستن موانع زبانی و تسهیل ارتباط یکپارچه بین طرفهای مختلف برتری دارد.
عملکرد و دقت پیشرفته
محققان در Meta نشان دادند که مدلهای تشخیص گفتار آموزشدیده شده بر روی گفتار مصنوعی تولید شده توسط Voicebox بهتر از مدلهای آموزش داده شده در گفتار واقعی هستند. در واقع، Voicebox تنها 1 درصد کاهش نرخ اشتباه دارد، در مقایسه با افت عظیم 45 تا 70 درصدی که در مدلهای سنتی تبدیل متن به گفتار (TTS) مشاهده میشود.
عملکرد فوقالعاده Voicebox نه تنها درک عالی را ارائه میکند، بلکه شباهت صوتی را نیز بهبود میبخشد و در نتیجه یک تجربه صوتی فراگیرتر و طبیعیتر ایجاد میکند.
تطبیق جریان: روش آموزشی نوول صفر شات
Voicebox با استفاده از یک فرآیند آموزشی انقلابی معروف به Flow Matching، خود را از سیستمهای TTS معمولی متمایز میکند. این رویکرد به مدل اجازه میدهد تا از سیستمهای پیشرفته موجود پیشی بگیرد در حالی که تا ۲۰ برابر سریعتر اجرا میشود.
سیستم هوش مصنوعی متا هم از نظر میزان خطای کلمه (1.9 درصد در مقابل 5.9 درصد) و هم شباهت صوتی (امتیاز ترکیبی 0.681 در مقابل 0.580) از استاندارد صنعت بهتر عمل می کند. Flow Matching به دادههای آموزشی ویژه موضوعی قابل توجهی نیاز ندارد و آن را بسیار سریع و سازگار میکند.
برنامه های بالقوه و پیشرفت های آینده
در حالی که متا برنامه Voicebox یا کد منبع آن را به دلیل نگرانی در مورد سوء استفاده احتمالی در دسترس عموم قرار نداده است، این شرکت مجموعهای از نمونههای صوتی و همچنین گزارش مطالعات اولیه خود را ارائه کرده است. تیم مطالعه طیف وسیعی از برنامههای کاربردی جذاب برای مدلهای گفتاری تولیدی، از جمله کاشت تارهای صوتی، شخصیتهای غیربازیکن واقعی در بازی (NPC) و دستیارهای دیجیتال پیشرفته را پیشبینی میکند.
Voicebox AI یک پیشرفت بزرگ در فناوری تبدیل متن به گفتار است. همانطور که متا کاربردهای مختلف این مدل پیشگام را اصلاح و بررسی میکند، میتوانیم آیندهای را پیشبینی کنیم که در آن سنتز صدا به ارتفاعات جدیدی دست یابد، تعاملات انسان و ماشین را بهبود بخشد و نحوه تعامل ما با اطلاعات صوتی را متحول کند.
به دلیل نگرانی در مورد سوء استفاده احتمالی، برنامه Voicebox و کد منبع هنوز در دسترس عموم نیست.
همچنین بخوانید: متا I-JEPA را راه اندازی کرد، مدلی شبیه به هوش مصنوعی برای ایجاد تصویر انسان
نتیجه گیری
معرفی Voicebox AI توسط Meta نشان دهنده نقطه عطف مهمی در زمینه فناوری تبدیل متن به گفتار است. Voicebox با توانایی خود برای تولید کلیپ های صوتی واقعی از ورودی های متن، امکانات جدیدی را برای تجربه های صوتی طبیعی و همهجانبه باز می کند. Voicebox با آموزش روی مجموعه دادههای متنوعی از گفتار و رونوشتهای ضبطشده، در تولید گفتار محاورهای در چندین زبان برتری دارد.