» هوش مصنوعی » Voicebox AI – Meta ChatGPT را مانند Text to Speech AI راه اندازی می کند
هوش مصنوعی

Voicebox AI – Meta ChatGPT را مانند Text to Speech AI راه اندازی می کند

دی 11, 1348 1047

Meta، یک شرکت فناوری نوآور که به دلیل پیشرفت‌های خود در هوش مصنوعی (AI) شناخته شده است، آخرین پیشرفت خود را اعلام کرده است: Voicebox AI. این مدل تبدیل متن به گفتار مولد پیشگامانه این پتانسیل را دارد که کلام گفتاری را به همان روشی که ChatGPT و Dall-E به ترتیب برای تولید متن و تصویر انجام دادند، تبدیل کند.

Meta امیدوار است با Voicebox شکاف بین ورودی‌های متن و خروجی‌های صوتی واقعی را پر کند و تجربه صوتی همه‌جانبه‌تر و طبیعی‌تر را در چندین زبان و برنامه ارائه دهد.

Voicebox AI: تبدیل متن به صدا

همانطور که قبلاً گفته شد ، متا جعبه صوتی ، یک مدل متن تولیدی برش به گفتار. با ایجاد نمونه های صوتی واقعی از ورودی های متن، این کشف جدید امیدوار است دنیای کلام را متحول کند.

Voicebox این توانایی را دارد که نحوه مصرف اطلاعات صوتی را به همان روشی که GPT و Dall-E به ترتیب برای تولید متن و تصویر انجام دادند، متحول کند.

Voicebox Ai

فعال کردن گفتار مکالمه و چند زبانه

Voicebox از تخصص متا در رویکردهای آموزشی هوش مصنوعی و مجموعه داده بزرگی از بیش از 50000 ساعت صدای بدون فیلتر استفاده می کند. این مجموعه داده حاوی گفتار ضبط‌شده و رونوشت‌هایی از کتاب‌های صوتی دامنه عمومی است که به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی نوشته شده‌اند.

Voicebox در تولید گفتار با صدای مکالمه با آموزش انواع ورودی‌های زبانی، شکستن موانع زبانی و تسهیل ارتباط یکپارچه بین طرف‌های مختلف برتری دارد.

عملکرد و دقت پیشرفته

محققان در Meta نشان دادند که مدل‌های تشخیص گفتار آموزش‌دیده شده بر روی گفتار مصنوعی تولید شده توسط Voicebox بهتر از مدل‌های آموزش داده شده در گفتار واقعی هستند. در واقع، Voicebox تنها 1 درصد کاهش نرخ اشتباه دارد، در مقایسه با افت عظیم 45 تا 70 درصدی که در مدل‌های سنتی تبدیل متن به گفتار (TTS) مشاهده می‌شود.

عملکرد فوق‌العاده Voicebox نه تنها درک عالی را ارائه می‌کند، بلکه شباهت صوتی را نیز بهبود می‌بخشد و در نتیجه یک تجربه صوتی فراگیرتر و طبیعی‌تر ایجاد می‌کند.

تطبیق جریان: روش آموزشی نوول صفر شات

Voicebox با استفاده از یک فرآیند آموزشی انقلابی معروف به Flow Matching، خود را از سیستم‌های TTS معمولی متمایز می‌کند. این رویکرد به مدل اجازه می‌دهد تا از سیستم‌های پیشرفته موجود پیشی بگیرد در حالی که تا ۲۰ برابر سریع‌تر اجرا می‌شود.

سیستم هوش مصنوعی متا هم از نظر میزان خطای کلمه (1.9 درصد در مقابل 5.9 درصد) و هم شباهت صوتی (امتیاز ترکیبی 0.681 در مقابل 0.580) از استاندارد صنعت بهتر عمل می کند. Flow Matching به داده‌های آموزشی ویژه موضوعی قابل توجهی نیاز ندارد و آن را بسیار سریع و سازگار می‌کند.

برنامه های بالقوه و پیشرفت های آینده

در حالی که متا برنامه Voicebox یا کد منبع آن را به دلیل نگرانی در مورد سوء استفاده احتمالی در دسترس عموم قرار نداده است، این شرکت مجموعه‌ای از نمونه‌های صوتی و همچنین گزارش مطالعات اولیه خود را ارائه کرده است. تیم مطالعه طیف وسیعی از برنامه‌های کاربردی جذاب برای مدل‌های گفتاری تولیدی، از جمله کاشت تارهای صوتی، شخصیت‌های غیربازیکن واقعی در بازی (NPC) و دستیارهای دیجیتال پیشرفته را پیش‌بینی می‌کند.

Voicebox AI یک پیشرفت بزرگ در فناوری تبدیل متن به گفتار است. همانطور که متا کاربردهای مختلف این مدل پیشگام را اصلاح و بررسی می‌کند، می‌توانیم آینده‌ای را پیش‌بینی کنیم که در آن سنتز صدا به ارتفاعات جدیدی دست یابد، تعاملات انسان و ماشین را بهبود بخشد و نحوه تعامل ما با اطلاعات صوتی را متحول کند.

به دلیل نگرانی در مورد سوء استفاده احتمالی، برنامه Voicebox و کد منبع هنوز در دسترس عموم نیست.

همچنین بخوانید: متا I-JEPA را راه اندازی کرد، مدلی شبیه به هوش مصنوعی برای ایجاد تصویر انسان

نتیجه گیری

معرفی Voicebox AI توسط Meta نشان دهنده نقطه عطف مهمی در زمینه فناوری تبدیل متن به گفتار است. Voicebox با توانایی خود برای تولید کلیپ های صوتی واقعی از ورودی های متن، امکانات جدیدی را برای تجربه های صوتی طبیعی و همهجانبه باز می کند. Voicebox با آموزش روی مجموعه داده‌های متنوعی از گفتار و رونوشت‌های ضبط‌شده، در تولید گفتار محاوره‌ای در چندین زبان برتری دارد.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×