Bark: Text to Speech ابزار جدید هوش مصنوعی
در دنیای امروز، نیاز قابل توجهی به مواد صوتی با کیفیت بالا وجود دارد و راه حل های استاندارد تبدیل متن به گفتار دیگر کافی نیستند.
Bark tts، یک مدل متن به گفتار انقلابی که دنیای هوش مصنوعی را طوفانی کرده است، در اینجا وارد عمل می شود. Bark گفتار بسیار واقعی و چند زبانه و همچنین موسیقی و جلوه های صوتی اولیه را ارائه می دهد. پوست درخت به دلیل ظرفیت آن در انتقال ارتباطات غیرکلامی مانند خنده، آه و هق هق یک ابزار ارزشمند برای طیف وسیعی از کاربردها است. در این پست، ویژگیها و مزایای Bark و همچنین نحوه استفاده از آن برای تولید محتوای صوتی با کیفیت بالا برای پلتفرمهای مختلف را با دقت بیشتری بررسی خواهیم کرد.
استفاده از Bark: مدلی همه کاره از متن به گفتار برای شما محتوای صوتی
مدل متن به گفتار انقلابی ایجاد شده توسط سونو. با Bark می توانید گفتار بسیار واقعی و چند زبانه و همچنین صداهای دیگر از جمله موسیقی، نویز پس زمینه و جلوه های صوتی ساده تولید کنید. در اینجا چند راه وجود دارد که Bark می تواند به شما کمک کند محتوای صوتی خود را ارتقا دهید:
پشتیبانی چند زبانه
Bark tts از زبان های مختلف پشتیبانی می کند و به طور خودکار زبان را از متن ورودی تعیین می کند، به این معنی که می توانید به راحتی بین زبان ها جابجا شوید و همچنان از جلوه های صوتی با کیفیت بالا لذت ببرید. در حالی که کیفیت انگلیسی در حال حاضر بهترین است، انتظار میرود زبانهای دیگر با مقیاسبندی بهبود بیشتری پیدا کنند.
نسل موسیقی
Bark میتواند انواع صداها، از جمله موسیقی را تولید کند. گاهی اوقات Bark انتخاب می کند که متن را به عنوان موسیقی تولید کند و کاربران می توانند با اضافه کردن نت های موسیقی در اطراف اشعار خود به آن کمک کنند.
کلونینگ صدا/صوت
Bark tts توانایی شبیهسازی کامل صداها از جمله لحن، زیر و بم، احساسات و عروض را دارد. این مدل همچنین سعی می کند موسیقی، نویز محیط و غیره را از صدای ورودی حفظ کند. درخواستهای تاریخچه صوتی به مجموعهای از گزینههای کاملاً مصنوعی ارائهشده توسط Suno محدود میشوند تا برای هر زبان انتخاب کنید تا استفاده نادرست از این فناوری کاهش یابد.
اطلاعات بلندگو
کاربران میتوانند فرمانهای بلندگوی خاصی مانند NARRATOR، MAN، WOMAN، و غیره را ارائه دهند. با این حال، این درخواستها همیشه رعایت نمیشوند، بهویژه اگر یک درخواست تاریخچه صوتی متناقض داده شود.
سخت افزار و سرعت استنتاج
Bark آزمایش شده است و بر روی CPU و GPU (PyTorch 2.0+، CUDA 11.7، و CUDA 12.0) کار می کند. Running Bark به اجرای بیش از 100M مدل ترانسفورماتور پارامتر نیاز دارد. در GPU های مدرن و PyTorch شبانه، Bark می تواند صدا را تقریباً در زمان واقعی تولید کند. در GPUهای قدیمی، colab پیش فرض یا CPU، زمان استنتاج ممکن است 10 تا 100 برابر کندتر باشد.
جزئیات
Bark از مدلهای سبک GPT برای تولید صدا از ابتدا استفاده میکند، اما پیام متنی اولیه بدون استفاده از واجها در نشانههای معنایی سطح بالا جاسازی میشود. این به Bark اجازه میدهد تا دستورات دلخواه را فراتر از گفتار که در دادههای آموزشی رخ میدهد، مانند اشعار موسیقی، جلوههای صوتی یا سایر صداهای غیرگفتاری تعمیم دهد. مدل دوم بعدی برای تبدیل نشانههای معنایی تولید شده به نشانههای کدک صوتی برای تولید شکل موج کامل استفاده میشود. برای فعال کردن جامعه برای استفاده از Bark از طریق کد عمومی، کدک EnCodec از Facebook استفاده میشود تا به عنوان یک نمایش صوتی عمل کند.
مورد استفاده
- ایجاد پادکست: از Bark (متن به گفتار AI) میتوان برای ایجاد مواد صوتی با کیفیت بالا برای پادکستها، با صداها و آهنگهای قابل تنظیم استفاده کرد.
- ایجاد کتاب صوتی: با Bark میتوانید برای کتابها به زبانهای مختلف صدا ایجاد کنید و در عین حال لحن و احساسات صداها را نیز تنظیم کنید.
- جلوههای صوتی بازیهای ویدیویی: از Bark ممکن است برای تولید جلوههای صوتی واقعی و فراگیر برای بازیهای ویدیویی، مانند نویز محیط، موسیقی و صداگذاری استفاده شود.
- یادگیری زبان: از آنجایی که Bark میتواند گفتار را به زبانهای مختلف با تلفظ و لحن صحیح ایجاد کند، ابزاری عالی برای زبانآموزان است.
- دسترسی: از Bark ممکن است برای تولید نسخههای صوتی اطلاعات مبتنی بر متن برای کسانی که مشکلات بینایی یا محدودیتهای دیگری دارند که خواندن را دشوار میکند استفاده شود.
- دستیارهای مجازی و رباتهای چت: Bark tts را میتوان با دستیارهای مجازی و رباتهای گفتگو ترکیب کرد تا تعاملات طبیعی و گویاتری با کاربران ارائه دهد.
- صدا برای انیمیشنها و ویدیوها: Bark میتواند صداهای انسانمانندی را برای استفاده در کارتونها، فیلمهای توضیحدهنده و دیگر انواع مواد چندرسانهای تولید کند.
- ایجاد موسیقی: ظرفیت بارک برای تولید موسیقی، آن را به ابزاری ارزشمند برای نوازندگان و تولیدکنندگان موسیقی تبدیل میکند که سعی در ایجاد صداهای منحصر به فرد و سفارشی دارند.
نمونههای پارس (متن به گفتار)
در اینجا چند نمونه از پارس-متن به گفتار:
از وارد کردن پوست SAMPLE_RATE, generate_audio, preload_models
از IPython.display import Audio
# همه مدل ها را دانلود و بارگذاری کنید
preload_models()
# تولید صدا از متن
text_prompt = """
سلام اسم من سونو هستش و اوه - و من پیتزا دوست دارم. [می خندد]
اما علایق دیگری هم دارم مثل بازی تیک تاک.
"""
آرایه_آدیویی = تولید_صوت (پیش_متن)
# پخش متن در نوت بوک
صدا (آرایه_آدیو، نرخ=SAMPLE_RATE)
زبان خارجی
Bark یک ابزار هوش مصنوعی مبدل متن به گفتار است که از زبانهای مختلف پشتیبانی میکند و به طور خودکار زبان را بر اساس متن ورودی تشخیص میدهد. Bark tts سعی میکند از لهجه طبیعی برای زبانهای مناسب استفاده کند، زمانی که با کد تغییر متن به گفتار ارائه میشود. در حال حاضر، انگلیسی بالاترین کیفیت را دارد، انتظار میرود زبانهای دیگر با مقیاسبندی بیشتر بهبود یابند.
text_prompt = """
بوئنوس دیاس میگل. Tu colega piensa que tu alemán es extremadamente malo.
اما من فکر می کنم انگلیسی شما وحشتناک نیست.
"""
audio_array = generate_audio(text_prompt)
موسیقی
میتواند انواع صداها را ایجاد کند و از نظر تئوری، بین گفتار و موسیقی تمایز قائل نمیشود. بارک ممکن است گاهی اوقات متنی را به عنوان موسیقی ایجاد کند، اما میتوانید با قرار دادن نتهای موسیقی در اطراف کلمات خود به آن کمک کنید.
text_prompt = """
♪ در جنگل، جنگل قدرتمند، شیر امشب پارس می کند ♪
"""
audio_array = generate_audio(text_prompt)
پیش تنظیم های صوتی و شبیه سازی صدا/صوت
این قابلیت را دارد که صداها را به طور کامل شبیه سازی کند – از جمله لحن، زیر و بم، احساسات و عروض. این مدل همچنین سعی می کند موسیقی، نویز محیط و غیره را از صدای ورودی حفظ کند. با این حال، برای کاهش استفاده نادرست از این فناوری، درخواستهای تاریخچه صوتی را به مجموعه محدودی از گزینههای کاملاً مصنوعی ارائه شده توسط Suno محدود میکنیم تا برای هر زبان یکی را انتخاب کنید. الگوی زیر را مشخص کنید: {lang_code}_speaker_ {0-9}.
text_prompt = """
من صدای صاف ابریشمی دارم و امروز به شما خواهم گفت
رژیم ورزشی تنبل معمولی
"""
audio_array = generate_audio(text_prompt, history_prompt="en_speaker_1")
اطلاعات بلندگو
میتوانید پیامهای بلندگو مانند NARRATOR، MAN، WOMAN و غیره را ارائه دهید. لطفاً به خاطر داشته باشید که قوانین همیشه رعایت نمی شوند، به خصوص اگر نشانه تاریخچه صوتی متناقضی ارائه شود.
text_prompt = """
زن: لطفاً یک لاته جو دوسر می خواهم.
مرد: وای، این گران است!
"""
audio_array = generate_audio(text_prompt)
سؤالات متداول در مورد ابزار هوش مصنوعی Bark Text به گفتار
چگونه می توانم مشخص کنم که مدل ها کجا دانلود و کش شوند؟
از متغیر XDG_CACHE_HOME
env استفاده کنید تا جایی که مدلها دانلود و در حافظه پنهان ذخیره میشوند را لغو کنید (در غیر این صورت پیشفرض یک زیر شاخه از ~/.cache
است).
نسل های بارک گاهی با درخواست های من متفاوت است. چه اتفاقی می افتد؟
Bark یک مدل به سبک GPT است. به این ترتیب، ممکن است در نسلهای خود برخی از آزادیهای خلاقانه داشته باشد که منجر به خروجیهای مدل با واریانس بالاتر نسبت به روشهای سنتی تبدیل متن به گفتار شود.
این مقاله به شما کمک میکند تا با هوش مصنوعی مبدل پوست به گفتار آشنا شوید. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.