breadcrumbs_delimiter هوش مصنوعی breadcrumbs_delimiter Bark: Text to Speech ابزار جدید هوش مصنوعی
هوش مصنوعی

Bark: Text to Speech ابزار جدید هوش مصنوعی

اردیبهشت 5, 1402 1014

در دنیای امروز، نیاز قابل توجهی به مواد صوتی با کیفیت بالا وجود دارد و راه حل های استاندارد تبدیل متن به گفتار دیگر کافی نیستند.

Bark tts، یک مدل متن به گفتار انقلابی که دنیای هوش مصنوعی را طوفانی کرده است، در اینجا وارد عمل می شود. Bark گفتار بسیار واقعی و چند زبانه و همچنین موسیقی و جلوه های صوتی اولیه را ارائه می دهد. پوست درخت به دلیل ظرفیت آن در انتقال ارتباطات غیرکلامی مانند خنده، آه و هق هق یک ابزار ارزشمند برای طیف وسیعی از کاربردها است. در این پست، ویژگی‌ها و مزایای Bark و همچنین نحوه استفاده از آن برای تولید محتوای صوتی با کیفیت بالا برای پلتفرم‌های مختلف را با دقت بیشتری بررسی خواهیم کرد.

استفاده از Bark: مدلی همه کاره از متن به گفتار برای شما محتوای صوتی

مدل متن به گفتار انقلابی ایجاد شده توسط سونو. با Bark می توانید گفتار بسیار واقعی و چند زبانه و همچنین صداهای دیگر از جمله موسیقی، نویز پس زمینه و جلوه های صوتی ساده تولید کنید. در اینجا چند راه وجود دارد که Bark می تواند به شما کمک کند محتوای صوتی خود را ارتقا دهید:

پشتیبانی چند زبانه

Bark tts از زبان های مختلف پشتیبانی می کند و به طور خودکار زبان را از متن ورودی تعیین می کند، به این معنی که می توانید به راحتی بین زبان ها جابجا شوید و همچنان از جلوه های صوتی با کیفیت بالا لذت ببرید. در حالی که کیفیت انگلیسی در حال حاضر بهترین است، انتظار می‌رود زبان‌های دیگر با مقیاس‌بندی بهبود بیشتری پیدا کنند.

نسل موسیقی

Bark می‌تواند انواع صداها، از جمله موسیقی را تولید کند. گاهی اوقات Bark انتخاب می کند که متن را به عنوان موسیقی تولید کند و کاربران می توانند با اضافه کردن نت های موسیقی در اطراف اشعار خود به آن کمک کنند.

کلونینگ صدا/صوت

Bark tts توانایی شبیه‌سازی کامل صداها از جمله لحن، زیر و بم، احساسات و عروض را دارد. این مدل همچنین سعی می کند موسیقی، نویز محیط و غیره را از صدای ورودی حفظ کند. درخواست‌های تاریخچه صوتی به مجموعه‌ای از گزینه‌های کاملاً مصنوعی ارائه‌شده توسط Suno محدود می‌شوند تا برای هر زبان انتخاب کنید تا استفاده نادرست از این فناوری کاهش یابد.

اطلاعات بلندگو

کاربران می‌توانند فرمان‌های بلندگوی خاصی مانند NARRATOR، MAN، WOMAN، و غیره را ارائه دهند. با این حال، این درخواست‌ها همیشه رعایت نمی‌شوند، به‌ویژه اگر یک درخواست تاریخچه صوتی متناقض داده شود.

سخت افزار و سرعت استنتاج

Bark آزمایش شده است و بر روی CPU و GPU (PyTorch 2.0+، CUDA 11.7، و CUDA 12.0) کار می کند. Running Bark به اجرای بیش از 100M مدل ترانسفورماتور پارامتر نیاز دارد. در GPU های مدرن و PyTorch شبانه، Bark می تواند صدا را تقریباً در زمان واقعی تولید کند. در GPUهای قدیمی، colab پیش فرض یا CPU، زمان استنتاج ممکن است 10 تا 100 برابر کندتر باشد.

جزئیات

Bark از مدل‌های سبک GPT برای تولید صدا از ابتدا استفاده می‌کند، اما پیام متنی اولیه بدون استفاده از واج‌ها در نشانه‌های معنایی سطح بالا جاسازی می‌شود. این به Bark اجازه می‌دهد تا دستورات دلخواه را فراتر از گفتار که در داده‌های آموزشی رخ می‌دهد، مانند اشعار موسیقی، جلوه‌های صوتی یا سایر صداهای غیرگفتاری تعمیم دهد. مدل دوم بعدی برای تبدیل نشانه‌های معنایی تولید شده به نشانه‌های کدک صوتی برای تولید شکل موج کامل استفاده می‌شود. برای فعال کردن جامعه برای استفاده از Bark از طریق کد عمومی، کدک EnCodec از Facebook استفاده می‌شود تا به عنوان یک نمایش صوتی عمل کند.

مورد استفاده

text to speech converter
  • ایجاد پادکست: از Bark (متن به گفتار AI) می‌توان برای ایجاد مواد صوتی با کیفیت بالا برای پادکست‌ها، با صداها و آهنگ‌های قابل تنظیم استفاده کرد.
  • ایجاد کتاب صوتی: با Bark می‌توانید برای کتاب‌ها به زبان‌های مختلف صدا ایجاد کنید و در عین حال لحن و احساسات صداها را نیز تنظیم کنید.
  • جلوه‌های صوتی بازی‌های ویدیویی: از Bark ممکن است برای تولید جلوه‌های صوتی واقعی و فراگیر برای بازی‌های ویدیویی، مانند نویز محیط، موسیقی و صداگذاری استفاده شود.
  • یادگیری زبان: از آنجایی که Bark می‌تواند گفتار را به زبان‌های مختلف با تلفظ و لحن صحیح ایجاد کند، ابزاری عالی برای زبان‌آموزان است.
  • دسترسی: از Bark ممکن است برای تولید نسخه‌های صوتی اطلاعات مبتنی بر متن برای کسانی که مشکلات بینایی یا محدودیت‌های دیگری دارند که خواندن را دشوار می‌کند استفاده شود.
  • دستیارهای مجازی و ربات‌های چت:  Bark tts را می‌توان با دستیارهای مجازی و ربات‌های گفتگو ترکیب کرد تا تعاملات طبیعی و گویاتری با کاربران ارائه دهد.
  • صدا برای انیمیشن‌ها و ویدیوها: Bark می‌تواند صداهای انسان‌مانندی را برای استفاده در کارتون‌ها، فیلم‌های توضیح‌دهنده و دیگر انواع مواد چندرسانه‌ای تولید کند.
  • ایجاد موسیقی: ظرفیت بارک برای تولید موسیقی، آن را به ابزاری ارزشمند برای نوازندگان و تولیدکنندگان موسیقی تبدیل می‌کند که سعی در ایجاد صداهای منحصر به فرد و سفارشی دارند.

نمونه‌های پارس (متن به گفتار)

در اینجا چند نمونه از پارس-متن به گفتار:

از وارد کردن پوست SAMPLE_RATE, generate_audio, preload_models
از IPython.display import Audio

# همه مدل ها را دانلود و بارگذاری کنید
preload_models()

# تولید صدا از متن
text_prompt = """
     سلام اسم من سونو هستش و اوه - و من پیتزا دوست دارم. [می خندد]
     اما علایق دیگری هم دارم مثل بازی تیک تاک.
"""
آرایه_آدیویی = تولید_صوت (پیش_متن)

# پخش متن در نوت بوک
صدا (آرایه_آدیو، نرخ=SAMPLE_RATE)

زبان خارجی

Bark یک ابزار هوش مصنوعی مبدل متن به گفتار است که از زبان‌های مختلف پشتیبانی می‌کند و به طور خودکار زبان را بر اساس متن ورودی تشخیص می‌دهد. Bark tts سعی می‌کند از لهجه طبیعی برای زبان‌های مناسب استفاده کند، زمانی که با کد تغییر متن به گفتار ارائه می‌شود. در حال حاضر، انگلیسی بالاترین کیفیت را دارد، انتظار می‌رود زبان‌های دیگر با مقیاس‌بندی بیشتر بهبود یابند.

text_prompt = """
    بوئنوس دیاس میگل. Tu colega piensa que tu alemán es extremadamente malo.
    اما من فکر می کنم انگلیسی شما وحشتناک نیست.
"""
audio_array = generate_audio(text_prompt)

موسیقی

می‌تواند انواع صداها را ایجاد کند و از نظر تئوری، بین گفتار و موسیقی تمایز قائل نمی‌شود. بارک ممکن است گاهی اوقات متنی را به عنوان موسیقی ایجاد کند، اما می‌توانید با قرار دادن نت‌های موسیقی در اطراف کلمات خود به آن کمک کنید.

text_prompt = """
    ♪ در جنگل، جنگل قدرتمند، شیر امشب پارس می کند ♪
"""
audio_array = generate_audio(text_prompt)

پیش تنظیم های صوتی و شبیه سازی صدا/صوت

این قابلیت را دارد که صداها را به طور کامل شبیه سازی کند – از جمله لحن، زیر و بم، احساسات و عروض. این مدل همچنین سعی می کند موسیقی، نویز محیط و غیره را از صدای ورودی حفظ کند. با این حال، برای کاهش استفاده نادرست از این فناوری، درخواست‌های تاریخچه صوتی را به مجموعه محدودی از گزینه‌های کاملاً مصنوعی ارائه شده توسط Suno محدود می‌کنیم تا برای هر زبان یکی را انتخاب کنید. الگوی زیر را مشخص کنید: {lang_code}_speaker_ {0-9}.

text_prompt = """
    من صدای صاف ابریشمی دارم و امروز به شما خواهم گفت
    رژیم ورزشی تنبل معمولی
"""
audio_array = generate_audio(text_prompt, history_prompt="en_speaker_1")

اطلاعات بلندگو

می‌توانید پیام‌های بلندگو مانند NARRATOR، MAN، WOMAN و غیره را ارائه دهید. لطفاً به خاطر داشته باشید که قوانین همیشه رعایت نمی شوند، به خصوص اگر نشانه تاریخچه صوتی متناقضی ارائه شود.

text_prompt = """
    زن: لطفاً یک لاته جو دوسر می خواهم.
    مرد: وای، این گران است!
"""
audio_array = generate_audio(text_prompt)

سؤالات متداول در مورد ابزار هوش مصنوعی Bark Text به گفتار

چگونه می توانم مشخص کنم که مدل ها کجا دانلود و کش شوند؟

از متغیر XDG_CACHE_HOME env استفاده کنید تا جایی که مدل‌ها دانلود و در حافظه پنهان ذخیره می‌شوند را لغو کنید (در غیر این صورت پیش‌فرض یک زیر شاخه از ~/.cache است).

نسل های بارک گاهی با درخواست های من متفاوت است. چه اتفاقی می افتد؟

Bark یک مدل به سبک GPT است. به این ترتیب، ممکن است در نسل‌های خود برخی از آزادی‌های خلاقانه داشته باشد که منجر به خروجی‌های مدل با واریانس بالاتر نسبت به روش‌های سنتی تبدیل متن به گفتار شود.

این مقاله به شما کمک می‌کند تا با هوش مصنوعی مبدل پوست به گفتار آشنا شوید. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×