» هوش مصنوعی » تبدیل متن به موسیقی MusicGen با استفاده از Meta AI Audiocraft
هوش مصنوعی

تبدیل متن به موسیقی MusicGen با استفاده از Meta AI Audiocraft

دی 11, 1348 1072

MusicGen پیشرفتی است که بازی را تغییر می دهد و نحوه تولید موسیقی را تغییر می دهد. قابلیت‌های قدرتمند تولید متن به موسیقی MusicGen به کاربران امکان می‌دهد دستورالعمل‌های اولیه را به آهنگ‌های جذاب تبدیل کنند.

MusicGen یک رابط ساده و انواع مدل های از پیش آموزش دیده ارائه می دهد تا خلاقیت شما را آزاد کنید، خواه نوازنده، طرفدار یا توسعه دهنده باشید. با MusicGen، می‌توانید آینده آهنگسازی را تجربه کنید و به سفری با امکانات بی‌پایان بروید.

MusicGEN (text-to-music) چیست

تیم Audiocraft Meta AI MusicGen را ایجاد کرد، یک الگوریتم انقلابی تولید متن به موسیقی. این مدل از یک مدل ترانسفورماتور رگرسیون خودکار تک مرحله ای استفاده می کند که با یک توکنایزر 32 کیلوهرتز EnCodec و چهار کتاب کد 50 هرتز آموزش دیده است. MusicGen، برخلاف مدل‌های قبلی، نیازی به نمایش معنایی خود نظارتی ندارد و هر چهار کتاب کد را همزمان ایجاد می‌کند. این پیش‌بینی موازی با قرار دادن کمی تأخیر بین کتاب‌های کد امکان‌پذیر می‌شود، که منجر به تنها 50 گام صوتی با رگرسیون خودکار در هر ثانیه می‌شود.

Musicgen

MusicGen در سه اندازه، پارامترهای 300M، 1.5B، و 3.3B برای رفع نیازهای مختلف موجود است. مدل پارامتر 300M برای تولید متن به موسیقی آموزش داده شده است، در حالی که مدل‌های پارامتر 1.5B و 3.3B برای تولید موسیقی هدایت‌شده ملودی آموزش داده شده‌اند.

کاربران قبل از اینکه بتوانند از MusicGen استفاده کنند، ابتدا باید یک ورودی متن بسازند، که می تواند از عنوان آهنگ و ملودی تا پیشرفت آکورد متغیر باشد. MusicGen می تواند پس از آماده شدن ورودی متن، آهنگ های موسیقی خارق العاده ای تولید کند.

رابط کاربرپسند MusicGen به افراد این امکان را می‌دهد که بدون در نظر گرفتن تجربه یا تخصص موسیقی، به هر کسی اجازه می‌دهد موسیقی جذابی تولید کند.

گرچه هنوز در مرحله توسعه است، MusicGen این پتانسیل را دارد که فرآیند ایجاد موسیقی را متحول کند. قابلیت استفاده و طراحی آسان آن دنیایی از امکانات را برای دوستداران موسیقی ارائه می دهد و تولید موسیقی را به تجربه ای لذت بخش و فراگیر تبدیل می کند.

MusicGen چیزی بیش از یک مفهوم نظری است. این یک ابزار واقعی برای ایجاد موسیقی است. در اینجا سه ​​راه برای استفاده حداکثری از قابلیت های قوی آن وجود دارد:

  1. DEMO: تست
  2. COLAB: از MusicGen به‌عنوان برای افراد دارای کد منبع باز در دسترس است می توانید وارد کد شوید، آن را به دلخواه تغییر دهید و سمفونی های خود را بسازید. با این سطح از سازگاری، می‌توانید MusicGen را با سلیقه و ترجیحات موسیقی خود شخصی کنید.

می‌توانید پتانسیل MusicGen را باز کنید و با اجرای آن، قلمرو تولید متن به موسیقی را کشف کنید. MusicGen گزینه‌های مختلفی را برای رها کردن خلاقیت شما و تغییر روش ساخت و تجربه موسیقی ارائه می‌کند، چه علاقه‌مند، یک موسیقی‌دان حرفه‌ای یا یک برنامه‌نویس.

نحوه کار

در این پست، نمونه‌ای از MusicGen (متن به موسیقی) از صورت‌های در آغوش گرفته را به شما نشان می‌دهم. بگذارید ببینیم چطور پیش می‌رود.

Musicgen
  • بعد از اینکه درخواست دلخواه خود را وارد کردید، روی دکمه «ایجاد» کلیک کنید تا فرآیند تولید موسیقی آغاز شود. لطفاً برای چند ثانیه صبور باشید زیرا مدل بسته به ورودی شما موسیقی تولید می کند.
Musicgen
  • توجه به این نکته مهم است که مدل MusicGen به طور پیش فرض یک نمونه موسیقی 12 ثانیه ای تولید می کند. موسیقی تولید شده منعکس کننده ویژگی ها و دستورالعمل های ارائه شده در درخواست شما خواهد بود.

از فرآیند ایجاد موسیقی با MusicGen لذت ببرید و امکانات فوق‌العاده‌ای را که برای ترجمه متن به آهنگ‌های موسیقی منحصربه‌فرد و قانع‌کننده فراهم می‌کند، کشف کنید.

بر اساس توضیحاتی که ارائه می‌کنید، مدل MusicGen 12 ثانیه صدا ایجاد می‌کند. همچنین می توانید یک فایل صوتی مرجع بدهید که یک ملودی گسترده از آن گرفته شود. این مدل تلاش می‌کند تا با افزودن صدای مرجع، از توضیحات و ملودی داده‌شده پیروی کند و در نتیجه موسیقی شخصی‌سازی‌شده بهتری ایجاد کند. شایان ذکر است که برای تولید تمامی نمونه ها از مدل ملودیک استفاده شده است.

اگر دوست دارید، می‌توانید با پیروی از دستورالعمل‌های موجود در مخزن ما، از GPU خود استفاده کنید. همچنین می‌توانید از Google Colab، یک پلتفرم مبتنی بر ابر برای اجرای برنامه‌های Python، با پیروی از دستورالعمل‌های موجود در مخزن ما استفاده کنید.

MusicGen این اطمینان را می‌دهد که کاربران با استفاده از روش‌های مختلف، آزادی‌های فنی و دسترسی به منابع خود را در اختیار کاربران قرار می‌دهند. در ایجاد موسیقی و امکاناتی برای استفاده از پردازنده‌های گرافیکی شخصی یا سیستم‌های مبتنی بر ابر مانند Google Colab.

همچنین بخوانید: تبدیل متن به موسیقی با MusicLM.

ابزار نوآورانه MusicGen برای نسل متن به موسیقی

MusicGen به چند دلیل به عنوان یک نوآوری پیشگام متمایز است:

  1. مدل تک زبانه (LM): MusicGen با چندین جریان از نمایش‌ها یا نشانه‌های موسیقی فشرده و مجزا کار می‌کند و سیگنال‌های موسیقی پیچیده را به بخش‌های قابل مدیریت‌تر تجزیه می‌کند. MusicGen یک مدل زبان ترانسفورماتور تک مرحله‌ای است، برخلاف سایر تکنیک‌هایی که به مدل‌های متعدد یا روش‌های پیچیده upsampling نیاز دارند. این معماری ساده شده پیچیدگی های غیر ضروری را حذف می کند.
  2. خروجی های کنترل شده: MusicGen چیزی بیش از تولید موسیقی تصادفی انجام می دهد. این به کاربران امکان کنترل نمونه های تولید شده را می دهد و به آنها اجازه می دهد معیارهایی مانند توضیحات متنی یا عناصر ملودیک را مشخص کنند. این درجه از کنترل به کاربران اجازه می دهد تا اجزای مختلف آهنگ مانند کلید، ژانر، ملودی و ساز را تغییر دهند. این به طراحان این توانایی را می دهد که نتیجه را با دیدگاه خلاقانه انتخابی خود سفارشی کنند.
  3. موفقیت تجربی: آزمایش‌های گسترده، از جمله ارزیابی‌های خودکار و انسانی، به‌طور مداوم برتری MusicGen را بالاتر از استانداردهای تعیین‌شده متن به موسیقی ثابت کرده است. به زبان ساده، MusicGen در ایجاد موسیقی خوشایند برای گوش انسان تخصص دارد. کیفیت خروجی آن بهتر از مدل های قبلی است و در نتیجه یک تجربه موسیقی لذت بخش تر و همه جانبه تر را به همراه دارد.
  4. سادگی در پیچیدگی: علیرغم اینکه چالشی دشوار را بر عهده گرفته است، MusicGen نشان می‌دهد که چگونه ترکیب هوشمندانه قطعات ساده ممکن است نتایج فوق‌العاده‌ای داشته باشد. به دلیل سادگی، ابزاری قدرتمند حتی برای کسانی است که سابقه موسیقی ندارند. رابط کاربری ساده و طراحی کاربرپسند MusicGen به نوازندگان و غیر موسیقی‌دانان اجازه می‌دهد آهنگ‌های دوست‌داشتنی تولید کنند.

MusicGen به دلیل رویکرد مدل تک زبانی، خروجی‌های قابل کنترل، موفقیت تجربی و ظرفیت ساده‌سازی پیچیدگی، به عنوان ابزار جدیدی برای تولید متن به موسیقی متمایز است. این به کاربران امکان می دهد موسیقی جذابی تولید کنند و در عین حال سطح بالایی از کنترل و قابلیت استفاده را ارائه دهند.

MusicGen API

پیشنهاد MusicGen ما شامل یک API ساده و چهار مدل از پیش آموزش دیده متناسب با نیازهای مختلف است:

Musicgen
  1. مدل کوچک: این مدل پارامتر 300M در درجه اول با تولید متن به موسیقی مرتبط است. این یک راه حل کوچک برای تبدیل ورودی های متنی به آهنگ های موسیقی ارائه می دهد.
  2. مدل متوسط: این مدل، با پارامترهای 1.5B، برای تولید متن به موسیقی تخصصی است. به بهترین تعادل ممکن بین کیفیت خروجی و نیازهای محاسباتی دست می یابد. مدل متوسط ​​یک گزینه قابل اعتماد برای ایجاد موسیقی از ورودی های متنی است.
  3. مدل ملودی: این مدل که از پارامترهای 1.5B نیز استفاده می کند، هم برای ایجاد متن به موسیقی و هم متن+ملودی به موسیقی در نظر گرفته شده است. این اجازه می دهد تا عناصر ملودیک را در فرآیند ایجاد موسیقی ادغام کنید و بعد جدیدی از اصالت را به آهنگ ها بیاورید.
  4. مدل بزرگ: این مدل بر ایجاد متن به موسیقی با استفاده از پارامترهای 3.3B تمرکز دارد. بیشترین ظرفیت و پتانسیل را برای تولید آثار پیچیده موسیقی دارد.

برای استفاده محلی از MusicGen داشتن یک GPU مهم است. برای بهترین عملکرد، ما یک GPU با حداقل 16 گیگابایت رم را توصیه می کنیم. هنگام استفاده از مدل کوچک، حتی پردازنده‌های گرافیکی کوچک‌تر ممکن است دنباله‌های کوتاه یا طولانی ایجاد کنند. این به شما امکان انعطاف پذیری وابسته به منابع سخت افزاری موجود را می دهد.

با ارائه یک API ساده و گستره‌ای از متن‌هایی که کاربران به راحتی می‌توانند از قبل آموزش داده شوند، مدل‌های خود را به‌راحتی آموزش داده‌اند. برنامه ها یا پروژه های خلاقانه.

MusicGen در مقابل Google MusicLM

MusicGen و Google MusicLM هر دو برنامه‌های تولید موسیقی مبتنی بر هوش مصنوعی هستند که می‌توانند موسیقی جدید را بر اساس نشانه‌های متنی تولید کنند. با این حال، تغییرات قابل توجهی بین این دو مدل وجود دارد.

  • داده‌های آموزشی: MusicGen روی 20000 ساعت موسیقی مجاز آموزش دیده است، در حالی که Google MusicLM روی 1.56 ترابایت داده صوتی که شامل موسیقی، صدا و سایر نویزها می‌شود، آموزش دیده است. این نشان می‌دهد که Google MusicLM اکنون به مجموعه گسترده‌تری از داده‌ها دسترسی دارد، که ممکن است منجر به تولید موسیقی واقعی‌تر و متنوع‌تر شود.
  • اندازه مدل: MusicGen در چهار اندازه مدل مجزا ارائه می‌شود، اما Google MusicLM فقط در یک مدل ارائه می‌شود. هرچه موسیقی ایجاد شده پیچیده تر باشد، اندازه مدل بالاتر است.
  • سرعت: MusicGen سریع‌تر از Google MusicLM است، حدود 160 ثانیه طول می‌کشد تا یک قطعه موسیقی 12 ثانیه‌ای ایجاد شود، در حالی که Google MusicLM می‌تواند تا 10 دقیقه طول بکشد تا یک قطعه موسیقی مشابه تولید کند.
  • قیمت: استفاده از MusicGen رایگان است، در حالی که Google MusicLM رایگان نیست.

Google MusicLM نسبت به MusicGen به طور کلی ابزار تولید موسیقی توانمندتری است، اما همچنین هزینه بیشتری دارد و کندتر است. MusicGen یک انتخاب عالی برای افرادی است که خواهان یک ابزار تولید موسیقی ارزان و سریع هستند، در حالی که Google MusicLM انتخاب خوبی برای کسانی است که می‌خواهند ابزار تولید موسیقی قدرتمندتر و واقعی‌تری داشته باشند.

سؤالات متداول درباره MusicGen

MusicGen چه نوع موسیقی هایی می تواند تولید کند؟

MusicGen می‌تواند طیف گسترده‌ای از موسیقی، از جمله موسیقی پاپ، راک، کلاسیک، جاز و الکترونیک را تولید کند. همچنین می‌تواند موسیقی در سبک‌های مختلف، مانند شاد، آهسته، و آرامش‌بخش تولید کند.

آیا استفاده از MusicGen رایگان است؟

بله، استفاده از MusicGen رایگان است. هیچ هزینه اشتراک یا هزینه پنهانی وجود ندارد.

چگونه می توانم طول یک قطعه موسیقی را هنگام تولید آن مشخص کنم؟

MusicGen، به طور پیش فرض، قطعات موسیقی 12 ثانیه ای را تولید می کند. با این حال، می توانید طول موسیقی را هنگام تولید آن مشخص کنید. برای انجام این کار، به سادگی طول مورد نظر را در چند ثانیه پس از درخواست خود تایپ کنید. به عنوان مثال، اگر می‌خواهید یک قطعه موسیقی 30 ثانیه‌ای بسازید، تایپ کنید «تولید موسیقی مانند سمفونی پنجم بتهوون، طول: 30».

نتیجه گیری

در پایان، MusicGen در خط مقدم فناوری تولید موسیقی قرار دارد و سطح بی‌سابقه‌ای از کنترل و خلاقیت را ارائه می‌دهد.

فرصت تجربه جادوی MusicGen را از دست ندهید. برای شروع سفر موسیقی خود، از وب سایت ما دیدن کنید یا کد منبع باز را کاوش کنید. با MusicGen تخیل خود را آزاد کنید، ملودی های جذاب بسازید و آینده موسیقی را شکل دهید. امکانات بی پایان هستند و سمفونی در انتظار شماست.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×