تبدیل متن به موسیقی MusicGen با استفاده از Meta AI Audiocraft
MusicGen پیشرفتی است که بازی را تغییر می دهد و نحوه تولید موسیقی را تغییر می دهد. قابلیتهای قدرتمند تولید متن به موسیقی MusicGen به کاربران امکان میدهد دستورالعملهای اولیه را به آهنگهای جذاب تبدیل کنند.
MusicGen یک رابط ساده و انواع مدل های از پیش آموزش دیده ارائه می دهد تا خلاقیت شما را آزاد کنید، خواه نوازنده، طرفدار یا توسعه دهنده باشید. با MusicGen، میتوانید آینده آهنگسازی را تجربه کنید و به سفری با امکانات بیپایان بروید.
MusicGEN (text-to-music) چیست
تیم Audiocraft Meta AI MusicGen را ایجاد کرد، یک الگوریتم انقلابی تولید متن به موسیقی. این مدل از یک مدل ترانسفورماتور رگرسیون خودکار تک مرحله ای استفاده می کند که با یک توکنایزر 32 کیلوهرتز EnCodec و چهار کتاب کد 50 هرتز آموزش دیده است. MusicGen، برخلاف مدلهای قبلی، نیازی به نمایش معنایی خود نظارتی ندارد و هر چهار کتاب کد را همزمان ایجاد میکند. این پیشبینی موازی با قرار دادن کمی تأخیر بین کتابهای کد امکانپذیر میشود، که منجر به تنها 50 گام صوتی با رگرسیون خودکار در هر ثانیه میشود.

MusicGen در سه اندازه، پارامترهای 300M، 1.5B، و 3.3B برای رفع نیازهای مختلف موجود است. مدل پارامتر 300M برای تولید متن به موسیقی آموزش داده شده است، در حالی که مدلهای پارامتر 1.5B و 3.3B برای تولید موسیقی هدایتشده ملودی آموزش داده شدهاند.
کاربران قبل از اینکه بتوانند از MusicGen استفاده کنند، ابتدا باید یک ورودی متن بسازند، که می تواند از عنوان آهنگ و ملودی تا پیشرفت آکورد متغیر باشد. MusicGen می تواند پس از آماده شدن ورودی متن، آهنگ های موسیقی خارق العاده ای تولید کند.
رابط کاربرپسند MusicGen به افراد این امکان را میدهد که بدون در نظر گرفتن تجربه یا تخصص موسیقی، به هر کسی اجازه میدهد موسیقی جذابی تولید کند.
گرچه هنوز در مرحله توسعه است، MusicGen این پتانسیل را دارد که فرآیند ایجاد موسیقی را متحول کند. قابلیت استفاده و طراحی آسان آن دنیایی از امکانات را برای دوستداران موسیقی ارائه می دهد و تولید موسیقی را به تجربه ای لذت بخش و فراگیر تبدیل می کند.
MusicGen چیزی بیش از یک مفهوم نظری است. این یک ابزار واقعی برای ایجاد موسیقی است. در اینجا سه راه برای استفاده حداکثری از قابلیت های قوی آن وجود دارد:
- DEMO: تست
- COLAB: از MusicGen بهعنوان برای افراد دارای کد منبع باز در دسترس است می توانید وارد کد شوید، آن را به دلخواه تغییر دهید و سمفونی های خود را بسازید. با این سطح از سازگاری، میتوانید MusicGen را با سلیقه و ترجیحات موسیقی خود شخصی کنید.
میتوانید پتانسیل MusicGen را باز کنید و با اجرای آن، قلمرو تولید متن به موسیقی را کشف کنید. MusicGen گزینههای مختلفی را برای رها کردن خلاقیت شما و تغییر روش ساخت و تجربه موسیقی ارائه میکند، چه علاقهمند، یک موسیقیدان حرفهای یا یک برنامهنویس.
نحوه کار
در این پست، نمونهای از MusicGen (متن به موسیقی) از صورتهای در آغوش گرفته را به شما نشان میدهم. بگذارید ببینیم چطور پیش میرود.

- بعد از اینکه درخواست دلخواه خود را وارد کردید، روی دکمه «ایجاد» کلیک کنید تا فرآیند تولید موسیقی آغاز شود. لطفاً برای چند ثانیه صبور باشید زیرا مدل بسته به ورودی شما موسیقی تولید می کند.

- توجه به این نکته مهم است که مدل MusicGen به طور پیش فرض یک نمونه موسیقی 12 ثانیه ای تولید می کند. موسیقی تولید شده منعکس کننده ویژگی ها و دستورالعمل های ارائه شده در درخواست شما خواهد بود.
از فرآیند ایجاد موسیقی با MusicGen لذت ببرید و امکانات فوقالعادهای را که برای ترجمه متن به آهنگهای موسیقی منحصربهفرد و قانعکننده فراهم میکند، کشف کنید.
بر اساس توضیحاتی که ارائه میکنید، مدل MusicGen 12 ثانیه صدا ایجاد میکند. همچنین می توانید یک فایل صوتی مرجع بدهید که یک ملودی گسترده از آن گرفته شود. این مدل تلاش میکند تا با افزودن صدای مرجع، از توضیحات و ملودی دادهشده پیروی کند و در نتیجه موسیقی شخصیسازیشده بهتری ایجاد کند. شایان ذکر است که برای تولید تمامی نمونه ها از مدل ملودیک استفاده شده است.
اگر دوست دارید، میتوانید با پیروی از دستورالعملهای موجود در مخزن ما، از GPU خود استفاده کنید. همچنین میتوانید از Google Colab، یک پلتفرم مبتنی بر ابر برای اجرای برنامههای Python، با پیروی از دستورالعملهای موجود در مخزن ما استفاده کنید.
MusicGen این اطمینان را میدهد که کاربران با استفاده از روشهای مختلف، آزادیهای فنی و دسترسی به منابع خود را در اختیار کاربران قرار میدهند. در ایجاد موسیقی و امکاناتی برای استفاده از پردازندههای گرافیکی شخصی یا سیستمهای مبتنی بر ابر مانند Google Colab.
همچنین بخوانید: تبدیل متن به موسیقی با MusicLM.
ابزار نوآورانه MusicGen برای نسل متن به موسیقی
MusicGen به چند دلیل به عنوان یک نوآوری پیشگام متمایز است:
- مدل تک زبانه (LM): MusicGen با چندین جریان از نمایشها یا نشانههای موسیقی فشرده و مجزا کار میکند و سیگنالهای موسیقی پیچیده را به بخشهای قابل مدیریتتر تجزیه میکند. MusicGen یک مدل زبان ترانسفورماتور تک مرحلهای است، برخلاف سایر تکنیکهایی که به مدلهای متعدد یا روشهای پیچیده upsampling نیاز دارند. این معماری ساده شده پیچیدگی های غیر ضروری را حذف می کند.
- خروجی های کنترل شده: MusicGen چیزی بیش از تولید موسیقی تصادفی انجام می دهد. این به کاربران امکان کنترل نمونه های تولید شده را می دهد و به آنها اجازه می دهد معیارهایی مانند توضیحات متنی یا عناصر ملودیک را مشخص کنند. این درجه از کنترل به کاربران اجازه می دهد تا اجزای مختلف آهنگ مانند کلید، ژانر، ملودی و ساز را تغییر دهند. این به طراحان این توانایی را می دهد که نتیجه را با دیدگاه خلاقانه انتخابی خود سفارشی کنند.
- موفقیت تجربی: آزمایشهای گسترده، از جمله ارزیابیهای خودکار و انسانی، بهطور مداوم برتری MusicGen را بالاتر از استانداردهای تعیینشده متن به موسیقی ثابت کرده است. به زبان ساده، MusicGen در ایجاد موسیقی خوشایند برای گوش انسان تخصص دارد. کیفیت خروجی آن بهتر از مدل های قبلی است و در نتیجه یک تجربه موسیقی لذت بخش تر و همه جانبه تر را به همراه دارد.
- سادگی در پیچیدگی: علیرغم اینکه چالشی دشوار را بر عهده گرفته است، MusicGen نشان میدهد که چگونه ترکیب هوشمندانه قطعات ساده ممکن است نتایج فوقالعادهای داشته باشد. به دلیل سادگی، ابزاری قدرتمند حتی برای کسانی است که سابقه موسیقی ندارند. رابط کاربری ساده و طراحی کاربرپسند MusicGen به نوازندگان و غیر موسیقیدانان اجازه میدهد آهنگهای دوستداشتنی تولید کنند.
MusicGen به دلیل رویکرد مدل تک زبانی، خروجیهای قابل کنترل، موفقیت تجربی و ظرفیت سادهسازی پیچیدگی، به عنوان ابزار جدیدی برای تولید متن به موسیقی متمایز است. این به کاربران امکان می دهد موسیقی جذابی تولید کنند و در عین حال سطح بالایی از کنترل و قابلیت استفاده را ارائه دهند.
MusicGen API
پیشنهاد MusicGen ما شامل یک API ساده و چهار مدل از پیش آموزش دیده متناسب با نیازهای مختلف است:

- مدل کوچک: این مدل پارامتر 300M در درجه اول با تولید متن به موسیقی مرتبط است. این یک راه حل کوچک برای تبدیل ورودی های متنی به آهنگ های موسیقی ارائه می دهد.
- مدل متوسط: این مدل، با پارامترهای 1.5B، برای تولید متن به موسیقی تخصصی است. به بهترین تعادل ممکن بین کیفیت خروجی و نیازهای محاسباتی دست می یابد. مدل متوسط یک گزینه قابل اعتماد برای ایجاد موسیقی از ورودی های متنی است.
- مدل ملودی: این مدل که از پارامترهای 1.5B نیز استفاده می کند، هم برای ایجاد متن به موسیقی و هم متن+ملودی به موسیقی در نظر گرفته شده است. این اجازه می دهد تا عناصر ملودیک را در فرآیند ایجاد موسیقی ادغام کنید و بعد جدیدی از اصالت را به آهنگ ها بیاورید.
- مدل بزرگ: این مدل بر ایجاد متن به موسیقی با استفاده از پارامترهای 3.3B تمرکز دارد. بیشترین ظرفیت و پتانسیل را برای تولید آثار پیچیده موسیقی دارد.
برای استفاده محلی از MusicGen داشتن یک GPU مهم است. برای بهترین عملکرد، ما یک GPU با حداقل 16 گیگابایت رم را توصیه می کنیم. هنگام استفاده از مدل کوچک، حتی پردازندههای گرافیکی کوچکتر ممکن است دنبالههای کوتاه یا طولانی ایجاد کنند. این به شما امکان انعطاف پذیری وابسته به منابع سخت افزاری موجود را می دهد.
با ارائه یک API ساده و گسترهای از متنهایی که کاربران به راحتی میتوانند از قبل آموزش داده شوند، مدلهای خود را بهراحتی آموزش دادهاند. برنامه ها یا پروژه های خلاقانه.
MusicGen در مقابل Google MusicLM
MusicGen و Google MusicLM هر دو برنامههای تولید موسیقی مبتنی بر هوش مصنوعی هستند که میتوانند موسیقی جدید را بر اساس نشانههای متنی تولید کنند. با این حال، تغییرات قابل توجهی بین این دو مدل وجود دارد.
- دادههای آموزشی: MusicGen روی 20000 ساعت موسیقی مجاز آموزش دیده است، در حالی که Google MusicLM روی 1.56 ترابایت داده صوتی که شامل موسیقی، صدا و سایر نویزها میشود، آموزش دیده است. این نشان میدهد که Google MusicLM اکنون به مجموعه گستردهتری از دادهها دسترسی دارد، که ممکن است منجر به تولید موسیقی واقعیتر و متنوعتر شود.
- اندازه مدل: MusicGen در چهار اندازه مدل مجزا ارائه میشود، اما Google MusicLM فقط در یک مدل ارائه میشود. هرچه موسیقی ایجاد شده پیچیده تر باشد، اندازه مدل بالاتر است.
- سرعت: MusicGen سریعتر از Google MusicLM است، حدود 160 ثانیه طول میکشد تا یک قطعه موسیقی 12 ثانیهای ایجاد شود، در حالی که Google MusicLM میتواند تا 10 دقیقه طول بکشد تا یک قطعه موسیقی مشابه تولید کند.
- قیمت: استفاده از MusicGen رایگان است، در حالی که Google MusicLM رایگان نیست.
Google MusicLM نسبت به MusicGen به طور کلی ابزار تولید موسیقی توانمندتری است، اما همچنین هزینه بیشتری دارد و کندتر است. MusicGen یک انتخاب عالی برای افرادی است که خواهان یک ابزار تولید موسیقی ارزان و سریع هستند، در حالی که Google MusicLM انتخاب خوبی برای کسانی است که میخواهند ابزار تولید موسیقی قدرتمندتر و واقعیتری داشته باشند.
سؤالات متداول درباره MusicGen
MusicGen چه نوع موسیقی هایی می تواند تولید کند؟
MusicGen میتواند طیف گستردهای از موسیقی، از جمله موسیقی پاپ، راک، کلاسیک، جاز و الکترونیک را تولید کند. همچنین میتواند موسیقی در سبکهای مختلف، مانند شاد، آهسته، و آرامشبخش تولید کند.
آیا استفاده از MusicGen رایگان است؟
بله، استفاده از MusicGen رایگان است. هیچ هزینه اشتراک یا هزینه پنهانی وجود ندارد.
چگونه می توانم طول یک قطعه موسیقی را هنگام تولید آن مشخص کنم؟
MusicGen، به طور پیش فرض، قطعات موسیقی 12 ثانیه ای را تولید می کند. با این حال، می توانید طول موسیقی را هنگام تولید آن مشخص کنید. برای انجام این کار، به سادگی طول مورد نظر را در چند ثانیه پس از درخواست خود تایپ کنید. به عنوان مثال، اگر میخواهید یک قطعه موسیقی 30 ثانیهای بسازید، تایپ کنید «تولید موسیقی مانند سمفونی پنجم بتهوون، طول: 30».
نتیجه گیری
در پایان، MusicGen در خط مقدم فناوری تولید موسیقی قرار دارد و سطح بیسابقهای از کنترل و خلاقیت را ارائه میدهد.
فرصت تجربه جادوی MusicGen را از دست ندهید. برای شروع سفر موسیقی خود، از وب سایت ما دیدن کنید یا کد منبع باز را کاوش کنید. با MusicGen تخیل خود را آزاد کنید، ملودی های جذاب بسازید و آینده موسیقی را شکل دهید. امکانات بی پایان هستند و سمفونی در انتظار شماست.