نحوه نصب Meta AI Audiocraft برای تولید متن به موسیقی
Audiocraft کد و مدلهایی را برای MusicGen ارائه میکند، رویکردی ساده و سازگار برای تولید موسیقی. MusicGen از یک مدل ترانسفورماتور رگرسیون خودکار تک مرحلهای استفاده میکند که با توکنایزر 32 کیلوهرتز EnCodec و 4 کتاب کد نمونهگیری شده در فرکانس 50 هرتز آموزش داده شده است. برخلاف روشهای قبلی مانند MusicLM، MusicGen بر نمایش معنایی خود نظارتی متکی نیست و میتواند هر چهار کتاب کد را در یک پاس تولید کند.
ما ظرفیت پیشبینی موازی آنها را با اضافه کردن یک تأخیر کوچک بین آنها نشان دادیم که منجر به تنها 50 گام پسرونده خودکار در هر ثانیه صدا میشود. در این مقاله، نحوه نصب Meta AI Audiocraft برای تولید متن به موسیقی را به شما نشان خواهم داد.
MusicGen چیست و چگونه کار می کند
- Meta AI MusicGen را ایجاد کرد، یک مدل تولید متن به موسیقی. این یک پارادایم زبان ترانسفورماتور تک مرحلهای است که بر روی چندین جریان از نمایشهای موسیقی فشرده و گسسته، معروف به توکن، عمل میکند. این امر MusicGen را قادر میسازد تا نمونههای موسیقی با کیفیت بالا تولید کند، در حالی که مشروط به توصیف کلامی یا عناصر ملودیک است و کنترل بیشتری بر خروجی تولید شده ارائه میکند.
- MusicGen هنوز در دست ساخت است، اما قبلاً برای تولید طیف گسترده ای از سبک های موسیقی مانند پاپ، راک، کلاسیک و جاز استفاده شده است. همچنین برای ایجاد موسیقی برای بازی های ویدیویی، فیلم ها و نمایش های تلویزیونی استفاده شده است.
- MusicGen ابزاری قدرتمند با پتانسیل تغییر روش ساخت موسیقی است. می توان از آن برای تولید موسیقی تازه و مبتکرانه توسط هنرمندان، آهنگسازان و تهیه کنندگان استفاده کرد.
ویژگی های MusicGen
- قابلیت ایجاد موسیقی در ژانرهای مختلف از جمله پاپ، راک، کلاسیک و جاز را دارد. این می تواند موسیقی را بر اساس توضیحات خاص یا اجزای موسیقی تولید کند.
- در حالی که هنوز در حال توسعه است، قبلاً برای ساخت موسیقی برای طیف وسیعی از رسانه ها مانند بازی های ویدیویی، فیلم ها و برنامه های تلویزیونی استفاده شده است.
- این ابزار قابل توجه دارای پتانسیل بسیار زیادی برای متحول کردن فرآیند تولید موسیقی است.
استفاده از MusicGen
MusicGen، ایجاد شده توسط Meta، بیش از یک مفهوم نظری است. همچنین یک ابزار کار برای آهنگسازی است. در اینجا سه راه برای استفاده حداکثری از قابلیت های قوی آن وجود دارد:
- DEMO: نسخه آزمایشی MusicGen را امتحان کنید تا خودتان ببینید چقدر میتواند قدرتمند باشد. این نسخه ی نمایشی تعاملی به شما امکان می دهد با ویژگی های اساسی بازی کنید و بر اساس دستورالعمل های ساده موسیقی بسازید. درگیر شدن با نسخه ی نمایشی، ایده ای از امکانات خلاقانه ای که MusicGen ارائه می دهد به شما ارائه می دهد. اگر به ورد علاقه دارید با MusicGen بخوانید پیش نیازها
- Audiocraft به Python 3.9، PyTorch 2.0.0 نیاز دارد
- GPU با حداقل 16 گیگابایت حافظه
نصب
برای نصب Audiocraft، مطمئن شوید که Python.9 یا Python.9.03 را نصب کرده اید. همچنین، مطمئن شوید که به یک GPU با حداقل 16 گیگابایت حافظه دسترسی دارید، به خصوص اگر قصد دارید از مدل متوسط استفاده کنید.
بهتر است ابتدا مشعل را نصب کنید، به خصوص قبل از نصب xformers. # اگر از قبل PyTorch را نصب کرده اید، این را اجرا نکنید.
نصب پیپ 'torch>=2.0'
سپس به یکی از موارد زیر بروید،
نصب پیپ -U audiocraft # نسخه پایدار
به دنبال دستور مورد استفاده برای لبه خونریزی،
نصب پیپ -U git+https://
pip install -e
API برای تولید موسیقی
MusicGen یک API ساده برای تولید موسیقی از متن ارائه می دهد. چهار مدل از پیش آموزش دیده برای انتخاب وجود دارد:
- کوچک: این مدل دارای 300 میلیون پارامتر است و فقط میتواند از متن موسیقی تولید کند. این سریعترین مدل است، اما ممکن است بهترین نتایج را نداشته باشد.
- متوسط: این مدل دارای پارامترهای 1.5B است و می تواند از متن نیز موسیقی تولید کند. کندتر از مدل کوچک است، اما نتایج بهتری ایجاد می کند.
- ملودی: این مدل پارامتر 1.5B میتواند از متن و ملودی موسیقی تولید کند. این کندترین مدل است، اما بهترین نتایج را ایجاد می کند.
- بزرگ: این مدل دارای پارامترهای 3.3B است و فقط می تواند از متن موسیقی تولید کند. این کندترین مدل است، اما بهترین نتایج را ایجاد می کند.
استفاده محلی از MusicGen به یک GPU با حداقل 16 گیگابایت حافظه نیاز دارد. با مدل کوچک، پردازندههای گرافیکی کوچکتر ممکن است بتوانند دنبالههای کوتاه یا دنبالههای طولانیتری تولید کنند.
توجه: لطفاً هنگام استفاده از نسخه جدیدتر torchaudio، مطمئن شوید که ffmpeg را نصب کرده اید. برای نصب ffmpeg، می توانید دستورالعمل های زیر را بر اساس سیستم عامل خود دنبال کنید:
apt-get install ffmpeg
نمونه ای برای استفاده از API
وارد کردن torchaudio از audiocraft.models MusicGen را وارد می کند از audiocraft.data.audio import audio_write model = MusicGen.get_pretrained("ملودی") model.set_generation_params(duration=8) # تولید 8 ثانیه. wav = model.generate_unconditional(4) # 4 نمونه صوتی بدون قید و شرط تولید می کند توضیحات = ['هپی راک'، 'ای دی ام پر انرژی'، 'جاز غمگین'] wav = model.generate(descriptions) # 3 نمونه تولید می کند. ملودی، sr = torchaudio.load('./assets/bach.mp3') # با استفاده از ملودی از صدای داده شده و توضیحات ارائه شده تولید می کند. wav = model.generate_with_chroma(توضیحات، ملودی[هیچ].expand(3، -1، -1)، sr) برای idx، one_wav در enumerate(wav): audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategi="loudness", loudness_compressor=True) # در زیر {idx}.wav، با نرمالسازی بلندی صدا در -14 db LUFS ذخیره میشود.
نتیجه گیری
نصب Meta AI Audiocraft برای تولید Text-to-Music یک فرآیند نسبتاً ساده است. اگر مراحل ارائه شده در این مقاله را دنبال کنید، ممکن است در کوتاه ترین زمان ممکن راه اندازی شوید. پس از نصب Audiocraft، می توانید از آن برای ایجاد موسیقی منحصر به فرد خود یا کاوش با انواع و ژانرهای دیگر استفاده کنید. می توانید از Audiocraft برای تولید موسیقی فوق العاده منحصر به فرد و احساسی با کمی تخیل استفاده کنید. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.