» هوش مصنوعی » نحوه نصب Meta AI Audiocraft برای تولید متن به موسیقی
هوش مصنوعی

نحوه نصب Meta AI Audiocraft برای تولید متن به موسیقی

دی 11, 1348 1077

Audiocraft کد و مدل‌هایی را برای MusicGen ارائه می‌کند، رویکردی ساده و سازگار برای تولید موسیقی. MusicGen از یک مدل ترانسفورماتور رگرسیون خودکار تک مرحله‌ای استفاده می‌کند که با توکنایزر 32 کیلوهرتز EnCodec و 4 کتاب کد نمونه‌گیری شده در فرکانس 50 هرتز آموزش داده شده است. برخلاف روش‌های قبلی مانند MusicLM، MusicGen بر نمایش معنایی خود نظارتی متکی نیست و می‌تواند هر چهار کتاب کد را در یک پاس تولید کند.

ما ظرفیت پیش‌بینی موازی آن‌ها را با اضافه کردن یک تأخیر کوچک بین آن‌ها نشان دادیم که منجر به تنها 50 گام پس‌رونده خودکار در هر ثانیه صدا می‌شود. در این مقاله، نحوه نصب Meta AI Audiocraft برای تولید متن به موسیقی را به شما نشان خواهم داد.

MusicGen چیست و چگونه کار می کند

  1. Meta AI MusicGen را ایجاد کرد، یک مدل تولید متن به موسیقی. این یک پارادایم زبان ترانسفورماتور تک مرحله‌ای است که بر روی چندین جریان از نمایش‌های موسیقی فشرده و گسسته، معروف به توکن، عمل می‌کند. این امر MusicGen را قادر می‌سازد تا نمونه‌های موسیقی با کیفیت بالا تولید کند، در حالی که مشروط به توصیف کلامی یا عناصر ملودیک است و کنترل بیشتری بر خروجی تولید شده ارائه می‌کند.
  2. MusicGen هنوز در دست ساخت است، اما قبلاً برای تولید طیف گسترده ای از سبک های موسیقی مانند پاپ، راک، کلاسیک و جاز استفاده شده است. همچنین برای ایجاد موسیقی برای بازی های ویدیویی، فیلم ها و نمایش های تلویزیونی استفاده شده است.
  3. MusicGen ابزاری قدرتمند با پتانسیل تغییر روش ساخت موسیقی است. می توان از آن برای تولید موسیقی تازه و مبتکرانه توسط هنرمندان، آهنگسازان و تهیه کنندگان استفاده کرد.

ویژگی های MusicGen

  • قابلیت ایجاد موسیقی در ژانرهای مختلف از جمله پاپ، راک، کلاسیک و جاز را دارد. این می تواند موسیقی را بر اساس توضیحات خاص یا اجزای موسیقی تولید کند.
  • در حالی که هنوز در حال توسعه است، قبلاً برای ساخت موسیقی برای طیف وسیعی از رسانه ها مانند بازی های ویدیویی، فیلم ها و برنامه های تلویزیونی استفاده شده است.
  • این ابزار قابل توجه دارای پتانسیل بسیار زیادی برای متحول کردن فرآیند تولید موسیقی است.

استفاده از MusicGen

MusicGen، ایجاد شده توسط Meta، بیش از یک مفهوم نظری است. همچنین یک ابزار کار برای آهنگسازی است. در اینجا سه ​​راه برای استفاده حداکثری از قابلیت های قوی آن وجود دارد:

  • DEMO: نسخه آزمایشی MusicGen را امتحان کنید تا خودتان ببینید چقدر می‌تواند قدرتمند باشد. این نسخه ی نمایشی تعاملی به شما امکان می دهد با ویژگی های اساسی بازی کنید و بر اساس دستورالعمل های ساده موسیقی بسازید. درگیر شدن با نسخه ی نمایشی، ایده ای از امکانات خلاقانه ای که MusicGen ارائه می دهد به شما ارائه می دهد. اگر به ورد علاقه دارید با MusicGen بخوانید پیش نیازها

    • Audiocraft به Python 3.9، PyTorch 2.0.0 نیاز دارد
    • GPU با حداقل 16 گیگابایت حافظه

    نصب

    برای نصب Audiocraft، مطمئن شوید که Python.9 یا Python.9.03 را نصب کرده اید. همچنین، مطمئن شوید که به یک GPU با حداقل 16 گیگابایت حافظه دسترسی دارید، به خصوص اگر قصد دارید از مدل متوسط ​​استفاده کنید.

    بهتر است ابتدا مشعل را نصب کنید، به خصوص قبل از نصب xformers. # اگر از قبل PyTorch را نصب کرده اید، این را اجرا نکنید.

    نصب پیپ 'torch>=2.0'

    سپس به یکی از موارد زیر بروید،

    نصب پیپ -U audiocraft # نسخه پایدار

    به دنبال دستور مورد استفاده برای لبه خونریزی،

    نصب پیپ -U git+https://pip install -e 

    API برای تولید موسیقی

    MusicGen یک API ساده برای تولید موسیقی از متن ارائه می دهد. چهار مدل از پیش آموزش دیده برای انتخاب وجود دارد:

    1. کوچک: این مدل دارای 300 میلیون پارامتر است و فقط می‌تواند از متن موسیقی تولید کند. این سریعترین مدل است، اما ممکن است بهترین نتایج را نداشته باشد.
    2. متوسط: این مدل دارای پارامترهای 1.5B است و می تواند از متن نیز موسیقی تولید کند. کندتر از مدل کوچک است، اما نتایج بهتری ایجاد می کند.
    3. ملودی: این مدل پارامتر 1.5B می‌تواند از متن و ملودی موسیقی تولید کند. این کندترین مدل است، اما بهترین نتایج را ایجاد می کند.
    4. بزرگ: این مدل دارای پارامترهای 3.3B است و فقط می تواند از متن موسیقی تولید کند. این کندترین مدل است، اما بهترین نتایج را ایجاد می کند.

    استفاده محلی از MusicGen به یک GPU با حداقل 16 گیگابایت حافظه نیاز دارد. با مدل کوچک، پردازنده‌های گرافیکی کوچک‌تر ممکن است بتوانند دنباله‌های کوتاه یا دنباله‌های طولانی‌تری تولید کنند.

    توجه: لطفاً هنگام استفاده از نسخه جدیدتر torchaudio، مطمئن شوید که ffmpeg را نصب کرده اید. برای نصب ffmpeg، می توانید دستورالعمل های زیر را بر اساس سیستم عامل خود دنبال کنید:

    apt-get install ffmpeg

    نمونه ای برای استفاده از API

    وارد کردن torchaudio
    از audiocraft.models MusicGen را وارد می کند
    از audiocraft.data.audio import audio_write
    
    model = MusicGen.get_pretrained("ملودی")
    model.set_generation_params(duration=8) # تولید 8 ثانیه.
    wav = model.generate_unconditional(4) # 4 نمونه صوتی بدون قید و شرط تولید می کند
    توضیحات = ['هپی راک'، 'ای دی ام پر انرژی'، 'جاز غمگین']
    wav = model.generate(descriptions) # 3 نمونه تولید می کند.
    
    ملودی، sr = torchaudio.load('./assets/bach.mp3')
    # با استفاده از ملودی از صدای داده شده و توضیحات ارائه شده تولید می کند.
    wav = model.generate_with_chroma(توضیحات، ملودی[هیچ].expand(3، -1، -1)، sr)
    
    برای idx، one_wav در enumerate(wav):
    
        audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategi="loudness", loudness_compressor=True) # در زیر {idx}.wav، با نرمال‌سازی بلندی صدا در -14 db LUFS ذخیره می‌شود.

    نتیجه گیری

    نصب Meta AI Audiocraft برای تولید Text-to-Music یک فرآیند نسبتاً ساده است. اگر مراحل ارائه شده در این مقاله را دنبال کنید، ممکن است در کوتاه ترین زمان ممکن راه اندازی شوید. پس از نصب Audiocraft، می توانید از آن برای ایجاد موسیقی منحصر به فرد خود یا کاوش با انواع و ژانرهای دیگر استفاده کنید. می توانید از Audiocraft برای تولید موسیقی فوق العاده منحصر به فرد و احساسی با کمی تخیل استفاده کنید. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×