AudioGPT: آینده تولید خودکار صوتی
AudioGPT یک فناوری پیشرفته است که نحوه ایجاد، ویرایش و مصرف محتوای صوتی را تغییر می دهد. AudioGPT بر اساس معماری GPT (Generative Pre-trained Transformer) یک سیستم مجهز به هوش مصنوعی است که می تواند محتوای صوتی را از موسیقی گرفته تا گفتار و جلوه های صوتی تولید و دستکاری کند. AudioGPT با توانایی یادگیری از مقادیر زیاد داده، می تواند خروجی های صوتی با کیفیتی تولید کند که از خروجی های ایجاد شده توسط انسان قابل تشخیص نیستند. در این مقاله، قابلیتها و کاربردهای بالقوه AudioGPT را بررسی میکنیم و در مورد تأثیری که میتواند بر آینده تولید و مصرف صدا داشته باشد، بحث خواهیم کرد.
AudioGPT چیست؟
AudioGPT یک مدل تولیدی است که میتواند نمونههای صوتی واقعی را از متن یا سایر ورودیهای صوتی تولید کند. این بر اساس معماری ترانسفورماتور ساخته شده است و از توجه به خود برای درک روابط طولانی مدت در داده های صوتی استفاده می کند. AudioGPT ممکن است برای فعالیتهای مختلفی از جمله سنتز صدا، تشخیص گفتار، انتقال سبک صوتی و وضوح فوقالعاده صدا استفاده شود.
AudioGPT یک دستیار گفتگو است
AudioGPT ممکن است در یک رابط چت بات مشابه ChatGPT استفاده شود. در واقع، در اکثر برنامههای مکالمه به طور مشابه ChatGPT عمل میکند. یکی از ویژگیهای متمایز Audio GPT این است که علاوه بر متن، ربات چت میتواند گفتار را به عنوان ورودی ابتدا با رونویسی صدا به متن کنترل کند. در نتیجه، این یک کمک کننده واقعی مکالمه است که بسته به نیازتان می توانید با او مکالمه یا بنویسید.
AudioGPT می تواند کارهای صوتی مختلفی را انجام دهد
قابلیتهای گفتگوی AudioGPT فقط یک تابع پشتیبانی هستند. هدف اصلی آن ارائه یک تجربه واحد برای مقابله با طیف گسترده ای از تجزیه و تحلیل صوتی و ایجاد مشاغل است. در اینجا چند نمونه از وظایفی که می تواند انجام دهد آورده شده است.
صوت به صدا
- انتقال سبک: ایجاد گفتار انسانی با سبکهای مشتق شده از یک مرجع
- تقویت گفتار: با کاهش نویز پس زمینه، کیفیت گفتار را بهبود بخشید.
- تفکیک گفتار: ترکیب و گفتار جداگانه از بلندگوهای مختلف
- تک به دوگوشی: صدای دو گوشه تکی تولید کنید.
صوت به رویداد
- استخراج صدا: به طور انتخابی بخشی از صدا را بر اساس توضیحات استخراج کنید.
- تشخیص صدا: جدول زمانی رویداد را به صورت صوتی پیش بینی کنید.
صوت به ویدئو
- Talking Head Synthesis: یک ویدیوی پرتره انسانی ناطق با صدای ورودی ایجاد کنید.
متن به صدا
- تکست به گفتار: ایجاد گفتار انسانی با توجه به متن ورودی کاربر
- تکست به صدا: با توضیحات کاربر، صدای کلی تولید کنید.
تصویر به صدا
- تصویر به صدا: صدا را از تصاویر تولید کنید.
امتیاز به صدا
- ترکیب آواز: صدای آواز خواندن متن ورودی، نت، و دنباله مدت زمان را ایجاد کنید.
نکته خوب در مورد AudioGPT این است که برخلاف ChatGPT، می تواند فایل های صوتی را دریافت و انتقال دهد. وقتی از AudioGPT خواستم صدای خاصی را برای من بسازد، این کار را انجام داد، آن را به عنوان یک فایل wav صادر کرد و مکان فایل خروجی را با من به اشتراک گذاشت.
همچنین هوش مصنوعی Bark-Text به گفتار.
AudioGPT چگونه پیاده سازی شد؟
در حالی که AudioGPT ممکن است برای کاربر یک ربات چت معمولی هوش مصنوعی به نظر برسد، در واقع چیزهای بیشتری در زیر قاب وجود دارد. در واقع، چت بات هوش مصنوعی (ChatGPT) تنها به عنوان مترجم بین درخواست کاربر و سایر مدل های هوش مصنوعی استفاده می شود. چنین رویکردهایی در حال حاضر برای سایر دامنهها مانند تصویر (TaskMatrix) یا متن (LangChain). اجازه دهید به تصویر گردش کار AudioGPT که توسط نویسندگان در مقاله خود ارائه شده است نگاه کنیم.
تغییر روش
AudioGPT برای پذیرش گفتار و ورودی متن طراحی شده است. در نتیجه، مرحله اولیه این است که مشخص شود کاربر در حال ارسال پیامک یا صحبت با سیستم است. اگر ورودی گفتاری باشد، یک سیستم تشخیص گفتار شبیه الکسا یا سیری آن را رونویسی کرده و به متن تبدیل می کند. این روش تبدیل باید برای کاربر یکنواخت باشد.
تحلیل کار
ChatGPT با این ورودی متن کنترل میشود و سعی میکند درخواست کاربر را تفسیر کند. چه بگویید، “یک فایل wav از یک افکت صدای تندر ایجاد کنید” یا “یک صدای تندر به من بدهید”: ChatGPT در درک فرمولهای جایگزین همان مشکل و نگاشت درخواست به یک کار خاص متخصص است. در این مثال، تولید صدای متن به صدا.
تخصیص مدل
وقتی ChatGPT درخواست را درک کرد، یک مدل هوش مصنوعی مناسب را از مجموعه ۱۷ مدل فعلی سیستم انتخاب میکند. هر یک از این 17 مورد به روشی بسیار دقیق مسئول یک وظیفه منحصر به فرد هستند. در نتیجه، بسیار مهم است که ChatGPT درخواست را درک کند، مدل مناسب را مکان یابی کند، و درخواست کاربر را به گونه ای تحویل دهد که مدل بتواند آن را مدیریت کند.
تولید پاسخ
هنگامی که یک مدل قابل قبول یافت و اجرا می شود، خروجی تولید می کند. این خروجی می تواند در فرمت های مختلف (صوتی، متنی، تصویری، تصویری) باشد. اینجاست که ChatGPT یک بار دیگر وارد می شود. خروجی مدل را جمع آوری کرده و در قالبی قابل فهم و قابل تفسیر به کاربر تحویل می دهد. برای مثال، یک خروجی متن ممکن است مستقیماً برای کاربر ارسال شود، اما یک خروجی صوتی صادر می شود و به کاربر یک مسیر فایل به صدای تولید شده داده می شود.
حافظه و سابقه گپ
انجام تنها یک تکلیف فوق العاده است. آنچه در واقع این تکنیک چت بات را متمایز می کند، توانایی AudioGPT برای بررسی تاریخچه کامل مکالمه است. این بدان معنی است که همیشه می توانید به درخواست ها، پرس و جوها یا خروجی های گذشته مراجعه کنید و از AudioGPT بخواهید که هر کاری با آنها انجام دهد. از جهاتی شبیه ChatGPT است، اما با قابلیت دریافت و توزیع فایلهای صوتی.
AudioGPT قادر به انجام چه کاری است؟
در این بخش، میخواهیم نمونههایی از آنچه AudioGPT میتواند از این مقاله به دست آورد را به شما نشان دهیم. این یک لیست کامل نیست، بلکه برخی از نکات جالب توجه است.
تولید تصویر برای صدا
در این مثال، AudioGPT درخواست میشود صداهایی را تولید کند که مطابق با تصویر گربه است. سپس سیستم مکان یک فایل صوتی صادر شده و همچنین نمایش تصویری شکل موج صوتی را برمی گرداند. ما نمیتوانیم پاسخ را در این مثال کاغذی بشنویم، اما به احتمال زیاد صدای گربه مانند صدای خش خش یا خرخر است. در زیر کاپوت، تصویر ابتدا شرح داده می شود و سپس عنوان تصویر به یک سیگنال صوتی سنتز می شود. این ممکن است برای هنرمندانی که میخواهند تنها با آپلود تصویری از آنچه میخواهند، نمونههایی برای موسیقی خود بسازند، بسیار مفید باشد.
تولید صدای آواز
این یکی برای نوازندگان است! وقتی یک جمله را به همراه اطلاعات مربوط به نتها و مدتزمان نت به مدل میدهیم، یک صدای آواز را ترکیب میکند و صدا را به شما منتقل میکند. پیشرفته ترین مدل های سنتز صدا (DiffSinger [2]، VISinger [3]) در زیر هود استفاده می شود. تصور اینکه چگونه میتوان از این تکنیک مستقیماً در DAW استفاده کرد، برای مثال برای ساختن نمونههای آواز برای ضربهای هیپهاپ یا حتی صداهای پشتیبان، ساده است.
استخراج صدا
AudioGPT تعیین می کند که یک رویداد مشخص شده در یک سیگنال صوتی بر اساس یک درخواست نوشته شده چه زمانی اتفاق می افتد و قسمت نامربوط از صدا را برای کاربر قطع می کند. برش نمونه ها یا صداها تنها با نشانه های آوازی ممکن است برای نوازندگان بسیار مفید باشد. ممکن است به زودی DAW خود را هدایت کنیم تا “احساسی ترین بخش این نمونه را بازیابی کند و آن را به یک نوار کاهش دهد” بدون اینکه نیازی به انجام هیچ یک از کارهای فنی خودمان باشد.
جداسازی منبع
در این مورد، از AudioGPT خواسته می شود تا دو بلندگو را از سیگنال صوتی استخراج کرده و آنها را به صورت جداگانه برگرداند. این سیستم در حال حاضر دارای ابزار جداسازی منبع موسیقی نیست. با این حال، ما میتوانیم به راحتی تصور کنیم که در آینده نزدیک ابزارها یا گروههای ابزار خاصی را از یک سیگنال صوتی دقیقاً در داخل DAW خود از طریق رابط چت بات استخراج کنیم.
محدودیت های AudioGPT
برای موسیقی طراحی نشده است.
ذکر این نکته در زمینه این پست مهم است که AudioGPT در حال حاضر ابزار فوق العاده ای برای تجزیه و تحلیل یا تولید موسیقی نیست. مدل سنتز صدای آواز تنها مدل موسیقی اختصاصی واقعی است. مدلهای دیگر میتوانند صداهای موسیقی تولید کنند، اما آنها عمدتاً برای گفتار و صداها طراحی شدهاند، نه موسیقی.
با این حال، این به خودی خود یک محدودیت سیستم نیست. این تا حدی به دلیل تصمیم سازندگان برای استفاده نکردن از مدلهای تخصصیتر هوش مصنوعی موسیقی در این برنامه است. با AudioGPT بهعنوان پایه، میتوان مدلهای صوتی بیشتر و بیشتری را در این سیستم ادغام کرد یا یک سیستم جداگانه و مخصوص موسیقی ساخت.
هنوز در حال انجام است.
از تجربه کوتاهم با AudioGPT میتوانم بگویم که روش انتساب شغل آنطور که میخواهم عمل نمیکند. درخواست من اغلب اشتباه تعبیر می شود و مدل نادرست مورد استناد قرار می گیرد که منجر به نتایج کاملاً بی ارزش می شود. به نظر می رسد که هنوز بهینه سازی بیشتری لازم است تا این سیستم قادر به درک خواسته های کاربر باشد.
علاوه بر این، به عنوان مثال، وضعیت هوش مصنوعی صوتی به طور کلی از وضعیت هوش مصنوعی متنی بسیار عقب است. اکثر 17 مدل موجود در Audio GPT عملکرد نسبتاً خوبی دارند اما محدودیت های ظاهری دارند. در نتیجه، حتی اگر تکلیف Audio GPT بیعیب و نقص انجام شود، سیستمها به دلیل قابلیتهای مدلهای زیربنایی محدود میشوند.
به عنوان یک برنامه نویس
به سادگی مخزن AudioGPT GitHub را کلون کنید، همه مدل های مورد استفاده را نصب کنید، کلید OpenAI API خود را وارد کنید و به عنوان یک برنامه نویس شروع کنید. این به شما امکان می دهد از همه ویژگی های توضیح داده شده در مقاله استفاده کنید.
به عنوان یک غیرتکنولوژیست
اگر کدنویس نیستید، میتوانید همچنان از AudioGPT در این برنامه وب HuggingFace استفاده کنید، البته به میزان محدود. برای استفاده از سیستم به یک کلید OpenAI API نیاز دارید. در اینجا راهنمای نحوه به دست آوردن آن است. برای استفاده از توکن، بسته به شرایط خدمات فعلی OpenAI، ممکن است نیاز باشد اطلاعات کارت اعتباری خود را ارائه دهید. چون Audio GPT از ChatGPT در پسزمینه استفاده میکند، این کلید مورد نیاز است. استفاده از ChatGPT پرهزینه نیست (0.002 دلار سنت برای 700 کلمه از 23 آوریل، به اسناد مراجعه کنید). با این حال، اگر تصمیم دارید از این کلید برای AudioGPT استفاده کنید، توصیه میکنم مراقب هزینههای سیستم در حساب OpenAI خود باشید.
متاسفانه، این برنامه وب HuggingFace برای من به خوبی کار نکرده است. زمانی که فایل ها را آپلود می کنم، معمولا یک خطا وجود دارد. خروجیهای صوتی گاهی کاملاً اشتباه هستند، اگرچه به نظر میرسد درخواست من درک شده است… اگر از قبل یک کلید OpenAI API دارید، حتماً باید آن را امتحان کنید. اگر نه، مطمئن نیستم که آیا این برنامه وب ارزش تلاش برای ایجاد حساب و کلید را دارد یا خیر.
سؤالات متداول AudioGPT
GPT صوتی چیست؟
GPT صوتی یک مدل یادگیری عمیق است که می تواند صدای واقعی را از متن تولید کند. این بر اساس معماری GPT ساخته شده است که از یک شبکه ترانسفورماتور در مقیاس بزرگ برای یادگیری از یک کتابخانه عظیم از داده های متنی و صوتی استفاده می کند.
AudioGPT چگونه کار می کند؟
AudioGPT متن ورودی را به دنباله ای از نشانه ها رمزگذاری می کند، که سپس به دنباله ای از نمونه های صوتی رمزگشایی می شوند. با توجه به نمونه های صوتی قبلی و متن ورودی، مدل یاد می گیرد که نمونه صوتی بعدی را پیش بینی کند. با شرطی کردن متغیرهای اضافی، مدل ممکن است گفتاری را به زبانها و سبکهای مختلف ایجاد کند.
برخی از برنامه های کاربردی AudioGPT چیست؟
AudioGPT را می توان برای انواع برنامه های ترکیبی گفتار، از جمله تبدیل متن به گفتار، شبیه سازی صدا، انتقال سبک صوتی، بهبود گفتار و غیره استفاده کرد. از GPT صوتی نیز می توان برای تولید پادکست، کتاب صوتی، آهنگ، یا تقلید استفاده کرد.
این مقاله به شما کمک میکند تا درباره AudioGPT: آینده تولید خودکار صوتی بیاموزید. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.