چگونه Cerebras-GPT پردازش زبان طبیعی را متحول می کند
Cerebras-GPT یک خانواده از هفت مدل GPT است که از 111 میلیون تا 13 میلیارد پارامتر متغیر است. این مدلها بر اساس معماری GPT-3 هستند که یک مدل زبان مبتنی بر ترانسفورماتور است که میتواند متون زبان طبیعی را از یک ورودی مشخص تولید کند. مدلهای Cerebras-GPT با استفاده از فرمول Chinchilla آموزش داده میشوند که یک قانون مقیاسبندی است که بودجه محاسباتی آموزشی را برای LLM بهینه میکند. فرمول چینچیلا بیان میکند که تعداد نشانههای مورد استفاده برای آموزش باید با تعداد پارامترهای مدل متناسب باشد و نرخ یادگیری باید با جذر تعداد نشانهها نسبت معکوس داشته باشد.
مدلهای Cerebras-GPT بر روی ابررایانه هوش مصنوعی Andromeda، که از 16 سیستم مقیاس ویفر CS-2 تشکیل شده است، توسعه داده شد. هر سیستم CS-2 بر روی یک ویفر ساخته شده است و دارای 400000 هسته بهینه سازی شده با هوش مصنوعی و همچنین 18 گیگابایت حافظه روی تراشه است. تکنیک جریان وزن Cerebras در سیستمهای CS-2 استفاده میشود که با جدا کردن محاسبات از ذخیرهسازی مدل، آموزش LLM را ساده میکند. این کار مقیاس بندی آموزشی موثر در گره ها را از طریق موازی سازی داده های پایه امکان پذیر می کند.
مدلهای Cerebras-GPT منبع رایگان هستند و تحت مجوز Apache 2.0 در Hugging Face و GitHub توزیع میشوند. آنها ممکن است برای ترکیب متن، خلاصه سازی متن، پاسخ به سؤال، تجزیه و تحلیل احساسات و سایر فعالیت های پردازش زبان طبیعی استفاده شوند. مدلهای Cerebras-GPT همچنین ممکن است برای افزایش عملکرد و دقت در دامنهها یا مجموعههای داده خاص بهخوبی تنظیم شوند. روشهای پیشآموزشی و تنظیم دقیق مغزها در فضای ابری از طریق استودیو مدل Cerebras در دسترس هستند.
مدلهای Cerebras-GPT برای استفاده و تکرار توسط هر کسی که میخواهد از قدرت LLM برای ایجاد عوامل هوش مصنوعی استفاده کند در نظر گرفته شده است. سربراس با ارائه دسترسی رایگان به مدلهای پیشرفته آموزشدیده بر روی مجموعه دادهها و معماریهای باز، مشتاق ایجاد یک جامعه هوش مصنوعی مشترک و فراگیر است. مدلهای Cerebras-GPT همچنین سهولت و مقیاسپذیری آموزش LLM را با استفاده از نرمافزار و پشته سختافزار Cerebras نشان میدهند.
Cerebras-GPT: مدلی جدید برای توسعه LLM باز
هوش مصنوعی پتانسیل تغییر اقتصاد جهانی را دارد، اما دسترسی به آن به طور فزایندهای محدود میشود. GPT4 OpenAI، جدیدترین مدل زبان بزرگ، بدون هیچ جزئیاتی در مورد معماری مدل، داده های آموزشی، سخت افزار آموزشی، یا فراپارامترهای آن منتشر شد. شرکتها به طور فزایندهای در حال ساخت مدلهای بزرگ با مجموعه دادههای قفلشده هستند و خروجیهای مدل را منحصراً از طریق دسترسی API در دسترس قرار میدهند.
ما فکر میکنیم که دسترسی به مدلهای پیشرفته که هم برای تحقیقات و هم برای برنامههای تجاری باز، قابل تکرار و بدون حق امتیاز هستند، برای LLMها به عنوان یک فناوری باز و در دسترس ضروری است. برای این منظور، آنها Cerebras-GPT، خانوادهای از مدلهای ترانسفورماتور را توسعه دادند که با استفاده از جدیدترین تکنیکها و مجموعه دادههای باز آموزش دیده بودند. اینها اولین مدلهای GPT هستند که با فرمول چینچیلا آموزش دیدهاند و تحت مجوز Apache 2.0 ارائه شدهاند.
مدل های زبان بزرگ را می توان به دو گروه تقسیم کرد. مدلهای دسته اول شامل OpenAI’s GPT-4 و DeepMind’s Chinchilla هستند که بر روی دادههای خصوصی برای دستیابی به حداکثر درجه دقت آموزش دیدهاند. با این حال، وزن های آموزشی و کد منبع برای این مدل ها در دسترس عموم نیست. دسته دوم شامل مدلهای منبع باز مانند OPT Meta و Eleuther’s Pythia است که به روش محاسبهای بهینه آموزش داده نشدهاند.
DeepMind کشف کرد که وقتی از 20 نشانه داده برای هر پارامتر در مدل استفاده می شود، مدل های زبان بزرگ بالاترین دقت را برای یک بودجه محاسباتی ثابت به دست می آورند. بنابراین، یک مدل پارامتر یک میلیاردی باید بر روی 20 میلیارد توکن داده آموزش داده شود تا نتایج بهینه برای یک هزینه آموزشی مشخص به دست آید. این گاهی اوقات به عنوان “دستور پخت چینچیلا” نامیده می شود.
این یافته نشان میدهد که استفاده از همان مقدار دادههای آموزشی هنگام آموزش یک خانواده از اندازههای مدل بهینه نیست. به عنوان مثال، آموزش یک مدل کوچک با داده های بیش از حد منجر به کاهش بازده و افزایش دقت کمتر در هر FLOP می شود. در عوض، یک مدل بزرگتر با داده های کمتر ترجیح داده می شود. از سوی دیگر، یک مدل بزرگ که بر روی داده های ناکافی آموزش دیده است، به پتانسیل کامل خود نمی رسد. ترجیحاً اندازه مدل کاهش یافته و داده های بیشتری به آن داده شود. در هر مورد، طبق دستور چینچیلا، استفاده از 20 توکن در هر پارامتر بهینه است.
مجموعه مدل منبع باز Pythia EleutherAI به ویژه برای محققان ارزشمند است زیرا طیف گسترده ای از اندازه های مدل را در حین آموزش بر روی مجموعه داده عمومی Pile با استفاده از یک فرآیند آموزشی تنظیم شده ارائه می دهد. از سوی دیگر، Pythia با استفاده از تعداد مجموعهای از نشانهها در همه اندازههای مدل به منظور دستیابی به خط پایه سیب به سیب در همه مدلها آموزش داده شد.
Cerebras-GPT با پوشش طیف گسترده ای از اندازه های مدل با استفاده از مجموعه داده عمومی Pile و ایجاد قانون مقیاس بندی کارآمد آموزشی و خانواده مدل ها، مکمل Pythia بود. Cerebras-GPT از هفت مدل با پارامترهای 111M، 256M، 590M، 1.3B، 2.7B، 6.7B و 13B تشکیل شده است که هر کدام با استفاده از 20 توکن آموزش داده شده اند. Cerebras-GPT با استفاده از کدهای آموزشی بهینه برای هر اندازه مدل، کمترین ضرر را در هر واحد محاسباتی در تمام اندازههای مدل ارائه میکند.
قانون جدید مقیاس بندی
آموزش یک مدل زبان بزرگ ممکن است پرهزینه و وقت گیر باشد. برای به حداکثر رساندن عملکرد مدل، مقدار زیادی از منابع محاسباتی و دانش مورد نیاز است. یک رویکرد برای پرداختن به این موضوع، آموزش خانوادهای از مدلها با اندازههای مختلف است که میتواند به توسعه قانون مقیاسبندی که ارتباط بین محاسبات آموزشی و عملکرد مدل را توضیح میدهد، کمک کند.
قوانین مقیاسبندی در توسعه LLM حیاتی هستند زیرا به محققان کمک میکنند تا ضرر پیشبینیشده مدل را قبل از آموزش تخمین بزنند و جستجوی فراپارامتری گران قیمت را حذف کنند. OpenAI اولین کسی بود که معادله مقیاس بندی را ایجاد کرد که یک رابطه قانون قدرت بین محاسبات و از دست دادن مدل را نشان می داد. سپس DeepMind تحقیق Chinchilla را انجام داد که نسبت محاسبه به داده ایده آل را نشان داد. با این حال، این تحقیقات از مجموعه دادههای بسته استفاده میکردند و نمیتوان نتیجهگیری را به سایر مجموعههای داده تعمیم داد.
Cerebras-GPT این مطالعه را با توسعه یک قانون مقیاسبندی بر اساس مجموعه داده باز Pile پیش میبرد. قانون مقیاس بندی حاصل، فرمولی سریع محاسباتی برای آموزش LLM با هر اندازه با استفاده از Pile است. ما بر این باوریم که با انتشار یافتههای خود، میتوانیم منبع ارزشمندی را به جامعه کمک کنیم و به توسعه مدلهای زبان بزرگ کمک کنیم.
عملکرد مدل در وظایف پایین دست
عملکرد Cerebras-GPT در چندین تکالیف زبانی خاص از جمله تکمیل جمله و پرسش و پاسخ مورد بررسی قرار گرفت. این مهم است زیرا، در حالی که مدل ها ممکن است درک زبان طبیعی قوی داشته باشند، ممکن است به وظایف تخصصی پایین دستی منتقل نشوند. همانطور که در شکل 4 مشاهده می شود، Cerebras-GPT کارایی آموزشی پیشرفته را برای اکثر وظایف معمولی پایین دستی حفظ می کند. قابلتوجه است، در حالی که قوانین مقیاسگذاری قبلی مقیاسبندی را برای از دست دادن قبل از تمرین نشان میداد، این اولین باری است که نتایج برای مقیاسگذاری برای وظایف زبان طبیعی پاییندستی گزارش میشود.
Cerebras CS-2: آموزش موازی ساده داده
آموزش چنین مدلهای بزرگی بر روی GPU به سطح بالایی از مهارت فنی نیاز دارد. OpenAI از بیش از سی مشارکت برای زیرساخت های محاسباتی و مقیاس بندی در گزارش جدید GPT-4 فنی تشکر می کند. ما به رویکردهای مقیاسبندی LLM موجود در GPU نگاه میکنیم تا دلیل آن را بفهمیم.
موازی دادهها سادهترین رویکرد برای مقیاس است. مقیاسگذاری موازی دادهها، مدل را در هر دستگاه تکرار میکند و چندین دسته آموزشی را در آن دستگاهها به کار میگیرد و میانگین گرادیانهای آنها را محاسبه میکند. واضح است که این مسئله اندازه مدل را حل نمی کند. اگر مدل کامل روی یک GPU قرار نگیرد، از کار می افتد.
یک تکنیک جایگزین معمولی، خط لوله موازی مدل است که لایههای مجزایی را به عنوان خط لوله بر روی چندین GPU اجرا میکند. با این حال، همانطور که عمق خط لوله توسعه می یابد، حافظه فعال سازی به صورت درجه دوم رشد می کند، که می تواند برای مدل های بزرگ بازدارنده باشد. برای دور زدن این موضوع، یکی دیگر از گزینههای متداول، تقسیم لایهها در GPU است، که به عنوان مدل تانسور موازی شناخته میشود، با این حال این امر به ارتباط گسترده بین GPUها نیاز دارد که اجرای را پیچیده و کند میکند.
با توجه به این پیچیدگی، در حال حاضر هیچ رویکرد واحدی برای مقیاس در خوشههای GPU وجود ندارد. آموزش مدل های بزرگ بر روی GPU ها مستلزم یک استراتژی ترکیبی است که همه انواع موازی سازی را در خود جای دهد. پیادهسازیها پیچیده و راهاندازی آنها دشوار است، و مشکلات عملکردی قابلتوجهی وجود دارد.
دو مدل زبان بزرگ اخیر (شکل 6) پیچیدگی های ذاتی در تقسیم مدل های زبان بزرگ در بسیاری از GPU ها را نشان می دهد. مدل OPT متا، با پارامترهایی از 125M تا 175B، بر روی 992 GPU با استفاده از ترکیبی از موازی سازی داده ها، موازی سازی تانسور و رویکردهای بهینه سازی حافظه آموزش داده شد. مدل GPT-NeoX با پارامتر 20B Eleuther با استفاده از ترکیبی از داده، تانسور و موازی خط لوله، بیش از 96 پردازنده گرافیکی آموزش داده شد.
Cerebras GPT بر روی 16 کامپیوتر CS-2 با استفاده از موازی سازی داده های معمولی آموزش دید. این امر قابل دستیابی است زیرا رایانه های Cerebras CS-2 دارای حافظه کافی برای اجرای حتی بزرگترین مدل ها بدون تقسیم مدل هستند. سپس خوشه مقیاس ویفر مغزی را در اطراف CS-2 ساختیم تا امکان بزرگ شدن آسان را فراهم کند. از weight streaming استفاده میکند. ، یک اجرای طراحی مشترک HW/SW که امکان مقیاس پذیری مستقل اندازه مدل و اندازه خوشه را بدون موازی سازی مدل فراهم می کند. مقیاس بندی به خوشه های بزرگتر به سادگی تنظیم تعداد سیستم ها در یک فایل پیکربندی با این طراحی است.
این مقاله به شما کمک می کند تا در مورد Cerebras-GPT بیاموزید. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.