breadcrumbs_delimiter هوش مصنوعی breadcrumbs_delimiter چگونه Cerebras-GPT پردازش زبان طبیعی را متحول می کند
هوش مصنوعی

چگونه Cerebras-GPT پردازش زبان طبیعی را متحول می کند

اردیبهشت 22, 1402 1014

Cerebras-GPT یک خانواده از هفت مدل GPT است که از 111 میلیون تا 13 میلیارد پارامتر متغیر است. این مدل‌ها بر اساس معماری GPT-3 هستند که یک مدل زبان مبتنی بر ترانسفورماتور است که می‌تواند متون زبان طبیعی را از یک ورودی مشخص تولید کند. مدل‌های Cerebras-GPT با استفاده از فرمول Chinchilla آموزش داده می‌شوند که یک قانون مقیاس‌بندی است که بودجه محاسباتی آموزشی را برای LLM بهینه می‌کند. فرمول چینچیلا بیان می‌کند که تعداد نشانه‌های مورد استفاده برای آموزش باید با تعداد پارامترهای مدل متناسب باشد و نرخ یادگیری باید با جذر تعداد نشانه‌ها نسبت معکوس داشته باشد.

مدل‌های Cerebras-GPT بر روی ابررایانه هوش مصنوعی Andromeda، که از 16 سیستم مقیاس ویفر CS-2 تشکیل شده است، توسعه داده شد. هر سیستم CS-2 بر روی یک ویفر ساخته شده است و دارای 400000 هسته بهینه سازی شده با هوش مصنوعی و همچنین 18 گیگابایت حافظه روی تراشه است. تکنیک جریان وزن Cerebras در سیستم‌های CS-2 استفاده می‌شود که با جدا کردن محاسبات از ذخیره‌سازی مدل، آموزش LLM را ساده می‌کند. این کار مقیاس بندی آموزشی موثر در گره ها را از طریق موازی سازی داده های پایه امکان پذیر می کند.

مدل‌های Cerebras-GPT منبع رایگان هستند و تحت مجوز Apache 2.0 در Hugging Face و GitHub توزیع می‌شوند. آنها ممکن است برای ترکیب متن، خلاصه سازی متن، پاسخ به سؤال، تجزیه و تحلیل احساسات و سایر فعالیت های پردازش زبان طبیعی استفاده شوند. مدل‌های Cerebras-GPT همچنین ممکن است برای افزایش عملکرد و دقت در دامنه‌ها یا مجموعه‌های داده خاص به‌خوبی تنظیم شوند. روش‌های پیش‌آموزشی و تنظیم دقیق مغزها در فضای ابری از طریق استودیو مدل Cerebras در دسترس هستند.

مدل‌های Cerebras-GPT برای استفاده و تکرار توسط هر کسی که می‌خواهد از قدرت LLM برای ایجاد عوامل هوش مصنوعی استفاده کند در نظر گرفته شده است. سربراس با ارائه دسترسی رایگان به مدل‌های پیشرفته آموزش‌دیده بر روی مجموعه داده‌ها و معماری‌های باز، مشتاق ایجاد یک جامعه هوش مصنوعی مشترک و فراگیر است. مدل‌های Cerebras-GPT همچنین سهولت و مقیاس‌پذیری آموزش LLM را با استفاده از نرم‌افزار و پشته سخت‌افزار Cerebras نشان می‌دهند.

Cerebras-GPT: مدلی جدید برای توسعه LLM باز

هوش مصنوعی پتانسیل تغییر اقتصاد جهانی را دارد، اما دسترسی به آن به طور فزاینده‌ای محدود می‌شود. GPT4 OpenAI، جدیدترین مدل زبان بزرگ، بدون هیچ جزئیاتی در مورد معماری مدل، داده های آموزشی، سخت افزار آموزشی، یا فراپارامترهای آن منتشر شد. شرکت‌ها به طور فزاینده‌ای در حال ساخت مدل‌های بزرگ با مجموعه داده‌های قفل‌شده هستند و خروجی‌های مدل را منحصراً از طریق دسترسی API در دسترس قرار می‌دهند.

ما فکر می‌کنیم که دسترسی به مدل‌های پیشرفته که هم برای تحقیقات و هم برای برنامه‌های تجاری باز، قابل تکرار و بدون حق امتیاز هستند، برای LLM‌ها به عنوان یک فناوری باز و در دسترس ضروری است. برای این منظور، آنها Cerebras-GPT، خانواده‌ای از مدل‌های ترانسفورماتور را توسعه دادند که با استفاده از جدیدترین تکنیک‌ها و مجموعه داده‌های باز آموزش دیده بودند. اینها اولین مدل‌های GPT هستند که با فرمول چینچیلا آموزش دیده‌اند و تحت مجوز Apache 2.0 ارائه شده‌اند.

Cerebras-GPT

مدل های زبان بزرگ را می توان به دو گروه تقسیم کرد. مدل‌های دسته اول شامل OpenAI’s GPT-4 و DeepMind’s Chinchilla هستند که بر روی داده‌های خصوصی برای دستیابی به حداکثر درجه دقت آموزش دیده‌اند. با این حال، وزن های آموزشی و کد منبع برای این مدل ها در دسترس عموم نیست. دسته دوم شامل مدل‌های منبع باز مانند OPT Meta و Eleuther’s Pythia است که به روش محاسبه‌ای بهینه آموزش داده نشده‌اند.

DeepMind کشف کرد که وقتی از 20 نشانه داده برای هر پارامتر در مدل استفاده می شود، مدل های زبان بزرگ بالاترین دقت را برای یک بودجه محاسباتی ثابت به دست می آورند. بنابراین، یک مدل پارامتر یک میلیاردی باید بر روی 20 میلیارد توکن داده آموزش داده شود تا نتایج بهینه برای یک هزینه آموزشی مشخص به دست آید. این گاهی اوقات به عنوان “دستور پخت چینچیلا” نامیده می شود.

این یافته نشان می‌دهد که استفاده از همان مقدار داده‌های آموزشی هنگام آموزش یک خانواده از اندازه‌های مدل بهینه نیست. به عنوان مثال، آموزش یک مدل کوچک با داده های بیش از حد منجر به کاهش بازده و افزایش دقت کمتر در هر FLOP می شود. در عوض، یک مدل بزرگتر با داده های کمتر ترجیح داده می شود. از سوی دیگر، یک مدل بزرگ که بر روی داده های ناکافی آموزش دیده است، به پتانسیل کامل خود نمی رسد. ترجیحاً اندازه مدل کاهش یافته و داده های بیشتری به آن داده شود. در هر مورد، طبق دستور چینچیلا، استفاده از 20 توکن در هر پارامتر بهینه است.

Cerebras-GPT

مجموعه مدل منبع باز Pythia EleutherAI به ویژه برای محققان ارزشمند است زیرا طیف گسترده ای از اندازه های مدل را در حین آموزش بر روی مجموعه داده عمومی Pile با استفاده از یک فرآیند آموزشی تنظیم شده ارائه می دهد. از سوی دیگر، Pythia با استفاده از تعداد مجموعه‌ای از نشانه‌ها در همه اندازه‌های مدل به منظور دستیابی به خط پایه سیب به سیب در همه مدل‌ها آموزش داده شد.

Cerebras-GPT با پوشش طیف گسترده ای از اندازه های مدل با استفاده از مجموعه داده عمومی Pile و ایجاد قانون مقیاس بندی کارآمد آموزشی و خانواده مدل ها، مکمل Pythia بود. Cerebras-GPT از هفت مدل با پارامترهای 111M، 256M، 590M، 1.3B، 2.7B، 6.7B و 13B تشکیل شده است که هر کدام با استفاده از 20 توکن آموزش داده شده اند. Cerebras-GPT با استفاده از کدهای آموزشی بهینه برای هر اندازه مدل، کمترین ضرر را در هر واحد محاسباتی در تمام اندازه‌های مدل ارائه می‌کند.

قانون جدید مقیاس بندی

آموزش یک مدل زبان بزرگ ممکن است پرهزینه و وقت گیر باشد. برای به حداکثر رساندن عملکرد مدل، مقدار زیادی از منابع محاسباتی و دانش مورد نیاز است. یک رویکرد برای پرداختن به این موضوع، آموزش خانواده‌ای از مدل‌ها با اندازه‌های مختلف است که می‌تواند به توسعه قانون مقیاس‌بندی که ارتباط بین محاسبات آموزشی و عملکرد مدل را توضیح می‌دهد، کمک کند.

Cerebras-GPT

قوانین مقیاس‌بندی در توسعه LLM حیاتی هستند زیرا به محققان کمک می‌کنند تا ضرر پیش‌بینی‌شده مدل را قبل از آموزش تخمین بزنند و جستجوی فراپارامتری گران قیمت را حذف کنند. OpenAI اولین کسی بود که معادله مقیاس بندی را ایجاد کرد که یک رابطه قانون قدرت بین محاسبات و از دست دادن مدل را نشان می داد. سپس DeepMind تحقیق Chinchilla را انجام داد که نسبت محاسبه به داده ایده آل را نشان داد. با این حال، این تحقیقات از مجموعه داده‌های بسته استفاده می‌کردند و نمی‌توان نتیجه‌گیری را به سایر مجموعه‌های داده تعمیم داد.

Cerebras-GPT این مطالعه را با توسعه یک قانون مقیاس‌بندی بر اساس مجموعه داده باز Pile پیش می‌برد. قانون مقیاس بندی حاصل، فرمولی سریع محاسباتی برای آموزش LLM با هر اندازه با استفاده از Pile است. ما بر این باوریم که با انتشار یافته‌های خود، می‌توانیم منبع ارزشمندی را به جامعه کمک کنیم و به توسعه مدل‌های زبان بزرگ کمک کنیم.

عملکرد مدل در وظایف پایین دست

عملکرد Cerebras-GPT در چندین تکالیف زبانی خاص از جمله تکمیل جمله و پرسش و پاسخ مورد بررسی قرار گرفت. این مهم است زیرا، در حالی که مدل ها ممکن است درک زبان طبیعی قوی داشته باشند، ممکن است به وظایف تخصصی پایین دستی منتقل نشوند. همانطور که در شکل 4 مشاهده می شود، Cerebras-GPT کارایی آموزشی پیشرفته را برای اکثر وظایف معمولی پایین دستی حفظ می کند. قابل‌توجه است، در حالی که قوانین مقیاس‌گذاری قبلی مقیاس‌بندی را برای از دست دادن قبل از تمرین نشان می‌داد، این اولین باری است که نتایج برای مقیاس‌گذاری برای وظایف زبان طبیعی پایین‌دستی گزارش می‌شود.

Cerebras-GPT

Cerebras CS-2: آموزش موازی ساده داده

آموزش چنین مدل‌های بزرگی بر روی GPU به سطح بالایی از مهارت فنی نیاز دارد. OpenAI از بیش از سی مشارکت برای زیرساخت های محاسباتی و مقیاس بندی در گزارش جدید GPT-4 فنی تشکر می کند. ما به رویکردهای مقیاس‌بندی LLM موجود در GPU نگاه می‌کنیم تا دلیل آن را بفهمیم.

موازی داده‌ها ساده‌ترین رویکرد برای مقیاس است. مقیاس‌گذاری موازی داده‌ها، مدل را در هر دستگاه تکرار می‌کند و چندین دسته آموزشی را در آن دستگاه‌ها به کار می‌گیرد و میانگین گرادیان‌های آنها را محاسبه می‌کند. واضح است که این مسئله اندازه مدل را حل نمی کند. اگر مدل کامل روی یک GPU قرار نگیرد، از کار می افتد.

یک تکنیک جایگزین معمولی، خط لوله موازی مدل است که لایه‌های مجزایی را به عنوان خط لوله بر روی چندین GPU اجرا می‌کند. با این حال، همانطور که عمق خط لوله توسعه می یابد، حافظه فعال سازی به صورت درجه دوم رشد می کند، که می تواند برای مدل های بزرگ بازدارنده باشد. برای دور زدن این موضوع، یکی دیگر از گزینه‌های متداول، تقسیم لایه‌ها در GPU است، که به عنوان مدل تانسور موازی شناخته می‌شود، با این حال این امر به ارتباط گسترده بین GPUها نیاز دارد که اجرای را پیچیده و کند می‌کند.

با توجه به این پیچیدگی، در حال حاضر هیچ رویکرد واحدی برای مقیاس در خوشه‌های GPU وجود ندارد. آموزش مدل های بزرگ بر روی GPU ها مستلزم یک استراتژی ترکیبی است که همه انواع موازی سازی را در خود جای دهد. پیاده‌سازی‌ها پیچیده و راه‌اندازی آن‌ها دشوار است، و مشکلات عملکردی قابل‌توجهی وجود دارد.

Data parallel
training hardware and scaling technique

دو مدل زبان بزرگ اخیر (شکل 6) پیچیدگی های ذاتی در تقسیم مدل های زبان بزرگ در بسیاری از GPU ها را نشان می دهد. مدل OPT متا، با پارامترهایی از 125M تا 175B، بر روی 992 GPU با استفاده از ترکیبی از موازی سازی داده ها، موازی سازی تانسور و رویکردهای بهینه سازی حافظه آموزش داده شد. مدل GPT-NeoX با پارامتر 20B Eleuther با استفاده از ترکیبی از داده، تانسور و موازی خط لوله، بیش از 96 پردازنده گرافیکی آموزش داده شد.

Cerebras GPT بر روی 16 کامپیوتر CS-2 با استفاده از موازی سازی داده های معمولی آموزش دید. این امر قابل دستیابی است زیرا رایانه های Cerebras CS-2 دارای حافظه کافی برای اجرای حتی بزرگترین مدل ها بدون تقسیم مدل هستند. سپس خوشه مقیاس ویفر مغزی را در اطراف CS-2 ساختیم تا امکان بزرگ شدن آسان را فراهم کند. از weight streaming استفاده می‌کند. ، یک اجرای طراحی مشترک HW/SW که امکان مقیاس پذیری مستقل اندازه مدل و اندازه خوشه را بدون موازی سازی مدل فراهم می کند. مقیاس بندی به خوشه های بزرگتر به سادگی تنظیم تعداد سیستم ها در یک فایل پیکربندی با این طراحی است.

این مقاله به شما کمک می کند تا در مورد Cerebras-GPT بیاموزید. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×