محققان MIT مدل زبانی در مقیاس کوچک را کارآمدتر از LLM توسعه می دهند
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) به پیشرفتهای قابل توجهی در زمینه مدلسازی زبان دست یافتهاند و این دیدگاه رایج را که مدلهای کوچکتر در مقایسه با مدلهای بزرگتر دارای قابلیتهای محدودی هستند، نادیده میگیرند.
بدون وابستگی به حاشیهنویسیهای تولید شده توسط انسان، تیم CSAIL یک روش منحصر به فرد برای مدلسازی زبان ایجاد کرده است که در آزمونهای درک زبان خاص تا 500 برابر بهتر از معادلهای بزرگتر عمل میکند. این دستاورد یک گام بزرگ رو به جلو در منطقه است.

رویکرد “SimPLE” (ویرایش ساده شبه برچسب) آنها از خودآموزی استفاده می کند، تکنیکی که به مدل اجازه می دهد از پیش بینی های خود بیاموزد. این مشکل برچسبهای نادرست را در طول خودآموزی حل میکند و نیاز به دادههای آموزشی حاشیهنویسی اضافی را حذف میکند.
یافتههای این مطالعه نشان میدهد که SimPLE به طور قابلتوجهی عملکرد مدل را در طیف گستردهای از وظایف بهبود میبخشد و از مدلهای شناخته شده مانند LaMDA، FLAN و سایر مدلهای GPT گوگل بهتر عمل میکند. این یافته راههای جدیدی را برای پیشرفتهای بیشتر در مدلسازی زبان باز میکند.
افزایش درک مدل زبان از طریق دلبستگی متنی
تیم MIT CSAIL روی استفاده از مفاهیم متنی برای بهبود درک مدل از چالشهای زبانی کار کرد. دلالت متنی به رابطه بین دو گزاره اشاره دارد که در آن اگر یک جمله (مقدم) درست باشد، احتمالاً جمله دیگر (فرضیه) نیز صادق است.
محققان کامپیوتر را با استفاده از مدلی آموزش دادند که این پیوندهای مستلزم را برای بهبود درک آن تشخیص میدهد. این آموزش آنها را قادر می سازد تا دستوراتی را ایجاد کنند که می تواند تعیین کند که آیا یک زبان یا عبارت خاص حاوی اطلاعات خاصی در انواع وظایف است یا خیر. این اصلاح صفر شات انعطافپذیری و سازگاری مدل را تا حد زیادی افزایش داد.
به گفته Luo از MIT، در حالی که مدلهای زبان بزرگ (LLM) مهارتهای برجستهای در ایجاد زبان، هنر و کد نشان دادهاند، اما هزینههای محاسباتی قابلتوجهی و خطرات حفظ حریم خصوصی را هنگام کار با دادههای حساس به همراه دارند. از سوی دیگر، مدلهای کوچکتر معمولاً با وظایف چندوظیفهای و وظایف با نظارت ضعیف مشکل دارند.
برای رفع این موانع، محققان MIT CSAIL مدلهای کوچکتری را توسعه دادند که با استفاده از مجموعه دادههای استنتاج منطقی مبتنی بر زبان طبیعی، بهتر از مدلهای بزرگتر عمل کردند. علاوه بر این، مدل ها با گنجایش درک طیف وسیعی از وظایف با گنجاندن ایده دلبستگی متنی عرضه شدند.
دقت و حریم خصوصی پیشرفته
محققان MIT یک استراتژی خودآموزی ایجاد کردند که از نیاز به حاشیهنویسی دادههای انسانی یا تکیه بر APIهای مدل زبان بزرگ (LLM) در تلاش برای مدلسازی زبان دقیقتر و آگاهانه به حریم خصوصی اجتناب میکند. این تیم به سرپرستی Hongyin Luo، SimPLE (ویرایش شبه برچسب ساده) را ایجاد کرد، یک استراتژی که به مدلها اجازه میدهد تا با وظایف مختلف سازگار شوند و پیشبینیهای دقیقتری ارائه دهند.
آموزش مدل زبان به طور سنتی نیاز به حاشیه نویسان انسانی یا استفاده از APIهای LLM دارد. از سوی دیگر، حاشیه نویسی انسانی باعث مشکلات حریم خصوصی می شود، در حالی که استفاده از API خطر افشای اطلاعات حساس را به همراه دارد. SimPLE برای جلوگیری از این مشکلات، حاشیه نویسی داده را بدون دسترسی مستقیم به داده ها ارائه می دهد.

Luo مزایای خودآموزی را برجسته کرد که با ایجاد برچسب های شبه، برچسب زدن را خودکار می کند. با این حال، دقت برای جلوگیری از نتایج گمراه کننده یا بیش از حد مناسب بسیار مهم است. SimPLE در مقایسه با سایر سیستمهای خودآموزی، تخمینهای عدم قطعیت و استراتژیهای رأیگیری را برای ارائه پیشبینیهای قویتر و دقیقتر ترکیب میکند.
محققان MIT راه را برای مدلهای زبانی پیشرفته باز کردهاند که با ایجاد SimPLE از رویکردهای حاشیهنویسی استاندارد از نظر دقت و حریم خصوصی بهتر عمل میکنند. این اختراع دارای پتانسیل بهبود طیف گسترده ای از برنامه ها و در عین حال محافظت از داده های حساس است.
خودآموزی و دلبستگی متنی
محققان MIT با تکنیک خودآموزی خود انقلابی در ایجاد مدل هوش مصنوعی ایجاد می کنند. مجموعه مدلهای کوچکتر تیم، سازگاری عالی را در طیف وسیعی از وظایف هوش مصنوعی، مانند طبقهبندی احساسات و دستهبندی اخبار، نشان میدهد. مدلها با قالببندی مجدد چالشهای مختلف درک زبان طبیعی (NLU) به عنوان وظایف مستلزم به نتایج استثنایی دست مییابند.
مدلهای مستلزم آموزش خودآموز با 350 میلیون پارامتر، مدلهای زبان تحت نظارت را با تعداد پارامترهای 137 تا 175 میلیارد شکست میدهند. این تحقیق پیشگامانه این پتانسیل را دارد که چشم انداز هوش مصنوعی و یادگیری ماشین را با ارائه رویکردی مقیاس پذیرتر، قابل اعتمادتر و مقرون به صرفه تر برای مدل سازی زبان تغییر دهد.
هدف اصلی مدلها پیشبینی روابط مستلزم است، که آنها را از مدلهای زبان بزرگتر (LLM) متمایز میکند که اساساً هدفشان تکرار دادههای آموزشی است. در نتیجه این معماری، مدلها برای تفسیر زبان مناسبتر و کارآمدتر هستند و از مدلهای LLM و مدلهای کلاسیک مبتنی بر BERT که با استفاده از برچسبهای تولید شده توسط انسان آموزش داده شدهاند، پیشی میگیرند.
این مطالعه، که توسط لو، جیمز گلس، و یون کیم نویسندگی شده است، در نشست انجمن زبانشناسی محاسباتی در ماه جولای ارائه خواهد شد. این ابتکار که توسط برنامه هوش مصنوعی نوآوری هنگ کنگ تامین می شود، قصد دارد زمینه را برای سیستم های هوش مصنوعی آینده ایجاد کند که مقیاس پذیری، حفاظت از حریم خصوصی و پایداری را در اولویت قرار می دهد.
مدلهای کوچکتر این تیم تنها 1/500 پارامتر مدلهایی مانند GPT-3-175B را شامل میشود، که استقرار را آسانتر و منجر به استنتاج سریعتر میشود. این به کسبوکارها امکان میدهد تا مدلهای چند کاره کارآمد و انعطافپذیر را بدون به خطر انداختن حریم خصوصی دادهها یا بسته به منابع محاسباتی پرهزینه توسعه دهند.
گامهای بعدی محققان، اعمال مدلهای مستلزم در سایر وظایف مرتبط با زبان و بررسی آموزش مشترک با LLMها برای بهبود بیشتر قابلیتهای مدلهای خودآموزشان خواهد بود. آنها همچنین بر روی استفاده از مدلهای مستلزم برای تعیین کمیت همسویی بین ادعاها و حقایق/اصول اخلاقی تمرکز کردهاند که به شناسایی اطلاعات نادرست ماشینی و انسانی، سخنان نفرتانگیز و کلیشهها کمک میکند.