» هوش مصنوعی » محققان MIT مدل زبانی در مقیاس کوچک را کارآمدتر از LLM توسعه می دهند
هوش مصنوعی

محققان MIT مدل زبانی در مقیاس کوچک را کارآمدتر از LLM توسعه می دهند

دی 11, 1348 1081

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) به پیشرفت‌های قابل توجهی در زمینه مدل‌سازی زبان دست یافته‌اند و این دیدگاه رایج را که مدل‌های کوچک‌تر در مقایسه با مدل‌های بزرگ‌تر دارای قابلیت‌های محدودی هستند، نادیده می‌گیرند.

بدون وابستگی به حاشیه‌نویسی‌های تولید شده توسط انسان، تیم CSAIL یک روش منحصر به فرد برای مدل‌سازی زبان ایجاد کرده است که در آزمون‌های درک زبان خاص تا 500 برابر بهتر از معادل‌های بزرگتر عمل می‌کند. این دستاورد یک گام بزرگ رو به جلو در منطقه است.

Mit Researchers Develop Small-Scale Language Model More Efficient Than Llm

رویکرد “SimPLE” (ویرایش ساده شبه برچسب) آنها از خودآموزی استفاده می کند، تکنیکی که به مدل اجازه می دهد از پیش بینی های خود بیاموزد. این مشکل برچسب‌های نادرست را در طول خودآموزی حل می‌کند و نیاز به داده‌های آموزشی حاشیه‌نویسی اضافی را حذف می‌کند.

یافته‌های این مطالعه نشان می‌دهد که SimPLE به طور قابل‌توجهی عملکرد مدل را در طیف گسترده‌ای از وظایف بهبود می‌بخشد و از مدل‌های شناخته شده مانند LaMDA، FLAN و سایر مدل‌های GPT گوگل بهتر عمل می‌کند. این یافته راه‌های جدیدی را برای پیشرفت‌های بیشتر در مدل‌سازی زبان باز می‌کند.

افزایش درک مدل زبان از طریق دلبستگی متنی

تیم MIT CSAIL روی استفاده از مفاهیم متنی برای بهبود درک مدل از چالش‌های زبانی کار کرد. دلالت متنی به رابطه بین دو گزاره اشاره دارد که در آن اگر یک جمله (مقدم) درست باشد، احتمالاً جمله دیگر (فرضیه) نیز صادق است.

محققان کامپیوتر را با استفاده از مدلی آموزش دادند که این پیوندهای مستلزم را برای بهبود درک آن تشخیص می‌دهد. این آموزش آنها را قادر می سازد تا دستوراتی را ایجاد کنند که می تواند تعیین کند که آیا یک زبان یا عبارت خاص حاوی اطلاعات خاصی در انواع وظایف است یا خیر. این اصلاح صفر شات انعطاف‌پذیری و سازگاری مدل را تا حد زیادی افزایش داد.

به گفته Luo از MIT، در حالی که مدل‌های زبان بزرگ (LLM) مهارت‌های برجسته‌ای در ایجاد زبان، هنر و کد نشان داده‌اند، اما هزینه‌های محاسباتی قابل‌توجهی و خطرات حفظ حریم خصوصی را هنگام کار با داده‌های حساس به همراه دارند. از سوی دیگر، مدل‌های کوچک‌تر معمولاً با وظایف چندوظیفه‌ای و وظایف با نظارت ضعیف مشکل دارند.

برای رفع این موانع، محققان MIT CSAIL مدل‌های کوچک‌تری را توسعه دادند که با استفاده از مجموعه داده‌های استنتاج منطقی مبتنی بر زبان طبیعی، بهتر از مدل‌های بزرگ‌تر عمل کردند. علاوه بر این، مدل ها با گنجایش درک طیف وسیعی از وظایف با گنجاندن ایده دلبستگی متنی عرضه شدند.

دقت و حریم خصوصی پیشرفته

محققان MIT یک استراتژی خودآموزی ایجاد کردند که از نیاز به حاشیه‌نویسی داده‌های انسانی یا تکیه بر APIهای مدل زبان بزرگ (LLM) در تلاش برای مدل‌سازی زبان دقیق‌تر و آگاهانه به حریم خصوصی اجتناب می‌کند. این تیم به سرپرستی Hongyin Luo، SimPLE (ویرایش شبه برچسب ساده) را ایجاد کرد، یک استراتژی که به مدل‌ها اجازه می‌دهد تا با وظایف مختلف سازگار شوند و پیش‌بینی‌های دقیق‌تری ارائه دهند.

آموزش مدل زبان به طور سنتی نیاز به حاشیه نویسان انسانی یا استفاده از APIهای LLM دارد. از سوی دیگر، حاشیه نویسی انسانی باعث مشکلات حریم خصوصی می شود، در حالی که استفاده از API خطر افشای اطلاعات حساس را به همراه دارد. SimPLE برای جلوگیری از این مشکلات، حاشیه نویسی داده را بدون دسترسی مستقیم به داده ها ارائه می دهد.

Mit Researchers Develop Small-Scale Language Model More Efficient Than LlmSimPLE به حاشیه‌نویس‌ها نیاز دارد که به‌جای مدیریت مستقیم داده‌های حساس، فقط یک الگوی تعیین تکلیف ارائه دهند. بر اساس الگو، الگوریتم پیوند بین پاسخ و پرس و جو را پیش‌بینی می‌کند و در نتیجه برچسب‌گذاری با کیفیت بالا انجام می‌شود. این روش ضمن دریافت داده های حاشیه نویسی، حریم خصوصی را حفظ می کند.

Luo مزایای خودآموزی را برجسته کرد که با ایجاد برچسب های شبه، برچسب زدن را خودکار می کند. با این حال، دقت برای جلوگیری از نتایج گمراه کننده یا بیش از حد مناسب بسیار مهم است. SimPLE در مقایسه با سایر سیستم‌های خودآموزی، تخمین‌های عدم قطعیت و استراتژی‌های رأی‌گیری را برای ارائه پیش‌بینی‌های قوی‌تر و دقیق‌تر ترکیب می‌کند.

محققان MIT راه را برای مدل‌های زبانی پیشرفته باز کرده‌اند که با ایجاد SimPLE از رویکردهای حاشیه‌نویسی استاندارد از نظر دقت و حریم خصوصی بهتر عمل می‌کنند. این اختراع دارای پتانسیل بهبود طیف گسترده ای از برنامه ها و در عین حال محافظت از داده های حساس است.

خودآموزی و دلبستگی متنی

محققان MIT با تکنیک خودآموزی خود انقلابی در ایجاد مدل هوش مصنوعی ایجاد می کنند. مجموعه مدل‌های کوچک‌تر تیم، سازگاری عالی را در طیف وسیعی از وظایف هوش مصنوعی، مانند طبقه‌بندی احساسات و دسته‌بندی اخبار، نشان می‌دهد. مدل‌ها با قالب‌بندی مجدد چالش‌های مختلف درک زبان طبیعی (NLU) به عنوان وظایف مستلزم به نتایج استثنایی دست می‌یابند.

مدل‌های مستلزم آموزش خودآموز با 350 میلیون پارامتر، مدل‌های زبان تحت نظارت را با تعداد پارامترهای 137 تا 175 میلیارد شکست می‌دهند. این تحقیق پیشگامانه این پتانسیل را دارد که چشم انداز هوش مصنوعی و یادگیری ماشین را با ارائه رویکردی مقیاس پذیرتر، قابل اعتمادتر و مقرون به صرفه تر برای مدل سازی زبان تغییر دهد.

هدف اصلی مدل‌ها پیش‌بینی روابط مستلزم است، که آنها را از مدل‌های زبان بزرگ‌تر (LLM) متمایز می‌کند که اساساً هدفشان تکرار داده‌های آموزشی است. در نتیجه این معماری، مدل‌ها برای تفسیر زبان مناسب‌تر و کارآمدتر هستند و از مدل‌های LLM و مدل‌های کلاسیک مبتنی بر BERT که با استفاده از برچسب‌های تولید شده توسط انسان آموزش داده شده‌اند، پیشی می‌گیرند.

این مطالعه، که توسط لو، جیمز گلس، و یون کیم نویسندگی شده است، در نشست انجمن زبانشناسی محاسباتی در ماه جولای ارائه خواهد شد. این ابتکار که توسط برنامه هوش مصنوعی نوآوری هنگ کنگ تامین می شود، قصد دارد زمینه را برای سیستم های هوش مصنوعی آینده ایجاد کند که مقیاس پذیری، حفاظت از حریم خصوصی و پایداری را در اولویت قرار می دهد.

مدل‌های کوچک‌تر این تیم تنها 1/500 پارامتر مدل‌هایی مانند GPT-3-175B را شامل می‌شود، که استقرار را آسان‌تر و منجر به استنتاج سریع‌تر می‌شود. این به کسب‌وکارها امکان می‌دهد تا مدل‌های چند کاره کارآمد و انعطاف‌پذیر را بدون به خطر انداختن حریم خصوصی داده‌ها یا بسته به منابع محاسباتی پرهزینه توسعه دهند.

گام‌های بعدی محققان، اعمال مدل‌های مستلزم در سایر وظایف مرتبط با زبان و بررسی آموزش مشترک با LLMها برای بهبود بیشتر قابلیت‌های مدل‌های خودآموزشان خواهد بود. آنها همچنین بر روی استفاده از مدل‌های مستلزم برای تعیین کمیت همسویی بین ادعاها و حقایق/اصول اخلاقی تمرکز کرده‌اند که به شناسایی اطلاعات نادرست ماشینی و انسانی، سخنان نفرت‌انگیز و کلیشه‌ها کمک می‌کند.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×