Stack Overflow از غول های هوش مصنوعی برای داده های آموزشی هزینه می گیرد
مدلهای زبان بزرگ میتوانند رشتههایی از متن را بر اساس الگوهای کلمهای که از صفحات وب، کتابها و سایر بخشهای متن در دادههای آموزشی خود آموختهاند تولید کنند. علاوه بر ChatGPT، برنامهها ذات رباتهای چت جستجو مانند مایکروسافت را تشکیل میدهند. چت بینگ و بارد Google و آنها زیربنای رو به رشد تعداد برنامه های کاربردی رو به رشدی هستند که تولید یک کپی حرفه ای و خلاقانه در یک لحظه. همتایان آنها که تصویرهای با هوش مصنوعی تولید میکنند. /a> و ویدئوها از الگوهای مجموعه دادههای تصویری مانند عکسهای جمعآوریشده از Pinterest و Flickr.
اغلب، مجموعههای دادهای که در توسعه هوش مصنوعی استفاده میشوند از طریق روشهای غیررسمی مانند ارسال نرمافزاری که محتوا را از وبسایتها حذف میکند، ساخته میشوند. در ایالات متحده که معمولاً قانونی در نظر گرفته میشود، اگرچه مسائل مربوط به حق نسخهبرداری و شرایط استفاده از وبسایتها برخلاف این رویه به جا مانده است. مورد اختلاف است.
چند وب سایت مانند Reddit و Stack Overflow جذاب تر بوده اند. آنها «محلهای ذخیرهسازی داده» یا پورتالهای داده همزمان را برای کمک به نرمافزار برای دسترسی به محتوای آنها به نام API ارائه میکنند. Chandrasekar میگوید در مورد Stack Overflow، توسعهدهندگان LLM دادههای خود را از طریق ترکیبی از dumps، APIها و scraping به دست میآورند، Chandrasekar میگوید که همه اینها امروزه میتوانند به صورت رایگان انجام شوند.
اما Chandrasekar می گوید که توسعه دهندگان LLM شرایط خدمات Stack Overflow را نقض می کنند. کاربران مالک محتوایی هستند که در Stack Overflow پست میکنند، همانطور که در TOS آن مشخص شده است، اما همه این مجوزها تحت مجوز Creative Commons قرار میگیرند که از هر کسی میخواهد بعداً از دادهها استفاده میکند ذکر کند که از کجا آمده است. Chandrasekar میگوید وقتی شرکتهای هوش مصنوعی مدلهای خود را به مشتریان میفروشند، «نمیتوانند تک تک اعضای جامعه را که سؤالات و پاسخهایشان برای آموزش مدل استفاده شده است نسبت دهند، در نتیجه مجوز Creative Commons را نقض میکنند».
نه Stack Overflow و نه Reddit اطلاعات قیمت گذاری را منتشر نکرده اند. تیم راثشمیت، سخنگوی Reddit میگوید: «ما در حال کار بر روی آن هستیم و در هفتههای آینده موارد بیشتری را با شرکای خود به اشتراک خواهیم گذاشت.» Chandrasekar میگوید Stack Overflow استراتژی Reddit را مطالعه میکند و با مشتریان بالقوه خود، که برخی از آنها قبلاً در مورد دسترسی به دادهها تماس گرفتهاند، مشورت خواهد کرد.
نقشه راه بالقوه قیمتگذاری میتواند از جانب ایلان ماسک باشد، که این ماه قیمتها را برای دسترسی به دادههای توییتر افزایش داد. آنها از 42000 دلار در ماه برای دسترسی به 50 میلیون توییت شروع میشوند. تقریباً سه برابر حجم توییتها قبلاً به صورت رایگان در دسترس بود. در a tweet هفته، ماسک مایکروسافت، یک توسعهدهنده بزرگ هوش مصنوعی و شریک نزدیک OpenAI را به آموزش الگوریتمها «بهطور غیرقانونی از دادههای توییتر» متهم کرد. بدون توضیح بیشتر، او اضافه کرد: «زمان طرح دعوی».
هر دو Stack Overflow و Reddit به صدور مجوز رایگان داده ها برای برخی افراد و شرکت ها ادامه خواهند داد. Chandrasekar می گوید Stack Overflow فقط از شرکت هایی که LLM ها را برای اهداف بزرگ و تجاری توسعه می دهند، پاداش می خواهد. او میگوید: «وقتی مردم شروع به دریافت هزینه برای محصولاتی میکنند که در سایتهای اجتماعی ساخته شدهاند، مانند سایت ما، در اینجاست که استفاده منصفانه نیست.
استیو هافمن، مدیر عامل Reddit این هفته به نیویورک تایمز گفت که او میخواهم به بزرگترین شرکتهای جهان پول رایگان بدهم. او گفت: «خزیدن در Reddit، ایجاد ارزش و عدم بازگرداندن هیچ یک از آن ارزش به کاربران، چیزی است که ما با آن مشکل داریم.