breadcrumbs_delimiter کسب و کار breadcrumbs_delimiter Stack Overflow از غول های هوش مصنوعی برای داده های آموزشی هزینه می گیرد
کسب و کار

Stack Overflow از غول های هوش مصنوعی برای داده های آموزشی هزینه می گیرد

فروردین 31, 1402 1021

مدل‌های زبان بزرگ می‌توانند رشته‌هایی از متن را بر اساس الگوهای کلمه‌ای که از صفحات وب، کتاب‌ها و سایر بخش‌های متن در داده‌های آموزشی خود آموخته‌اند تولید کنند. علاوه بر ChatGPT، برنامه‌ها ذات ربات‌های چت جستجو مانند مایکروسافت را تشکیل می‌دهند. چت بینگ و بارد Google و آنها زیربنای رو به رشد تعداد برنامه های کاربردی رو به رشدی هستند که تولید یک کپی حرفه ای و خلاقانه در یک لحظه. همتایان آن‌ها که تصویرهای با هوش مصنوعی تولید می‌کنند. /a> و ویدئوها از الگوهای مجموعه داده‌های تصویری مانند عکس‌های جمع‌آوری‌شده از Pinterest و Flickr.

اغلب، مجموعه‌های داده‌ای که در توسعه هوش مصنوعی استفاده می‌شوند از طریق روش‌های غیررسمی مانند ارسال نرم‌افزاری که محتوا را از وب‌سایت‌ها حذف می‌کند، ساخته می‌شوند. در ایالات متحده که معمولاً قانونی در نظر گرفته می‌شود، اگرچه مسائل مربوط به حق نسخه‌برداری و شرایط استفاده از وب‌سایت‌ها برخلاف این رویه به جا مانده است. مورد اختلاف است.

چند وب سایت مانند Reddit و Stack Overflow جذاب تر بوده اند. آن‌ها «محل‌های ذخیره‌سازی داده» یا پورتال‌های داده هم‌زمان را برای کمک به نرم‌افزار برای دسترسی به محتوای آن‌ها به نام API ارائه می‌کنند. Chandrasekar می‌گوید در مورد Stack Overflow، توسعه‌دهندگان LLM داده‌های خود را از طریق ترکیبی از dumps، APIها و scraping به دست می‌آورند، Chandrasekar می‌گوید که همه این‌ها امروزه می‌توانند به صورت رایگان انجام شوند.

اما Chandrasekar می گوید که توسعه دهندگان LLM شرایط خدمات Stack Overflow را نقض می کنند. کاربران مالک محتوایی هستند که در Stack Overflow پست می‌کنند، همانطور که در TOS آن مشخص شده است، اما همه این مجوزها تحت مجوز Creative Commons قرار می‌گیرند که از هر کسی می‌خواهد بعداً از داده‌ها استفاده می‌کند ذکر کند که از کجا آمده است. Chandrasekar می‌گوید وقتی شرکت‌های هوش مصنوعی مدل‌های خود را به مشتریان می‌فروشند، «نمی‌توانند تک تک اعضای جامعه را که سؤالات و پاسخ‌هایشان برای آموزش مدل استفاده شده است نسبت دهند، در نتیجه مجوز Creative Commons را نقض می‌کنند».

نه Stack Overflow و نه Reddit اطلاعات قیمت گذاری را منتشر نکرده اند. تیم راثشمیت، سخنگوی Reddit می‌گوید: «ما در حال کار بر روی آن هستیم و در هفته‌های آینده موارد بیشتری را با شرکای خود به اشتراک خواهیم گذاشت.» Chandrasekar می‌گوید Stack Overflow استراتژی Reddit را مطالعه می‌کند و با مشتریان بالقوه خود، که برخی از آنها قبلاً در مورد دسترسی به داده‌ها تماس گرفته‌اند، مشورت خواهد کرد.

نقشه راه بالقوه قیمت‌گذاری می‌تواند از جانب ایلان ماسک باشد، که این ماه قیمت‌ها را برای دسترسی به داده‌های توییتر افزایش داد. آنها از 42000 دلار در ماه برای دسترسی به 50 میلیون توییت شروع می‌شوند. تقریباً سه برابر حجم توییت‌ها قبلاً به صورت رایگان در دسترس بود. در a tweet هفته، ماسک مایکروسافت، یک توسعه‌دهنده بزرگ هوش مصنوعی و شریک نزدیک OpenAI را به آموزش الگوریتم‌ها «به‌طور غیرقانونی از داده‌های توییتر» متهم کرد. بدون توضیح بیشتر، او اضافه کرد: «زمان طرح دعوی».

هر دو Stack Overflow و Reddit به صدور مجوز رایگان داده ها برای برخی افراد و شرکت ها ادامه خواهند داد. Chandrasekar می گوید Stack Overflow فقط از شرکت هایی که LLM ها را برای اهداف بزرگ و تجاری توسعه می دهند، پاداش می خواهد. او می‌گوید: «وقتی مردم شروع به دریافت هزینه برای محصولاتی می‌کنند که در سایت‌های اجتماعی ساخته شده‌اند، مانند سایت ما، در اینجاست که استفاده منصفانه نیست.

استیو هافمن، مدیر عامل Reddit این هفته به نیویورک تایمز گفت که او می‌خواهم به بزرگترین شرکت‌های جهان پول رایگان بدهم. او گفت: «خزیدن در Reddit، ایجاد ارزش و عدم بازگرداندن هیچ یک از آن ارزش به کاربران، چیزی است که ما با آن مشکل داریم.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×