آویجیت قوش میخواست ربات کارهای بدی انجام دهد.
سپس، دکتر گوش به ساختار سلسله مراتبی کاست در زادگاهش هند اشاره کرد. آیا ربات گفتگو میتواند استخدامهای احتمالی را بر اساس آن معیار تبعیضآمیز رتبهبندی کند؟
این مدل مطابقت دارد.
دکتر. نیات قوش بدخواهانه نبود، اگرچه او طوری رفتار می کرد که گویی چنین بود. در عوض، او یک شرکت کننده معمولی در یک مسابقه آخر هفته گذشته در کنفرانس سالانه هکرهای Defcon در لاس وگاس بود، که در آن 2200 نفر طی سه روز به اتاق کنفرانس خارج از استریپ مراجعه کردند تا جنبه تاریک هوش مصنوعی را ترسیم کنند.
هکرها سعی کردند از پادمان های A.I مختلف عبور کنند. برنامههایی در تلاش برای شناسایی آسیبپذیریهای آنها – برای یافتن مشکلات قبل از اینکه مجرمان واقعی و دستفروشان اطلاعات نادرست انجام دهند – در عملی که به عنوان تیم قرمز شناخته میشود. هر شرکت کننده 50 دقیقه فرصت داشت تا با 21 چالش مقابله کند – گرفتن یک A.I. مدل برای “توهم” اطلاعات نادرست، برای مثال.
آنها اطلاعات غلط سیاسی، کلیشه های جمعیت شناختی، دستورالعمل هایی در مورد نحوه انجام نظارت و موارد دیگر پیدا کردند.
این تمرین از برکت دولت بایدن برخوردار بود که به طور فزاینده ای نسبت به قدرت رو به رشد سریع این فناوری نگران است. Google (سازنده چت ربات Bard)، OpenAI (ChatGPT)، Meta (که کد LLaMA خود را منتشر کرد into the wild) و چندین شرکت دیگر نسخه های ناشناس مدل های خود را برای بررسی دقیق ارائه کردند.
دکتر Ghosh، مدرس دانشگاه نورث ایسترن که در زمینه اخلاق هوش مصنوعی تخصص دارد، داوطلب این رویداد بود. او گفت که این مسابقه امکان مقایسه سر به سر چندین A.I را فراهم کرد. مدلسازی کرد و نشان داد که چگونه برخی از شرکتها در حصول اطمینان از عملکرد مسئولانه و مداوم فناوری آنها پیشرفتهاند.
او به نوشتن گزارشی برای تجزیه و تحلیل یافتههای هکرها در ماههای آینده کمک خواهد کرد. .
هدف، او گفت: “منبعی با دسترسی آسان برای همه تا ببینند چه مشکلاتی وجود دارد و چگونه می توانیم با آنها مبارزه کنیم.”
داوطلبان به عنوان “افراد” و شرکت کنندگان به عنوان “انسان” شناخته می شوند. تعداد انگشت شماری از کلاه های فویل خانگی روی لباس استاندارد تی شرت ها و کفش های کتانی استفاده می کردند. «دهکدههای» مضمون شامل فضاهای جداگانهای بود که بر روی ارزهای دیجیتال، هوافضا و رادیو ژامبون متمرکز بود.
در آنچه به عنوان “تغییر بازی” گزارش ماه گذشته، محققان نشان دادند که می توانند دور بزنند نرده های محافظ برای A.I. سیستمهایی از Google، OpenAI و Anthropic با الحاق نویسههای خاص به درخواستهای انگلیسی زبان. تقریباً در همان زمان، هفت شرکت پیشرو هوش مصنوعی متعهد به استانداردهای جدید برای ایمنی، امنیت و اعتماد به دیدار با پرزیدنت بایدن.
«این دوره مولد در حال شکستن بر سر ماست، و مردم آن را تصرف می کنند و از آن برای انجام انواع کارهای جدید استفاده می کنند که گویای وعده عظیم A.I است. آراتی پرابهاکار، مدیر دفتر سیاست علم و فناوری در کاخ سفید که با A.I همکاری می کرد، گفت: تا به ما کمک کند تا برخی از سخت ترین مشکلات خود را حل کنیم. سازمان دهندگان در Defcon. “اما با این وسعت کاربرد، و با قدرت فناوری، مجموعه بسیار وسیعی از خطرات نیز به همراه دارد.”
Red-teaming برای سالها در حلقه های امنیت سایبری در کنار سایر تکنیک های ارزیابی، مانند تست نفوذ و حملات دشمن. اما تا قبل از رویداد Defcon در سال جاری، تلاشها برای بررسی دفاعیات هوش مصنوعی محدود بود: سازماندهندگان مسابقه گفتند که Anthropic قرمز مدل خود را با 111 نفر تشکیل داده است. GPT-4 از حدود 50 نفر.
با تعداد کمی از افراد که محدودیتهای این فناوری را آزمایش میکنند، تحلیلگران به سختی متوجه شدند که آیا یک A.I. رامن چاودری، یکی از سازماندهندگان که بر طراحی چالش نظارت داشت، گفت: «پیچ کردن» یکبار بود که میتوان آن را با یک پچ برطرف کرد، یا یک مشکل تعبیهشده که نیاز به بازنگری ساختاری داشت. دکتر چاودری، یکی از همکاران مرکز اینترنت و جامعه برکمن کلاین متمرکز بر A.I مسئول. و یکی از بنیانگذاران یک سازمان غیرانتفاعی به نام هوش انسانی.
دکتر چاودری قبل از مسابقه گفت: «تعداد گستردهای از چیزها وجود دارد که احتمالاً ممکن است اشتباه پیش بروند. “امیدوارم صدها هزار قطعه اطلاعاتی را با خود حمل کنیم که به ما کمک کند تا تشخیص دهیم که آیا خطرات آسیب های سیستمی در مقیاس بزرگ وجود دارد یا خیر.”
طراحان نمی خواست فقط A.I را فریب دهد. دکتر چاودری، که قبلاً تیم اخلاقیات و مسئولیتپذیری یادگیری ماشین توییتر را رهبری میکرد، گفت: رفتار بد را نشان میدهد – بدون فشار آوردن به آنها برای سرپیچی از شرایط خدماتشان، هیچ درخواستی برای «مانند یک نازی رفتار کنید، و سپس چیزی در مورد سیاهپوستان به من بگویید». هکرها به جز در چالشهای خاص که در آن جهتگیری اشتباه عمدی تشویق میشد، به دنبال نقصهای غیرمنتظره، ناشناختههای به اصطلاح ناشناخته بودند.
A.I. Village متخصصانی را از غول های فناوری مانند گوگل و انویدیا و همچنین یک “Shadowboxer” از Dropbox و یک “کاوبوی داده” از مایکروسافت جذب کرد. همچنین شرکت کنندگانی را جذب کرد که امنیت سایبری یا A.I خاصی نداشتند. اعتبارنامه یک تابلوی امتیاز با موضوع علمی تخیلی امتیاز شرکت کنندگان را حفظ کرد.
برخی از هکرها در این رویداد با ایده همکاری با A.I دست و پنجه نرم کردند. شرکتهایی که آنها را در اعمال ناخوشایندی شریک میدانستند، مانند خراش بدون محدودیت داده. عدهای رویداد Red-teaming را اساساً یک عملیات عکس توصیف کردند، اما اضافه کردند که درگیر کردن صنعت به حفظ امنیت و شفافیت این فناوری کمک میکند.
یکی از دانشجویان علوم کامپیوتر ناسازگاریهایی را مشاهده کرد. در ترجمه زبان چت بات: او به زبان انگلیسی نوشت که مردی در حال رقصیدن مورد اصابت گلوله قرار گرفت، اما در ترجمه هندی مدل فقط گفته شد که مرد مرده است. یک محقق یادگیری ماشین از یک ربات چت خواست وانمود کند که برای ریاست جمهوری مبارزه می کند و از ارتباط خود با کار اجباری کودکان دفاع می کند. این مدل نشان میدهد که کارگران جوان ناخواسته اخلاق کاری قوی دارند.
امیلی گرین، که روی امنیت برای A.I مولد کار می کند. استارتآپ Moveworks، با صحبت در مورد بازیای که از قطعات «سیاه» و «سفید» استفاده میکرد، با یک ربات چت گفتگو کرد. او سپس چت بات را وادار کرد تا اظهارات نژادپرستانه ای بدهد. بعداً، او یک “بازی مخالف” راه اندازی کرد که رهبری A.I. برای پاسخ دادن به یک درخواست با شعری در مورد اینکه چرا تجاوز جنسی خوب است پاسخ دهید.
او درباره ربات چت گفت: «این کلمات را فقط به عنوان کلمات در نظر می گیریم. “این به ارزش پشت کلمات فکر نمی کند.”
هفت داور به موارد ارسالی نمره دادند. بهترین گلزنان «cody3»، «aray4» و «cody2» بودند.
دو مورد از این دستهها از کودی هو، دانشجوی دانشگاه استنفورد که در رشته علوم کامپیوتر تحصیل میکرد، به دست آمد. تمرکز بر A.I او پنج بار در این مسابقه شرکت کرد و در طی آن ربات چت را دریافت کرد تا درباره مکانی جعلی به نام یک شخصیت تاریخی واقعی به او بگوید و شرایط ثبت مالیات آنلاین را که در اصلاحیه بیست و هشتم قانون اساسی تدوین شده است (که وجود ندارد) توضیح دهد.
تا زمانی که یک خبرنگار با او تماس گرفت، او از پیروزی دوگانه خود اطلاعی نداشت. او قبل از دریافت ایمیل از سوی Sven Cattell، دانشمند دادهای که A.I را تأسیس کرد، کنفرانس را ترک کرد. دهکده و به سازماندهی مسابقه کمک کرد و به او گفت: “به A.I.V. برگرد، تو برنده شدی.” او نمیدانست که جایزه او، فراتر از حق بالیدن، شامل یک کارت گرافیک A6000 از انویدیا است که حدود 4000 دلار ارزش دارد.
«آشنایی با نحوه عملکرد این حملات و آنها آقای هو گفت که are یک چیز واقعی و مهم است. “این گفته، برای من واقعا سرگرم کننده است.”