هک ChatGPT تازه شروع شده است
در نتیجه، نویسندگان فرار از زندان خلاق تر شده اند. برجسته ترین جیلبریک DAN بود، جایی که ChatGPT به آن گفته شد تظاهر کنید که یک مدل هوش مصنوعی سرکش به نام اکنون هر کاری کنید است. همانطور که از نام آن پیداست، این میتواند از سیاستهای OpenAI جلوگیری کند که ChatGPT نباید برای تولید مطالب غیرقانونی یا مضر استفاده شود. تا به امروز، مردم حدود دهها نسخه مختلف از DAN را ایجاد کردهاند.
با این حال، بسیاری از آخرین جیلبریکها شامل ترکیبی از روشها هستند – کاراکترهای متعدد، پساستوریهای پیچیدهتر، ترجمه متن از یکی. زبان به زبان دیگر، استفاده از عناصر کدنویسی برای تولید خروجی و موارد دیگر. آلبرت می گوید که ایجاد جیلبریک برای GPT-4 نسبت به نسخه قبلی مدلی که ChatGPT را تامین می کند، سخت تر بوده است. با این حال، او ادعا می کند که برخی از روش های ساده هنوز وجود دارد. یکی از تکنیکهایی که آلبرت اخیراً آن را «ادامه متن» مینامد، میگوید که یک قهرمان توسط یک شرور دستگیر شده است، و درخواست از تولیدکننده متن میخواهد که به توضیح نقشه شرور ادامه دهد.
هنگامی که ما درخواست را آزمایش کردیم. ، کار نکرد و ChatGPT گفت که نمی تواند در سناریوهایی که خشونت را ترویج می کند شرکت کند. در همین حال، دستور جهانی ایجاد شده توسط پولیاکوف در ChatGPT کار کرد. OpenAI، گوگل و مایکروسافت مستقیماً به سؤالات مربوط به جیلبریک ایجاد شده توسط پولیاکوف پاسخ ندادند. Anthropic، که سیستم هوش مصنوعی کلود، می گوید که جیلبریک “گاهی اوقات” علیه کلود کار می کند و به طور مداوم در حال بهبود مدل های خود است.
“همانطور که ما این موارد را ارائه می دهیم. کای گرشاک، محقق امنیت سایبری که روی امنیت LLM کار میکند، میگوید: «سیستمها روز به روز قدرت بیشتری دارند، و هر چه خودشان قدرتمندتر میشوند، این فقط یک موضوع جدید نیست، بلکه یک مسئله امنیتی است. گرشیک، همراه با سایر محققان، نشان داده است که چگونه LLM ها می توانند تحت تاثیر متنی که به صورت آنلاین در معرض آنها قرار می گیرند از طریق حملات تزریق سریع.
در یک مقاله تحقیقاتی منتشر شده در فوریه، گزارش شده توسط مادربرد Vice، محققان توانستند نشان دهند که یک مهاجم می تواند دستورالعمل های مخرب را در یک صفحه وب؛ اگر سیستم چت بینگ به دستورالعمل ها دسترسی داشته باشد، از آنها پیروی می کند. محققان از این تکنیک در یک آزمایش کنترلشده برای تبدیل Bing Chat به یک کلاهبرداری که اطلاعات شخصی افراد را درخواست کرده است. در مثالی مشابه، نارایانان پرینستون متن نامرئی را در وبسایتی گنجانده بود که به GPT-4 میگفت کلمه «گاو» را در زندگینامه او بگنجاند—بعداً هنگام آزمایش سیستم این کار را انجام دادسحر عبدالنبی، محقق مرکز امنیت اطلاعات CISPA Helmholtz در آلمان، که با Greshake روی این تحقیق کار کرده است، میگوید: «اکنون جیلبریک نمیتواند توسط کاربر اتفاق بیفتد. “شاید شخص دیگری برخی از جیلبریکها را برنامهریزی کند، برخی درخواستها را که میتواند توسط مدل بازیابی شود و به طور غیرمستقیم نحوه رفتار مدلها را کنترل کند.”
بدون رفع سریع
سیستمهای هوش مصنوعی مولد در آستانه مختل کردن اقتصاد و نحوه کار مردم هستند، از حقوق وکالت برای ایجاد طلای راه اندازی . با این حال، کسانی که این فناوری را ایجاد می کنند، از خطراتی که جیلبریک و تزریق سریع می تواند ایجاد کند، زیرا افراد بیشتری به این سیستم ها دسترسی پیدا می کنند، آگاه هستند. اکثر شرکت ها از red-teaming استفاده می کنند، جایی که گروهی از مهاجمان سعی می کنند قبل از انتشار یک سیستم را سوراخ کنند. توسعه هوش مصنوعی مولد از این رویکرد استفاده میکند. اما ممکن است کافی نباشد.
دانیل فابیان، سرپرست تیم قرمز در Google، میگوید این شرکت با دقت در حال رسیدگی به فرار از زندان و تزریقهای فوری به LLMهای خود است— هم تهاجمی و هم دفاعی فابیان میگوید، کارشناسان یادگیری ماشین در تیم قرمز آن و کمکهای مالی تحقیقاتی آسیبپذیری این شرکت به حساب میآیند. پوشش فرار از زندان و حملات تزریق سریع علیه Bard. فابیان میگوید: «تکنیکهایی مانند یادگیری تقویتی از بازخورد انسانی (RLHF)، و تنظیم دقیق مجموعههای داده با دقت تنظیم شده، برای مؤثرتر کردن مدلهای ما در برابر حملات استفاده میشوند.