breadcrumbs_delimiter امنیت breadcrumbs_delimiter هک ChatGPT تازه شروع شده است
امنیت

هک ChatGPT تازه شروع شده است

فروردین 24, 1402 1020

در نتیجه، نویسندگان فرار از زندان خلاق تر شده اند. برجسته ترین جیلبریک DAN بود، جایی که ChatGPT به آن گفته شد تظاهر کنید که یک مدل هوش مصنوعی سرکش به نام اکنون هر کاری کنید است. همانطور که از نام آن پیداست، این می‌تواند از سیاست‌های OpenAI جلوگیری کند که ChatGPT نباید برای تولید مطالب غیرقانونی یا مضر استفاده شود. تا به امروز، مردم حدود ده‌ها نسخه مختلف از DAN را ایجاد کرده‌اند.

با این حال، بسیاری از آخرین جیلبریک‌ها شامل ترکیبی از روش‌ها هستند – کاراکترهای متعدد، پس‌استوری‌های پیچیده‌تر، ترجمه متن از یکی. زبان به زبان دیگر، استفاده از عناصر کدنویسی برای تولید خروجی و موارد دیگر. آلبرت می گوید که ایجاد جیلبریک برای GPT-4 نسبت به نسخه قبلی مدلی که ChatGPT را تامین می کند، سخت تر بوده است. با این حال، او ادعا می کند که برخی از روش های ساده هنوز وجود دارد. یکی از تکنیک‌هایی که آلبرت اخیراً آن را «ادامه متن» می‌نامد، می‌گوید که یک قهرمان توسط یک شرور دستگیر شده است، و درخواست از تولیدکننده متن می‌خواهد که به توضیح نقشه شرور ادامه دهد.

هنگامی که ما درخواست را آزمایش کردیم. ، کار نکرد و ChatGPT گفت که نمی تواند در سناریوهایی که خشونت را ترویج می کند شرکت کند. در همین حال، دستور جهانی ایجاد شده توسط پولیاکوف در ChatGPT کار کرد. OpenAI، گوگل و مایکروسافت مستقیماً به سؤالات مربوط به جیلبریک ایجاد شده توسط پولیاکوف پاسخ ندادند. Anthropic، که سیستم هوش مصنوعی کلود، می گوید که جیلبریک “گاهی اوقات” علیه کلود کار می کند و به طور مداوم در حال بهبود مدل های خود است.

“همانطور که ما این موارد را ارائه می دهیم. کای گرشاک، محقق امنیت سایبری که روی امنیت LLM کار می‌کند، می‌گوید: «سیستم‌ها روز به روز قدرت بیشتری دارند، و هر چه خودشان قدرتمندتر می‌شوند، این فقط یک موضوع جدید نیست، بلکه یک مسئله امنیتی است. گرشیک، همراه با سایر محققان، نشان داده است که چگونه LLM ها می توانند تحت تاثیر متنی که به صورت آنلاین در معرض آنها قرار می گیرند از طریق حملات تزریق سریع.

در یک مقاله تحقیقاتی منتشر شده در فوریه، گزارش شده توسط مادربرد Vice، محققان توانستند نشان دهند که یک مهاجم می تواند دستورالعمل های مخرب را در یک صفحه وب؛ اگر سیستم چت بینگ به دستورالعمل ها دسترسی داشته باشد، از آنها پیروی می کند. محققان از این تکنیک در یک آزمایش کنترل‌شده برای تبدیل Bing Chat به یک کلاهبرداری که اطلاعات شخصی افراد را درخواست کرده است. در مثالی مشابه، نارایانان پرینستون متن نامرئی را در وب‌سایتی گنجانده بود که به GPT-4 می‌گفت کلمه «گاو» را در زندگی‌نامه او بگنجاند—بعداً هنگام آزمایش سیستم این کار را انجام دادسحر عبدالنبی، محقق مرکز امنیت اطلاعات CISPA Helmholtz در آلمان، که با Greshake روی این تحقیق کار کرده است، می‌گوید: «اکنون جیلبریک نمی‌تواند توسط کاربر اتفاق بیفتد. “شاید شخص دیگری برخی از جیلبریک‌ها را برنامه‌ریزی کند، برخی درخواست‌ها را که می‌تواند توسط مدل بازیابی شود و به طور غیرمستقیم نحوه رفتار مدل‌ها را کنترل کند.”

بدون رفع سریع

سیستم‌های هوش مصنوعی مولد در آستانه مختل کردن اقتصاد و نحوه کار مردم هستند، از حقوق وکالت برای ایجاد طلای راه اندازی . با این حال، کسانی که این فناوری را ایجاد می کنند، از خطراتی که جیلبریک و تزریق سریع می تواند ایجاد کند، زیرا افراد بیشتری به این سیستم ها دسترسی پیدا می کنند، آگاه هستند. اکثر شرکت ها از red-teaming استفاده می کنند، جایی که گروهی از مهاجمان سعی می کنند قبل از انتشار یک سیستم را سوراخ کنند. توسعه هوش مصنوعی مولد از این رویکرد استفاده می‌کند. اما ممکن است کافی نباشد.

دانیل فابیان، سرپرست تیم قرمز در Google، می‌گوید این شرکت با دقت در حال رسیدگی به فرار از زندان و تزریق‌های فوری به LLM‌های خود است— هم تهاجمی و هم دفاعی فابیان می‌گوید، کارشناسان یادگیری ماشین در تیم قرمز آن و کمک‌های مالی تحقیقاتی آسیب‌پذیری این شرکت به حساب می‌آیند. پوشش فرار از زندان و حملات تزریق سریع علیه Bard. فابیان می‌گوید: «تکنیک‌هایی مانند یادگیری تقویتی از بازخورد انسانی (RLHF)، و تنظیم دقیق مجموعه‌های داده با دقت تنظیم شده، برای مؤثرتر کردن مدل‌های ما در برابر حملات استفاده می‌شوند.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×