InternGPT: راهی جدید برای تعامل با ChatGPT
InternGPT روش جدیدی برای تعامل با ChatGPT است. این به شما امکان می دهد از اشاره و زبان برای کنترل ChatGPT استفاده کنید. این آن را به ابزاری قدرتمندتر و انعطافپذیرتر برای ارتباط بصری با رباتهای گفتگو تبدیل میکند.
InternGPT چیست
InternGPT (مخفف iGPT) یک سیستم تعاملی بصری مبتنی بر زبان اشاره است که به شما امکان می دهد با استفاده از یک دستگاه اشاره گر برای کلیک، کشیدن و ایجاد با ChatGPT درگیر شوید. InternGPT مخفف عبارت تعامل، غیرکلامی و ChatGPT است.
InternGPT یک پروژه منبع باز است که توسط محققان دانشگاه آکادمی علوم چین OpenGVLab ایجاد شده است. این ربات مبتنی بر مدل ChatGPT OpenAI است که یک ربات چت مدل زبان بزرگ است.

InternGPT ممکن است برای تولید متن، ترجمه زبانها، ایجاد انواع دیگر مطالب خلاقانه و ارائه پاسخهای مفید به سؤالات شما استفاده شود. همچنین ممکن است با برنامه های دیگر مانند نرم افزار ویرایش تصویر ارتباط برقرار کند.
InternGPT هنوز در حال کار است، اما این پتانسیل را دارد که ابزاری قدرتمند برای طیف وسیعی از مشاغل باشد.
نحوه کار InternGPT
InternGPT با ترکیب دستورات اشاره با دستورات زبان طبیعی با ChatGPT تعامل دارد. InternGPT یک دستورالعمل اشارهای ایجاد میکند که عملکرد را زمانی که کاربر روی یک تصویر یا ویدیو کلیک میکند، میکشد یا ترسیم میکند، تعریف میکند. این دستور متعاقباً به ChatGPT منتقل میشود، که از آن برای ایجاد یک پاسخ استفاده میکند.
نصب
1. الزامات اساسی:
بررسی کنید که سیستم شما حداقل پیش نیازهای زیر را نصب کرده باشد:
- لینوکس
- Python 3.8+
- PyTorch 1.12+
- CUDA 11.6+
- GCC و G++ 5.4+
- حافظه GPU >= 17G برای بارگیری ابزارهای اساسی (HuskyVQA، SegmentAnything، ImageOCRRrecognition)
لطفاً قبل از ادامه، مطمئن شوید که نسخههای مناسب این وابستگیها را نصب کردهاید.
2. ایجاد و فعال کردن محیط پایتون:
برای ایجاد و فعال کردن یک محیط پایتون برای iChat، ترمینال خود را باز کنید و دستورات زیر را اجرا کنید:
conda create -n ichat python=3.8
conda ichat را فعال کنید
3. Dependencies Python را نصب کنید:
دستور زیر را در محیط ichat
اجرا کنید تا وابستگیهای ضروری پایتون را با استفاده از pip
نصب کنید:
pip install -r requirements.txt
این دستور تمام بستههای پایتون را که در requirements.txt
نشان داده شدهاند، نصب میکند.
اجرای سرویس Gradio iChat
لطفاً برای شروع کار با سیستم iChat و راه اندازی سرویس Gradio، مراحل زیر را دنبال کنید:
1. شروع سرویس Gradio:
دستور زیر را در ترمینال خود اجرا کنید:
python -u app.py --load "HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0" --port 3456
سرویس Gradio برای سیستم iChat با استفاده از این دستور راه اندازی می شود. اجزای مورد نیاز (HuskyVQA
، SegmentAnything
، و ImageOCRRrecognition
) را بارگیری می کند و در پورت 3456 در دستگاه CUDA داده شده (cuda:0
) گوش می دهد.
2. فعال کردن دستیار صوتی (اختیاری):
این مراحل اضافی را برای فعال کردن ویژگی دستیار صوتی دنبال کنید:
- یک دایرکتوری با نام “certificate” با استفاده از دستور
mkdir گواهی
ایجاد کنید. - گواهینامه را با استفاده از OpenSSL با اجرای دستور زیر ایجاد کنید:
openssl req -x509 -newkey rsa:4096 -keyout Certificate/key.pem -out certificate/cert.pem -sha256 -days 365 -nodes
برای شروع سرویس Gradio با HTTPS، پس از تولید گواهی از دستور زیر استفاده کنید:
python -u app.py --load "HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0" --port 3456 --https
بهروزرسانی دفترچه راهنمای کاربر
ویژگی های سیستم:
- GPT (ترانسفورماتور از پیش آموزش دیده مولد): یک مدل GPT، که یک مدل زبانی است که قادر است متنی شبیه انسان را بسته به اعلانها یا ورودیهای مشخص شده ایجاد کند، سیستم را نیرو میدهد.
ویژگی های پشتیبانی شده:
- InternGPT از DragGAN پشتیبانی می کند:
- برای شروع فرآیند DragGAN، روی دکمه “تصویر جدید” کلیک کنید.
- برای تنظیم موقعیت شروع و پایان، روی تصویر کلیک کنید. نقطه اولیه آبی است، در حالی که نقطه پایان قرمز است.
- مطمئن شوید که تعداد نقاط آبی با تعداد نقاط قرمز برابر است.
- برای شروع فرآیند ویرایش، روی دکمه “Drag It” کلیک کنید.
- پس از پردازش، یک عکس تغییر یافته و همچنین فیلمی دریافت خواهید کرد که فرآیند ویرایش را به تصویر میکشد.
- InternGPT ImageBind را پشتیبانی میکند:
- برای ایجاد یک تصویر جدید از یک فایل صوتی:
- پیامی مانند: “یک تصویر واقعی از این صدا ایجاد کنید.”
ارسال کنید
- برای ایجاد یک تصویر جدید با صدا و متن:
- پیامی مانند: “یک تصویر واقعی از این صدا و {پیشنهاد شما} ایجاد کنید.”
ارسال کنید.
- برای ایجاد یک تصویر جدید با استفاده از صدا و تصویر موجود:
- یک تصویر آپلود کنید و سپس پیامی مانند: “یک تصویر جدید از تصویر و صدای بالا ایجاد کنید.”
ارسال کنید.
- برای ایجاد یک تصویر جدید از یک فایل صوتی:
ویژگی های اصلی:
- گفتگوی چند وجهی:
- پس از آپلود تصویر، میتوانید با ارسال پیامهای مرتبط با تصویر، در یک بحث چند وجهی شرکت کنید.
- برای مثال، میتوانید از اعلانهایی مانند «در تصویر چیست؟» استفاده کنید. برای پرسیدن سوالات در مورد تصویر یا “پس زمینه تصویر چه رنگی است؟”
- عملیات تصویر تعاملی:
- می توانید با کلیک کردن روی تصویر و سپس فشار دادن دکمه “انتخاب” بخش تقسیم شده را ببینید.
- دکمه “OCR” امکان تشخیص کلمه را در مکان انتخاب شده فراهم می کند.
- ویرایش تصویر:
- برای حذف ناحیه ماسکدار از یک عکس، پیامی ارسال کنید که میگوید «منطقه ماسکدار را بردارید».
- پیامی مانند «جایگزینی ناحیه ماسکشده با {توی فرمان}» ارسال کنید. برای جایگزینی ناحیه ماسک شده در تصویر.
- این دستورات به شما امکان میدهد عکس را بر اساس مکانهایی که ارائه میدهید تغییر دهید.
- تولید تصویر:
- پیامی بفرستید که چیزی شبیه به “تصویر جدیدی را بر اساس تقسیم بندی آن که درخواست شما را توصیف می کند ایجاد کنید.”
- این دستور یک تصویر جدید بر اساس تقسیم بندی تصویر و درخواست ارائه شده ایجاد می کند.
- ایجاد تصویر مبتنی بر خط خطی:
- برای دسترسی به تخته طراحی، از دکمه “Whiteboard” استفاده کنید.
- تصویر مورد نظرتان را روی تخته بکشید.
- برای ذخیره تصویر کشیده شده، روی دکمه “ذخیره” کلیک کنید.
- پیامی بفرستید که چیزی شبیه به “تصویر جدیدی بر اساس این خط خطی که {توضیحات شما}” را توصیف می کند ایجاد کنید.” برای ایجاد یک اثر هنری جدید بر اساس خط خطی و یک اعلان مشخص شده.
همچنین Tinygrad: انقلابی در یادگیری عمیق با کارایی سبک را بخوانید.
این مقاله به شما کمک می کند تا در مورد internGPT بیاموزید. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و بازخورد خود را در بخش نظرات زیر به اشتراک بگذارید.