Visual ChatGPT: هوش مصنوعی که می تواند به سوالات مربوط به تصاویر تولید، ویرایش و پاسخ دهد
Visual ChatGPT، همچنین به عنوان ChatGPT با پشتیبانی از تصویر شناخته میشود، نسخه بهبودیافتهای از مدل ChatGPT است که شامل دادههای متنی و تصویری است. در حالی که معماری اصلی ChatGPT برای ایجاد پاسخ های متنی به سؤالات کاربر در نظر گرفته شده است، Visual ChatGPT با اجازه دادن به کاربران برای وارد کردن تصاویر علاوه بر کلمات، قابلیت های خود را گسترش می دهد.
Visual ChatGPT با پذیرش اقدامات نوشتاری و بصری، تجربه ارتباطی پویاتر و متفاوتتری را ارائه میدهد. کاربران ممکن است تصویری را در جستار خود بگنجانند و مدل می تواند داده های بصری را ارزیابی و تفسیر کند تا نتایج مرتبط تر و دقیق تری به دست آورد. این ترکیب دادههای بصری درک مدل از ورودی کاربر را بهبود میبخشد و به آن اجازه میدهد پاسخهای آموزشی و جامعتری ارائه دهد.
Visual ChatGPT میتواند در برنامههای مختلفی که اطلاعات بصری مهم است، مفید باشد، مانند شرح تصویر، پاسخگویی بصری به سؤال، یا هر موقعیتی که در آن کاربران باید با استفاده از متن و تصویر تعامل داشته باشند. این امکان تعامل عمیقتر و فراگیرتر با مدلهای هوش مصنوعی را فراهم میکند.
چگونه Visual ChatGPT کار می کند
Visual ChatGPT ترکیبی از ChatGPT و Visual Foundation است که امکان تولید و دستکاری تصویر را فراهم می کند. این شامل الگوریتمهای پیچیده ویرایش تصویر است که به ChatGPT اجازه میدهد تا درخواستهای کاربر برای تولید و اصلاح تصویر را مدیریت کند.

نحوه اجرای Visual ChatGPT
برای اجرای Visual ChatGPT، مراحل زیر را می توان دنبال کرد:
- مخزن TaskMatrix را کلون کنید:
git clone https://github.com/microsoft/TaskMatrix.git
- به فهرست “visual-chatgpt” بروید:
cd visual-chatgpt
- یک محیط پایتون جدید به نام “visgpt” با Python 3.8 با استفاده از Conda ایجاد کنید:
conda create -n visgpt python=3.8
- محیط جدید ایجاد شده را فعال کنید:
conda فعال کردن visgpt
- بسته های مورد نیاز مشخص شده در فایل
requirements.txt
را نصب کنید:
pip install -r requires.txt
- بسته های اضافی را نصب کنید: GroundingDINO و segment-anything:
pip install git+https://github.com/IDEA-Research/GroundingDINO.git pip install git+https://github.com/facebookresearch/segment-anything.git
- کلید OpenAI API خصوصی خود را به عنوان یک متغیر محیطی (برای لینوکس) تنظیم کنید:
پیش>
صادرات OPENAI_API_KEY={Your_Private_Openai_Key}
- کلید OpenAI API خصوصی خود را به عنوان یک متغیر محیطی (برای ویندوز) تنظیم کنید:
پیش>
تنظیم OPENAI_API_KEY={Your_Private_Openai_Key}
- Visual ChatGPT را با تخصیص GPU/CPU مورد نظر با استفاده از اسکریپت
visual_chatgpt.py
شروع کنید. در اینجا چند نمونه آورده شده است:کد cssCopy
python visual_chatgpt.py --load ImageCaptioning_cpu,Text2Image_cpu
- برای 1 Tesla T4 15GB (Google Colab):
python visual_chatgpt.py --load "ImageCaptioning_cuda:0,Text2Image_cuda:0"
python visual_chatgpt.py --load "Text2Box_cuda:0,Segmenting_cuda:0,Inpainting_cuda:0, ImageCaptioning_cuda:0,Text2Image_cuda:1,Image2Canny_cpu,CannyText2Image_cuda:1,Image2Depth_cpu,DepthText2Image_cuda:1,VisualQuestionAnswering_cuda:2,PixText2Image_cuda:2,InstructionScribbleS2,Pix,Text2,Image_cuda ext2Image_cuda:2,SegText2Image_cuda:2,Image2Pose_cpu,PoseText2Image_cuda:2,Image2Hed_cpu,HedText2Image_cuda:3, Image2Normal_cpu,NormalText2Image_cuda:3,Image2Line_cpu,LineText2Image_cuda:3"
توجه: دستورالعمل ها محیط لینوکس یا ویندوز و در دسترس بودن منابع سخت افزاری مورد نیاز را فرض می کنند. برای اطلاعات بیشتر، صفحه GitHub. مطمئن شوید که Your_Private_Openai_Key با کلید خصوصی OpenAI API واقعی شما جایگزین شده است.
همچنین DragGAN: ابزار ویرایش تصویر با هوش مصنوعی که ویرایش تصاویر را آسان می کند.
نحوه استفاده آنلاین از Visual ChatGPT
برای استفاده از Visual ChatGPT به صورت آنلاین، این مراحل را دنبال کنید:

- از وب سایت Visual ChatGPT دیدن کنید: به Visual ChatGPT در مرورگر وب شما.
- اعلان نوشتار خود را وارد کنید: وقتی به صفحه رسیدید، یک ربات چت یا یک ناحیه ورودی متن را مشاهده خواهید کرد. در ربات چت، پیام متنی یا سوال انتخابی خود را وارد کنید. ممکن است یک عبارت کامل یا فهرستی از اصطلاحات باشد.
- دریافت پاسخهای بصری: وقتی یک درخواست متنی را وارد میکنید، Visual ChatGPT آن را با استفاده از مدلهای پایه تصویری خود پردازش میکند. بر اساس ورودی، گرافیک را تولید و دستکاری می کند تا یک تجربه تعامل چند وجهی ارائه دهد. ربات چت با پاسخ های گرافیکی مرتبط با درخواست شما پاسخ می دهد.
- اعلامهای آپلود تصویر (اختیاری): همچنین میتوانید درخواستهای تصویر را برای پردازش با Visual ChatGPT آپلود کنید. اگر می خواهید ربات چت بر اساس یک عکس ارزیابی کند یا پاسخ دهد، توانایی ارسال عکس در وب سایت را بررسی کنید. مراحل آپلود را دنبال کنید و Visual ChatGPT تصویر شما را در چت قرار می دهد.
- ادامه گفتگو: Visual ChatGPT برای تسهیل مکالمات تعاملی و پویا ایجاد شده است. میتوانید گفتگو را با تایپ پیامهای متنی جدید یا آپلود پیامهای تصویر اضافی در صورت لزوم ادامه دهید. ربات چت با ایجاد خروجی های بصری جدید پاسخ می دهد.
مزایای استفاده از Visual ChatGPT
در اینجا چندین مزیت استفاده از Visual ChatGPT وجود دارد:
- تشخیص تصویر: Visual ChatGPT مدلهای بصری را با مدل زبان ChatGPT ترکیب میکند و به آن اجازه میدهد بسته به دستورالعملهای کاربر، تصاویر گرافیکی را تفسیر و تولید کند. کاربران ممکن است با استفاده از ورودی های نوشتاری و بصری با مدل درگیر شوند و گستره فعالیت ها و برنامه ها را گسترش دهند.
- تولید تصویر: Visual ChatGPT میتواند تصاویر را بر اساس درخواستهای متنی تولید کند و به کاربران اجازه میدهد تصویری را که میخواهند مدل بسازد، توصیف کنند. این ممکن است در زمینه های مختلف خلاقانه، از جمله خلق آثار هنری، طراحی صحنه، و داستان سرایی بصری مفید باشد.
- تصویر ویرایش: Visual ChatGPT ممکن است علاوه بر ایجاد تصاویر، فعالیتهای ویرایش تصویر را بر اساس دستورالعملهای کاربر انجام دهد. کاربران میتوانند دستورالعملهای سطح بالایی را برای اصلاح تصویر، مانند تغییر رنگ، افزودن یا حذف اشیا، یا تغییر اندازه تصاویر ارائه دهند.
- حلقه بازخورد بهبود یافته کاربر: Visual ChatGPT دارای یک سیستم حلقه بازخورد است که به کاربران اجازه می دهد ورودی های خروجی ایجاد شده را ارائه دهند. از این ورودی برای تغییر و بهبود خروجی مدل در چرخههای بعدی استفاده میشود که منجر به ایجاد دقیقتر و دقیقتر در طول زمان میشود.
- تطبیق پذیری: Visual ChatGPT به اندازه کافی همه کاره است تا بتواند طیف وسیعی از فعالیت ها و برنامه ها را انجام دهد، مانند نوشتن شرح تصویر، پاسخ به سؤالات بصری، تبدیل تصویر به متن، و موارد دیگر. به دلیل سازگاری، ابزار ارزشمندی در رشته های مختلف از جمله توسعه محتوا، طراحی، روایت و تجارت الکترونیک است.
- منابع GPU قابل دسترسی: Visual ChatGPT اطلاعاتی درباره نحوه اجرای مدل در پیکربندیهای سختافزاری مختلف، از جمله پیکربندیهای GPU، ارائه میدهد. این مدل میتواند با بهرهبرداری از منابع GPU، وظایف محاسباتی سختتر را به طور مؤثرتری انجام دهد، که منجر به تعاملات سریعتر و روانتر میشود.
- ادغام OpenAI API: Visual ChatGPT بر روی OpenAI API ساخته شده است و امکان تعامل آسان با سایر سرویس ها و مدل های OpenAI را فراهم می کند. این اتصال به مشتریان امکان میدهد قابلیتهای Visual ChatGPT را با سایر مدلها و سرویسهای هوش مصنوعی برای توسعه برنامههای کاربردی قدرتمندتر و جامعتر ادغام کنند.
این مقاله برای کمک به شما در یادگیری نحوه استفاده از ChatGPT تصویری است. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.