breadcrumbs_delimiter هوش مصنوعی breadcrumbs_delimiter Visual ChatGPT: هوش مصنوعی که می تواند به سوالات مربوط به تصاویر تولید، ویرایش و پاسخ دهد
هوش مصنوعی

Visual ChatGPT: هوش مصنوعی که می تواند به سوالات مربوط به تصاویر تولید، ویرایش و پاسخ دهد

دی 11, 1348 005

Visual ChatGPT، همچنین به عنوان ChatGPT با پشتیبانی از تصویر شناخته می‌شود، نسخه بهبودیافته‌ای از مدل ChatGPT است که شامل داده‌های متنی و تصویری است. در حالی که معماری اصلی ChatGPT برای ایجاد پاسخ های متنی به سؤالات کاربر در نظر گرفته شده است، Visual ChatGPT با اجازه دادن به کاربران برای وارد کردن تصاویر علاوه بر کلمات، قابلیت های خود را گسترش می دهد.

Visual ChatGPT با پذیرش اقدامات نوشتاری و بصری، تجربه ارتباطی پویاتر و متفاوت‌تری را ارائه می‌دهد. کاربران ممکن است تصویری را در جستار خود بگنجانند و مدل می تواند داده های بصری را ارزیابی و تفسیر کند تا نتایج مرتبط تر و دقیق تری به دست آورد. این ترکیب داده‌های بصری درک مدل از ورودی کاربر را بهبود می‌بخشد و به آن اجازه می‌دهد پاسخ‌های آموزشی و جامع‌تری ارائه دهد.

Visual ChatGPT می‌تواند در برنامه‌های مختلفی که اطلاعات بصری مهم است، مفید باشد، مانند شرح تصویر، پاسخ‌گویی بصری به سؤال، یا هر موقعیتی که در آن کاربران باید با استفاده از متن و تصویر تعامل داشته باشند. این امکان تعامل عمیق‌تر و فراگیرتر با مدل‌های هوش مصنوعی را فراهم می‌کند.

چگونه Visual ChatGPT کار می کند

Visual ChatGPT ترکیبی از ChatGPT و Visual Foundation است که امکان تولید و دستکاری تصویر را فراهم می کند. این شامل الگوریتم‌های پیچیده ویرایش تصویر است که به ChatGPT اجازه می‌دهد تا درخواست‌های کاربر برای تولید و اصلاح تصویر را مدیریت کند.

Visual ChatGPT

نحوه اجرای Visual ChatGPT

برای اجرای Visual ChatGPT، مراحل زیر را می توان دنبال کرد:

  1. مخزن TaskMatrix را کلون کنید:
git clone https://github.com/microsoft/TaskMatrix.git
  1. به فهرست “visual-chatgpt” بروید:
cd visual-chatgpt
  1. یک محیط پایتون جدید به نام “visgpt” با Python 3.8 با استفاده از Conda ایجاد کنید:
conda create -n visgpt python=3.8 
  1. محیط جدید ایجاد شده را فعال کنید:
conda فعال کردن visgpt
  1. بسته های مورد نیاز مشخص شده در فایل requirements.txt را نصب کنید:
pip install -r requires.txt
  1. بسته های اضافی را نصب کنید: GroundingDINO و segment-anything:
pip install git+https://github.com/IDEA-Research/GroundingDINO.git
pip install git+https://github.com/facebookresearch/segment-anything.git
  1. کلید OpenAI API خصوصی خود را به عنوان یک متغیر محیطی (برای لینوکس) تنظیم کنید:
صادرات OPENAI_API_KEY={Your_Private_Openai_Key} پیش>
  1. کلید OpenAI API خصوصی خود را به عنوان یک متغیر محیطی (برای ویندوز) تنظیم کنید:
تنظیم OPENAI_API_KEY={Your_Private_Openai_Key} پیش>
  1. Visual ChatGPT را با تخصیص GPU/CPU مورد نظر با استفاده از اسکریپت visual_chatgpt.py شروع کنید. در اینجا چند نمونه آورده شده است:
کد cssCopypython visual_chatgpt.py --load ImageCaptioning_cpu,Text2Image_cpu
  • برای 1 Tesla T4 15GB (Google Colab):
python visual_chatgpt.py --load "ImageCaptioning_cuda:0,Text2Image_cuda:0" 
python visual_chatgpt.py --load "Text2Box_cuda:0,Segmenting_cuda:0,Inpainting_cuda:0, ImageCaptioning_cuda:0,Text2Image_cuda:1,Image2Canny_cpu,CannyText2Image_cuda:1,Image2Depth_cpu,DepthText2Image_cuda:1,VisualQuestionAnswering_cuda:2,PixText2Image_cuda:2,InstructionScribbleS2,Pix,Text2,Image_cuda ext2Image_cuda:2,SegText2Image_cuda:2,Image2Pose_cpu,PoseText2Image_cuda:2,Image2Hed_cpu,HedText2Image_cuda:3, Image2Normal_cpu,NormalText2Image_cuda:3,Image2Line_cpu,LineText2Image_cuda:3"

توجه: دستورالعمل ها محیط لینوکس یا ویندوز و در دسترس بودن منابع سخت افزاری مورد نیاز را فرض می کنند. برای اطلاعات بیشتر، صفحه GitHub. مطمئن شوید که Your_Private_Openai_Key با کلید خصوصی OpenAI API واقعی شما جایگزین شده است.

همچنین DragGAN: ابزار ویرایش تصویر با هوش مصنوعی که ویرایش تصاویر را آسان می کند.

نحوه استفاده آنلاین از Visual ChatGPT

برای استفاده از Visual ChatGPT به صورت آنلاین، این مراحل را دنبال کنید:

visual ChatGPT
  1. از وب سایت Visual ChatGPT دیدن کنید: به Visual ChatGPT در مرورگر وب شما.
  2. اعلان نوشتار خود را وارد کنید: وقتی به صفحه رسیدید، یک ربات چت یا یک ناحیه ورودی متن را مشاهده خواهید کرد. در ربات چت، پیام متنی یا سوال انتخابی خود را وارد کنید. ممکن است یک عبارت کامل یا فهرستی از اصطلاحات باشد.
  3. دریافت پاسخ‌های بصری: وقتی یک درخواست متنی را وارد می‌کنید، Visual ChatGPT آن را با استفاده از مدل‌های پایه تصویری خود پردازش می‌کند. بر اساس ورودی، گرافیک را تولید و دستکاری می کند تا یک تجربه تعامل چند وجهی ارائه دهد. ربات چت با پاسخ های گرافیکی مرتبط با درخواست شما پاسخ می دهد.
  4. اعلام‌های آپلود تصویر (اختیاری): همچنین می‌توانید درخواست‌های تصویر را برای پردازش با Visual ChatGPT آپلود کنید. اگر می خواهید ربات چت بر اساس یک عکس ارزیابی کند یا پاسخ دهد، توانایی ارسال عکس در وب سایت را بررسی کنید. مراحل آپلود را دنبال کنید و Visual ChatGPT تصویر شما را در چت قرار می دهد.
  5. ادامه گفتگو: Visual ChatGPT برای تسهیل مکالمات تعاملی و پویا ایجاد شده است. می‌توانید گفتگو را با تایپ پیام‌های متنی جدید یا آپلود پیام‌های تصویر اضافی در صورت لزوم ادامه دهید. ربات چت با ایجاد خروجی های بصری جدید پاسخ می دهد.

مزایای استفاده از Visual ChatGPT

در اینجا چندین مزیت استفاده از Visual ChatGPT وجود دارد:

  1. تشخیص تصویر: Visual ChatGPT مدل‌های بصری را با مدل زبان ChatGPT ترکیب می‌کند و به آن اجازه می‌دهد بسته به دستورالعمل‌های کاربر، تصاویر گرافیکی را تفسیر و تولید کند. کاربران ممکن است با استفاده از ورودی های نوشتاری و بصری با مدل درگیر شوند و گستره فعالیت ها و برنامه ها را گسترش دهند.
  2. تولید تصویر: Visual ChatGPT می‌تواند تصاویر را بر اساس درخواست‌های متنی تولید کند و به کاربران اجازه می‌دهد تصویری را که می‌خواهند مدل بسازد، توصیف کنند. این ممکن است در زمینه های مختلف خلاقانه، از جمله خلق آثار هنری، طراحی صحنه، و داستان سرایی بصری مفید باشد.
  3. تصویر ویرایش: Visual ChatGPT ممکن است علاوه بر ایجاد تصاویر، فعالیت‌های ویرایش تصویر را بر اساس دستورالعمل‌های کاربر انجام دهد. کاربران می‌توانند دستورالعمل‌های سطح بالایی را برای اصلاح تصویر، مانند تغییر رنگ، افزودن یا حذف اشیا، یا تغییر اندازه تصاویر ارائه دهند.
  4. حلقه بازخورد بهبود یافته کاربر: Visual ChatGPT دارای یک سیستم حلقه بازخورد است که به کاربران اجازه می دهد ورودی های خروجی ایجاد شده را ارائه دهند. از این ورودی برای تغییر و بهبود خروجی مدل در چرخه‌های بعدی استفاده می‌شود که منجر به ایجاد دقیق‌تر و دقیق‌تر در طول زمان می‌شود.
  5. تطبیق پذیری: Visual ChatGPT به اندازه کافی همه کاره است تا بتواند طیف وسیعی از فعالیت ها و برنامه ها را انجام دهد، مانند نوشتن شرح تصویر، پاسخ به سؤالات بصری، تبدیل تصویر به متن، و موارد دیگر. به دلیل سازگاری، ابزار ارزشمندی در رشته های مختلف از جمله توسعه محتوا، طراحی، روایت و تجارت الکترونیک است.
  6. منابع GPU قابل دسترسی: Visual ChatGPT اطلاعاتی درباره نحوه اجرای مدل در پیکربندی‌های سخت‌افزاری مختلف، از جمله پیکربندی‌های GPU، ارائه می‌دهد. این مدل می‌تواند با بهره‌برداری از منابع GPU، وظایف محاسباتی سخت‌تر را به طور مؤثرتری انجام دهد، که منجر به تعاملات سریع‌تر و روان‌تر می‌شود.
  7. ادغام OpenAI API: Visual ChatGPT بر روی OpenAI API ساخته شده است و امکان تعامل آسان با سایر سرویس ها و مدل های OpenAI را فراهم می کند. این اتصال به مشتریان امکان می‌دهد قابلیت‌های Visual ChatGPT را با سایر مدل‌ها و سرویس‌های هوش مصنوعی برای توسعه برنامه‌های کاربردی قدرتمندتر و جامع‌تر ادغام کنند.

این مقاله برای کمک به شما در یادگیری نحوه استفاده از ChatGPT تصویری است. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×