breadcrumbs_delimiter هوش مصنوعی breadcrumbs_delimiter DALL-E: هوش مصنوعی که می تواند تصاویر را از متن ایجاد کند
هوش مصنوعی

DALL-E: هوش مصنوعی که می تواند تصاویر را از متن ایجاد کند

دی 11, 1348 0012

DALL-E OpenAI می‌تواند تصاویر واقعی را از توضیحات متن تولید کند. در ابتدا در ژانویه 2021 معرفی شد و با استفاده از نسخه ای از GPT-3 تصاویر تولید می کند. DALL-E به دلیل ظرفیت تولید تصاویر با کیفیت بالا از اعلان‌های مختلف مورد ستایش قرار گرفته است.

DALL-E چیست؟

Dall-E یک ابزار هوش مصنوعی مولد است که به افراد امکان می دهد با پاسخ دادن به درخواست های گرافیکی با کلمات، تصاویر جدیدی تولید کنند. Dall-E یک شبکه عصبی است که می تواند تصاویر کاملاً جدیدی را در هر تعداد سبک مختلف طبق دستورالعمل کاربر تولید کند.

نام Dall-E به دو عنصر اساسی متمایز این فناوری احترام می گذارد، که دلالت بر هدف ادغام هنر و فناوری هوش مصنوعی دارد. قسمت اول (DALL) برای یادآوری هنرمند نمادین سورئال اسپانیایی سالوادور دالی است، در حالی که قسمت دوم (E) از ربات خیالی دیزنی Wall-E الهام گرفته شده است. ترکیب این دو عنوان نمادی از قابلیت تصویری انتزاعی و تا حدودی سورئال این فناوری است که توسط یک کامپیوتر خودکار می‌شود.

Dall-E توسط ارائه‌دهنده هوش مصنوعی OpenAI ایجاد شد و در ژانویه 2021 عرضه شد. برای خواندن درخواست‌های کاربر زبان طبیعی و تولید گرافیک‌های جدید، این تکنیک از مدل‌های یادگیری عمیق با مدل زبان بزرگ GPT-3 به عنوان پایه استفاده می‌کند.

Dall-E توسعه مفهومی است که برای اولین بار توسط OpenAI در ژوئن 2020 مورد بحث قرار گرفت، که در ابتدا Image GPT نام داشت، که تلاشی اولیه برای نشان دادن چگونگی استفاده از یک شبکه عصبی برای تولید عکس‌های با کیفیت بالا بود. OpenAI توانست مفهوم اصلی Image GPT را با Dall-E گسترش دهد و به کاربران اجازه دهد تصاویر جدیدی را با یک اعلان متن تولید کنند، شبیه به این که GPT-3 می تواند متن جدیدی را در پاسخ به درخواست های متنی به زبان طبیعی تولید کند.

DALL-E چگونه کار می کند؟

Dall-E از فناوری‌هایی مانند پردازش زبان طبیعی (NLP)، مدل‌های زبان بزرگ (LLM) و پردازش انتشار استفاده می‌کند.

Dall-E با ترکیب بخشی از GPT-3 LLM ایجاد شد. به جای کل 175 میلیارد پارامتر ارائه شده توسط GPT-3، Dall-E تنها 12 میلیارد پارامتر را در روشی با هدف بهبود تولید تصویر به کار می گیرد. Dall-E، مانند GPT-3 LLM، از یک شبکه عصبی ترانسفورماتور – که معمولاً به عنوان یک ترانسفورماتور شناخته می شود – استفاده می کند تا به مدل اجازه دهد تا پیوندهایی بین ایده های متمایز ایجاد و تفسیر کند.

از نظر فنی، روشی که به Dall-E اجازه می‌دهد برای اولین بار توسط محققان Open AI به عنوان Zero-Shot Text-to-Image Generation در یک مقاله تحقیقاتی 20 صفحه‌ای که در فوریه 2021 منتشر شد، توصیف شد. Zero Shot یک استراتژی هوش مصنوعی است که در آن مدل ممکن است با استفاده از دانش موجود و ایده‌های مرتبط، کاری مانند ایجاد یک تصویر کاملاً جدید انجام دهد.

DALL-E

برای نشان دادن اینکه مدل Dall-E می‌تواند تصاویر را با دقت تولید کند، Open AI مدل CLIP (Contrastive Language-Image Pre-training) را ایجاد کرد که بر روی 400 میلیون عکس حاشیه‌نویسی آموزش داده شد. CLIP توسط OpenAI برای کمک به ارزیابی خروجی Dall-E با بررسی اینکه کدام عنوان برای یک تصویر تولید شده مناسب است، استفاده شد.

تکرار اولیه Dall-E (Dall-E 1) تصاویری را از متن با استفاده از روشی به نام رمزگذار خودکار متغیر گسسته (dVAE) ایجاد کرد، که تا حدی بر اساس تحقیقات انجام شده توسط بخش DeepMind Alphabet با رمزگذار خودکار متغیر Quantized Vector بود. .

Dall-E 2 بر اساس فناوری‌های قبلی خود ساخته شده است تا عکس‌های با کیفیت و واقعی‌تری تولید کند. Dall-E 2 در روش‌های مختلفی عمل می‌کند، از جمله استفاده از یک مدل انتشار که داده‌های مدل CLIP را برای کمک به ایجاد تصویر با کیفیت بالاتر ترکیب می‌کند.

همچنین می‌توانید از Midjourney AI که بهترین جایگزین برای Dall-E است، برای کسب اطلاعات بیشتر در مورد Midjourney استفاده کنید. Midjourney: هوش مصنوعی که می‌تواند از افکار شما هنر خلق کند

را بخوانید.

مورد استفاده DALL-E

Dall-E که یک فناوری هوش مصنوعی مولد است، دارای طیف گسترده ای از موارد استفاده ممکن برای کمک به افراد و سازمان ها است، از جمله موارد زیر:

  • الهام خلاق: یک فرد خلاق ممکن است الهام گرفته شود تا با استفاده از فناوری چیز جدیدی ایجاد کند. همچنین ممکن است در ارتباط با فرآیند خلاق موجود استفاده شود.
  • سرگرمی: تصاویر Dall-E پتانسیل استفاده در کتاب یا بازی را دارند. از آنجایی که استفاده از سیستم اعلان برای ساختن تصاویر آسان‌تر است، Dall-E می‌تواند از محدودیت‌های تصاویر معمولی تولید شده توسط رایانه (CGI) فراتر رود.
  • آموزش: Dall-E توسط معلمان و مربیان برای ساختن تصاویر گرافیکی که ایده‌های مختلف را نشان می‌دهد استفاده می‌شود.
  • بازاریابی و تبلیغات: ظرفیت ایجاد گرافیک کاملاً بدیع و تازه ممکن است در تبلیغات و بازاریابی مفید باشد.
  • طراحی محصول: یک طراح محصول ممکن است از Dall-E برای تصور چیزی جدید فقط با استفاده از زبان استفاده کند که بسیار سریعتر از ابزارهای طراحی به کمک کامپیوتر معمولی (CAD) است.
  • هنر: هرکسی می‌تواند از Dall-E برای تولید آثار هنری تازه‌ای استفاده کند که بتوان آن را دوست داشت و حتی نشان داد.
  • طراحی مد: Dall-E، به عنوان افزودنی به ابزارهای فعلی، این توانایی را دارد که به طراحان مد در توسعه چیزهای جدید کمک کند.

مزایای DALL-E چیست؟

Dall-E دارای چندین مزیت ممکن است از جمله موارد زیر:

  • سرعت: Dall-E می‌تواند در مدت زمان نسبتاً سریع، اغلب کمتر از یک دقیقه، تصویری را از یک درخواست اصلی کلمه ایجاد کند.
  • سفارشی‌سازی: یک کاربر ممکن است تصویری کاملاً شخصی‌سازی‌شده از عملاً هر چیزی که قابل تصور باشد بر اساس یک درخواست متنی بگیرد.
  • دسترسی: استفاده از Dall-E نسبتاً آسان است زیرا فقط به متن زبان طبیعی نیاز دارد و به آموزش اساسی یا توانایی های برنامه نویسی خاصی نیاز ندارد.
  • توسعه پذیری: Dall-E ممکن است به شخص کمک کند تا یک تصویر موجود را با میکس مجدد آن بسط دهد یا به روشی جدید مجدداً تصور شود.
  • تکرار: Dall-E به سرعت روی عکس‌های جدید و قدیمی تکرار می‌شود و به کاربران امکان می‌دهد چندین تکرار تولید کنند.

محدودیت های Dall-E چیست؟

در حالی که Dall-E چندین مزیت را ارائه می دهد، امکانات این فناوری محدود است. Dall-E تعدادی محدودیت دارد:

  • حق نسخه‌برداری: مسئله حق نسخه‌برداری در عکس‌های Dall-E، و همچنین اینکه آیا این عکس‌ها در مورد عکس‌های دارای حق نسخه‌برداری آموزش داده شده است، همچنان منبع نگرانی است.
  • مشروعیت هنر تولید شده: برخی همچنین در مورد اصالت و اخلاقیات هنر تولید شده توسط هوش مصنوعی و همچنین اینکه آیا این هنر مردم را جابجا می‌کند، بحث می‌کنند.
  • مجموعه داده: حتی اگر Dall-E بر روی مجموعه داده های بزرگ آموزش دیده است، هنوز حجم عظیمی از داده ها برای عکس ها و توضیحات قابل دسترسی است. در نتیجه، یک درخواست کاربر ممکن است تصویر مورد نظر را ایجاد نکند زیرا مدل فاقد دانش اساسی لازم است.
  • واقع گرایی: اگرچه Dall-E 2 به طور قابل توجهی کیفیت تصویر عکس های خروجی را بهبود بخشیده است، برخی از تصاویر ممکن است هنوز برای برخی از کاربران کیفیت ناکافی داشته باشند.
  • موضوع: یک کاربر برای به دست آوردن تصویر صحیح باید یک اعلان کاملاً مشخص داشته باشد. اگر سوال خیلی کلی است و زمینه ندارد، ممکن است تصویر Dall-E نادرست باشد.

هزینه DALL-E چقدر است؟

Dall-E ممکن است توسط افراد و توسعه دهندگان مورد استفاده قرار گیرد که ممکن است از طریق یک API این فناوری را در کسب و کار خود ادغام کنند.

این کسب و کار مکانیزم اعتباری برای کمک به مصرف کنتور برای افرادی که مستقیماً در سایت OpenAI از Dall-E استفاده می کنند ایجاد کرده است. در حال حاضر، اعتبارات رایگان به پذیرندگان اولیه Dall-E داده می شود که قبل از ۶ آوریل ۲۰۲۳ ثبت نام کنند. این اعتبارات رایگان به صورت هفتگی تکمیل می شوند و یک ماه پس از ارائه منقضی می شوند. هر درخواست برای تولید یا تغییر تصویر با استفاده از Dall-E یک اعتبار مصرف می کند. اعتبار می تواند توسط کاربران جدید خریداری شود. 115 اعتبار در آوریل 2023 هزینه 15 دلار خواهد داشت. اعتبارات پرداختی یک سال پس از خرید منقضی می‌شوند.

OpenAI برای توسعه دهندگانی که از API استفاده می کنند به ازای هر تصویر هزینه می گیرد. قیمت بر اساس سایز عکس تعیین می شود. در آوریل 2023، یک عکس 256×256 0.016 دلار، یک تصویر 512×512 0.018 دلار و یک تصویر 1024×1024 0.020 دلار قیمت داشت.

OpenAI از طریق بخش فروش سازمانی خود باعث صرفه جویی در حجم نیز می شود. جدیدترین قیمت‌ها را می‌توانید در صفحه قیمت‌گذاری مشاهده کنید.

این مقاله برای کمک به یادگیری DALL-E است. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×