DALL-E: هوش مصنوعی که می تواند تصاویر را از متن ایجاد کند
DALL-E OpenAI میتواند تصاویر واقعی را از توضیحات متن تولید کند. در ابتدا در ژانویه 2021 معرفی شد و با استفاده از نسخه ای از GPT-3 تصاویر تولید می کند. DALL-E به دلیل ظرفیت تولید تصاویر با کیفیت بالا از اعلانهای مختلف مورد ستایش قرار گرفته است.
DALL-E چیست؟
Dall-E یک ابزار هوش مصنوعی مولد است که به افراد امکان می دهد با پاسخ دادن به درخواست های گرافیکی با کلمات، تصاویر جدیدی تولید کنند. Dall-E یک شبکه عصبی است که می تواند تصاویر کاملاً جدیدی را در هر تعداد سبک مختلف طبق دستورالعمل کاربر تولید کند.
نام Dall-E به دو عنصر اساسی متمایز این فناوری احترام می گذارد، که دلالت بر هدف ادغام هنر و فناوری هوش مصنوعی دارد. قسمت اول (DALL) برای یادآوری هنرمند نمادین سورئال اسپانیایی سالوادور دالی است، در حالی که قسمت دوم (E) از ربات خیالی دیزنی Wall-E الهام گرفته شده است. ترکیب این دو عنوان نمادی از قابلیت تصویری انتزاعی و تا حدودی سورئال این فناوری است که توسط یک کامپیوتر خودکار میشود.
Dall-E توسط ارائهدهنده هوش مصنوعی OpenAI ایجاد شد و در ژانویه 2021 عرضه شد. برای خواندن درخواستهای کاربر زبان طبیعی و تولید گرافیکهای جدید، این تکنیک از مدلهای یادگیری عمیق با مدل زبان بزرگ GPT-3 به عنوان پایه استفاده میکند.
Dall-E توسعه مفهومی است که برای اولین بار توسط OpenAI در ژوئن 2020 مورد بحث قرار گرفت، که در ابتدا Image GPT نام داشت، که تلاشی اولیه برای نشان دادن چگونگی استفاده از یک شبکه عصبی برای تولید عکسهای با کیفیت بالا بود. OpenAI توانست مفهوم اصلی Image GPT را با Dall-E گسترش دهد و به کاربران اجازه دهد تصاویر جدیدی را با یک اعلان متن تولید کنند، شبیه به این که GPT-3 می تواند متن جدیدی را در پاسخ به درخواست های متنی به زبان طبیعی تولید کند.
DALL-E چگونه کار می کند؟
Dall-E از فناوریهایی مانند پردازش زبان طبیعی (NLP)، مدلهای زبان بزرگ (LLM) و پردازش انتشار استفاده میکند.
Dall-E با ترکیب بخشی از GPT-3 LLM ایجاد شد. به جای کل 175 میلیارد پارامتر ارائه شده توسط GPT-3، Dall-E تنها 12 میلیارد پارامتر را در روشی با هدف بهبود تولید تصویر به کار می گیرد. Dall-E، مانند GPT-3 LLM، از یک شبکه عصبی ترانسفورماتور – که معمولاً به عنوان یک ترانسفورماتور شناخته می شود – استفاده می کند تا به مدل اجازه دهد تا پیوندهایی بین ایده های متمایز ایجاد و تفسیر کند.
از نظر فنی، روشی که به Dall-E اجازه میدهد برای اولین بار توسط محققان Open AI به عنوان Zero-Shot Text-to-Image Generation در یک مقاله تحقیقاتی 20 صفحهای که در فوریه 2021 منتشر شد، توصیف شد. Zero Shot یک استراتژی هوش مصنوعی است که در آن مدل ممکن است با استفاده از دانش موجود و ایدههای مرتبط، کاری مانند ایجاد یک تصویر کاملاً جدید انجام دهد.

برای نشان دادن اینکه مدل Dall-E میتواند تصاویر را با دقت تولید کند، Open AI مدل CLIP (Contrastive Language-Image Pre-training) را ایجاد کرد که بر روی 400 میلیون عکس حاشیهنویسی آموزش داده شد. CLIP توسط OpenAI برای کمک به ارزیابی خروجی Dall-E با بررسی اینکه کدام عنوان برای یک تصویر تولید شده مناسب است، استفاده شد.
تکرار اولیه Dall-E (Dall-E 1) تصاویری را از متن با استفاده از روشی به نام رمزگذار خودکار متغیر گسسته (dVAE) ایجاد کرد، که تا حدی بر اساس تحقیقات انجام شده توسط بخش DeepMind Alphabet با رمزگذار خودکار متغیر Quantized Vector بود. .
Dall-E 2 بر اساس فناوریهای قبلی خود ساخته شده است تا عکسهای با کیفیت و واقعیتری تولید کند. Dall-E 2 در روشهای مختلفی عمل میکند، از جمله استفاده از یک مدل انتشار که دادههای مدل CLIP را برای کمک به ایجاد تصویر با کیفیت بالاتر ترکیب میکند.
همچنین میتوانید از Midjourney AI که بهترین جایگزین برای Dall-E است، برای کسب اطلاعات بیشتر در مورد Midjourney استفاده کنید. Midjourney: هوش مصنوعی که میتواند از افکار شما هنر خلق کند
را بخوانید.
مورد استفاده DALL-E
Dall-E که یک فناوری هوش مصنوعی مولد است، دارای طیف گسترده ای از موارد استفاده ممکن برای کمک به افراد و سازمان ها است، از جمله موارد زیر:
- الهام خلاق: یک فرد خلاق ممکن است الهام گرفته شود تا با استفاده از فناوری چیز جدیدی ایجاد کند. همچنین ممکن است در ارتباط با فرآیند خلاق موجود استفاده شود.
- سرگرمی: تصاویر Dall-E پتانسیل استفاده در کتاب یا بازی را دارند. از آنجایی که استفاده از سیستم اعلان برای ساختن تصاویر آسانتر است، Dall-E میتواند از محدودیتهای تصاویر معمولی تولید شده توسط رایانه (CGI) فراتر رود.
- آموزش: Dall-E توسط معلمان و مربیان برای ساختن تصاویر گرافیکی که ایدههای مختلف را نشان میدهد استفاده میشود.
- بازاریابی و تبلیغات: ظرفیت ایجاد گرافیک کاملاً بدیع و تازه ممکن است در تبلیغات و بازاریابی مفید باشد.
- طراحی محصول: یک طراح محصول ممکن است از Dall-E برای تصور چیزی جدید فقط با استفاده از زبان استفاده کند که بسیار سریعتر از ابزارهای طراحی به کمک کامپیوتر معمولی (CAD) است.
- هنر: هرکسی میتواند از Dall-E برای تولید آثار هنری تازهای استفاده کند که بتوان آن را دوست داشت و حتی نشان داد.
- طراحی مد: Dall-E، به عنوان افزودنی به ابزارهای فعلی، این توانایی را دارد که به طراحان مد در توسعه چیزهای جدید کمک کند.
مزایای DALL-E چیست؟
Dall-E دارای چندین مزیت ممکن است از جمله موارد زیر:
- سرعت: Dall-E میتواند در مدت زمان نسبتاً سریع، اغلب کمتر از یک دقیقه، تصویری را از یک درخواست اصلی کلمه ایجاد کند.
- سفارشیسازی: یک کاربر ممکن است تصویری کاملاً شخصیسازیشده از عملاً هر چیزی که قابل تصور باشد بر اساس یک درخواست متنی بگیرد.
- دسترسی: استفاده از Dall-E نسبتاً آسان است زیرا فقط به متن زبان طبیعی نیاز دارد و به آموزش اساسی یا توانایی های برنامه نویسی خاصی نیاز ندارد.
- توسعه پذیری: Dall-E ممکن است به شخص کمک کند تا یک تصویر موجود را با میکس مجدد آن بسط دهد یا به روشی جدید مجدداً تصور شود.
- تکرار: Dall-E به سرعت روی عکسهای جدید و قدیمی تکرار میشود و به کاربران امکان میدهد چندین تکرار تولید کنند.
محدودیت های Dall-E چیست؟
در حالی که Dall-E چندین مزیت را ارائه می دهد، امکانات این فناوری محدود است. Dall-E تعدادی محدودیت دارد:
- حق نسخهبرداری: مسئله حق نسخهبرداری در عکسهای Dall-E، و همچنین اینکه آیا این عکسها در مورد عکسهای دارای حق نسخهبرداری آموزش داده شده است، همچنان منبع نگرانی است.
- مشروعیت هنر تولید شده: برخی همچنین در مورد اصالت و اخلاقیات هنر تولید شده توسط هوش مصنوعی و همچنین اینکه آیا این هنر مردم را جابجا میکند، بحث میکنند.
- مجموعه داده: حتی اگر Dall-E بر روی مجموعه داده های بزرگ آموزش دیده است، هنوز حجم عظیمی از داده ها برای عکس ها و توضیحات قابل دسترسی است. در نتیجه، یک درخواست کاربر ممکن است تصویر مورد نظر را ایجاد نکند زیرا مدل فاقد دانش اساسی لازم است.
- واقع گرایی: اگرچه Dall-E 2 به طور قابل توجهی کیفیت تصویر عکس های خروجی را بهبود بخشیده است، برخی از تصاویر ممکن است هنوز برای برخی از کاربران کیفیت ناکافی داشته باشند.
- موضوع: یک کاربر برای به دست آوردن تصویر صحیح باید یک اعلان کاملاً مشخص داشته باشد. اگر سوال خیلی کلی است و زمینه ندارد، ممکن است تصویر Dall-E نادرست باشد.
هزینه DALL-E چقدر است؟
Dall-E ممکن است توسط افراد و توسعه دهندگان مورد استفاده قرار گیرد که ممکن است از طریق یک API این فناوری را در کسب و کار خود ادغام کنند.
این کسب و کار مکانیزم اعتباری برای کمک به مصرف کنتور برای افرادی که مستقیماً در سایت OpenAI از Dall-E استفاده می کنند ایجاد کرده است. در حال حاضر، اعتبارات رایگان به پذیرندگان اولیه Dall-E داده می شود که قبل از ۶ آوریل ۲۰۲۳ ثبت نام کنند. این اعتبارات رایگان به صورت هفتگی تکمیل می شوند و یک ماه پس از ارائه منقضی می شوند. هر درخواست برای تولید یا تغییر تصویر با استفاده از Dall-E یک اعتبار مصرف می کند. اعتبار می تواند توسط کاربران جدید خریداری شود. 115 اعتبار در آوریل 2023 هزینه 15 دلار خواهد داشت. اعتبارات پرداختی یک سال پس از خرید منقضی میشوند.
OpenAI برای توسعه دهندگانی که از API استفاده می کنند به ازای هر تصویر هزینه می گیرد. قیمت بر اساس سایز عکس تعیین می شود. در آوریل 2023، یک عکس 256×256 0.016 دلار، یک تصویر 512×512 0.018 دلار و یک تصویر 1024×1024 0.020 دلار قیمت داشت.
OpenAI از طریق بخش فروش سازمانی خود باعث صرفه جویی در حجم نیز می شود. جدیدترین قیمتها را میتوانید در صفحه قیمتگذاری مشاهده کنید.
این مقاله برای کمک به یادگیری DALL-E است. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.