» هوش مصنوعی » تشخیص هر چیزی و Tag2Text: مدل های قدرتمند برچسب گذاری تصویر
هوش مصنوعی

تشخیص هر چیزی و Tag2Text: مدل های قدرتمند برچسب گذاری تصویر

دی 11, 1348 1085

مدل Recognize Anything (RAM) می‌تواند هر دسته‌بندی رایج را با دقت زیادی شناسایی کند.
RAM، هنگامی که با مدل‌های محلی‌سازی (Grounded-SAM) ترکیب می‌شود، خط لوله قدرتمند و کلی برای تحلیل معنایی بصری ایجاد می‌کند. این مقاله یک نمای کلی ساده از مدل، معماری آن، چالش‌هایی که به آن پاسخ می‌دهد و یک تصویر مختصر از نحوه پیاده‌سازی آن ارائه می‌دهد.

مدل هر چیزی (RAM) را بشناسید

تشخیص و بومی سازی دو وظیفه اساسی بینایی رایانه هستند.

  1. مدل Segment Anything (SAM) در بومی‌سازی برتری دارد اما از وظایف تشخیص کوتاهی می‌کند.
  2. مدل Recognize Anything (RAM) از نظر دقت و وسعت دارای توانایی های قابل توجهی در تشخیص است.
Recognize Anything

فرمان نصب

استنتاج RAM

مرحله:1 الزامات را نصب کنید و سپس اجرا کنید:

pip install -r requirements.txt

مرحله:2 نقاط بازرسی RAM از پیش آموزش دیده باید دانلود شوند.

مرحله:3 خروجی‌های انگلیسی و چینی عکس‌ها را دریافت کنید:

python inference_ram.py --image images/1641173_2291260800.jpg 
--pretrained pretrained/ram_swin_large_14m.pth

استنتاج Tag2Text

مرحله:1 وابستگی ها را نصب کنید، سپس اجرا کنید:

pip install -r requirements.txt

مرحله:2 پست های بازرسی Tag2Text از پیش آموزش دیده را می توان دانلود کرد.

مرحله:3 نتایج برچسب‌گذاری و زیرنویس را دریافت کنید

python inference_tag2text.py --image images/1641173_2291260800.jpg 
--pretrained pretrained/tag2text_swin_14m.pth

(یا) در عوض، می‌توانید نتایج برچسب‌گذاری و زیرنویس انتخابی (اختیاری) را به دست آورید:

python inference_tag2text.py --image images/1641173_2291260800.jpg 
--pretrained pretrained/tag2text_swin_14m.pth 
--specified-tags "cloud,sky"

تفاوت بین BLIP و Tag2Text و RAM

تصویری جامعمشخصات جامعمشخصات جامعایجاد می کند. کیفیت زیرنویس را از طریق آگاهی از رابطه بهبود می‌بخشد

>>

مدل ing

Model Blip Tag2Text RAM
ادغامو ادغام برای image برچسب‌های d تصویر در تولید متن از روابط بین مناطق تصویر و زمینه متنی استفاده می‌کند
راهنما از زمینه برای هدایت تولید توضیحات تصویر استفاده می‌کند برچسب‌های تصویر را به‌عنوان عناصر راهنما ترکیب می‌کند برچسب‌های تصویر را به عنوان عناصر راهنما ترکیب می‌کند. انعطاف پذیری محدود در نگارش متون اجازه می دهد تا برچسب های مورد نظر را برای خروجی های قابل تنظیم وارد کنید با تولید متن مبتنی بر رابطه انعطاف پذیری را ارائه می دهد
جامع توضیحات جامع
قابلیت سفارشی‌سازی خیلی قابل تنظیم نیست به ترکیب بندی بر اساس برچسب‌های ورودی اجازه می‌دهد تولید شرح قابل تطبیق را با زمینه رابطه فعال می‌کند
کیفیت تولید متن را با ادغام برچسب ها بهبود می بخشد دقت و انسجام زیرنویس را با استفاده از روابط بهبود می بخشد
BLIP و Tag2Text و RAM
Recognize AnythingTag2Text برای وظایف Vision-Language

ویژگی مدل برچسب‌گذاری Tag2Text
برچسب‌ها برچسب‌گذاری دستی یا شناسایی خودکار از Tstr/Pبر اساس نسل بر اساس تراز
قابلیت کنترل خیر بله
کارایی کمتر کارآمد

دقیق تر
Tag2Text برای وظایف Vision-Language
Recognize Anything Tagg)

برچسب‌گذاریTag2Text در دسته‌بندی‌های انسانی بالاتر استفاده می‌شود، بدون استفاده از برچسب‌های انسانی به طور منظم 4. نیاز به حاشیه نویسی دستی.

کارآمدکمک برچسب‌گذاری عملکرد مدل‌های زبان بینایی را هم در وظایف مبتنی بر نسل و هم بر اساس هم‌ترازی بهبود می‌بخشد.

قابل کنترل – Tag2Text به کاربران اجازه می‌دهد تگ‌های مورد نظر خود را وارد کنند و به آن‌ها اجازه می‌دهد متن‌های مناسب را بر اساس برچسب‌هایی که وارد می‌کنند بنویسند.

تجسم تصویر

Recognize Anything

Tag2Text یک رویکرد جدید است که برچسب‌های تصویر شناخته شده را در تولید متن ترکیب می‌کند و آنها را با یک خط زیر سبز برجسته می‌کند.

این ادغام توسعه توضیحات متنی دقیق تر را بهبود می بخشد. علاوه بر این، Tag2Text به کاربران اجازه می‌دهد تا برچسب‌های مورد نظر خود را وارد کنند، و به آن‌ها اجازه می‌دهد بسته به برچسب‌های ورودی فردی خود، متون مرتبط بسازند، و از یک فرآیند تولید متن قابل تنظیم پشتیبانی می‌کند.

پیشرفت های رم در Tag2Text

دقت – RAM از موتور داده برای تولید حاشیه‌نویسی‌های جدید و پاک کردن حاشیه‌نویسی‌های نادرست استفاده می‌کند که در نتیجه دقت بالاتری نسبت به Tag2Text دارد.
محدوده – Tag2Text می‌تواند بیش از 3400 برچسب ثابت را تشخیص دهد. رم این عدد را به 6400+ افزایش می‌دهد و به آن اجازه می‌دهد مناطق ارزشمندتری را پوشش دهد. عملکرد مجموعه باز RAM به آن اجازه می دهد تا هر دسته رایج را تشخیص دهد.

مزایای استفاده از RAM Recognizer

  • قوی و کلی. RAM دارای قابلیت های برچسب گذاری عکس عالی با تعمیم عکس صفر قدرتمند است.
  • قابل تکرار و ارزان. RAM نیاز به هزینه بازتولید کم با مجموعه داده منبع باز و بدون حاشیه دارد
  • انعطاف پذیر و سازگار.
  • رم نسبت به مدل‌های دیگر قادر به تشخیص برچسب‌های ارزشمندتر است.
  • رم از نظر عملکرد صفر شات بهتر از CLIP و BLIP است.
  • RAM حتی از رویکردهای بسیار نظارت شده (ML-Decoder) بهتر عمل می کند.
  • RAM عملکرد بهتری نسبت به Google Tag API دارد.
  • RAM تطبیق پذیری فوق العاده ای را ارائه می دهد و با طیف گسترده ای از سناریوهای برنامه سازگار می شود.

محدوده های تشخیص گسترده

  • رم بیش از 6400 تگ رایج را بطور خودکار شناسایی می‌کند و دسته‌های با ارزش‌تری را نسبت به Open Images V6 پوشش می‌دهد.
  • عملکرد مجموعه باز RAM به آن اجازه می‌دهد هر دسته رایج را تشخیص دهد.
Recognize Anything/><

نتیجه گیری

در نهایت، یک مدل قدرتمند برچسب گذاری تصویر همراه با تکنیک جدید Tag2Text، پیشرفت های قابل توجهی را در درک تصویر و تولید متن ارائه می دهد. برچسب‌گذاری تصویر دقیق و کامل مدل به عنوان منبع مهمی برای هدایت توسعه توضیحات متنی مرتبط‌تر و غنی‌تر عمل می‌کند، که در نتیجه سیستم زیرنویس تصویر اصلاح‌شده‌تر و پیشرفته‌تر می‌شود. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×