تشخیص هر چیزی و Tag2Text: مدل های قدرتمند برچسب گذاری تصویر
مدل Recognize Anything (RAM) میتواند هر دستهبندی رایج را با دقت زیادی شناسایی کند.
RAM، هنگامی که با مدلهای محلیسازی (Grounded-SAM) ترکیب میشود، خط لوله قدرتمند و کلی برای تحلیل معنایی بصری ایجاد میکند. این مقاله یک نمای کلی ساده از مدل، معماری آن، چالشهایی که به آن پاسخ میدهد و یک تصویر مختصر از نحوه پیادهسازی آن ارائه میدهد.
مدل هر چیزی (RAM) را بشناسید
تشخیص و بومی سازی دو وظیفه اساسی بینایی رایانه هستند.
- مدل Segment Anything (SAM) در بومیسازی برتری دارد اما از وظایف تشخیص کوتاهی میکند.
- مدل Recognize Anything (RAM) از نظر دقت و وسعت دارای توانایی های قابل توجهی در تشخیص است.

فرمان نصب
استنتاج RAM
مرحله:1 الزامات را نصب کنید و سپس اجرا کنید:
pip install -r requirements.txt
مرحله:2 نقاط بازرسی RAM از پیش آموزش دیده باید دانلود شوند.
مرحله:3 خروجیهای انگلیسی و چینی عکسها را دریافت کنید:
python inference_ram.py --image images/1641173_2291260800.jpg
--pretrained pretrained/ram_swin_large_14m.pth
استنتاج Tag2Text
مرحله:1 وابستگی ها را نصب کنید، سپس اجرا کنید:
pip install -r requirements.txt
مرحله:2 پست های بازرسی Tag2Text از پیش آموزش دیده را می توان دانلود کرد.
مرحله:3 نتایج برچسبگذاری و زیرنویس را دریافت کنید
python inference_tag2text.py --image images/1641173_2291260800.jpg
--pretrained pretrained/tag2text_swin_14m.pth
(یا) در عوض، میتوانید نتایج برچسبگذاری و زیرنویس انتخابی (اختیاری) را به دست آورید:
python inference_tag2text.py --image images/1641173_2291260800.jpg
--pretrained pretrained/tag2text_swin_14m.pth
--specified-tags "cloud,sky"
تفاوت بین BLIP و Tag2Text و RAM
Model | Blip | Tag2Text | RAM | |||
---|---|---|---|---|---|---|
ادغامو ادغام برای image برچسبهای d تصویر در تولید متن | از روابط بین مناطق تصویر و زمینه متنی استفاده میکند | |||||
راهنما | از زمینه برای هدایت تولید توضیحات تصویر استفاده میکند | برچسبهای تصویر را بهعنوان عناصر راهنما ترکیب میکند | برچسبهای تصویر را به عنوان عناصر راهنما ترکیب میکند. | انعطاف پذیری محدود در نگارش متون | اجازه می دهد تا برچسب های مورد نظر را برای خروجی های قابل تنظیم وارد کنید | با تولید متن مبتنی بر رابطه انعطاف پذیری را ارائه می دهد |
جامع | توضیحات جامع | |||||
قابلیت سفارشیسازی | خیلی قابل تنظیم نیست | به ترکیب بندی بر اساس برچسبهای ورودی اجازه میدهد | تولید شرح قابل تطبیق را با زمینه رابطه فعال میکند | |||
کیفیت تولید متن را با ادغام برچسب ها بهبود می بخشد | دقت و انسجام زیرنویس را با استفاده از روابط بهبود می بخشد |

ویژگی | مدل برچسبگذاری | Tag2Text | ||
---|---|---|---|---|
برچسبها | برچسبگذاری دستی یا شناسایی خودکار از | Tstr/Pبر اساس نسل | بر اساس تراز | |
قابلیت کنترل | خیر | بله | ||
کارایی | کمتر کارآمد | دقیق تر |
|

کارآمد – کمک برچسبگذاری عملکرد مدلهای زبان بینایی را هم در وظایف مبتنی بر نسل و هم بر اساس همترازی بهبود میبخشد.
قابل کنترل – Tag2Text به کاربران اجازه میدهد تگهای مورد نظر خود را وارد کنند و به آنها اجازه میدهد متنهای مناسب را بر اساس برچسبهایی که وارد میکنند بنویسند.
تجسم تصویر

Tag2Text یک رویکرد جدید است که برچسبهای تصویر شناخته شده را در تولید متن ترکیب میکند و آنها را با یک خط زیر سبز برجسته میکند.
این ادغام توسعه توضیحات متنی دقیق تر را بهبود می بخشد. علاوه بر این، Tag2Text به کاربران اجازه میدهد تا برچسبهای مورد نظر خود را وارد کنند، و به آنها اجازه میدهد بسته به برچسبهای ورودی فردی خود، متون مرتبط بسازند، و از یک فرآیند تولید متن قابل تنظیم پشتیبانی میکند.
پیشرفت های رم در Tag2Text
دقت – RAM از موتور داده برای تولید حاشیهنویسیهای جدید و پاک کردن حاشیهنویسیهای نادرست استفاده میکند که در نتیجه دقت بالاتری نسبت به Tag2Text دارد.
محدوده – Tag2Text میتواند بیش از 3400 برچسب ثابت را تشخیص دهد. رم این عدد را به 6400+ افزایش میدهد و به آن اجازه میدهد مناطق ارزشمندتری را پوشش دهد. عملکرد مجموعه باز RAM به آن اجازه می دهد تا هر دسته رایج را تشخیص دهد.
مزایای استفاده از RAM Recognizer
- قوی و کلی. RAM دارای قابلیت های برچسب گذاری عکس عالی با تعمیم عکس صفر قدرتمند است.
- قابل تکرار و ارزان. RAM نیاز به هزینه بازتولید کم با مجموعه داده منبع باز و بدون حاشیه دارد
- انعطاف پذیر و سازگار.
- رم نسبت به مدلهای دیگر قادر به تشخیص برچسبهای ارزشمندتر است.
- رم از نظر عملکرد صفر شات بهتر از CLIP و BLIP است.
- RAM حتی از رویکردهای بسیار نظارت شده (ML-Decoder) بهتر عمل می کند.
- RAM عملکرد بهتری نسبت به Google Tag API دارد.
- RAM تطبیق پذیری فوق العاده ای را ارائه می دهد و با طیف گسترده ای از سناریوهای برنامه سازگار می شود.
محدوده های تشخیص گسترده
- رم بیش از 6400 تگ رایج را بطور خودکار شناسایی میکند و دستههای با ارزشتری را نسبت به Open Images V6 پوشش میدهد.
- عملکرد مجموعه باز RAM به آن اجازه میدهد هر دسته رایج را تشخیص دهد.

نتیجه گیری
در نهایت، یک مدل قدرتمند برچسب گذاری تصویر همراه با تکنیک جدید Tag2Text، پیشرفت های قابل توجهی را در درک تصویر و تولید متن ارائه می دهد. برچسبگذاری تصویر دقیق و کامل مدل به عنوان منبع مهمی برای هدایت توسعه توضیحات متنی مرتبطتر و غنیتر عمل میکند، که در نتیجه سیستم زیرنویس تصویر اصلاحشدهتر و پیشرفتهتر میشود. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.