» هوش مصنوعی » SAM و HQ-SAM: نسل جدیدی از مدل‌های تقسیم‌بندی تصویر
هوش مصنوعی

SAM و HQ-SAM: نسل جدیدی از مدل‌های تقسیم‌بندی تصویر

دی 11, 1348 1050

مدل Segment Anything (SAM) یک تکنیک تغییر دهنده بازی برای تقسیم بندی تصویر است. SAM یک مدل تقسیم‌بندی سریع است که توسط تیم FAIR Meta AI توسعه یافته است که ممکن است برای کارهای مختلف مورد استفاده قرار گیرد. این مقاله یک نمای کلی ساده از مدل، معماری آن، چالش‌هایی که به آن پاسخ می‌دهد، موارد استفاده بالقوه، و یک تصویر مختصر از نحوه پیاده‌سازی آن ارائه می‌دهد.

مدل هر چیزی بخش بندی (SAM)

SAM مدلی برای بخش‌بندی هر شی در یک تصویر است. این یک مدل تقسیم‌بندی سریع است، به این معنی که ممکن است از طریق استفاده از دستورات، وظایف خاصی را اجرا کند. این مدل برای مدیریت طیف وسیعی از داده‌های بصری، مانند شبیه‌سازی، نقاشی، عکس‌های زیر آب، تصاویر میکروسکوپی، داده‌های رانندگی، تصاویر استریو و تصاویر چشم ماهی ایجاد شده است.

SAM چه مشکلاتی را نشان می دهد

مشکل اصلی که SAM حل می‌کند، بخش‌بندی تصویر است. تقسیم‌بندی تصویر یک فرآیند حیاتی در بینایی کامپیوتری است که نیاز به جداسازی یک تصویر به بخش‌ها یا مجموعه‌ای از پیکسل‌ها دارد. این بخش ها در تصویر می توانند اشیاء یا بخش های مختلفی از اشیاء را نشان دهند. SAM برای انجام کارآمد و مؤثر این کار ساخته شده است، حتی در تنظیمات صفر شات که قبلاً آن کار را ندیده است.

ساختار SAM (Segment Anything Model)

Sam And Hq-Sam/>“>ساختار SAM از سه جزء اصلی تشکیل شده است:

رمزگذار تصویر: جزء بزرگی است که تصویر ورودی را پردازش می‌کند و یک جاسازی تصویر ایجاد می‌کند. سپس می‌توان این جاسازی را با استفاده از اعلان‌های ورودی مختلف برای تولید ماسک‌های شی مورد بررسی قرار داد.

رمزگذار اعلان: این مؤلفه برای رسیدگی به دو نوع درخواست طراحی شده است: پراکنده (نقاط، کادر، نوشتار) و متراکم (ماسک). نقاط و کادرها با کدگذاری های موقعیتی همراه با جاسازی های آموخته شده برای هر نوع درخواست نشان داده می شوند. یک رمزگذار متن خارج از قفسه برای مدیریت متن استفاده می شود. اعلان‌های متراکم (ماسک) با استفاده از کانولوشن جاسازی می‌شوند و از نظر عنصر با جاسازی تصویر جمع می‌شوند.

رمزگشای ماسک: این مؤلفه جاسازی‌های تصویر، تعبیه‌های سریع و نشانه‌های خروجی را به ماسک تبدیل می‌کند. از یک اصلاح بلوک رمزگشای ترانسفورماتور و به دنبال آن یک سر پیش بینی ماسک پویا استفاده می کند. برای به‌روزرسانی همه جاسازی‌ها، بلوک رمزگشا از توجه سریع و توجه متقابل در هر دو جهت (جاسازی سریع به تصویر و بالعکس) استفاده می‌کند. پس از اجرای دو بلوک، جاسازی تصویر بدون نمونه است، و یک MLP نشانه خروجی را به یک طبقه‌بندی خطی پویا منتقل می‌کند، که احتمال پیش‌زمینه ماسک را در هر نقطه تصویر محاسبه می‌کند.

مطالعات موردی

SAM برای هر فعالیتی که نیاز به بخش‌بندی مبتنی بر اعلان دارد استفاده می‌شود. از جمله موارد استفاده بررسی شده عبارتند از:

بخش بندی اشیاء از یک نقطه: می توان از SAM درخواست کرد تا موارد خاصی را از یک نقطه معین در یک تصویر تقسیم کند.
تشخیص لبه: SAM را می توان برای کارهای تشخیص لبه، مانند تشخیص مرزهای اشیاء در داخل یک تصویر استفاده کرد.
بخش بندی کردن همه شیء در یک تصویر:قطع بندی همه شیء در یک تصویر: تصویر.
بخش بندی اشیاء شناسایی شده: SAM را می توان برای بخش بندی اشیاء شناسایی شده در تصاویر استفاده کرد.
بخش بندی اشیاء از متن: بخش بندی اشیاء از متن: SAM می تواند با سایر مدل های بینایی برای تقسیم بندی اشیاء بر اساس توضیحات متنی کار کند.

فرمان نصب

کد به Python>=3.8 و همچنین Pytorch>=1.7 و Torchvision>=0.8 نیاز دارد. لطفاً برای نصب الزامات PyTorch و TorchVision مراحل اینجا را دنبال کنید. اکیداً توصیه می شود PyTorch و TorchVision را با پشتیبانی CUDA نصب کنید.

نصب Segment Anything:

نصب پیپ git+https://github.com/facebookresearch/segment-anything.git

در طول تحقیقات فناوری خود، متوجه شدم که سام آخرین نسخه خود را به نام HQ Sam منتشر کرده است. اطلاعات زیر جزئیات یافته های من را تشریح می کند:

HQ Sam جدیدترین نسخه Sam است که توسعه قابل توجهی را پشت سر گذاشته است. این نسخه به روز شده طیف وسیعی از ویژگی ها و قابلیت های پیشرفته را به نمایش می گذارد. با HQ Sam، کاربران می توانند انتظار تجربه پیشرفته و کارآمدتری داشته باشند. بهبودهای انجام شده در HQ Sam جنبه های مختلفی را در بر می گیرد. رابط کاربری برای ارائه تعامل بصری تر و بدون درز اصلاح شده است. علاوه بر این، فناوری زیربنایی برای افزایش عملکرد، پاسخگویی و دقت ارتقا یافته است.

مقایسه بصری بین SAM و HQ-SAM

Sam And Hq-Sam

مدل Segment Anything Model (SAM) که اخیراً منتشر شده است، پیشرفت قابل توجهی را در مقیاس‌بندی مدل‌های تقسیم‌بندی نشان می‌دهد، که قابلیت‌های قدرتمند صفر شات و درخواست‌های قابل تنظیم را ممکن می‌سازد. علیرغم اینکه SAM با 1.1 میلیارد ماسک آموزش دیده است، کیفیت پیش‌بینی ماسک SAM در بسیاری از شرایط پایین می‌آید، به‌ویژه زمانی که با اشیایی با معماری پیچیده سروکار داریم. HQ-SAM، که SAM را به SAM می‌دهد و در عین حال، SAM را دارای ظرفیت طراحی دقیق و کارآمدی برای قطعه‌سازی است. قابلیت تعمیم صفر شات.

رویکرد دقیق ما وزن‌های مدل از پیش آموزش‌دیده SAM را مجدداً مورد استفاده قرار می‌دهد و در عین حال تنها چند پارامتر و محاسبات اضافی را معرفی می‌کند. ما یک نشانه خروجی با کیفیت بالا را طراحی می کنیم که به رمزگشای ماسک SAM تزریق می شود و وظیفه پیش بینی ماسک با کیفیت بالا را بر عهده دارد. به جای استفاده از آن در ویژگی‌های ماسک رمزگشا، آن را با ویژگی‌های اولیه و نهایی ViT ترکیب می‌کنیم تا جزئیات ماسک را بهبود ببخشیم.

ما مجموعه داده ای از ماسک های ریز دانه 44K از منابع مختلف ایجاد می کنیم تا پارامترهای قابل یادگیری معرفی شده خود را آموزش دهیم. مجموعه داده معرفی شده از 44k ماسک برای آموزش HQ-SAM استفاده می شود که تنها 4 ساعت در 8 GPU طول می کشد. ما کارایی HQ-SAM را در مجموعه‌ای از 9 مجموعه داده‌های تقسیم‌بندی متنوع در چندین کار پایین‌دستی نشان می‌دهیم که 7 مورد از آنها در روش انتقال شات صفر آزمایش شده‌اند.

Sam And Hq-Sam

مقایسه بین SAM و HQ-SAM

توجه: برای ارزیابی جعبه‌ای، ما SAM و HQ-SAM خود را جعبه‌های محدودکننده تصویر/ویدیو یکسان وارد می‌کنیم و از حالت خروجی تک ماسک SAM استفاده می‌کنیم.

انواع ستون فقرات ViT در COCO

Sam And Hq-Sam

توجه: برای مجموعه داده COCO، ما از یک آشکارساز SOTA FocalNet-DINO آموزش دیده بر روی مجموعه داده COCO به عنوان مولد دستور جعبه خود استفاده می کنیم.

YTVIS و HQ-YTVIS

توجه: با استفاده از ستون فقرات ViT-L. همانطور که جعبه‌های ویدیویی مولد درخواست ما هستند، از آشکارساز SOTA Mask2Former که در مجموعه داده YouTube VIS 2019 آموزش دیده است، در حین استفاده مجدد از پیش‌بینی ارتباط شی آن استفاده می‌کنیم.

Sam And Hq-Sam

DAVIS

توجه: با استفاده از ستون فقرات ViT-L. به‌عنوان تولیدکننده اعلان جعبه ویدیویی، از مدل SOTA XMem در حین استفاده مجدد از پیش‌بینی ارتباط شی آن استفاده می‌کنیم.

Sam And Hq-Sam

مقایسه تقسیم بندی تعاملی با استفاده از چندین نقطه

توجه: استفاده از ستون فقرات ViT-L. در مجموعه های COIFT برتر (صفر شات) و DIS val.

Sam And Hq-Sam

نتیجه گیری

در پایان، مدل Segment Anything (SAM) یک تکنیک مبتکرانه و متحول کننده برای تقسیم بندی تصویر است که قابلیت های بی سابقه ای را در تقسیم بندی دقیق اشیاء مختلف ارائه می دهد. علاوه بر این، با نسخه به روز شده SAM، معروف به HQ-SAM (هر چیزی با کیفیت بالا)، کاربران اکنون می توانند به نتایج تقسیم بندی با کیفیت بالاتری دست یابند و در عین حال مزایای اصلی SAM مانند طراحی قابل ارتقا، کارایی و قابلیت تعمیم صفر شات را حفظ کنند. این پیشرفت پتانسیل SAM را به ارتفاعات جدیدی ارتقا می‌دهد و آن را به ابزاری استثنایی برای کارهای تقسیم‌بندی تصویر که به کیفیت و دقت برتر نیاز دارند تبدیل می‌کند. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×