SAM و HQ-SAM: نسل جدیدی از مدلهای تقسیمبندی تصویر
مدل Segment Anything (SAM) یک تکنیک تغییر دهنده بازی برای تقسیم بندی تصویر است. SAM یک مدل تقسیمبندی سریع است که توسط تیم FAIR Meta AI توسعه یافته است که ممکن است برای کارهای مختلف مورد استفاده قرار گیرد. این مقاله یک نمای کلی ساده از مدل، معماری آن، چالشهایی که به آن پاسخ میدهد، موارد استفاده بالقوه، و یک تصویر مختصر از نحوه پیادهسازی آن ارائه میدهد.
مدل هر چیزی بخش بندی (SAM)
SAM مدلی برای بخشبندی هر شی در یک تصویر است. این یک مدل تقسیمبندی سریع است، به این معنی که ممکن است از طریق استفاده از دستورات، وظایف خاصی را اجرا کند. این مدل برای مدیریت طیف وسیعی از دادههای بصری، مانند شبیهسازی، نقاشی، عکسهای زیر آب، تصاویر میکروسکوپی، دادههای رانندگی، تصاویر استریو و تصاویر چشم ماهی ایجاد شده است.
SAM چه مشکلاتی را نشان می دهد
مشکل اصلی که SAM حل میکند، بخشبندی تصویر است. تقسیمبندی تصویر یک فرآیند حیاتی در بینایی کامپیوتری است که نیاز به جداسازی یک تصویر به بخشها یا مجموعهای از پیکسلها دارد. این بخش ها در تصویر می توانند اشیاء یا بخش های مختلفی از اشیاء را نشان دهند. SAM برای انجام کارآمد و مؤثر این کار ساخته شده است، حتی در تنظیمات صفر شات که قبلاً آن کار را ندیده است.
ساختار SAM (Segment Anything Model)

رمزگذار تصویر: جزء بزرگی است که تصویر ورودی را پردازش میکند و یک جاسازی تصویر ایجاد میکند. سپس میتوان این جاسازی را با استفاده از اعلانهای ورودی مختلف برای تولید ماسکهای شی مورد بررسی قرار داد.
رمزگذار اعلان: این مؤلفه برای رسیدگی به دو نوع درخواست طراحی شده است: پراکنده (نقاط، کادر، نوشتار) و متراکم (ماسک). نقاط و کادرها با کدگذاری های موقعیتی همراه با جاسازی های آموخته شده برای هر نوع درخواست نشان داده می شوند. یک رمزگذار متن خارج از قفسه برای مدیریت متن استفاده می شود. اعلانهای متراکم (ماسک) با استفاده از کانولوشن جاسازی میشوند و از نظر عنصر با جاسازی تصویر جمع میشوند.
رمزگشای ماسک: این مؤلفه جاسازیهای تصویر، تعبیههای سریع و نشانههای خروجی را به ماسک تبدیل میکند. از یک اصلاح بلوک رمزگشای ترانسفورماتور و به دنبال آن یک سر پیش بینی ماسک پویا استفاده می کند. برای بهروزرسانی همه جاسازیها، بلوک رمزگشا از توجه سریع و توجه متقابل در هر دو جهت (جاسازی سریع به تصویر و بالعکس) استفاده میکند. پس از اجرای دو بلوک، جاسازی تصویر بدون نمونه است، و یک MLP نشانه خروجی را به یک طبقهبندی خطی پویا منتقل میکند، که احتمال پیشزمینه ماسک را در هر نقطه تصویر محاسبه میکند.
مطالعات موردی
SAM برای هر فعالیتی که نیاز به بخشبندی مبتنی بر اعلان دارد استفاده میشود. از جمله موارد استفاده بررسی شده عبارتند از:
بخش بندی اشیاء از یک نقطه: می توان از SAM درخواست کرد تا موارد خاصی را از یک نقطه معین در یک تصویر تقسیم کند.
تشخیص لبه: SAM را می توان برای کارهای تشخیص لبه، مانند تشخیص مرزهای اشیاء در داخل یک تصویر استفاده کرد.
بخش بندی کردن همه شیء در یک تصویر:قطع بندی همه شیء در یک تصویر: تصویر.
بخش بندی اشیاء شناسایی شده: SAM را می توان برای بخش بندی اشیاء شناسایی شده در تصاویر استفاده کرد.
بخش بندی اشیاء از متن: بخش بندی اشیاء از متن: SAM می تواند با سایر مدل های بینایی برای تقسیم بندی اشیاء بر اساس توضیحات متنی کار کند.
فرمان نصب
کد به Python>=3.8 و همچنین Pytorch>=1.7 و Torchvision>=0.8 نیاز دارد. لطفاً برای نصب الزامات PyTorch و TorchVision مراحل اینجا را دنبال کنید. اکیداً توصیه می شود PyTorch و TorchVision را با پشتیبانی CUDA نصب کنید.
نصب Segment Anything:
نصب پیپ git+https://github.com/facebookresearch/segment-anything.git
در طول تحقیقات فناوری خود، متوجه شدم که سام آخرین نسخه خود را به نام HQ Sam منتشر کرده است. اطلاعات زیر جزئیات یافته های من را تشریح می کند:
HQ Sam جدیدترین نسخه Sam است که توسعه قابل توجهی را پشت سر گذاشته است. این نسخه به روز شده طیف وسیعی از ویژگی ها و قابلیت های پیشرفته را به نمایش می گذارد. با HQ Sam، کاربران می توانند انتظار تجربه پیشرفته و کارآمدتری داشته باشند. بهبودهای انجام شده در HQ Sam جنبه های مختلفی را در بر می گیرد. رابط کاربری برای ارائه تعامل بصری تر و بدون درز اصلاح شده است. علاوه بر این، فناوری زیربنایی برای افزایش عملکرد، پاسخگویی و دقت ارتقا یافته است.
مقایسه بصری بین SAM و HQ-SAM

مدل Segment Anything Model (SAM) که اخیراً منتشر شده است، پیشرفت قابل توجهی را در مقیاسبندی مدلهای تقسیمبندی نشان میدهد، که قابلیتهای قدرتمند صفر شات و درخواستهای قابل تنظیم را ممکن میسازد. علیرغم اینکه SAM با 1.1 میلیارد ماسک آموزش دیده است، کیفیت پیشبینی ماسک SAM در بسیاری از شرایط پایین میآید، بهویژه زمانی که با اشیایی با معماری پیچیده سروکار داریم. HQ-SAM، که SAM را به SAM میدهد و در عین حال، SAM را دارای ظرفیت طراحی دقیق و کارآمدی برای قطعهسازی است. قابلیت تعمیم صفر شات.
رویکرد دقیق ما وزنهای مدل از پیش آموزشدیده SAM را مجدداً مورد استفاده قرار میدهد و در عین حال تنها چند پارامتر و محاسبات اضافی را معرفی میکند. ما یک نشانه خروجی با کیفیت بالا را طراحی می کنیم که به رمزگشای ماسک SAM تزریق می شود و وظیفه پیش بینی ماسک با کیفیت بالا را بر عهده دارد. به جای استفاده از آن در ویژگیهای ماسک رمزگشا، آن را با ویژگیهای اولیه و نهایی ViT ترکیب میکنیم تا جزئیات ماسک را بهبود ببخشیم.
ما مجموعه داده ای از ماسک های ریز دانه 44K از منابع مختلف ایجاد می کنیم تا پارامترهای قابل یادگیری معرفی شده خود را آموزش دهیم. مجموعه داده معرفی شده از 44k ماسک برای آموزش HQ-SAM استفاده می شود که تنها 4 ساعت در 8 GPU طول می کشد. ما کارایی HQ-SAM را در مجموعهای از 9 مجموعه دادههای تقسیمبندی متنوع در چندین کار پاییندستی نشان میدهیم که 7 مورد از آنها در روش انتقال شات صفر آزمایش شدهاند.

مقایسه بین SAM و HQ-SAM
توجه: برای ارزیابی جعبهای، ما SAM و HQ-SAM خود را جعبههای محدودکننده تصویر/ویدیو یکسان وارد میکنیم و از حالت خروجی تک ماسک SAM استفاده میکنیم.
انواع ستون فقرات ViT در COCO

توجه: برای مجموعه داده COCO، ما از یک آشکارساز SOTA FocalNet-DINO آموزش دیده بر روی مجموعه داده COCO به عنوان مولد دستور جعبه خود استفاده می کنیم.
YTVIS و HQ-YTVIS
توجه: با استفاده از ستون فقرات ViT-L. همانطور که جعبههای ویدیویی مولد درخواست ما هستند، از آشکارساز SOTA Mask2Former که در مجموعه داده YouTube VIS 2019 آموزش دیده است، در حین استفاده مجدد از پیشبینی ارتباط شی آن استفاده میکنیم.

DAVIS
توجه: با استفاده از ستون فقرات ViT-L. بهعنوان تولیدکننده اعلان جعبه ویدیویی، از مدل SOTA XMem در حین استفاده مجدد از پیشبینی ارتباط شی آن استفاده میکنیم.

مقایسه تقسیم بندی تعاملی با استفاده از چندین نقطه
توجه: استفاده از ستون فقرات ViT-L. در مجموعه های COIFT برتر (صفر شات) و DIS val.

نتیجه گیری
در پایان، مدل Segment Anything (SAM) یک تکنیک مبتکرانه و متحول کننده برای تقسیم بندی تصویر است که قابلیت های بی سابقه ای را در تقسیم بندی دقیق اشیاء مختلف ارائه می دهد. علاوه بر این، با نسخه به روز شده SAM، معروف به HQ-SAM (هر چیزی با کیفیت بالا)، کاربران اکنون می توانند به نتایج تقسیم بندی با کیفیت بالاتری دست یابند و در عین حال مزایای اصلی SAM مانند طراحی قابل ارتقا، کارایی و قابلیت تعمیم صفر شات را حفظ کنند. این پیشرفت پتانسیل SAM را به ارتفاعات جدیدی ارتقا میدهد و آن را به ابزاری استثنایی برای کارهای تقسیمبندی تصویر که به کیفیت و دقت برتر نیاز دارند تبدیل میکند. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.