Meta ने Segment Anything Model 2 पेश किया
(ai.meta.com)Meta Segment Anything Model 2 (SAM 2) का परिचय
मुख्य विशेषताएँ
-
सभी वीडियो और इमेज में ऑब्जेक्ट segmentation
- SAM 2 इमेज और वीडियो में ऑब्जेक्ट segmentation के लिए पहला unified मॉडल है
- क्लिक, बॉक्स और मास्क को input के रूप में इस्तेमाल करके इमेज या वीडियो फ्रेम में ऑब्जेक्ट चुने जा सकते हैं
-
वीडियो फ्रेमों के बीच ऑब्जेक्ट चयन और समायोजन
- SAM 2 का उपयोग करके वीडियो फ्रेम में एक या कई ऑब्जेक्ट चुने जा सकते हैं
- अतिरिक्त prompts का उपयोग करके मॉडल की predictions को बारीकी से fine-tune किया जा सकता है
-
अनदेखे वीडियो में भी मजबूत segmentation प्रदर्शन
- SAM 2 उन ऑब्जेक्ट, इमेज और वीडियो पर भी मजबूत zero-shot प्रदर्शन दिखाता है जिन्हें मॉडल ने training के दौरान नहीं देखा
- इसे कई तरह के वास्तविक अनुप्रयोगों में इस्तेमाल किया जा सकता है
-
रीयल-टाइम इंटरैक्शन और परिणाम
- SAM 2 streaming inference के जरिए रीयल-टाइम interactive applications को संभव बनाता है
-
ऑब्जेक्ट segmentation में state-of-the-art प्रदर्शन
- SAM 2 वीडियो और इमेज में ऑब्जेक्ट segmentation के लिए सर्वोत्तम मॉडलों से बेहतर प्रदर्शन करता है
हाइलाइट्स
- इमेज segmentation में SAM की तुलना में बेहतर प्रदर्शन
- मौजूदा वीडियो ऑब्जेक्ट segmentation मॉडलों से बेहतर प्रदर्शन, खासकर partial tracking में
- मौजूदा interactive video segmentation तरीकों की तुलना में कम interaction time की आवश्यकता
खुद आज़माएँ
- वीडियो के किसी एक फ्रेम में single click से ऑब्जेक्ट track करें और मज़ेदार effects बनाकर देखें
- डेमो आज़माएँ
मॉडल आर्किटेक्चर
- Meta Segment Anything Model 2 की डिज़ाइन
- SAM 2 मॉडल को session-specific memory module जोड़कर वीडियो डोमेन तक विस्तारित किया गया है
- यह module वीडियो के target ऑब्जेक्ट की जानकारी capture करता है, जिससे ऑब्जेक्ट कुछ समय के लिए दिखाई न दे तब भी उसे सभी वीडियो फ्रेमों में track किया जा सके
- यह अतिरिक्त prompts के आधार पर mask predictions को संशोधित करने की क्षमता भी देता है
- SAM 2 का streaming architecture वीडियो फ्रेमों को एक-एक करके प्रोसेस करता है, जिससे यह स्वाभाविक रूप से वीडियो डोमेन में generalize करता है
Segment Anything Video Dataset
-
बड़े पैमाने और विविधता वाला वीडियो segmentation dataset
- SAM 2 को बड़े पैमाने पर विविध वीडियो और masklets (समय के साथ बदलने वाले ऑब्जेक्ट masks) के सेट पर train किया गया है
- training data में open-source SA-V dataset शामिल है
-
हाइलाइट्स
- लगभग 51,000 वीडियो से 600,000 से अधिक masklets एकत्र किए गए
- 47 देशों में फैले भौगोलिक रूप से विविध वास्तविक परिदृश्य
- पूरे ऑब्जेक्ट, उनके हिस्सों और चुनौतीपूर्ण occlusion स्थितियों सहित annotations
शोध जारी
-
ओपन इनोवेशन
- research community इस काम पर आगे निर्माण कर सके, इसके लिए pre-trained Segment Anything 2 models, SA-V dataset, demo और code जारी किए गए हैं
-
हाइलाइट्स
- SAM 2 training data के बारे में transparency प्रदान की गई
- वास्तविक दुनिया का बेहतर प्रतिनिधित्व करने के लिए SA-V dataset की geographic diversity को प्राथमिकता दी गई
- SAM 2 का fairness evaluation किया गया
संभावित मॉडल अनुप्रयोग
-
स्केलेबल आउटपुट
- SAM 2 का वीडियो ऑब्जेक्ट segmentation output, आधुनिक video generation models जैसे अन्य AI systems के input के रूप में उपयोग किया जा सकता है
-
स्केलेबल इनपुट
- SAM 2 अन्य प्रकार के input prompts को स्वीकार कर सकता है, जिससे रीयल-टाइम या लाइव वीडियो में ऑब्जेक्ट्स के साथ इंटरैक्ट करने के रचनात्मक तरीके संभव होते हैं
अतिरिक्त संसाधन देखें
GN⁺ का सार
- SAM 2 इमेज और वीडियो में ऑब्जेक्ट segmentation के लिए एक unified मॉडल है, जो रीयल-टाइम इंटरैक्शन और मजबूत zero-shot प्रदर्शन प्रदान करता है
- इसे विविध वास्तविक परिदृश्यों में उपयोग के लिए डिज़ाइन किया गया है, और research community के लिए जारी dataset तथा code शामिल हैं
- वीडियो ऑब्जेक्ट tracking और segmentation में यह मौजूदा मॉडलों से बेहतर प्रदर्शन करता है और कम interaction time में भी उच्च सटीकता देता है
- SAM 2 को video generation models जैसे अन्य AI systems के साथ जोड़कर नए अनुभव संभव किए जा सकते हैं
अभी कोई टिप्पणी नहीं है.