Meta Segment Anything Model 2 (SAM 2) का परिचय

मुख्य विशेषताएँ

  • सभी वीडियो और इमेज में ऑब्जेक्ट segmentation

    • SAM 2 इमेज और वीडियो में ऑब्जेक्ट segmentation के लिए पहला unified मॉडल है
    • क्लिक, बॉक्स और मास्क को input के रूप में इस्तेमाल करके इमेज या वीडियो फ्रेम में ऑब्जेक्ट चुने जा सकते हैं
  • वीडियो फ्रेमों के बीच ऑब्जेक्ट चयन और समायोजन

    • SAM 2 का उपयोग करके वीडियो फ्रेम में एक या कई ऑब्जेक्ट चुने जा सकते हैं
    • अतिरिक्त prompts का उपयोग करके मॉडल की predictions को बारीकी से fine-tune किया जा सकता है
  • अनदेखे वीडियो में भी मजबूत segmentation प्रदर्शन

    • SAM 2 उन ऑब्जेक्ट, इमेज और वीडियो पर भी मजबूत zero-shot प्रदर्शन दिखाता है जिन्हें मॉडल ने training के दौरान नहीं देखा
    • इसे कई तरह के वास्तविक अनुप्रयोगों में इस्तेमाल किया जा सकता है
  • रीयल-टाइम इंटरैक्शन और परिणाम

    • SAM 2 streaming inference के जरिए रीयल-टाइम interactive applications को संभव बनाता है
  • ऑब्जेक्ट segmentation में state-of-the-art प्रदर्शन

    • SAM 2 वीडियो और इमेज में ऑब्जेक्ट segmentation के लिए सर्वोत्तम मॉडलों से बेहतर प्रदर्शन करता है

हाइलाइट्स

  • इमेज segmentation में SAM की तुलना में बेहतर प्रदर्शन
  • मौजूदा वीडियो ऑब्जेक्ट segmentation मॉडलों से बेहतर प्रदर्शन, खासकर partial tracking में
  • मौजूदा interactive video segmentation तरीकों की तुलना में कम interaction time की आवश्यकता

खुद आज़माएँ

  • वीडियो के किसी एक फ्रेम में single click से ऑब्जेक्ट track करें और मज़ेदार effects बनाकर देखें
  • डेमो आज़माएँ

मॉडल आर्किटेक्चर

  • Meta Segment Anything Model 2 की डिज़ाइन
    • SAM 2 मॉडल को session-specific memory module जोड़कर वीडियो डोमेन तक विस्तारित किया गया है
    • यह module वीडियो के target ऑब्जेक्ट की जानकारी capture करता है, जिससे ऑब्जेक्ट कुछ समय के लिए दिखाई न दे तब भी उसे सभी वीडियो फ्रेमों में track किया जा सके
    • यह अतिरिक्त prompts के आधार पर mask predictions को संशोधित करने की क्षमता भी देता है
    • SAM 2 का streaming architecture वीडियो फ्रेमों को एक-एक करके प्रोसेस करता है, जिससे यह स्वाभाविक रूप से वीडियो डोमेन में generalize करता है

Segment Anything Video Dataset

  • बड़े पैमाने और विविधता वाला वीडियो segmentation dataset

    • SAM 2 को बड़े पैमाने पर विविध वीडियो और masklets (समय के साथ बदलने वाले ऑब्जेक्ट masks) के सेट पर train किया गया है
    • training data में open-source SA-V dataset शामिल है
  • हाइलाइट्स

    • लगभग 51,000 वीडियो से 600,000 से अधिक masklets एकत्र किए गए
    • 47 देशों में फैले भौगोलिक रूप से विविध वास्तविक परिदृश्य
    • पूरे ऑब्जेक्ट, उनके हिस्सों और चुनौतीपूर्ण occlusion स्थितियों सहित annotations

शोध जारी

  • ओपन इनोवेशन

    • research community इस काम पर आगे निर्माण कर सके, इसके लिए pre-trained Segment Anything 2 models, SA-V dataset, demo और code जारी किए गए हैं
  • हाइलाइट्स

    • SAM 2 training data के बारे में transparency प्रदान की गई
    • वास्तविक दुनिया का बेहतर प्रतिनिधित्व करने के लिए SA-V dataset की geographic diversity को प्राथमिकता दी गई
    • SAM 2 का fairness evaluation किया गया

संभावित मॉडल अनुप्रयोग

  • स्केलेबल आउटपुट

    • SAM 2 का वीडियो ऑब्जेक्ट segmentation output, आधुनिक video generation models जैसे अन्य AI systems के input के रूप में उपयोग किया जा सकता है
  • स्केलेबल इनपुट

    • SAM 2 अन्य प्रकार के input prompts को स्वीकार कर सकता है, जिससे रीयल-टाइम या लाइव वीडियो में ऑब्जेक्ट्स के साथ इंटरैक्ट करने के रचनात्मक तरीके संभव होते हैं

अतिरिक्त संसाधन देखें

GN⁺ का सार

  • SAM 2 इमेज और वीडियो में ऑब्जेक्ट segmentation के लिए एक unified मॉडल है, जो रीयल-टाइम इंटरैक्शन और मजबूत zero-shot प्रदर्शन प्रदान करता है
  • इसे विविध वास्तविक परिदृश्यों में उपयोग के लिए डिज़ाइन किया गया है, और research community के लिए जारी dataset तथा code शामिल हैं
  • वीडियो ऑब्जेक्ट tracking और segmentation में यह मौजूदा मॉडलों से बेहतर प्रदर्शन करता है और कम interaction time में भी उच्च सटीकता देता है
  • SAM 2 को video generation models जैसे अन्य AI systems के साथ जोड़कर नए अनुभव संभव किए जा सकते हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.