Meta ने Segment Anything Model 2 जारी किया

(ai.meta.com)

2 पॉइंट द्वारा GN⁺ 2024-08-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Meta FAIR का Segment Anything Model 2(SAM 2) इमेज और वीडियो में ऑब्जेक्ट्स को तेज़ी से चुनने और segment करने के लिए एक unified segmentation model है
यूज़र क्लिक, बॉक्स, मास्क को prompt के रूप में देकर ऑब्जेक्ट निर्दिष्ट कर सकते हैं, और अतिरिक्त prompts से mask prediction को सुधार सकते हैं
वीडियो में, session-specific memory module पिछले frames की object जानकारी बनाए रखता है, ताकि ऑब्जेक्ट थोड़ी देर के लिए छिप भी जाए तो भी पूरे frames में tracking जारी रहे
SAM 2 ने मौजूदा SAM की तुलना में image segmentation को बेहतर किया है, और video object segmentation में खास तौर पर partial tracking और interaction time पर ज़ोर देता है
Meta ने pretrained model, code, demo, और SA-V dataset जारी किए हैं; SA-V में लगभग 51K videos और 600K से अधिक masklets शामिल हैं

इमेज और वीडियो को साथ में संभालने वाला segmentation

SAM 2 इमेज और वीडियो दोनों में ऑब्जेक्ट्स को segment करने वाला पहला unified model है
यूज़र किसी image या video frame में click, box, mask input करके object चुन सकते हैं
वीडियो में एक या कई objects निर्दिष्ट किए जा सकते हैं, और किसी भी frame पर अतिरिक्त prompts देकर prediction को ज़्यादा सटीक रूप से संशोधित किया जा सकता है
इसे training के दौरान न देखे गए objects, images, और videos पर भी मजबूत zero-shot performance देने के लिए डिजाइन किया गया है, इसलिए इसे कई real-world applications में इस्तेमाल किया जा सकता है
streaming inference के ज़रिए यह videos को efficiently process करता है और real-time, interactive applications को support करता है

Performance और interactive user experience

SAM 2 को video और image object segmentation में इस क्षेत्र के top models से बेहतर performance देने वाला model बताया गया है
मुख्य performance points
- image segmentation में मौजूदा SAM से बेहतर
- मौजूदा video object segmentation models से बेहतर, खासकर partial tracking में मजबूत
- मौजूदा interactive video segmentation तरीकों की तुलना में कम interaction time की जरूरत
demo में, एक frame पर सिर्फ एक बार click करने से भी पूरे video में object को interactively track किया जा सकता है और effects बनाए जा सकते हैं
demo SAM 2 demo पर उपलब्ध है

Video tracking के लिए model architecture

यह SAM की prompt-based selection capability को video domain तक expand करने वाली architecture है
इसमें video के target object की जानकारी store करने वाला session-specific memory module जोड़ा गया है
- चुने गए object को सभी video frames में track किया जा सकता है
- object अस्थायी रूप से view से गायब हो जाए तब भी पिछले frames के context का उपयोग करता है
किसी भी frame पर अतिरिक्त prompt देकर mask prediction को सुधारा जा सकता है
streaming architecture video frames को एक-एक करके process करती है
image पर लागू करने पर memory module खाली रहता है, और model SAM की तरह काम करता है

SA-V dataset

SAM 2 को बड़े पैमाने पर और विविध videos तथा masklets से train किया गया है
- masklet का मतलब समय के साथ object mask है
- data SAM 2 को model-in-the-loop data engine में interactively लागू करके generate किया गया
training data में open source के रूप में जारी SA-V dataset शामिल है
SA-V dataset के प्रमुख आंकड़े
- लगभग 51K videos से 600K से अधिक masklets collected
- 47 देशों से collected geographically diverse real-world scenarios शामिल
- पूरे objects, object parts, और कठिन occlusion situations के annotations शामिल
SA-V dataset से जुड़ी समस्याओं या सवालों के लिए support@segment-anything.com पर संपर्क किया जा सकता है
dataset Explore the dataset पर देखा जा सकता है

Public resources और उपयोग की संभावनाएं

Meta ने research community को आगे का काम जारी रखने में मदद देने के लिए pretrained Segment Anything 2 model, SA-V dataset, demo, और code जारी किए हैं
public resources के साथ निम्न बातों पर ज़ोर दिया गया है
- SAM 2 training data के बारे में transparency प्रदान करना
- real-world representation के लिए SA-V dataset की geographical diversity को प्राथमिकता देना
- SAM 2 पर fairness evaluation करना
model और code Download the model से लिए जा सकते हैं
research paper Read the research paper पर देखा जा सकता है
SAM 2 को standalone इस्तेमाल किया जा सकता है, या भविष्य में दूसरे models के साथ मिलाकर बड़े systems के हिस्से के रूप में इस्तेमाल किया जा सकता है
- video object segmentation output को latest video generation models जैसे दूसरे AI systems के input के रूप में इस्तेमाल किया जा सकता है, जिससे precise editing capabilities संभव हो सकती हैं
- भविष्य में इसे अन्य प्रकार के input prompts तक expand किया जा सकता है, जिससे real-time या live video में objects के साथ interact करने के creative तरीके support किए जा सकते हैं

1 टिप्पणियां

GN⁺ 2024-08-02

Hacker News की राय

Meta वाकई बहुत अच्छा काम कर रहा है। Google AI research और community के साथ साझा किए जाने वाले उपयोगी नतीजों में पीछे दिखता है
मुझे यकीन है कि Llama और दूसरे प्रोजेक्ट नए creations, कंपनियाँ और प्रगति को आगे बढ़ाएँगे। code और research को खुलकर साझा करने का तरीका आखिरकार Meta की business value में ही वापस आएगा
यहीं founder-led कंपनी और market-driven कंपनी का फर्क दिखता है। Google शायद खराब quarterly results से बचने, या VR जैसे ऐसे projects पर बड़े capital expenditures दिखने से बचने जैसी short-term priorities पर ज़्यादा ध्यान दे रहा है जिनमें तुरंत revenue नज़र नहीं आता
जिस पल Meta को VR की killer app मिल जाएगी, बाकी कंपनियाँ इतनी पीछे छूट सकती हैं कि उन्हें Meta से software खरीदना पड़े या नए market share का लगभग कुछ भी हिस्सा न मिले। AI chips में Nvidia के आगे निकलने जैसा, यह भी ऐसा क्षेत्र है जिसमें किसी ने पर्याप्त निवेश नहीं किया
- Google अभी भी AI research में आगे है। यह short-term तरीके से चलने के लगभग उलट है, और ऐसा नहीं दिखने की वजह शायद यह हो सकती है कि उसका बहुत-सा काम foundational research है, या chemistry·physics से जुड़ा है, या Facebook की तरह public नहीं किया जाता
  लेकिन research को product में बदलने में वह पीछे है। अभी तक तो ऐसा लगता है कि trained models को products में ले जाने की प्रक्रिया में वह कम-से-कम effort ही करता है
- पक्का नहीं, लेकिन शायद फर्क कुछ ऐसा है। Meta अलग-अलग चीज़ें आज़मा सकता है और बाद में killer application खोज सकता है
  जबकि Google को अस्तित्वगत रूप से लगता है कि search ही killer application होनी चाहिए, और वह हर चीज़ को उसी में ठूँसने की कोशिश करता है। ऐसा करते हुए वह सफलता का मानदंड बहुत ऊँचा रख देता है और तकनीक वास्तव में कहाँ तक पहुँची है, इसे नज़रअंदाज़ करता दिखता है
- मुझे नहीं पता Meta ऐसा कौन-सा शानदार काम कर रहा है। WhatsApp या Instagram में डाला गया AI integration लगभग बेकार है, और ऐसा लगता है जैसे इसे सिर्फ बाज़ार को यह दिखाने के लिए ठूँसा गया हो कि Meta एक AI कंपनी है
  मेरे हिसाब से Zuckerberg CEOs में सबसे कम imaginative लोगों में से एक है। Meta के पास Portal devices को छोड़कर लगभग कोई original product नहीं है, ज़्यादातर acquired products हैं। innovation में यह बेहद कमजोर कंपनी है
  ऐसा लगता है कि Zuckerberg ने image makeover के लिए PR campaign चलाई, लेकिन Facebook अब भी एक संदिग्ध व्यक्ति द्वारा चलाई जा रही संदिग्ध कंपनी है, और उसका सड़ा हुआ core नहीं बदला। इसी हफ्ते Texas में उस पर अरबों डॉलर का जुर्माना लगा है
  Meta का “founder-led company” से भी काफ़ी दूर का रिश्ता है। जिन apps को उसने खरीदा, उनके founders जल्दी ही चले गए, और फिर Adam Mosseri जैसे management consultant टाइप लोग उन्हें चलाने लगे
  अब भी लोग Zuckerberg की उस metaverse gamble पर विश्वास कर लेते हैं, जो उसने user growth के धीमे पड़ने के बीच Meta को innovative company जैसा दिखाने के लिए फेंकी थी, यह दुखद है। वह metaverse धोखा SEC violation क्यों नहीं था, यह आज तक समझ नहीं आता
- “founder-led company और market-led company का फर्क” कहा जाता है, लेकिन क्या वे वाकई इतने अलग हैं?
  Facebook ने भी Llama जैसी महँगी चीज़ें फेंककर देखीं जिनका monetization path साफ़ नहीं था। Google ने भी Waymo, Google Glass, Google Fiber, Stadia, और https://killedbygoogle.com में दिखने वाली चीज़ों जैसी महँगी चीज़ें आज़माईं जिनका monetization path साफ़ नहीं था
  Facebook ने metaverse नाम की vision के लिए पूरी कंपनी की दिशा बड़े पैमाने पर मोड़ी और असफल रहा, और Google ने Google Plus नाम की vision के लिए वही किया और असफल रहा
  Facebook ने अपना नाम Meta रखा, और Google ने अपना नाम Alphabet रखा
  Facebook के पास एक French-American computer science professor और Turing Award विजेता द्वारा स्थापित AI research organization है, और Google के पास एक British-Canadian computer science professor और Turing Award विजेता द्वारा स्थापित AI research organization है
  Facebook ने PyTorch नाम की camelCase वाली widely used open source Python machine learning library जारी की, और Google ने TensorFlow नाम की camelCase वाली widely used open source Python machine learning library जारी की
  शायद दोनों एक ही playbook का पालन कर रहे हैं, और हाल में Facebook का दाँव बस किस्मत से सही बैठ गया हो
- सभी founders एक जैसे नहीं होते। कुछ founders को share price गिरना बहुत बुरा लगता है, भले ही उन्हें तुरंत पैसे की ज़रूरत न हो
  और नतीजे मिले-जुले हैं। निजी तौर पर मुझे लगता है कि Zuckerberg VR में गलत था, लेकिन AI में सही निकला
पिछली चर्चा: https://news.ycombinator.com/item?id=41104523
- यह हैरान करने वाला है कि इतनी बड़ी खबर इतनी जल्दी front page से गायब हो जाती है। Hacker News शायद उन लोगों के लिए optimized है जो दिन में कई बार साइट देखते हैं
अगर सिर्फ 10 साल पहले किसी ने कहा होता कि Facebook सबसे खुले तौर पर innovation करने वाली कंपनियों में से एक बन जाएगा और Mark Zuckerberg अपेक्षाकृत समझदार अरबपतियों में से एक लगेगा, तो मैं सचमुच हँस देता
लेकिन अब हालात बदल गए हैं। VR और AI की कोशिशें वास्तव में जितनी भी सफल हों, लगता है कि वे इतिहास में कुछ न कुछ जगह पहले ही बना चुकी हैं
- निष्पक्ष रूप से देखें तो Meta का internal software को open source के रूप में जारी करने और उसके industry standard बन जाने का इतिहास काफ़ी पुराना है। यह बिल्कुल नई बात नहीं है
  खासकर database technology में ऐसा है, और rocksdb, zstd compression, presto, Cassandra, Hive, Velox सब Meta द्वारा बनाए गए हैं
  ये तो सिर्फ लोकप्रिय उदाहरण हैं, database से जुड़े ऐसे projects और भी बहुत हैं जिन्हें public किया गया लेकिन वे ज़्यादा मशहूर नहीं हुए
  कंपनी के रूप में इसकी शिकायतें बहुत हो सकती हैं, लेकिन open source ecosystem में यह हमेशा बड़ा contributor रहा है
- मुझे Oculus पसंद है, लेकिन VR अभी सांस्कृतिक सर्वव्यापकता तक नहीं पहुँचा है
ऐसी चीज़ें देखते ही मुझे हमेशा The Expanse का hologram orbital map UI याद आता है
यह भविष्य के उस कागज़ जैसा लगता है जो हमारी सोच की हर चीज़ से जुड़ जाएगा, और दुनिया को explore करने के लिए यह सचमुच बहुत ताकतवर tool हो सकता है
जब मैं editing और motion graphics का काम करता था, तब अगर यह होता तो मैं इसे बहुत चाहता
After Effects का Roto Brush कुछ-कुछ ऐसा ही है, लेकिन उसकी quality हमेशा कम पड़ती थी और processing time बहुत ज़्यादा था
- After Effects का Roto Brush जान बचाने वाला tool है, लेकिन उसकी सीमाएँ हैं। SAM निश्चित रूप से game changer है
लिखा है कि code जारी किया गया है, लेकिन मुझे example code के अलावा कुछ नहीं मिल रहा। क्या training code भी जारी किया गया है?
- “pretrained Segment Anything 2 models और code released” कहते समय शायद यह repository की बात हो रही है: https://github.com/facebookresearch/segment-anything-2
नतीजे प्रभावशाली हैं। यह Mercer Labs के अंदर शूट किया गया test video है: https://youtu.be/W7kM0ISXkpQ?feature=shared
- समझ नहीं आ रहा कि इसमें क्या देखा जा रहा है, और इसका SAM2 से क्या संबंध है
लगता है Firefox समर्थित नहीं है
उन हज़ारों अफ्रीकी workers का भी शुक्रिया अदा करना चाहिए जिन्होंने उबाऊ और दोहराए जाने वाले dataset work किए हैं

Meta ने Segment Anything Model 2 जारी किया

इमेज और वीडियो को साथ में संभालने वाला segmentation

Performance और interactive user experience

Video tracking के लिए model architecture

SA-V dataset

Public resources और उपयोग की संभावनाएं

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय