- इमेज और वीडियो में text, exemplar image, और visual prompt के ज़रिए इच्छित ऑब्जेक्ट को खोजने, segment करने और track करने वाला SAM 3 पेश किया गया
- मॉडल checkpoints, evaluation dataset, fine-tuning code के साथ Segment Anything Playground के माध्यम से ऐसा वातावरण दिया गया है जिसमें कोई भी आसानी से प्रयोग कर सकता है
- SA-Co नाम का नया बड़े पैमाने का concept segmentation benchmark और SAM 3D जारी कर 2D·3D दोनों को समेटने वाले concept segmentation ecosystem का विस्तार किया गया
- Marketplace·Instagram Edits·Meta AI जैसी Meta सेवाओं में object segmentation आधारित नई media generation·editing features लागू की जा रही हैं
- text और exemplar-आधारित concept segmentation को एकीकृत करने वाले मॉडल के रूप में, शोध, उद्योग, संरक्षण और robotics सहित कई क्षेत्रों में general-purpose perception tool के रूप में उपयोग की संभावना बढ़ी है
SAM 3 का अवलोकन
- यह एक integrated model है जो text·image exemplar·mask·box·point जैसे विभिन्न prompts लेकर इमेज और वीडियो में concepts को detect, segment और track करता है
- छोटे noun phrase आधारित open-vocabulary segmentation का मूल समर्थन करता है
- “people sitting down but not holding a gift box” जैसे complex prompts को MLLM के साथ जोड़कर प्रोसेस किया जा सकता है
- पहले के SAM की fixed label set से बंधी सीमाओं से आगे बढ़ते हुए, इसे arbitrary concept (promptable concept) segmentation तक विस्तारित किया गया है
- नए benchmark SA-Co(Segment Anything with Concepts) के जरिए इमेज और वीडियो में बड़े पैमाने पर concept recognition performance मापी जाती है
प्रमुख फीचर्स
- text prompt आधारित concept detection और सभी instances की segmentation का समर्थन
- “striped red umbrella” जैसी विस्तृत description भी संभाल सकता है
- image exemplar के माध्यम से वास्तविक उदाहरण आधारित concept definition संभव
- SAM 1·2 में दिए गए box/point/mask prompts बरकरार
- MLLM को एक tool की तरह इस्तेमाल कर जटिल queries के लिए iterative search (SAM 3 Agent) किया जा सकता है
डेटा इंजन
- SAM 3 + humans + AI annotator (Llama 3.2v आधारित) को मिलाकर hybrid data creation pipeline बनाया गया
- automatic captioning → text label generation → initial mask generation → AI/मानव validation
- negative prompts (अनुपस्थित concepts) पर 5 गुना तेज़ processing, और positive prompts पर भी 36% speed improvement
- 40 लाख से अधिक unique concepts वाला बड़े पैमाने का training set तैयार किया गया
- wiki-आधारित concept ontology से rare concepts की coverage बढ़ाई गई
मॉडल आर्किटेक्चर
- text/image encoder Meta Perception Encoder पर आधारित हैं
- object detection के लिए DETR, और tracking के लिए SAM 2 का memory bank + tracker ढांचा उपयोग किया गया
- कई tasks (detection·tracking·segmentation) को एक ही मॉडल में चलाने के लिए conflict-avoidance training recipe का डिज़ाइन मुख्य तत्व है
प्रदर्शन
- इमेज और वीडियो में मौजूदा मॉडलों की तुलना में cgF1 2 गुना बेहतर
- Gemini 2.5 Pro, GLEE, OWLv2, LLMDet जैसे specialized models की तुलना में बेहतर परिणाम
- user preference evaluation में SAM 3 के परिणाम 3:1 अनुपात से आगे रहे
- single image पर 30ms, और वीडियो में 5 objects के आधार पर लगभग real-time processing
- zero-shot LVIS·CountBench आदि पर भी बेहतर प्रदर्शन की पुष्टि
विज्ञान और वास्तविक उपयोग के मामले
- SA-FARI: 100 से अधिक species और 10,000 से अधिक wildlife camera trap videos वाला सार्वजनिक dataset
- FathomNet: marine life instance segmentation के लिए नया benchmark
- Marketplace “View in Room”: lighting, furniture आदि के indoor placement visualization को SAM 3·SAM 3D से लागू किया गया
- Instagram Edits·Meta AI app·meta.ai में object-based video effects application फीचर आने वाला है
SAM 3D
- single image से 3D objects और humans reconstruction के लिए model·code·data जारी
- वास्तविक spatial context को ध्यान में रखकर grounded reconstruction प्रदान करता है
सीमाएँ और आगे की चुनौतियाँ
- विशेषज्ञता वाले सूक्ष्म domain concepts (platelet आदि) पर zero-shot generalization अभी सीमित है
- कम मात्रा के data से fine-tuning करने पर तेज़ी से अनुकूलन संभव
- open-source fine-tuning recipe उपलब्ध
- छोटे वाक्यों का मूल समर्थन है, लेकिन “top shelf second to last book” जैसी जटिल description के लिए MLLM integration की ज़रूरत होती है
- वीडियो में objects की संख्या बढ़ने पर processing cost रैखिक रूप से बढ़ती है
- objects के बीच relation information sharing भविष्य का सुधार बिंदु है
Segment Anything Playground
- तकनीकी ज्ञान के बिना भी SAM 3 को आज़माने के लिए web-based platform
- face/license plate/screen pixelation, spotlight, motion trail, specific object zoom जैसे templates उपलब्ध
- data annotation और stress test में भी उपयोगी
- Aria Gen 2 wearable के first-person videos में भी स्थिर segmentation और tracking देता है
- human-perspective robotics और perception research में उपयोग संभव
1 टिप्पणियां
Hacker News की राय
Meta अब भी open source में योगदान कर रहा है और ऐसे मॉडल जारी कर रहा है, इसके लिए आभार
कंपनी को लेकर आलोचनात्मक नज़रिया हो सकता है, लेकिन ऐसे कदम सबके लिए फ़ायदेमंद हैं
अब लगता है कि यह काफ़ी हद तक community-centric दिशा में बदल गई है
दूसरी बड़ी research labs इस तरह मॉडल जारी नहीं करतीं
पहली बार इस्तेमाल करने पर लगा कि यह मॉडल बेहद शानदार है
“zero-shot” text-based detection पिछले generation के models या Gemini, Qwen जैसे नए VLMs से काफ़ी आगे है
अगर इंसानी supervision हो, तो यह teacher model के रूप में भी काफ़ी उपयोगी हो सकता है
मैंने पहले climbing holds detect करने के लिए YOLO tune किया था, लेकिन SAM3 बिना training के भी उस नतीजे का 90% तक पहुँच जाता है
हालाँकि low-contrast wooden holds या छोटे footholds छूट जाते हैं
अब ढाँचा ऐसा बन रहा है कि इंसान मॉडल की मदद नहीं कर रहा, बल्कि मॉडल इंसान की मदद कर रहा है
इससे जुड़ी पोस्ट Roboflow ब्लॉग पर देखी जा सकती है
3D mesh generator भी वाकई शानदार है
SAM3D डेमो में देखा जा सकता है कि कुर्सी पर बैठे व्यक्ति जैसे मामलों में occluded object separation भी अच्छी तरह संभालता है, और तेज़ भी है
मुझे तो सिर्फ़ वीडियो मिल पाया; सोच रहा हूँ क्या इसके लिए token खरीदना पड़ता है
मेरा use case circuit boards पर pattern tracing है, और इस हिस्से में यह मॉडल अभी भी कमज़ोर है
समुद्र तट पर घोड़े जैसी images को तो यह अच्छी तरह संभाल लेता है, लेकिन industrial data पर कम फिट बैठता है
fine-tuning करने पर शायद बेहतर हो, लेकिन अभी तक कोशिश नहीं की है
मैंने बच्चों की drawings का background removal करने के लिए SAM3 इस्तेमाल किया
(संबंधित प्रोजेक्ट परिचय)
लेकिन BiRefNet v2 अभी भी थोड़ा ज़्यादा सटीक काम करता है
SAM3 लाइन के साथ काटते समय थोड़ा inaccurate है, और कागज़ का सफ़ेद हिस्सा कुछ जगह बच जाता है
फिर भी SAM3 सिर्फ़ background removal से आगे जाकर drawing का अर्थ समझने की क्षमता रखता है
ऐसा लगता है कि बच्चों की बनाई तस्वीरों को पहचानकर उन्हें गेम के भीतर actions से जोड़ा जा सकता है
क्या आपको लगता है कि अभी के समय में वही सबसे best-performing model है? दूसरे alternatives के बारे में भी जानना चाहूँगा
paper के author list में “Core contributor (Alphabetical, Equal Contribution)” जैसी notation देखना अच्छा लगा
contributors को बराबरी से दर्शाने का तरीका प्रभावशाली है
पिछले 5 सालों में computer vision की प्रगति की रफ़्तार धीमी रही है
language understanding, LLMs की वजह से इंसानी स्तर के क़रीब पहुँची है, लेकिन vision अब भी पीछे है
object segmentation या scientific image generalization अब भी मुश्किल है, और पर्याप्त data होने के बावजूद कुछ कमी महसूस होती है
शायद 3D environments में agency या अधिक समृद्ध learning signals की ज़रूरत है
इंसान सिर्फ़ visual information से फ़ैसला नहीं करता, बल्कि context और अनुभव से उसकी भरपाई करता है
उदाहरण के लिए, रात के रास्ते में कोई अँधेरा आकार दिखे तो हम पिछले अनुभव या आसपास की जानकारी से अनुमान लगाते हैं कि वह घोड़ा है या बाड़
इस तरह का contextual reasoning मौजूदा models में नहीं है
मेरा क्षेत्र medical imaging में 3D volume segmentation है
मैंने SAM2 को 2D slice तरीके से इस्तेमाल किया था, लेकिन यह मौजूदा standard nnUNet से कम प्रतिस्पर्धी निकला
लेकिन मुझे लगता है कि LLM + VLM का संयोजन एक नई दिशा बन सकता है
मैंने वास्तव में यह डेमो टेस्ट किया था, और यह काफ़ी अच्छा चला
SAM3 एक शानदार मॉडल है
इसे पहले से chat.vlm.run पर और भी interactive तरीके से इस्तेमाल किया जा सकता है,
और हमारी टीम के नए Orion model पर SAM तथा दूसरे vision models के साथ मिलाकर चलाया जा सकता है
जल्द ही video segmentation और tracking फ़ीचर भी जोड़े जाएँगे
नतीजे का उदाहरण
औसतन 4 सेकंड की latency के कारण, मुझे लगता है कि real-time video के लिए यह अभी कठिन होगा
(स्रोत roboflow.com पर संबंधित पोस्ट में देखा)
ब्लॉग के मुताबिक H200 GPU पर 100 से अधिक objects वाली एक single image को process करने में सिर्फ़ 30ms लगते हैं