Meta ने Segment Anything Model 3 (SAM 3) पेश किया

(ai.meta.com)

7 पॉइंट द्वारा GN⁺ 2025-11-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें

इमेज और वीडियो में text, exemplar image, और visual prompt के ज़रिए इच्छित ऑब्जेक्ट को खोजने, segment करने और track करने वाला SAM 3 पेश किया गया
मॉडल checkpoints, evaluation dataset, fine-tuning code के साथ Segment Anything Playground के माध्यम से ऐसा वातावरण दिया गया है जिसमें कोई भी आसानी से प्रयोग कर सकता है
SA-Co नाम का नया बड़े पैमाने का concept segmentation benchmark और SAM 3D जारी कर 2D·3D दोनों को समेटने वाले concept segmentation ecosystem का विस्तार किया गया
Marketplace·Instagram Edits·Meta AI जैसी Meta सेवाओं में object segmentation आधारित नई media generation·editing features लागू की जा रही हैं
text और exemplar-आधारित concept segmentation को एकीकृत करने वाले मॉडल के रूप में, शोध, उद्योग, संरक्षण और robotics सहित कई क्षेत्रों में general-purpose perception tool के रूप में उपयोग की संभावना बढ़ी है

SAM 3 का अवलोकन

यह एक integrated model है जो text·image exemplar·mask·box·point जैसे विभिन्न prompts लेकर इमेज और वीडियो में concepts को detect, segment और track करता है
- छोटे noun phrase आधारित open-vocabulary segmentation का मूल समर्थन करता है
- “people sitting down but not holding a gift box” जैसे complex prompts को MLLM के साथ जोड़कर प्रोसेस किया जा सकता है
पहले के SAM की fixed label set से बंधी सीमाओं से आगे बढ़ते हुए, इसे arbitrary concept (promptable concept) segmentation तक विस्तारित किया गया है
नए benchmark SA-Co(Segment Anything with Concepts) के जरिए इमेज और वीडियो में बड़े पैमाने पर concept recognition performance मापी जाती है

प्रमुख फीचर्स

text prompt आधारित concept detection और सभी instances की segmentation का समर्थन
- “striped red umbrella” जैसी विस्तृत description भी संभाल सकता है
image exemplar के माध्यम से वास्तविक उदाहरण आधारित concept definition संभव
SAM 1·2 में दिए गए box/point/mask prompts बरकरार
MLLM को एक tool की तरह इस्तेमाल कर जटिल queries के लिए iterative search (SAM 3 Agent) किया जा सकता है

डेटा इंजन

SAM 3 + humans + AI annotator (Llama 3.2v आधारित) को मिलाकर hybrid data creation pipeline बनाया गया
- automatic captioning → text label generation → initial mask generation → AI/मानव validation
- negative prompts (अनुपस्थित concepts) पर 5 गुना तेज़ processing, और positive prompts पर भी 36% speed improvement
40 लाख से अधिक unique concepts वाला बड़े पैमाने का training set तैयार किया गया
wiki-आधारित concept ontology से rare concepts की coverage बढ़ाई गई

मॉडल आर्किटेक्चर

text/image encoder Meta Perception Encoder पर आधारित हैं
object detection के लिए DETR, और tracking के लिए SAM 2 का memory bank + tracker ढांचा उपयोग किया गया
कई tasks (detection·tracking·segmentation) को एक ही मॉडल में चलाने के लिए conflict-avoidance training recipe का डिज़ाइन मुख्य तत्व है

प्रदर्शन

इमेज और वीडियो में मौजूदा मॉडलों की तुलना में cgF1 2 गुना बेहतर
Gemini 2.5 Pro, GLEE, OWLv2, LLMDet जैसे specialized models की तुलना में बेहतर परिणाम
user preference evaluation में SAM 3 के परिणाम 3:1 अनुपात से आगे रहे
single image पर 30ms, और वीडियो में 5 objects के आधार पर लगभग real-time processing
zero-shot LVIS·CountBench आदि पर भी बेहतर प्रदर्शन की पुष्टि

विज्ञान और वास्तविक उपयोग के मामले

SA-FARI: 100 से अधिक species और 10,000 से अधिक wildlife camera trap videos वाला सार्वजनिक dataset
FathomNet: marine life instance segmentation के लिए नया benchmark
Marketplace “View in Room”: lighting, furniture आदि के indoor placement visualization को SAM 3·SAM 3D से लागू किया गया
Instagram Edits·Meta AI app·meta.ai में object-based video effects application फीचर आने वाला है

SAM 3D

single image से 3D objects और humans reconstruction के लिए model·code·data जारी
वास्तविक spatial context को ध्यान में रखकर grounded reconstruction प्रदान करता है

सीमाएँ और आगे की चुनौतियाँ

विशेषज्ञता वाले सूक्ष्म domain concepts (platelet आदि) पर zero-shot generalization अभी सीमित है
- कम मात्रा के data से fine-tuning करने पर तेज़ी से अनुकूलन संभव
- open-source fine-tuning recipe उपलब्ध
छोटे वाक्यों का मूल समर्थन है, लेकिन “top shelf second to last book” जैसी जटिल description के लिए MLLM integration की ज़रूरत होती है
वीडियो में objects की संख्या बढ़ने पर processing cost रैखिक रूप से बढ़ती है
- objects के बीच relation information sharing भविष्य का सुधार बिंदु है

Segment Anything Playground

तकनीकी ज्ञान के बिना भी SAM 3 को आज़माने के लिए web-based platform
- face/license plate/screen pixelation, spotlight, motion trail, specific object zoom जैसे templates उपलब्ध
- data annotation और stress test में भी उपयोगी
Aria Gen 2 wearable के first-person videos में भी स्थिर segmentation और tracking देता है
- human-perspective robotics और perception research में उपयोग संभव

1 टिप्पणियां

GN⁺ 2025-11-20

Hacker News की राय

Meta अब भी open source में योगदान कर रहा है और ऐसे मॉडल जारी कर रहा है, इसके लिए आभार
कंपनी को लेकर आलोचनात्मक नज़रिया हो सकता है, लेकिन ऐसे कदम सबके लिए फ़ायदेमंद हैं
- मैं भी सहमत हूँ। मैंने पहले लगभग 2005 में एक security vulnerability रिपोर्ट की थी, और उस समय कंपनी की संस्कृति आज से अलग थी
  अब लगता है कि यह काफ़ी हद तक community-centric दिशा में बदल गई है
- मुझे social media पक्ष ज़्यादा पसंद नहीं है, लेकिन Meta के model release वाले कदम की सराहना करनी चाहिए
  दूसरी बड़ी research labs इस तरह मॉडल जारी नहीं करतीं
पहली बार इस्तेमाल करने पर लगा कि यह मॉडल बेहद शानदार है
“zero-shot” text-based detection पिछले generation के models या Gemini, Qwen जैसे नए VLMs से काफ़ी आगे है
अगर इंसानी supervision हो, तो यह teacher model के रूप में भी काफ़ी उपयोगी हो सकता है
मैंने पहले climbing holds detect करने के लिए YOLO tune किया था, लेकिन SAM3 बिना training के भी उस नतीजे का 90% तक पहुँच जाता है
हालाँकि low-contrast wooden holds या छोटे footholds छूट जाते हैं
- क्या आपने कभी Stokt app जैसी किसी चीज़ पर काम किया है? वह app अभी climbing क्षेत्र में काफ़ी मशहूर है
- मैं 1 अरब images को label करने वाले एक platform पर काम करता हूँ, और मुझे लगता है कि SAM3 उनमें से 90% से ज़्यादा को automate कर सकता है
  अब ढाँचा ऐसा बन रहा है कि इंसान मॉडल की मदद नहीं कर रहा, बल्कि मॉडल इंसान की मदद कर रहा है
  इससे जुड़ी पोस्ट Roboflow ब्लॉग पर देखी जा सकती है
3D mesh generator भी वाकई शानदार है
SAM3D डेमो में देखा जा सकता है कि कुर्सी पर बैठे व्यक्ति जैसे मामलों में occluded object separation भी अच्छी तरह संभालता है, और तेज़ भी है
- सच में प्रभावशाली है। लेकिन क्या 3D mesh को सीधे export किया जा सकता है?
  मुझे तो सिर्फ़ वीडियो मिल पाया; सोच रहा हूँ क्या इसके लिए token खरीदना पड़ता है
मेरा use case circuit boards पर pattern tracing है, और इस हिस्से में यह मॉडल अभी भी कमज़ोर है
समुद्र तट पर घोड़े जैसी images को तो यह अच्छी तरह संभाल लेता है, लेकिन industrial data पर कम फिट बैठता है
fine-tuning करने पर शायद बेहतर हो, लेकिन अभी तक कोशिश नहीं की है
- दिलचस्प use case है। क्या आप कोई example link साझा कर सकते हैं जिसे संदर्भ के तौर पर देखा जा सके?
मैंने बच्चों की drawings का background removal करने के लिए SAM3 इस्तेमाल किया
(संबंधित प्रोजेक्ट परिचय)
लेकिन BiRefNet v2 अभी भी थोड़ा ज़्यादा सटीक काम करता है
SAM3 लाइन के साथ काटते समय थोड़ा inaccurate है, और कागज़ का सफ़ेद हिस्सा कुछ जगह बच जाता है
फिर भी SAM3 सिर्फ़ background removal से आगे जाकर drawing का अर्थ समझने की क्षमता रखता है
ऐसा लगता है कि बच्चों की बनाई तस्वीरों को पहचानकर उन्हें गेम के भीतर actions से जोड़ा जा सकता है
- BiRefNet से background removal करना दिलचस्प लगा
  क्या आपको लगता है कि अभी के समय में वही सबसे best-performing model है? दूसरे alternatives के बारे में भी जानना चाहूँगा
paper के author list में “Core contributor (Alphabetical, Equal Contribution)” जैसी notation देखना अच्छा लगा
contributors को बराबरी से दर्शाने का तरीका प्रभावशाली है
पिछले 5 सालों में computer vision की प्रगति की रफ़्तार धीमी रही है
language understanding, LLMs की वजह से इंसानी स्तर के क़रीब पहुँची है, लेकिन vision अब भी पीछे है
object segmentation या scientific image generalization अब भी मुश्किल है, और पर्याप्त data होने के बावजूद कुछ कमी महसूस होती है
शायद 3D environments में agency या अधिक समृद्ध learning signals की ज़रूरत है
- मैं विशेषज्ञ नहीं हूँ, लेकिन मुझे लगता है कि world model की कमी है
  इंसान सिर्फ़ visual information से फ़ैसला नहीं करता, बल्कि context और अनुभव से उसकी भरपाई करता है
  उदाहरण के लिए, रात के रास्ते में कोई अँधेरा आकार दिखे तो हम पिछले अनुभव या आसपास की जानकारी से अनुमान लगाते हैं कि वह घोड़ा है या बाड़
  इस तरह का contextual reasoning मौजूदा models में नहीं है
- “LLM इंसानी स्तर पर text समझते हैं” इस बात की अब भी सीमाएँ हैं
मेरा क्षेत्र medical imaging में 3D volume segmentation है
मैंने SAM2 को 2D slice तरीके से इस्तेमाल किया था, लेकिन यह मौजूदा standard nnUNet से कम प्रतिस्पर्धी निकला
- Unet पिछले 10 सालों से medical imaging में सबसे व्यापक रूप से इस्तेमाल होने वाला model है
  लेकिन मुझे लगता है कि LLM + VLM का संयोजन एक नई दिशा बन सकता है
  मैंने वास्तव में यह डेमो टेस्ट किया था, और यह काफ़ी अच्छा चला
SAM3 एक शानदार मॉडल है
इसे पहले से chat.vlm.run पर और भी interactive तरीके से इस्तेमाल किया जा सकता है,
और हमारी टीम के नए Orion model पर SAM तथा दूसरे vision models के साथ मिलाकर चलाया जा सकता है
जल्द ही video segmentation और tracking फ़ीचर भी जोड़े जाएँगे
- मैंने सच में इसे टेस्ट किया, और एक ही chat session में इंसान और कुत्ते को अलग-अलग segment कर सका
  नतीजे का उदाहरण
औसतन 4 सेकंड की latency के कारण, मुझे लगता है कि real-time video के लिए यह अभी कठिन होगा
(स्रोत roboflow.com पर संबंधित पोस्ट में देखा)
- वह संख्या शायद computing resources की समस्या होगी
  ब्लॉग के मुताबिक H200 GPU पर 100 से अधिक objects वाली एक single image को process करने में सिर्फ़ 30ms लगते हैं

Meta ने Segment Anything Model 3 (SAM 3) पेश किया

SAM 3 का अवलोकन

प्रमुख फीचर्स

डेटा इंजन

मॉडल आर्किटेक्चर

प्रदर्शन

विज्ञान और वास्तविक उपयोग के मामले

SAM 3D

सीमाएँ और आगे की चुनौतियाँ

Segment Anything Playground

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय