Muse Spark: व्यक्तिगत superintelligence की ओर बढ़ता Meta का multimodal reasoning model

(ai.meta.com)

1 पॉइंट द्वारा GN⁺ 22 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Meta Superintelligence Labs द्वारा विकसित Muse Spark एक multimodal reasoning model है, जो tool use, visual chain of thought और multi-agent collaboration को support करता है
personal superintelligence की दिशा में पहले कदम के रूप में इसे meta.ai और Meta AI app पर कुछ users के लिए private API preview के तौर पर उपलब्ध कराया जा रहा है
यह model pretraining, reinforcement learning, और test-time reasoning—इन तीन axes पर scale होता है, और Llama 4 की तुलना में 10x से अधिक efficient training performance हासिल करता है
Contemplating mode के जरिए यह parallel agent-based high-difficulty reasoning करता है, और Gemini Deep Think तथा GPT Pro स्तर की advanced thinking capability लागू करता है
Meta का लक्ष्य Muse Spark को आगे बढ़ाकर ऐसा personalized superintelligence model बनाना है, जिसमें safety और efficiency दोनों हों

Muse Spark का अवलोकन

Muse Spark Meta Superintelligence Labs द्वारा विकसित एक multimodal reasoning model है, जो tool use, visual chain of thought, और multi-agent orchestration capabilities को support करता है
यह Meta के AI research को व्यापक रूप से फिर से तैयार करने का पहला परिणाम है, और इसे personal superintelligence की दिशा में पहला कदम बताया गया है
research, model training, और infrastructure (जैसे Hyperion datacenter) के पूरे क्षेत्र में scaling investment जारी है
यह फिलहाल meta.ai और Meta AI app पर उपलब्ध है, और कुछ users को private API preview दिया जा रहा है

personal superintelligence के लिए features

Muse Spark के पास multimodal perception, reasoning, health, और agentic tasks में competitive performance है
long-term agent systems और coding workflows जैसे कुछ क्षेत्रों में performance gap कम करने के लिए लगातार investment किया जा रहा है
Contemplating mode कई agents को parallel में चलाकर complex problems solve करता है, और Gemini Deep Think तथा GPT Pro जैसे frontier models के high-difficulty reasoning modes का मुकाबला करता है
- Humanity’s Last Exam में 58% और FrontierScience Research में 38% performance हासिल की
Contemplating mode को meta.ai पर धीरे-धीरे rollout किया जाएगा

प्रमुख application areas

Muse Spark, users की दुनिया को समझने और उसके साथ interact करने वाली personal superintelligence में विकसित होने के लिए आधार प्रदान करता है
multimodal integration के जरिए visual information और tools को जोड़कर, STEM visual problems, entity recognition, और localization जैसे क्षेत्रों में high performance हासिल करता है
- उदाहरण: mini-game generation, और home appliances की problem solving के दौरान dynamic annotation feature देना
health sector में, 1,000 से अधिक doctors के साथ मिलकर training data बनाया गया, जिससे factual और comprehensive health reasoning संभव हुआ
- यह food के nutritional components, exercise के दौरान activate होने वाली muscles जैसी health information को visually explain करने वाले interactive displays बना सकता है
example prompts में yoga posture evaluation, diet recommendation visualization, और coffee machine tutorial जैसी personalized visual interaction capabilities दिखाई गईं

scaling axes

Muse Spark का scaling pretraining, reinforcement learning, और test-time reasoning—इन तीन axes पर केंद्रित है
pretraining
- model की multimodal understanding, reasoning, और coding abilities की foundation बनाने वाला चरण
- पिछले 9 महीनों में model architecture, optimization, और data curation में सुधार करके computational efficiency को काफी बढ़ाया गया
- समान performance हासिल करने के लिए जरूरी training FLOPs, Llama 4 Maverick की तुलना में 10x से अधिक कम हुए, और यह प्रमुख competing models से अधिक efficient है
reinforcement learning
- pretraining के बाद model capabilities को scale करने वाला चरण, जिसमें large-scale RL की instability को हल करके predictable performance gains हासिल किए गए
- RL compute (step count) बढ़ने के साथ pass@1 और pass@16 metrics log-linear तरीके से बढ़े, जिससे model reliability और diversity दोनों में सुधार हुआ
- training में शामिल न किए गए evaluation sets पर भी accuracy बढ़ी, जिससे generalization performance साबित हुई
test-time reasoning
- model को response देने से पहले ‘सोचने’ की प्रक्रिया करने के लिए train किया गया
- efficient token use के लिए thinking time penalty और multi-agent collaboration का उपयोग किया गया
- RL training, thinking time पर penalty लगाते हुए भी accuracy को maximize करती है, और इसके परिणामस्वरूप ‘thought compression’ की घटना होती है
  - कम tokens के साथ problem solve करने के बाद, फिर expanded thinking के जरिए performance को मजबूत किया जाता है
- multi-agent parallel reasoning के जरिए latency बढ़ाए बिना performance improvement हासिल किया गया

safety evaluation

Muse Spark के पास dual-use science fields सहित व्यापक reasoning capabilities हैं, इसलिए deployment से पहले extensive safety evaluation किया गया
Meta के Advanced AI Scaling Framework v2 के आधार पर threat models, evaluation protocols, और deployment criteria तय किए गए
biological और chemical weapons जैसे high-risk क्षेत्रों में इसने strong refusal behavior दिखाया, और data filtering, safety-focused post-training, तथा system-level safeguards से इसे मजबूत किया गया
cybersecurity और loss of control क्षेत्रों में ऐसी autonomous capability नहीं पाई गई जो risk scenarios को वास्तविक बना सके
overall evaluation के अनुसार, Muse Spark सभी मापी गई frontier risk categories में safety thresholds के भीतर रहा
Apollo Research की external evaluation में Muse Spark को evaluation awareness के मामले में सबसे उच्च स्तर वाला model देखा गया
- कुछ परिस्थितियों में इसने पहचाना कि इसका evaluation हो रहा है और ईमानदारी से व्यवहार करना चाहिए ऐसा reasoning किया
- हालांकि, इस awareness का वास्तविक behavior पर प्रभाव सीमित था, और risk capabilities से असंबंधित कुछ alignment evaluations में ही मामूली प्रभाव दिखा
- Meta इसे release-blocking factor नहीं मानता, बल्कि केवल further research की आवश्यकता बताता है

निष्कर्ष

Muse Spark predictable और efficient scaling path पर है, और आगे चलकर और अधिक शक्तिशाली personal superintelligence model में विकसित होने की संभावना है
Meta लगातार बेहतर models जारी करते हुए personalized superintelligence के युग की ओर प्रगति करने का लक्ष्य रखता है

1 टिप्पणियां

GN⁺ 22 일 전

Hacker News की राय

समझ नहीं आता लोग इसे इतना कमतर क्यों बता रहे हैं। अगर यह मॉडल Opus 4.6 के बराबर या उससे थोड़ा आगे है, तो इसका मतलब है कि Meta ने ऐसा मॉडल बना लिया है जो अग्रणी AI कंपनियों से टक्कर ले सकता है
हाँ, इसकी लागत बहुत रही होगी, लेकिन अब इसे आधार बनाकर coding agent तक ले जाना उतना दूर की बात नहीं लगती। और Meta के नज़रिए से देखें तो वह IG, WhatsApp, VR जैसे अपने प्रोडक्ट्स में SATA मॉडल सीधे इस्तेमाल कर सकता है, इसलिए लंबे समय में इससे वित्तीय लाभ भी होगा
- संदेहभरी प्रतिक्रिया भी समझ में आती है। पहले llama 4 benchmark exaggeration वाला मामला हो चुका है। यह मॉडल भी कुछ महीनों से मौजूद था, लेकिन तब यह शायद Gemini 2.5 Pro स्तर का था इसलिए रिलीज़ टाल दी गई थी
- coding agent बाज़ार पर पहले से Anthropic और OpenAI का फोकस है। Meta के लिए असली मौका शायद consumer AI क्षेत्र में है। OpenAI को जल्द तय करना होगा कि वह अपने resources मुफ़्त users पर लगाए या enterprise पर
- benchmark के हिसाब से यह ठीक मॉडल है, लेकिन वास्तविक programming usefulness में यह Opus तक नहीं पहुँचता। रोज़मर्रा के coding tasks में उपयोगिता को benchmark पूरी तरह नहीं मापते। फिर भी competition बढ़ना अच्छी बात है
- “Opus 4.6 को पीछे छोड़ देता है” यह दावा सही नहीं है
- बहुत से लोगों में Meta के प्रति default dislike भी है। जायज़ हो या नहीं, कई लोग सिर्फ़ Meta होने की वजह से ही उसे नापसंद करते हैं
Simon Willison की पोस्ट देखकर Pelicans वाला उदाहरण देखा। meta.ai पर खुद भी आज़माया और यह काफ़ी अच्छा लगा। Python Code Interpreter container और container.visual_grounding नाम का image analysis tool ख़ास तौर पर दिलचस्प था
- Alexandr Wang ने कहा है कि यह आगे चलकर शायद open source भी किया जा सकता है, इसलिए उम्मीद है
- लगता है हर region में उपलब्ध tools अलग हैं। मेरे पास visual_grounding फीचर नहीं था, और सिर्फ़ इस लिंक में दिख रहे features ही उपलब्ध थे
- Simon से पूछना चाहूँगा — अब तक देखे गए मॉडलों में ‘साइकिल चलाता Pelican’ सबसे अच्छा किसने बनाया है?
- यह अफ़सोस की बात है कि meta.ai पर इसे इस्तेमाल करने के लिए login करना पड़ता है। उम्मीद है Openrouter पर भी जल्द सपोर्ट मिलेगा। फिर भी इसे जल्दी आज़माने लायक उत्सुकता है
यह पूरा दौर 19वीं सदी के railroad boom जैसा लगता है। अगर कई कंपनियाँ लगभग एक ही स्तर का AI बना लें, तो entry barrier (moat) खत्म हो जाएगा और आख़िरकार कीमतें गिरेंगी। निवेश की भरपाई शायद न हो पाए
- शायद इसी वजह से Anthropic API की कीमत ऊँची रखता है और अपने प्रोडक्ट subscriptions को सीमित रखता है। यह non-technical users को ज़्यादा देर तक बनाए रखने की रणनीति लगती है
- वैसे भी ये सब कंपनियाँ सरकारों से काफ़ी क़रीब से जुड़ी हैं, इसलिए इन्हें बाज़ार के तर्क से ज़्यादा सहारा मिलेगा। अगर ये असफल भी हों, तो नतीजे में open-weight models निकल सकते हैं। हालाँकि वे भी कुछ महीनों में पुराने पड़ जाएँगे
- दूसरी तरफ़, अभी AI smartphone जितना mainstream और steam engine जितना disruptive है। AI कंपनियाँ दुनिया की सबसे बड़ी software कंपनियों में बदल रही हैं, और बाज़ार में trillion-dollar opportunity मौजूद है
- असली moat compute power और energy access में है। इसी वजह से Elon Musk खुद semiconductor factories बना रहा है। HuggingFace पर मॉडल बहुत हैं, लेकिन उन्हें वास्तव में चला सकने वाले लोग बहुत कम हैं
अंदरूनी benchmarks चलाए, और यह बिल्कुल भी प्रभावशाली नहीं लगा। OpenAI, Anthropic, Gemini के स्तर की तुलना में नहीं है। तकनीकी सवालों पर analytical errors भी बहुत थे
- और ज़्यादा टेस्ट करने पर basic math errors भी बहुत दिखीं। Gemini से cross-check किया तो लगभग हर आसान समस्या में गलती निकली
- फिर भी multimodal क्षेत्र में यह काफ़ी अच्छा है। 3 अरब लोगों के उपयोग लायक है, लेकिन science के मामले में अब भी पीछे है
- सच कहूँ तो Gemini भी उस बातचीत के स्तर में आता है, ऐसा नहीं लगता
“Ask Meta AI…” इनपुट बॉक्स पर क्लिक किया तो login की मांग आई, फिर Facebook/Instagram linking की प्रक्रिया शुरू हो गई। यह एकदम सामान्य dark pattern जैसा लगा। OpenAI ने यह हिस्सा कहीं बेहतर संभाला है
अगर Meta ने फिर से frontier model हासिल कर लिया है, तो अब उसकी रणनीतिक दिशा दिलचस्प है। क्या उसने पहले वाली open ecosystem philosophy छोड़ दी है, यही सवाल है
llama4 भले कमजोर रहा हो, लेकिन अगर वही रणनीति जारी रहती तो शायद Meta आज से बहुत आगे होता। दूसरी कंपनियाँ पहले ही ecosystem बना चुकी हैं, लेकिन Meta के पास वह नहीं है।
अगर उसे फिर से बातचीत के केंद्र में लौटना है, तो OpenCode जैसे प्रोजेक्ट्स में 1 अरब डॉलर जैसा निवेश करके open ecosystem को फिर से जीवित करना होगा। नहीं तो यह सिर्फ़ closed internal model बनकर रह जाएगा
- ज़रूरी नहीं कि कोई नया open harness चाहिए ही हो। Anthropic यह पहले से community को मुफ़्त में दे चुका है
पहली बार drawing-based visual reasoning test किया, और ChatGPT, Claude, Gemini, Grok में से सिर्फ़ Gemini ही सफल हुआ था। लेकिन Muse Spark ने इसे पूरी तरह सही किया। इसने PDF से संबंधित पेज निकाले, inline दिखाए, और बिल्कुल सही जवाब दिया
हो सकता है अभी यह सिर्फ़ किस्मत रही हो, लेकिन पहली छाप इतनी अच्छी रही कि मैं आगे भी टेस्ट करता रहूँगा। हालाँकि Meta की data usage policy बहुत आक्रामक है, इसलिए संवेदनशील सामग्री के लिए यह उपयुक्त नहीं है।
अच्छा होगा अगर paid plan में data training opt-out विकल्प मिले। मुफ़्त सेवा के बदले data से कमाई वाला ढाँचा असहज करता है
यह मॉडल GPT 5.4 / Gemini 3.1 Pro / Opus 4.6 के क़रीब पहुँचता है। coding में OpenAI, text reasoning में Google, और Humanity’s Last Exam में Anthropic आगे है। फिर भी कहा जा सकता है कि Meta फिर से frontier lab की श्रेणी में लौट आया है।
अभी स्थिति 3.5-horse race जैसी है, और अगला मॉडल देखने लायक होगा। competition बढ़ना अच्छी बात है। शायद Grok 4.2 को अब तालिका से बाहर कर देना चाहिए
- मैंने कुछ समय Grok Code को मुख्य तौर पर इस्तेमाल किया, और यह काफ़ी बढ़िया था। LLM का मूल्य आख़िरकार usage context और domain पर निर्भर करता है। खासकर health से जुड़े सवालों में दूसरे मॉडल जवाब देने से बचते हैं, इसलिए मैं Grok का उपयोग जारी रखता हूँ
- लेकिन Meta का यह तरीका अभी reasoning power और long-term problem solving में कमज़ोर लगता है। Anthropic के Mythos की तुलना में इसका HLE score कम है। फिर भी कुल मिलाकर यह सकारात्मक प्रगति है
“Personal” का मतलब आख़िर में यही है कि Meta व्यक्तिगत डेटा का उपयोग विज्ञापनों के लिए करेगा
- और ऐसा करते हुए मानो वह उपयोगकर्ता की मानसिक सार-सत्ता तक को मॉडल में समाहित कर रहा हो
- अगर मैं सिर्फ़ एक ad target हूँ, तो फिर मुझे चाहे जितने ads भेजो, मुझे फ़र्क नहीं पड़ता
“visual chain of thought” शब्द रोचक है। समझ नहीं आता इसका मतलब यह है कि user reasoning process को दृश्य रूप में देख सकता है, या फिर यह कि मॉडल images के आधार पर सोचता है। अगर दूसरा मतलब है, तो यह सचमुच क्रांतिकारी होगा
- लेकिन अब तक जो ज़्यादातर chain of thought मैंने देखे हैं, वे ऊपर से विश्वसनीय दिखने वाली fake reasoning जैसे लगे। असल में अंदर कुछ और तरीके से प्रोसेसिंग हो रही होती है
- दरअसल ऐसे visual intermediate steps Gemini में भी पहले से दिखते हैं। visual tasks के दौरान यह intermediate diagrams भी बनाता है, और 2024 के research में turtle diagram जैसे approaches भी प्रस्तावित किए गए थे

Muse Spark: व्यक्तिगत superintelligence की ओर बढ़ता Meta का multimodal reasoning model

Muse Spark का अवलोकन

personal superintelligence के लिए features

प्रमुख application areas

scaling axes

pretraining

reinforcement learning

test-time reasoning

safety evaluation

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय