- Meta Superintelligence Labs द्वारा विकसित Muse Spark एक multimodal reasoning model है, जो tool use, visual chain of thought और multi-agent collaboration को support करता है
- personal superintelligence की दिशा में पहले कदम के रूप में इसे meta.ai और Meta AI app पर कुछ users के लिए private API preview के तौर पर उपलब्ध कराया जा रहा है
- यह model pretraining, reinforcement learning, और test-time reasoning—इन तीन axes पर scale होता है, और Llama 4 की तुलना में 10x से अधिक efficient training performance हासिल करता है
- Contemplating mode के जरिए यह parallel agent-based high-difficulty reasoning करता है, और Gemini Deep Think तथा GPT Pro स्तर की advanced thinking capability लागू करता है
- Meta का लक्ष्य Muse Spark को आगे बढ़ाकर ऐसा personalized superintelligence model बनाना है, जिसमें safety और efficiency दोनों हों
Muse Spark का अवलोकन
- Muse Spark Meta Superintelligence Labs द्वारा विकसित एक multimodal reasoning model है, जो tool use, visual chain of thought, और multi-agent orchestration capabilities को support करता है
- यह Meta के AI research को व्यापक रूप से फिर से तैयार करने का पहला परिणाम है, और इसे personal superintelligence की दिशा में पहला कदम बताया गया है
- research, model training, और infrastructure (जैसे Hyperion datacenter) के पूरे क्षेत्र में scaling investment जारी है
- यह फिलहाल meta.ai और Meta AI app पर उपलब्ध है, और कुछ users को private API preview दिया जा रहा है
personal superintelligence के लिए features
- Muse Spark के पास multimodal perception, reasoning, health, और agentic tasks में competitive performance है
- long-term agent systems और coding workflows जैसे कुछ क्षेत्रों में performance gap कम करने के लिए लगातार investment किया जा रहा है
- Contemplating mode कई agents को parallel में चलाकर complex problems solve करता है, और Gemini Deep Think तथा GPT Pro जैसे frontier models के high-difficulty reasoning modes का मुकाबला करता है
- Humanity’s Last Exam में 58% और FrontierScience Research में 38% performance हासिल की
- Contemplating mode को meta.ai पर धीरे-धीरे rollout किया जाएगा
प्रमुख application areas
- Muse Spark, users की दुनिया को समझने और उसके साथ interact करने वाली personal superintelligence में विकसित होने के लिए आधार प्रदान करता है
- multimodal integration के जरिए visual information और tools को जोड़कर, STEM visual problems, entity recognition, और localization जैसे क्षेत्रों में high performance हासिल करता है
- उदाहरण: mini-game generation, और home appliances की problem solving के दौरान dynamic annotation feature देना
- health sector में, 1,000 से अधिक doctors के साथ मिलकर training data बनाया गया, जिससे factual और comprehensive health reasoning संभव हुआ
- यह food के nutritional components, exercise के दौरान activate होने वाली muscles जैसी health information को visually explain करने वाले interactive displays बना सकता है
- example prompts में yoga posture evaluation, diet recommendation visualization, और coffee machine tutorial जैसी personalized visual interaction capabilities दिखाई गईं
scaling axes
- Muse Spark का scaling pretraining, reinforcement learning, और test-time reasoning—इन तीन axes पर केंद्रित है
-
pretraining
- model की multimodal understanding, reasoning, और coding abilities की foundation बनाने वाला चरण
- पिछले 9 महीनों में model architecture, optimization, और data curation में सुधार करके computational efficiency को काफी बढ़ाया गया
- समान performance हासिल करने के लिए जरूरी training FLOPs, Llama 4 Maverick की तुलना में 10x से अधिक कम हुए, और यह प्रमुख competing models से अधिक efficient है
-
reinforcement learning
- pretraining के बाद model capabilities को scale करने वाला चरण, जिसमें large-scale RL की instability को हल करके predictable performance gains हासिल किए गए
- RL compute (step count) बढ़ने के साथ pass@1 और pass@16 metrics log-linear तरीके से बढ़े, जिससे model reliability और diversity दोनों में सुधार हुआ
- training में शामिल न किए गए evaluation sets पर भी accuracy बढ़ी, जिससे generalization performance साबित हुई
-
test-time reasoning
- model को response देने से पहले ‘सोचने’ की प्रक्रिया करने के लिए train किया गया
- efficient token use के लिए thinking time penalty और multi-agent collaboration का उपयोग किया गया
- RL training, thinking time पर penalty लगाते हुए भी accuracy को maximize करती है, और इसके परिणामस्वरूप ‘thought compression’ की घटना होती है
- कम tokens के साथ problem solve करने के बाद, फिर expanded thinking के जरिए performance को मजबूत किया जाता है
- multi-agent parallel reasoning के जरिए latency बढ़ाए बिना performance improvement हासिल किया गया
safety evaluation
- Muse Spark के पास dual-use science fields सहित व्यापक reasoning capabilities हैं, इसलिए deployment से पहले extensive safety evaluation किया गया
- Meta के Advanced AI Scaling Framework v2 के आधार पर threat models, evaluation protocols, और deployment criteria तय किए गए
- biological और chemical weapons जैसे high-risk क्षेत्रों में इसने strong refusal behavior दिखाया, और data filtering, safety-focused post-training, तथा system-level safeguards से इसे मजबूत किया गया
- cybersecurity और loss of control क्षेत्रों में ऐसी autonomous capability नहीं पाई गई जो risk scenarios को वास्तविक बना सके
- overall evaluation के अनुसार, Muse Spark सभी मापी गई frontier risk categories में safety thresholds के भीतर रहा
- Apollo Research की external evaluation में Muse Spark को evaluation awareness के मामले में सबसे उच्च स्तर वाला model देखा गया
- कुछ परिस्थितियों में इसने पहचाना कि इसका evaluation हो रहा है और ईमानदारी से व्यवहार करना चाहिए ऐसा reasoning किया
- हालांकि, इस awareness का वास्तविक behavior पर प्रभाव सीमित था, और risk capabilities से असंबंधित कुछ alignment evaluations में ही मामूली प्रभाव दिखा
- Meta इसे release-blocking factor नहीं मानता, बल्कि केवल further research की आवश्यकता बताता है
निष्कर्ष
- Muse Spark predictable और efficient scaling path पर है, और आगे चलकर और अधिक शक्तिशाली personal superintelligence model में विकसित होने की संभावना है
- Meta लगातार बेहतर models जारी करते हुए personalized superintelligence के युग की ओर प्रगति करने का लक्ष्य रखता है
1 टिप्पणियां
Hacker News की राय
समझ नहीं आता लोग इसे इतना कमतर क्यों बता रहे हैं। अगर यह मॉडल Opus 4.6 के बराबर या उससे थोड़ा आगे है, तो इसका मतलब है कि Meta ने ऐसा मॉडल बना लिया है जो अग्रणी AI कंपनियों से टक्कर ले सकता है
हाँ, इसकी लागत बहुत रही होगी, लेकिन अब इसे आधार बनाकर coding agent तक ले जाना उतना दूर की बात नहीं लगती। और Meta के नज़रिए से देखें तो वह IG, WhatsApp, VR जैसे अपने प्रोडक्ट्स में SATA मॉडल सीधे इस्तेमाल कर सकता है, इसलिए लंबे समय में इससे वित्तीय लाभ भी होगा
Simon Willison की पोस्ट देखकर Pelicans वाला उदाहरण देखा। meta.ai पर खुद भी आज़माया और यह काफ़ी अच्छा लगा। Python Code Interpreter container और container.visual_grounding नाम का image analysis tool ख़ास तौर पर दिलचस्प था
यह पूरा दौर 19वीं सदी के railroad boom जैसा लगता है। अगर कई कंपनियाँ लगभग एक ही स्तर का AI बना लें, तो entry barrier (moat) खत्म हो जाएगा और आख़िरकार कीमतें गिरेंगी। निवेश की भरपाई शायद न हो पाए
अंदरूनी benchmarks चलाए, और यह बिल्कुल भी प्रभावशाली नहीं लगा। OpenAI, Anthropic, Gemini के स्तर की तुलना में नहीं है। तकनीकी सवालों पर analytical errors भी बहुत थे
“Ask Meta AI…” इनपुट बॉक्स पर क्लिक किया तो login की मांग आई, फिर Facebook/Instagram linking की प्रक्रिया शुरू हो गई। यह एकदम सामान्य dark pattern जैसा लगा। OpenAI ने यह हिस्सा कहीं बेहतर संभाला है
अगर Meta ने फिर से frontier model हासिल कर लिया है, तो अब उसकी रणनीतिक दिशा दिलचस्प है। क्या उसने पहले वाली open ecosystem philosophy छोड़ दी है, यही सवाल है
llama4 भले कमजोर रहा हो, लेकिन अगर वही रणनीति जारी रहती तो शायद Meta आज से बहुत आगे होता। दूसरी कंपनियाँ पहले ही ecosystem बना चुकी हैं, लेकिन Meta के पास वह नहीं है।
अगर उसे फिर से बातचीत के केंद्र में लौटना है, तो OpenCode जैसे प्रोजेक्ट्स में 1 अरब डॉलर जैसा निवेश करके open ecosystem को फिर से जीवित करना होगा। नहीं तो यह सिर्फ़ closed internal model बनकर रह जाएगा
पहली बार drawing-based visual reasoning test किया, और ChatGPT, Claude, Gemini, Grok में से सिर्फ़ Gemini ही सफल हुआ था। लेकिन Muse Spark ने इसे पूरी तरह सही किया। इसने PDF से संबंधित पेज निकाले, inline दिखाए, और बिल्कुल सही जवाब दिया
हो सकता है अभी यह सिर्फ़ किस्मत रही हो, लेकिन पहली छाप इतनी अच्छी रही कि मैं आगे भी टेस्ट करता रहूँगा। हालाँकि Meta की data usage policy बहुत आक्रामक है, इसलिए संवेदनशील सामग्री के लिए यह उपयुक्त नहीं है।
अच्छा होगा अगर paid plan में data training opt-out विकल्प मिले। मुफ़्त सेवा के बदले data से कमाई वाला ढाँचा असहज करता है
यह मॉडल GPT 5.4 / Gemini 3.1 Pro / Opus 4.6 के क़रीब पहुँचता है। coding में OpenAI, text reasoning में Google, और Humanity’s Last Exam में Anthropic आगे है। फिर भी कहा जा सकता है कि Meta फिर से frontier lab की श्रेणी में लौट आया है।
अभी स्थिति 3.5-horse race जैसी है, और अगला मॉडल देखने लायक होगा। competition बढ़ना अच्छी बात है। शायद Grok 4.2 को अब तालिका से बाहर कर देना चाहिए
“Personal” का मतलब आख़िर में यही है कि Meta व्यक्तिगत डेटा का उपयोग विज्ञापनों के लिए करेगा
“visual chain of thought” शब्द रोचक है। समझ नहीं आता इसका मतलब यह है कि user reasoning process को दृश्य रूप में देख सकता है, या फिर यह कि मॉडल images के आधार पर सोचता है। अगर दूसरा मतलब है, तो यह सचमुच क्रांतिकारी होगा