MiMo-V2.5 — Xiaomi का ओपन सोर्स omni-model AI मॉडल

(huggingface.co)

7 पॉइंट द्वारा xguru 23 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

टेक्स्ट, इमेज, वीडियो और ऑडियो को एकल आर्किटेक्चर में एकीकृत रूप से प्रोसेस करने वाला native omni-modal मॉडल, जो agent कार्यों के लिए विशेषीकृत है
MIT लाइसेंस के तहत commercial distribution और fine-tuning दोनों संभव - अलग अनुमति की आवश्यकता नहीं
Sparse MoE संरचना के साथ कुल 310B parameters में से केवल 15B सक्रिय होते हैं, जिससे efficient inference संभव है (Pro version 1.02T/42B है)
Hybrid Attention(SWA + GA 5:1 अनुपात, window 128) के साथ KV-cache स्टोरेज को लगभग 6 गुना कम करते हुए अधिकतम 1M token context सपोर्ट
समर्पित vision encoder (729M parameter ViT, hybrid window attention) और audio encoder (261M parameter, MiMo-Audio-Tokenizer आधारित) शामिल
Multi-Token Prediction(MTP) मॉड्यूल की 3 layers के जरिए speculative decoding आधारित inference acceleration और RL training efficiency में सुधार
कुल लगभग 48T token पर FP8 mixed precision training की गई, और post-processing चरण में SFT, बड़े पैमाने का agent RL, Multi-Teacher On-Policy Distillation(MOPD) लागू कर agent और multimodal benchmark प्रदर्शन को मजबूत किया गया
- 5-स्टेज pipeline (text pretraining → projector warm-up → multimodal pretraining → SFT/agent post-processing → RL/MOPD)
SGLang(FP8 quantization, dp/tp parallel) और vLLM official deployment सपोर्ट
Base(256K) और Full(1M) दो versions उपलब्ध

1 टिप्पणियां

xguru 23 시간 전

VentureBeat ने इसका टेस्ट किया था, और कहा जा रहा है कि यह OpenClaw के लिए काफ़ी उपयुक्त है
https://venturebeat.com/ai/…

ClawEval बेंचमार्क में Pro मॉडल ने open source क्षेत्र में अग्रणी 63.8% success rate दर्ज किया
Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro, OpenAI GPT-5.4 की तुलना में 40~60% कम tokens में समान परिणाम हासिल किए
MiMo-V2.5("Omni") एक native multimodal specialized model है, जो vision, audio और text को एकीकृत रूप से प्रोसेस करता है
MiMo-V2.5-Pro("Agent") "long-horizon coherence" और complex software engineering में विशेषज्ञता रखता है
Pro मॉडल ने GDPVal-AA(Elo) बेंचमार्क में 1581 points दर्ज किए, जो Kimi K2.6 और GLM 5.1 से ऊपर हैं
कई "open" models में सीमित "Acceptable Use" policy शामिल होती है, लेकिन MiMo-V2.5 को MIT license के तहत जारी किया गया है
- कोई approval आवश्यक नहीं: Xiaomi की स्पष्ट अनुमति के बिना commercial deployment संभव
- continuous training की स्वतंत्रता: अपने डेटा से fine-tuning करने के बाद derived weights सार्वजनिक किए जा सकते हैं
- असीमित commercial use: community license में आम revenue cap या user count limits नहीं हैं
प्रोजेक्ट लीडर Fuli Luo(पूर्व DeepSeek मुख्य सदस्य)

"मॉडल का मूल्य उसकी रैंकिंग से नहीं, बल्कि उन समस्याओं से मापा जाता है जिन्हें वह हल करता है"

MiMo-V2.5 — Xiaomi का ओपन सोर्स omni-model AI मॉडल

संबंधित पढ़ाई

1 टिप्पणियां