7 पॉइंट द्वारा xguru 23 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • टेक्स्ट, इमेज, वीडियो और ऑडियो को एकल आर्किटेक्चर में एकीकृत रूप से प्रोसेस करने वाला native omni-modal मॉडल, जो agent कार्यों के लिए विशेषीकृत है
  • MIT लाइसेंस के तहत commercial distribution और fine-tuning दोनों संभव - अलग अनुमति की आवश्यकता नहीं
  • Sparse MoE संरचना के साथ कुल 310B parameters में से केवल 15B सक्रिय होते हैं, जिससे efficient inference संभव है (Pro version 1.02T/42B है)
  • Hybrid Attention(SWA + GA 5:1 अनुपात, window 128) के साथ KV-cache स्टोरेज को लगभग 6 गुना कम करते हुए अधिकतम 1M token context सपोर्ट
  • समर्पित vision encoder (729M parameter ViT, hybrid window attention) और audio encoder (261M parameter, MiMo-Audio-Tokenizer आधारित) शामिल
  • Multi-Token Prediction(MTP) मॉड्यूल की 3 layers के जरिए speculative decoding आधारित inference acceleration और RL training efficiency में सुधार
  • कुल लगभग 48T token पर FP8 mixed precision training की गई, और post-processing चरण में SFT, बड़े पैमाने का agent RL, Multi-Teacher On-Policy Distillation(MOPD) लागू कर agent और multimodal benchmark प्रदर्शन को मजबूत किया गया
    • 5-स्टेज pipeline (text pretraining → projector warm-up → multimodal pretraining → SFT/agent post-processing → RL/MOPD)
  • SGLang(FP8 quantization, dp/tp parallel) और vLLM official deployment सपोर्ट
  • Base(256K) और Full(1M) दो versions उपलब्ध

1 टिप्पणियां

 

VentureBeat ने इसका टेस्ट किया था, और कहा जा रहा है कि यह OpenClaw के लिए काफ़ी उपयुक्त है
https://venturebeat.com/ai/…

  • ClawEval बेंचमार्क में Pro मॉडल ने open source क्षेत्र में अग्रणी 63.8% success rate दर्ज किया
  • Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro, OpenAI GPT-5.4 की तुलना में 40~60% कम tokens में समान परिणाम हासिल किए
  • MiMo-V2.5("Omni") एक native multimodal specialized model है, जो vision, audio और text को एकीकृत रूप से प्रोसेस करता है
  • MiMo-V2.5-Pro("Agent") "long-horizon coherence" और complex software engineering में विशेषज्ञता रखता है
  • Pro मॉडल ने GDPVal-AA(Elo) बेंचमार्क में 1581 points दर्ज किए, जो Kimi K2.6 और GLM 5.1 से ऊपर हैं
  • कई "open" models में सीमित "Acceptable Use" policy शामिल होती है, लेकिन MiMo-V2.5 को MIT license के तहत जारी किया गया है
    • कोई approval आवश्यक नहीं: Xiaomi की स्पष्ट अनुमति के बिना commercial deployment संभव
    • continuous training की स्वतंत्रता: अपने डेटा से fine-tuning करने के बाद derived weights सार्वजनिक किए जा सकते हैं
    • असीमित commercial use: community license में आम revenue cap या user count limits नहीं हैं
  • प्रोजेक्ट लीडर Fuli Luo(पूर्व DeepSeek मुख्य सदस्य)

    "मॉडल का मूल्य उसकी रैंकिंग से नहीं, बल्कि उन समस्याओं से मापा जाता है जिन्हें वह हल करता है"