- टेक्स्ट, इमेज, वीडियो और ऑडियो को एकल आर्किटेक्चर में एकीकृत रूप से प्रोसेस करने वाला native omni-modal मॉडल, जो agent कार्यों के लिए विशेषीकृत है
- MIT लाइसेंस के तहत commercial distribution और fine-tuning दोनों संभव - अलग अनुमति की आवश्यकता नहीं
- Sparse MoE संरचना के साथ कुल 310B parameters में से केवल 15B सक्रिय होते हैं, जिससे efficient inference संभव है (Pro version 1.02T/42B है)
- Hybrid Attention(SWA + GA 5:1 अनुपात, window 128) के साथ KV-cache स्टोरेज को लगभग 6 गुना कम करते हुए अधिकतम 1M token context सपोर्ट
- समर्पित vision encoder (729M parameter ViT, hybrid window attention) और audio encoder (261M parameter, MiMo-Audio-Tokenizer आधारित) शामिल
- Multi-Token Prediction(MTP) मॉड्यूल की 3 layers के जरिए speculative decoding आधारित inference acceleration और RL training efficiency में सुधार
- कुल लगभग 48T token पर FP8 mixed precision training की गई, और post-processing चरण में SFT, बड़े पैमाने का agent RL, Multi-Teacher On-Policy Distillation(MOPD) लागू कर agent और multimodal benchmark प्रदर्शन को मजबूत किया गया
- 5-स्टेज pipeline (text pretraining → projector warm-up → multimodal pretraining → SFT/agent post-processing → RL/MOPD)
- SGLang(FP8 quantization, dp/tp parallel) और vLLM official deployment सपोर्ट
- Base(256K) और Full(1M) दो versions उपलब्ध
1 टिप्पणियां
VentureBeat ने इसका टेस्ट किया था, और कहा जा रहा है कि यह OpenClaw के लिए काफ़ी उपयुक्त है
https://venturebeat.com/ai/…