Xiaomi MiMo रीजनिंग मॉडल
(github.com/XiaomiMiMo)- MiMo-7B language model की reasoning क्षमता को अधिकतम करने के लिए विकसित की गई मॉडल सीरीज़ है
- प्री-ट्रेनिंग और पोस्ट-ट्रेनिंग रणनीतियों के जरिए यह गणित और कोड reasoning कार्यों में उत्कृष्ट प्रदर्शन करती है
- MiMo-7B छोटा मॉडल होने के बावजूद बड़े मॉडलों के तुलनीय प्रदर्शन दिखाता है
- यह open source के रूप में उपलब्ध है, इसलिए कम्युनिटी इसमें योगदान दे सकती है
- RL infrastructure के जरिए ट्रेनिंग और वेलिडेशन की गति में बड़ा सुधार किया गया है
I. परिचय
- अधिकतर सफल reinforcement learning (RL) शोध बड़े मॉडलों पर निर्भर करते हैं, और छोटे मॉडलों में गणित तथा कोड क्षमता को एक साथ बेहतर बनाना कठिन है
- MiMo-7B reasoning tasks के लिए शुरू से ट्रेन किया गया मॉडल है, जिसमें बड़े मॉडलों को पीछे छोड़ सकने वाली reasoning क्षमता मौजूद है
- MiMo-7B सीरीज़ open source के रूप में उपलब्ध है और कम्युनिटी को मजबूत reasoning language models विकसित करने में योगदान देने का अवसर देती है
🌟 मुख्य बातें
-
प्री-ट्रेनिंग: reasoning के लिए बेस मॉडल
- डेटा प्रीप्रोसेसिंग पाइपलाइन को ऑप्टिमाइज़ करके reasoning pattern density बढ़ाई गई
- विविध synthetic reasoning data तैयार करने के लिए कई रणनीतियों का उपयोग किया गया
- multi-token prediction को अतिरिक्त ट्रेनिंग objective के रूप में शामिल कर मॉडल प्रदर्शन बेहतर किया गया
-
पोस्ट-ट्रेनिंग recipe: अग्रणी reasoning मॉडल
- 130K गणित और कोड समस्याओं को RL ट्रेनिंग डेटा के रूप में इस्तेमाल किया गया
- test difficulty-based code reward पेश किया गया ताकि policy optimization अधिक प्रभावी ढंग से हो सके
- आसान समस्याओं के लिए data resampling strategy लागू की गई ताकि policy updates स्थिर रहें
-
RL infrastructure
- RL ट्रेनिंग और वेलिडेशन को तेज करने के लिए Seamless Rollout Engine विकसित किया गया
- vLLM में MTP सपोर्ट जोड़ा गया और RL सिस्टम के inference engine की मजबूती बढ़ाई गई
II. मॉडल विवरण
- MiMo-7B सीरीज़ कई model checkpoints उपलब्ध कराती है, जिन्हें HuggingFace से डाउनलोड किया जा सकता है
III. मूल्यांकन परिणाम
- MiMo-7B-RL ने गणित और कोड reasoning कार्यों में उत्कृष्ट प्रदर्शन दिखाया
- इसने विभिन्न benchmarks में प्रतिस्पर्धी परिणाम हासिल किए
IV. परिनियोजन
- vLLM और HuggingFace के जरिए inference support
- सुझाए गए environment और prompt उपयोग से सर्वोत्तम प्रदर्शन पाया जा सकता है
V. उद्धरण
- MiMo-7B के लिए citation जानकारी उपलब्ध कराई गई है
VI. संपर्क
- पूछताछ के लिए mimo@xiaomi.com पर संपर्क किया जा सकता है या GitHub issue के जरिए प्रश्न भेजे जा सकते हैं
1 टिप्पणियां
Hacker News राय
पेपर में code data के लिए reinforcement learning (RL) चरण को संभालने का तरीका दिलचस्प लगा। उन्होंने unit tests चलाकर हल किए जा सकने वाले code generation tasks पर training की। जिज्ञासा है कि क्या दूसरे models भी यह training चरण करते हैं
जिज्ञासा है कि चीन में इतने सारे English-first AI models क्यों हैं। क्या उन्हें अपनी घरेलू आबादी में दिलचस्पी नहीं है, या वे सोचते हैं कि अगर वे Chinese-first model जारी करेंगे तो पश्चिम में ध्यान नहीं मिलेगा
7B model की coding performance बहुत मजबूत है। मैं Gemini Pro 2.5 इस्तेमाल कर रहा हूँ और उसे 67.8 अंक मिले, जबकि इस model ने 57.8 अंक हासिल किए, जो Gemini 2.5 Flash के 60.6 के बहुत करीब है
MiMo-7B, Qwen-32B जैसे बड़े models को पीछे छोड़ता है और math/code benchmarks पर OpenAI o1-mini के बराबर performance का दावा करता है। जिज्ञासा है कि क्या यह इस बात का संकेत है कि pretraining + RLHF optimization अब scale पर भारी पड़ने लगा है, या फिर हम narrow capabilities को benchmark करने में बस अधिक कुशल हो गए हैं
O3 जैसे top-performing model को छोड़ देने वाले benchmarks देखना मज़ेदार है। इस समय कई benchmarks में वही सबसे अच्छा model है। Gemini Pro/Claude 3.7 भी हैं
जिज्ञासा है कि जब ollama में gguf files इस्तेमाल करते हैं, तो क्या लोग आम तौर पर नए model के साथ उपयोग के लिए modelfile बनाते हैं, या बस उम्मीद करते हैं कि default ollama नए model के साथ काम कर जाएगा
README में सिर्फ़ "RL" लिखा है और यह स्पष्ट नहीं किया गया कि किस तरह का RL इस्तेमाल हुआ। researchers से: समझता हूँ कि आप व्यस्त हैं, लेकिन कृपया ऐसी details छोड़िए मत
थोड़ा परीक्षण किया, और कुल मिलाकर यह काफ़ी robust लगा। लंबे सोचने के समय की वजह से इंतज़ार भी काफ़ी लंबा करना पड़ता है, लेकिन हाल के qwen moe जैसे बड़े models की तुलना में भी यह और अधिक समय लेता है
जिज्ञासा है कि क्या वे इस model को Xiaomi 15 series phones के AI assistant के रूप में इस्तेमाल करेंगे। शायद करेंगे। क्या उम्मीद करनी चाहिए, इसे लेकर निश्चित नहीं हूँ
वाह। शानदार benchmarks हैं। इस model से बात करने का इंतज़ार है