1 पॉइंट द्वारा GN⁺ 2025-05-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • MiMo-7B language model की reasoning क्षमता को अधिकतम करने के लिए विकसित की गई मॉडल सीरीज़ है
  • प्री-ट्रेनिंग और पोस्ट-ट्रेनिंग रणनीतियों के जरिए यह गणित और कोड reasoning कार्यों में उत्कृष्ट प्रदर्शन करती है
  • MiMo-7B छोटा मॉडल होने के बावजूद बड़े मॉडलों के तुलनीय प्रदर्शन दिखाता है
  • यह open source के रूप में उपलब्ध है, इसलिए कम्युनिटी इसमें योगदान दे सकती है
  • RL infrastructure के जरिए ट्रेनिंग और वेलिडेशन की गति में बड़ा सुधार किया गया है

I. परिचय

  • अधिकतर सफल reinforcement learning (RL) शोध बड़े मॉडलों पर निर्भर करते हैं, और छोटे मॉडलों में गणित तथा कोड क्षमता को एक साथ बेहतर बनाना कठिन है
  • MiMo-7B reasoning tasks के लिए शुरू से ट्रेन किया गया मॉडल है, जिसमें बड़े मॉडलों को पीछे छोड़ सकने वाली reasoning क्षमता मौजूद है
  • MiMo-7B सीरीज़ open source के रूप में उपलब्ध है और कम्युनिटी को मजबूत reasoning language models विकसित करने में योगदान देने का अवसर देती है

🌟 मुख्य बातें

  • प्री-ट्रेनिंग: reasoning के लिए बेस मॉडल

    • डेटा प्रीप्रोसेसिंग पाइपलाइन को ऑप्टिमाइज़ करके reasoning pattern density बढ़ाई गई
    • विविध synthetic reasoning data तैयार करने के लिए कई रणनीतियों का उपयोग किया गया
    • multi-token prediction को अतिरिक्त ट्रेनिंग objective के रूप में शामिल कर मॉडल प्रदर्शन बेहतर किया गया
  • पोस्ट-ट्रेनिंग recipe: अग्रणी reasoning मॉडल

    • 130K गणित और कोड समस्याओं को RL ट्रेनिंग डेटा के रूप में इस्तेमाल किया गया
    • test difficulty-based code reward पेश किया गया ताकि policy optimization अधिक प्रभावी ढंग से हो सके
    • आसान समस्याओं के लिए data resampling strategy लागू की गई ताकि policy updates स्थिर रहें
  • RL infrastructure

    • RL ट्रेनिंग और वेलिडेशन को तेज करने के लिए Seamless Rollout Engine विकसित किया गया
    • vLLM में MTP सपोर्ट जोड़ा गया और RL सिस्टम के inference engine की मजबूती बढ़ाई गई

II. मॉडल विवरण

  • MiMo-7B सीरीज़ कई model checkpoints उपलब्ध कराती है, जिन्हें HuggingFace से डाउनलोड किया जा सकता है

III. मूल्यांकन परिणाम

  • MiMo-7B-RL ने गणित और कोड reasoning कार्यों में उत्कृष्ट प्रदर्शन दिखाया
  • इसने विभिन्न benchmarks में प्रतिस्पर्धी परिणाम हासिल किए

IV. परिनियोजन

  • vLLM और HuggingFace के जरिए inference support
  • सुझाए गए environment और prompt उपयोग से सर्वोत्तम प्रदर्शन पाया जा सकता है

V. उद्धरण

  • MiMo-7B के लिए citation जानकारी उपलब्ध कराई गई है

VI. संपर्क

  • पूछताछ के लिए mimo@xiaomi.com पर संपर्क किया जा सकता है या GitHub issue के जरिए प्रश्न भेजे जा सकते हैं

1 टिप्पणियां

 
GN⁺ 2025-05-01
Hacker News राय
  • पेपर में code data के लिए reinforcement learning (RL) चरण को संभालने का तरीका दिलचस्प लगा। उन्होंने unit tests चलाकर हल किए जा सकने वाले code generation tasks पर training की। जिज्ञासा है कि क्या दूसरे models भी यह training चरण करते हैं

    • code data: coding problems के लिए open source datasets और नए इकट्ठा किए गए problem sets को शामिल करते हुए एक high-quality training set क्यूरेट किया गया। जिन समस्याओं में test cases नहीं थे, उन्हें हटा दिया गया। जिन समस्याओं में golden solution था, उनमें जो सभी test cases pass नहीं कर पाए, उन्हें बाहर कर दिया गया। जिन समस्याओं में golden solution नहीं था, उन्हें तब हटाया गया जब advanced reasoning model के 16 rollouts में वे हल नहीं हो सके। math data की तरह, MiMo-7B के SFT version का उपयोग करके उन आसान समस्याओं को फ़िल्टर किया गया जो सभी 16 rollouts में पूरी तरह हल हो गई थीं। इस सख्त सफाई प्रक्रिया से 30,000 code problems तैयार हुए
    • हर RL iteration के दौरान reward की गणना के लिए हज़ारों समस्याओं का मूल्यांकन किया गया। हर समस्या में सैकड़ों test cases हो सकते हैं। reward calculation की efficiency बढ़ाने और GPU idle time हटाने के लिए, एक online judge environment विकसित किया गया जो बहुत अधिक मात्रा में unit tests को parallel में चला सकता है
  • जिज्ञासा है कि चीन में इतने सारे English-first AI models क्यों हैं। क्या उन्हें अपनी घरेलू आबादी में दिलचस्पी नहीं है, या वे सोचते हैं कि अगर वे Chinese-first model जारी करेंगे तो पश्चिम में ध्यान नहीं मिलेगा

  • 7B model की coding performance बहुत मजबूत है। मैं Gemini Pro 2.5 इस्तेमाल कर रहा हूँ और उसे 67.8 अंक मिले, जबकि इस model ने 57.8 अंक हासिल किए, जो Gemini 2.5 Flash के 60.6 के बहुत करीब है

    • llama4 के बारे में जो सुना है उसकी वजह से मैं evaluations को लेकर skeptical हो गया हूँ, लेकिन closed evaluations में यह कहाँ ठहरता है, यह देखूँगा। फिर भी, बहुत प्रभावशाली है
  • MiMo-7B, Qwen-32B जैसे बड़े models को पीछे छोड़ता है और math/code benchmarks पर OpenAI o1-mini के बराबर performance का दावा करता है। जिज्ञासा है कि क्या यह इस बात का संकेत है कि pretraining + RLHF optimization अब scale पर भारी पड़ने लगा है, या फिर हम narrow capabilities को benchmark करने में बस अधिक कुशल हो गए हैं

  • O3 जैसे top-performing model को छोड़ देने वाले benchmarks देखना मज़ेदार है। इस समय कई benchmarks में वही सबसे अच्छा model है। Gemini Pro/Claude 3.7 भी हैं

  • जिज्ञासा है कि जब ollama में gguf files इस्तेमाल करते हैं, तो क्या लोग आम तौर पर नए model के साथ उपयोग के लिए modelfile बनाते हैं, या बस उम्मीद करते हैं कि default ollama नए model के साथ काम कर जाएगा

  • README में सिर्फ़ "RL" लिखा है और यह स्पष्ट नहीं किया गया कि किस तरह का RL इस्तेमाल हुआ। researchers से: समझता हूँ कि आप व्यस्त हैं, लेकिन कृपया ऐसी details छोड़िए मत

  • थोड़ा परीक्षण किया, और कुल मिलाकर यह काफ़ी robust लगा। लंबे सोचने के समय की वजह से इंतज़ार भी काफ़ी लंबा करना पड़ता है, लेकिन हाल के qwen moe जैसे बड़े models की तुलना में भी यह और अधिक समय लेता है

    • moe कुल मिलाकर बेहतर tradeoff लगता है
  • जिज्ञासा है कि क्या वे इस model को Xiaomi 15 series phones के AI assistant के रूप में इस्तेमाल करेंगे। शायद करेंगे। क्या उम्मीद करनी चाहिए, इसे लेकर निश्चित नहीं हूँ

  • वाह। शानदार benchmarks हैं। इस model से बात करने का इंतज़ार है

    • कुछ बातें खास तौर पर ध्यान खींचती हैं। पहली, 7B model को 25T tokens पर train किया गया है(!)। यह Meta-scale training है। Llama 4 Maverick को लगभग 22T पर train किया गया था। (Scout, छोटा model: 40T)
    • दूसरी, यह एक दिलचस्प रास्ता है जहाँ दूसरे models से reasoning पाने के लिए distilled model या RL layer की बजाय, शुरुआत से ही reasoning built-in वाला RL model बनाया गया है। दावा है कि इस तरीके से per-parameter काफ़ी अतिरिक्त efficiency मिल सकती है
    • Xiaomi models के साथ मेरा अनुभव नहीं है, इसलिए मैं इस model को लेकर सावधान हूँ, लेकिन आँकड़ों के हिसाब से यह बहुत आशाजनक local reasoning model लगता है