MiniMax-M1 ओपन-वेट, बड़े पैमाने का हाइब्रिड अटेंशन reasoning मॉडल

(github.com/MiniMax-AI)

5 पॉइंट द्वारा GN⁺ 2025-06-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

MiniMax-M1 दुनिया का पहला ओपन-वेट बड़े पैमाने का हाइब्रिड अटेंशन-आधारित reasoning मॉडल है
456 अरब parameters के हाइब्रिड MoE स्ट्रक्चर और Lightning Attention mechanism के साथ यह लंबे context को संभालने में उत्कृष्ट है
RL-आधारित training और CISPO algorithm अपनाने से यह विभिन्न समस्याओं को कुशलतापूर्वक हल कर सकता है
बेंचमार्क में मौजूदा DeepSeek-R1, Qwen3-235B आदि की तुलना में जटिल SW engineering, tool use, लंबे input जैसे कार्यों में बेहतर प्रदर्शन दिखाता है
विभिन्न reasoning environment, support tools, API और chatbot उपलब्ध होने के कारण अगली पीढ़ी के language model agents की नींव के रूप में इसका उपयोग मूल्यवान है

MiniMax-M1 ओपन सोर्स प्रोजेक्ट का अवलोकन

MiniMax-M1 दुनिया का पहला ओपन-वेट बड़े पैमाने का हाइब्रिड अटेंशन reasoning मॉडल है, जो मौजूदा commercial और open models की तुलना में मजबूत खूबियाँ और व्यावहारिक उपयोगिता दिखाता है
बड़े पैमाने के hybrid Mixture-of-Experts(MoE) स्ट्रक्चर और Lightning Attention mechanism को जोड़कर इसे लंबे context, जटिल reasoning और software environment समस्याओं के समाधान के लिए optimize किया गया है
यह लंबे context (अधिकतम 10 लाख tokens) को कुशलतापूर्वक support करता है, और test के समय compute (100K के आधार पर DeepSeek-R1 की तुलना में 25% FLOPs) को काफी कम करता है
नवीनतम RL तकनीक, नए CISPO algorithm और hybrid attention design के साथ scalability और reasoning efficiency दोनों को अधिकतम किया गया है

1. मॉडल का अवलोकन

MiniMax-M1 में hybrid Mixture-of-Experts(MoE) architecture और Lightning Attention शामिल है
इसे इसके पूर्ववर्ती MiniMax-Text-01 (456 अरब parameters, प्रति token 45.9 अरब parameters activated) के आधार पर विकसित किया गया है
10 लाख tokens की context length support करता है (DeepSeek R1 से 8 गुना बड़ा context)
Lightning Attention के कारण test compute में बड़ी कमी आती है (DeepSeek R1 की तुलना में 25%)
यह लंबे input और जटिल reasoning की मांग वाले कार्यों के लिए उपयुक्त है
बड़े पैमाने के RL के माध्यम से mathematical reasoning, वास्तविक SW engineering जैसे व्यापक समस्याओं पर training की गई है
MiniMax-M1 का अपना RL scaling framework प्रस्तुत किया गया है
- CISPO तकनीक: मौजूदा RL तरीकों से बेहतर importance sampling weight clipping algorithm अपनाया गया है
- hybrid attention के आधार पर RL efficiency और scalability को मजबूत किया गया है
40K, 80K thinking budget वाले दो मॉडलों को train और release किया गया है
SW engineering, tool use, long-context tasks में मौजूदा DeepSeek-R1 और Qwen3-235B जैसे उच्च-प्रदर्शन open models की तुलना में उत्कृष्ट प्रदर्शन
वास्तविक चुनौतियों के समाधान के लिए अगली पीढ़ी के language model agents के निर्माण की नींव प्रदान करता है

2. मूल्यांकन (Evaluation)

बेंचमार्क परिणामों के मुख्य बिंदु

गणित, कोड, SW engineering, long-context क्षेत्रों में SOTA-स्तर का प्रदर्शन
अन्य open models की तुलना में कुल मिलाकर उच्च score, खासकर software benchmark (SWE-bench) और long-context में अलग प्रतिस्पर्धी बढ़त
उल्लेखनीय उदाहरण
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- LiveCodeBench, FullStackBench जैसे SW development relevant tasks में मजबूत प्रदर्शन
execution environment: temperature 1.0, top_p 0.95 पर मूल्यांकन
SWE-bench, TAU-bench जैसे benchmarks के लिए स्वयं की प्रक्रियाओं और settings (जैसे file-level two-stage localization, embedding का उपयोग नहीं) के आधार पर मूल्यांकन किया गया

3. MiniMax-M1 मॉडल उपयोग गाइड

सर्वोत्तम प्रदर्शन के लिए अनुशंसित settings

3.1. reasoning parameters

Temperature: 1.0
Top_p: 0.95
यह संयोजन text diversity और logical consistency दोनों सुनिश्चित करने वाला environment प्रदान करता है

3.2. system prompt

सामान्य कार्य: "You are a helpful assistant."
web development: UI-एकीकृत code generation जैसे जटिल web page कार्यों के लिए विशेष prompt
mathematical reasoning: चरण-दर-चरण समाधान के बाद अंतिम उत्तर \boxed{} में लिखें

4. deployment guide

HuggingFace से MiniMax-M1-40k, MiniMax-M1-80k मॉडल डाउनलोड किए जा सकते हैं
वास्तविक service में vLLM आधारित deployment की सिफारिश की जाती है
- efficient memory management, बेहतरीन batch processing, performance optimization आदि के कारण बड़े मॉडलों की serving के लिए उपयुक्त
अलग से Transformers-आधारित deployment भी supported है

5. function calling (functional interface)

MiniMax-M1 function calling फीचर support करता है
- बाहरी function की आवश्यकता होने पर parameters को structured format में स्वतः output करता है
- function calling guide उपलब्ध है

6. Chatbot & API

MiniMax Chatbot: online search सहित chat interface उपलब्ध
API: developers के लिए online API और MiniMax MCP Server जैसे developer tools उपलब्ध
- AI-आधारित video, image, voice synthesis, voice cloning आदि शामिल

1 टिप्पणियां

GN⁺ 2025-06-19

Hacker News टिप्पणियाँ

अगर आप सोच रहे हैं कि इसे चलाने के लिए क्या चाहिए, तो 8 H200 141GB चाहिए होंगे, और कीमत लगभग 2.5 लाख डॉलर है
github चर्चा / eBay प्रोडक्ट प्राइस जानकारी
- सोच रहा हूँ क्या इसे Mac Studio 512GB पर चलाया जा सकता है, लगभग 8,500 डॉलर में काम हो जाना चाहिए
- यह पूरी तरह quantized होने की बात है, और अगर Q4 या Q8 पर चलाएँ तो 10,000 डॉलर से कम के हार्डवेयर पर चल सकता है
- इस मॉडल के parameters की संख्या जानना चाहता हूँ
बताया जा रहा है कि यह हफ्ता MiniMax का 'launch week' है
सोमवार को M1, और मंगलवार को Hailuo 2 जारी किया गया
चीनी मॉडल्स से जुड़ी खबरें
अभी यह तय नहीं है कि पूरे हफ्ते ऐसे ऐलान जारी रहेंगे या नहीं, और फिलहाल यह कंपनी मुख्यतः LLM और वीडियो मॉडल्स के लिए जानी जाती है
आधिकारिक घोषणाएँ MiniMax के X (पूर्व Twitter) पर देखी जा सकती हैं
साथ ही, MiniMax M1 की technical report भी उपयोगी है
technical report PDF
यह SOTA open-weight model नहीं है, लेकिन lightning attention और GRPO variation (CISPO) के बारे में बहुत दिलचस्प और बड़े दावे करता है
(मेरा इस कंपनी से कोई संबंध नहीं है, बस जो जानकारी मिली वह साझा कर रहा हूँ)
- अगर सोमवार को M1 और मंगलवार को Hailuo 2 आया, तो Apple chips की तरह M1, M1 Pro, M1 Ultra नाम रखना मजेदार होता
arXiv पेपर में "We publicly release MiniMax-M1 at this https url" यह पंक्ति देखकर, और यह देखकर कि यह सचमुच खाली repo नहीं बल्कि असली code release है, मुझे यह कंपनी पसंद आई
मेरी राय
- LinkedIn के हिसाब से यह Singapore-आधारित कंपनी लगती है, और अच्छे LLM बनाने की entry barrier बहुत बड़ी नहीं दिखती
- open-weight models और Strix Halo / Ryzen AI Max की प्रगति की वजह से मैं आशावादी हूँ कि कुछ सालों में अच्छे LLM लोकल में सस्ते में चल सकेंगे
- आगे चलकर लोकल मॉडल चलाना लगभग अनिवार्य हो जाएगा, ऐसा माहौल बनता दिख रहा है, और इसे लेकर उत्साह भी है और चिंता भी
  अगर इस क्षेत्र पर भरोसेमंद विशेषज्ञ या दिलचस्प चर्चा करने वाले लोग हों तो उनके बारे में जानना चाहूँगा
- LinkedIn पर जो दिखता है उसके उलट, यह वास्तव में Shanghai-आधारित कंपनी है
- मैंने Twitter पोस्ट देखा जिसमें कहा गया कि MiniMax ने लगभग 5 लाख डॉलर के बजट में मॉडल train किया
  
  RL (reinforcement learning) को 534,700 डॉलर में train किया गया
  जानना चाहता हूँ कि यह इतनी कम लागत में कैसे संभव हुआ
- यह कंपनी वास्तव में Shanghai स्थित एक चीनी कंपनी है
  और जल्द ही Hong Kong Stock Exchange (HKEX) में listing की भी योजना है
  संबंधित लेख
आधिकारिक पेज पर साफ़ तौर पर नहीं लिखा है, लेकिन MiniMax एक चीनी कंपनी है
Wikipedia संदर्भ
- बहुत से लोग MiniMax के चीनी कंपनी होने की वजह यह जानते हैं कि उसके वीडियो generator का नाम 'Hailuo' है, जिसमें चीनी पहचान काफी स्पष्ट है, और वह अब तक उसी के लिए प्रसिद्ध रही है
- यह सवाल भी है कि क्या अपनी project page पर खुद को चीनी कंपनी बताने की कोई खास ज़रूरत है
ऐसे मॉडल नाम शायद थोड़ा बेहतर होने चाहिए
यह Mac Studio processor जैसा लगता है
- Minimax algorithm को जानता हूँ
  नाम उसी मशहूर classic AI algorithm से लिया गया है
- आपका Mac 'Apple' ने बनाया है, और वह भी वास्तव में सेब की एक किस्म के नाम से आया है
- इससे मुझे Max नाम के अपने पुराने खोए हुए कुत्ते की याद आती है, और लगता है यह नाम इतना खराब है कि borderline criminal कहा जा सकता है
पेपर में लिखा है, "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
यानी कुल का 87.5% linear attention है, और 12.5% full attention
सच कहूँ तो 'linear attention' शब्द थोड़ा भ्रम पैदा करता है
softmax attention एक information routing तरीका है, और token k की गणना करते समय वह 1~k से जानकारी लेता है, लेकिन उसे निश्चित आकार वाले channels से होकर गुजरना पड़ता है
दूसरी ओर linear attention में हर layer पर बस fixed-size 'register bank' होता है
यह वास्तव में attention कम और layer-at-once computation के अनुकूल होने वाली चीज़ ज़्यादा लगती है, इसके अलावा इसमें खास उल्लेखनीय बात नहीं है
कहा जा रहा है कि MiniMax IPO listing की चर्चा जानबूझकर हवा दे रहा है
संबंधित लेख
अगर इस स्तर की चीज़ को पश्चिमी cloud infrastructure के बिना train किया गया, तो जानना चाहूँगा कि token processing architecture कैसी है
- 512 H800 GPU पर 3 हफ्ते तक training हुई, और लागत लगभग 5 लाख डॉलर रही
  xcancel संदर्भ
- sneakernet (भौतिक रूप से ले जाने वाला तरीका) का इस्तेमाल

MiniMax-M1 ओपन-वेट, बड़े पैमाने का हाइब्रिड अटेंशन reasoning मॉडल

MiniMax-M1 ओपन सोर्स प्रोजेक्ट का अवलोकन

1. मॉडल का अवलोकन

2. मूल्यांकन (Evaluation)

बेंचमार्क परिणामों के मुख्य बिंदु

3. MiniMax-M1 मॉडल उपयोग गाइड

सर्वोत्तम प्रदर्शन के लिए अनुशंसित settings

3.1. reasoning parameters

3.2. system prompt

4. deployment guide

5. function calling (functional interface)

6. Chatbot & API

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ