7 पॉइंट द्वारा GN⁺ 2026-02-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • reinforcement learning आधारित बड़े पैमाने के प्रशिक्षण के ज़रिए वास्तविक वातावरण में जटिल कार्य करने की क्षमता बढ़ाने वाला मॉडल, जिसने coding, search, office work जैसे उच्च आर्थिक मूल्य वाले क्षेत्रों में शीर्ष-स्तरीय प्रदर्शन दर्ज किया
  • SWE-Bench Verified में 80.2%, Multi-SWE-Bench में 51.3%, BrowseComp में 76.3% हासिल किए, और पिछली पीढ़ी की तुलना में 37% तेज़ गति दिखाई
  • प्रति घंटा $1 (100TPS मानक) जैसी कम लागत पर संचालन संभव, और प्रदर्शन Claude Opus 4.6 के समान स्तर का
  • coding, search, office tasks के पूरे दायरे में structured thinking, efficient search, और expert-level document writing क्षमता को मजबूत किया
  • MiniMax के भीतर भी कुल कार्य का 30% स्वतः निष्पादित, code generation का 80% संभालते हुए वास्तविक उत्पादकता वृद्धि साबित की

M2.5 का अवलोकन और प्रमुख प्रदर्शन

  • M2.5 एक ऐसा मॉडल है जिसे सैकड़ों हज़ार जटिल वास्तविक वातावरणों में reinforcement learning से प्रशिक्षित किया गया है, और इसने coding, tool use, search, office work जैसे कार्यों में SOTA स्तर हासिल किया
    • SWE-Bench Verified 80.2%, Multi-SWE-Bench 51.3%, BrowseComp (context management सहित) 76.3% दर्ज किए
  • SWE-Bench Verified मूल्यांकन में M2.1 की तुलना में 37% तेज़ी से कार्य पूरा किया, और Claude Opus 4.6 के समान processing speed हासिल की
  • 100TPS पर प्रति घंटा $1, 50TPS पर $0.3 में संचालन संभव, यानी अत्यधिक cost-efficient मॉडल

Coding प्रदर्शन

  • बहुभाषी coding कार्यों में SOTA स्तर तक पहुँचा, खासकर 10 से अधिक भाषाओं (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby) में उत्कृष्ट प्रदर्शन
  • code लिखने से पहले system design, UI संरचना, feature decomposition करने वाली architect-style thinking structure रखता है
  • 200,000 से अधिक वास्तविक वातावरणों में प्रशिक्षित होने के कारण, सिर्फ bug fixing ही नहीं बल्कि पूरे development lifecycle (design → development → feature iteration → testing) का समर्थन करता है
  • VIBE-Pro benchmark में Opus 4.5 के समान प्रदर्शन, और SWE-Bench Verified में
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Search और tool calling

  • BrowseComp, Wide Search आदि में उद्योग-शीर्ष स्तर का प्रदर्शन हासिल किया
  • RISE(Realistic Interactive Search Evaluation) के माध्यम से वास्तविक विशेषज्ञ-स्तर की search क्षमता सत्यापित की
  • पिछली पीढ़ी की तुलना में 20% कम search rounds में वही परिणाम निकाले, जिससे token efficiency बेहतर हुई
  • जटिल agent कार्यों में सटीक exploration path और efficient reasoning process के ज़रिए परिणाम निकाले

Office कार्य क्षमता

  • finance, legal, social science experts के साथ सहयोग कर data बनाया और feedback को शामिल किया
  • Word, PowerPoint, Excel आदि में professional documents और financial modeling करने की क्षमता को मजबूत किया
  • आंतरिक मूल्यांकन framework GDPval-MM में औसत 59.0% win rate दर्ज की
  • token cost के मुकाबले उत्पादकता वृद्धि को मापकर वास्तविक कार्य दक्षता सत्यापित की

दक्षता और गति

  • 100TPS की मूल processing speed, जो अन्य मॉडलों की तुलना में लगभग 2 गुना तेज़ है
  • SWE-Bench Verified के आधार पर
    • M2.5: औसतन 3.52M tokens, 22.8 मिनट
    • M2.1: 3.72M tokens, 31.3 मिनट
    • 37% speed improvement, Claude Opus 4.6(22.9 मिनट) के समान स्तर
    • लागत Opus 4.6 की 10% के स्तर पर

लागत संरचना

  • दो संस्करण उपलब्ध: M2.5-Lightning(100TPS), M2.5(50TPS)
    • Lightning: input के प्रति 1 मिलियन tokens पर $0.3, output के प्रति 1 मिलियन tokens पर $2.4
    • M2.5: ऊपर दी गई दरों का आधा
  • output-आधारित लागत Opus, Gemini 3 Pro, GPT-5 की 1/10~1/20 के स्तर पर
  • 100TPS पर 1 घंटा लगातार चलाने पर $1, 50TPS पर $0.3
  • सालाना $10,000 में 4 instances को हमेशा चालू रखा जा सकता है, इसलिए बड़े पैमाने के agent संचालन के लिए उपयुक्त

मॉडल सुधार की गति

  • साढ़े 3 महीनों में M2 → M2.1 → M2.5 लगातार लॉन्च किए गए, और सुधार की गति प्रतिस्पर्धी मॉडल समूहों(Claude, GPT, Gemini) से तेज़ रही
  • SWE-Bench Verified में तेज़ प्रदर्शन-वृद्धि दर दर्ज की

Reinforcement learning scaling (RL Scaling)

  • सैकड़ों हज़ार RL environments बनाकर मॉडल प्रशिक्षण में उपयोग किए
  • agent-style RL framework Forge को in-house विकसित किया
    • training/inference engine और agent को पूरी तरह अलग किया
    • asynchronous scheduling optimization और tree merge strategy के ज़रिए training speed 40 गुना बढ़ाई
  • CISPO algorithm का उपयोग कर बड़े पैमाने के MoE models की स्थिरता सुनिश्चित की
  • process reward mechanism से लंबे context में भी quality monitoring की
  • intelligence और response speed के संतुलन के लिए task-time evaluation system पेश किया

MiniMax Agent एकीकरण

  • M2.5 को MiniMax Agent में पूरी तरह एकीकृत किया गया है, जिससे विशेषज्ञ कर्मचारी-स्तर का agent अनुभव मिलता है
  • Office Skills(Word, PowerPoint, Excel आदि) को स्वतः लोड कर document quality बेहतर की
  • उपयोगकर्ता Office Skills और industry-specific expertise को जोड़कर custom Expert बना सकते हैं
    • उदाहरण: research reports का automatic drafting, financial models का automatic generation और validation
  • वर्तमान में 10,000 से अधिक Experts बनाए जा चुके हैं और उनकी संख्या तेज़ी से बढ़ रही है
  • MiniMax के भीतर कुल कार्य का 30% M2.5 स्वतः करता है,
    • R&D, product, sales, HR, finance सहित सभी विभागों में उपयोग
    • नए commit किए गए code का 80% M2.5 द्वारा जनरेट किया गया code है

परिशिष्ट: मूल्यांकन पद्धति का सारांश

  • SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling जैसे विभिन्न आंतरिक और बाहरी benchmarks का उपयोग
  • सभी tests एकीकृत pipeline और कई बार दोहराए गए रन के औसत मान के आधार पर निकाले गए
  • मूल्यांकन वातावरण में 8-core CPU, 16GB memory, 7200 सेकंड सीमा, standard tool set शामिल है

1 टिप्पणियां

 
GN⁺ 2026-02-13
Hacker News की राय
  • उम्मीद है कि और भी बेहतर और सस्ते मॉडल आएँ
    प्रतिस्पर्धा सक्रिय रहनी चाहिए ताकि बाज़ार स्वस्थ बना रहे
    लेकिन benchmark नतीजों को सावधानी से देखना चाहिए
    MiniMax 2.1 ठीक-ठाक है, लेकिन इसे “स्मार्ट” कहना मुश्किल है
    खासकर इसमें टेस्ट पास कराने के लिए codebase में हेरफेर करने की प्रवृत्ति है
    यह कभी-कभी असफल tests को भी सफल दिखाने के लिए रिपोर्ट सजा देता है
    Artificial Analysis के metrics के अनुसार MiniMax 2.1 का coding score 33 है, जो शीर्ष मॉडलों से काफ़ी पीछे है

    • मैंने कई LLMs में ऐसी ही समस्या देखी है
      जब उन्हें algorithm problems हल करने को दो, तो न कर पाने पर वे test cases को hardcode कर देते हैं
      DeepSeek भी एक समय ऐसा ही करता था
    • मैंने MiniMax इस्तेमाल नहीं किया, लेकिन GPT-5.2-Codex में भी यही समस्या देखी
      साधारण type errors ठीक करने के बजाय यह cast या Any का ज़्यादा इस्तेमाल करके समस्या को ढक देता है
      यानी असली fix की जगह type checking से बचने की कोशिश
    • MiniMax 2.1 में मेरे data parsing काम के दौरान बहुत ज़्यादा errors आए
      इसके बजाय MiMo v2 Flash का price-to-performance कहीं बेहतर लगा
  • Pelican वाली image पहचान में तो आ जाती है, लेकिन उसकी गुणवत्ता कमज़ोर है
    खासकर साइकिल फ्रेम की bar गायब है
    संबंधित image

    • front fork का न होना शायद बेहतर ही हो
      ज़्यादातर models ऐसी front wheel संरचना बना देते हैं जिससे steering संभव नहीं होती, और यह उससे अधिक ईमानदार “unsolved problem” जैसा दिखता है
      जैसे code में “TODO” comment छोड़ दिया गया हो
      pelican के पैरों की लंबाई को देखें तो उसकी posture भी हैरानी की बात है कि काफ़ी anatomical रूप से स्वाभाविक लगती है
    • pelican की जगह ऑक्टोपस के साइकिल चलाने की image बनाने की कोशिश करो, वह शायद कहीं ज़्यादा कठिन होगा
  • MiniMax M2.1 वह मॉडल है जिसे मैं सबसे ज़्यादा इस्तेमाल करता हूँ
    यह तेज़, सस्ता और tool calling में अच्छा है
    development के लिए मैं Antigravity + Claude इस्तेमाल करता हूँ, लेकिन workflow में पहले MiniMax चलाता हूँ
    code tasks के लिए GLM, और अंग्रेज़ी analysis के लिए Kimi K2.5 इस्तेमाल करता हूँ
    अभी self-hosting नहीं करता, लेकिन Chinese OSS models को पसंद करता हूँ
    क्योंकि भविष्य में उन्हें खुद host कर पाने की संभावना रहती है
    मेरा openclaw assistant भी MiniMax पर चल रहा है, और speed·quality·cost का संतुलन इसमें सबसे अच्छा है
    100 tokens/sec पर 1 घंटे चलाने का खर्च $1 है, और 50 tokens/sec पर लगभग $0.30

    • अच्छा है कि ऐसे models बड़े research labs के एकाधिकार पर रोक लगाते हैं
      क्या आप इसे API से इस्तेमाल करते हैं, या monthly subscription से?
      monthly plan में speed limits या reset जैसी कोई चीज़ है क्या, यह भी जानना चाहूँगा
      मुझे भी MM2.1 सबसे किफ़ायती लगता है, और K2.5 कुल मिलाकर सबसे मज़बूत
    • यह इतना सस्ता है कि हैरानी होती है
      अभी OpenRouter पर जाकर देखना पड़ेगा
  • benchmark इतना अच्छा दिख रहा है कि शक होता है
    training method दिलचस्प है, लेकिन यह वाकई क्रांतिकारी है या नहीं, स्पष्ट नहीं
    मैं मॉडल की वस्तुनिष्ठ विशेषताओं और पुराने अनुभव के आधार पर benchmark की विश्वसनीयता आँकता हूँ
    उदाहरण के लिए Kimi K2.5 सचमुच संतुलित और बुद्धिमान महसूस होता है, इसलिए उसके आँकड़े भरोसेमंद लगते हैं
    GLM 5 ने पहले बढ़ा-चढ़ाकर benchmarks दिखाए थे, लेकिन इस बार model size और architecture में बड़ा सुधार किया गया है, इसलिए संभावना हो सकती है
    दूसरी ओर MiniMax हमेशा से नाज़ुक और error loop में फँसने वाला मॉडल रहा है
    यह साधारण JavaScript code भी अक्सर बिगाड़ देता था, और model size भी इतना छोटा है कि इस बार के performance claims पर भरोसा करना मुश्किल है

  • M2 benchmark scores फुलाने का एक प्रतिनिधि उदाहरण था
    SWE-B results और वास्तविक untrained tasks के बीच बड़ा अंतर था
    2.5 version को brokk.ai की power ranking में जोड़ा जाना है

  • हमारी कंपनी Github Copilot में सिर्फ OpenAI, Anthropic और Google LLMs की अनुमति देती है
    इसी वजह से credits एक ही हफ़्ते में खत्म हो जाते हैं
    अच्छा होता अगर और तरह के LLMs इस्तेमाल कर पाते

  • मैंने OpenCode में M2.5 को कुछ सरल कामों के लिए आज़माया, लेकिन नतीजे बहुत खराब थे
    सिर्फ़ 250 lines की एक standalone script थी, फिर भी जिस स्तर का काम Opus 4.6 सिर्फ़ hint से कर लेता, वह M2.5 बिना बहुत विस्तृत prompt के नहीं कर पाया
    test किया गया code link

  • दिलचस्प बात यह है कि मध्यम आकार की (Tier-2) कंपनियाँ लगभग कोई प्रतिस्पर्धी मॉडल पेश नहीं कर रही हैं
    अंततः मुकाबला Big 4 labs और Chinese labs के बीच ही दिखता है

    • फिर भी Mistral को एक अपवाद माना जा सकता है
  • अच्छा होगा अगर language-specific LLMs सामान्य कंप्यूटरों पर भी चल सकें
    उदाहरण के लिए ऐसा मॉडल जो सिर्फ Python 3+ और किसी खास framework, code repository पर trained हो
    इससे internet search model से अलग रखकर cost भी घटाई जा सकती है

    • ऐसा distillation approach संभव हो सकता है, लेकिन मेरा मानना है कि multilingual training LLM performance में काफ़ी मदद करती है
  • कहा जा रहा है कि इस मॉडल की कीमत $1 प्रति घंटा है, जो मेरे इस्तेमाल वाले Claude Code के $200/month plan के आसपास बैठती है
    व्यवहार में मैं रोज़ लगभग 3 को parallel चलाता हूँ और हफ़्ते में करीब 60 घंटे इस्तेमाल करता हूँ
    अगर कोई 24/7 लगातार चलाने लायक use case हो तो यह दिलचस्प होगा, लेकिन अभी मुझे ऐसा कुछ समझ नहीं आ रहा
    अगर कोई इस तरह इस्तेमाल करने के उदाहरण जानता हो तो सुनना चाहूँगा