MiMo-V2.5-Pro-UltraSpeed: 1T मॉडल जो प्रति सेकंड 1000 टोकन जनरेट करता है
(mimo.xiaomi.com)- 1 ट्रिलियन (1T) पैरामीटर मॉडल में डिकोडिंग स्पीड 1000 tokens/s को पहली बार पार करने वाला मॉडल
- समर्पित हार्डवेयर नहीं, बल्कि केवल commodity GPU से यह स्पीड हासिल की गई, और एक मानक 8-GPU node पर 1000+ tps आउटपुट दिखाया गया
- FP4 quantization और DFlash speculative decoding को जोड़ने वाला model-system codesign इसकी मुख्य तकनीक है
- API आवेदन-आधारित और सीमित अवधि के लिए उपलब्ध है, और 3 गुना कीमत पर लगभग 10 गुना जनरेशन स्पीड का दावा करता है
- 1000 tps पार करना सिर्फ स्पीड सुधार नहीं, बल्कि Coding Agent और real-time decision-making जैसे AI application paradigm को बदलने वाला मोड़ है
Xiaomi MiMo-V2.5-Pro-UltraSpeed लॉन्च
- TileRT के साथ सहयोग में 1 ट्रिलियन पैरामीटर मॉडल पर डिकोडिंग स्पीड 1000 tokens/s को पहली बार पार किया गया, जिससे real-time response और तत्काल iteration संभव होने लायक स्पीड मिली
- real-time generation speed तुलना में अधिकतम लगभग 1200 tokens/s तक पहुँचा
- दृष्टिकोण यह है कि जब मॉडल पर्याप्त तेज़ हो जाता है, तो वह प्रतीक्षा कराने वाला टूल नहीं रहता बल्कि सोच का विस्तार (extension of thinking) बन जाता है
सीमित अवधि · आवेदन-आधारित उपलब्धता
- API सीमित promotional price पर जारी किया गया है, और MiMo-V2.5-Pro की तुलना में 3 गुना लागत पर लगभग 10 गुना जनरेशन स्पीड देता है (केवल API, Token Plan समर्थित नहीं)
- high-speed inference resource constraints के कारण यह आवेदन-आधारित और सीमित अवधि के लिए चलेगा; केवल स्वीकृत उपयोगकर्ता ही 9 जून 2026 ~ 23 जून 2026 23:59 (UTC+8) के दौरान API का उपयोग कर सकेंगे
-
आवेदन कैसे करें
- API platform.xiaomimimo.com/ultraspeed पर उपलब्ध है; आवेदन करने पर स्वीकृति की गारंटी नहीं है, और वास्तविक business demand वाले enterprise तथा professional developer को प्राथमिकता दी जाएगी
- standard model access, MiMo-V2.5 series के माध्यम से दिया जाता है
-
Chat अनुभव (trial के दौरान मुफ़्त)
- स्वीकृत उपयोगकर्ताओं को 2 हफ्तों के लिए मुफ़्त Chat access दिया जाएगा, प्रवेश बिंदु ultraspeed.xiaomimimo.com है
- प्रति अकाउंट प्रतिदिन अधिकतम 10 बार queue entry, प्रति session अधिकतम 30 मिनट, और 5 मिनट से अधिक idle रहने पर स्वतः release
1000 tokens/s — स्पीड से आगे का paradigm shift
- 1T स्केल पर 1000 tps पार करना सिर्फ़ तेज़ टाइपराइटर नहीं, बल्कि AI application paradigm को जड़ से हिला देने वाला बदलाव है
-
जब स्पीड ही इंटेलिजेंस में बदलती है
- एक ही वास्तविक समय (wall-clock) के भीतर दर्जनों inference path को parallel चलाकर (Best-of-N / Tree Search), background में auto verification और self-correction के जरिए reasoning quality सीधे बेहतर की जा सकती है
-
Coding Agent की productivity limit हटना
- पहले inference latency bottleneck होने से developer को स्क्रीन के सामने इंतज़ार करना पड़ता था; 1000 tps पर code generation speed और productivity paradigm स्तर पर तेज़ हो जाती है
-
real-time decision loop में प्रवेश
- मिलीसेकंड स्तर के "think-respond" cycle के साथ 1T flagship model को high-frequency quant trading signal generation, instant abnormal transaction blocking, intelligent bidding, real-time conversation जैसे time-sensitive scenario में जोड़ा जा सकता है
- सर्जरी सहायता और medical imaging analysis जैसी जीवन-मृत्यु स्थितियों में, lesion analysis और risk prediction में बचाया गया हर सेकंड सर्जन को अतिरिक्त स्वतंत्रता देता है
चरम model-system Codesign
-
1T मॉडल पर 1000+ tps कोई एकल तकनीक नहीं, बल्कि MiMo model team और TileRT system team के चरम codesign का परिणाम है
-
समान स्पीड के लिए उद्योग जहाँ अक्सर समर्पित हार्डवेयर (Cerebras का Wafer-Scale, Groq की on-chip SRAM custom architecture) पर निर्भर रहता है, वहाँ इसे commodity GPU पर सिर्फ model-system codesign से हासिल किया गया
-
मॉडल पक्ष ने bandwidth bottleneck को लक्ष्य करने वाली FP4 quantization से मॉडल आकार और memory access burden घटाया, और साथ ही block-level masked parallel prediction आधारित DFlash अपनाकर प्रति verification step स्वीकृत token length बढ़ाई
-
system पक्ष में TileRT ने इस algorithmic विशेषता के अनुसार compile engine और compute kernel दिए, जिससे एक मानक single 8-GPU commodity node पर 1000+ tps आउटपुट हासिल हुआ
-
3.1 FP4 Quantization
- 1T स्केल पर पारंपरिक 8-bit (FP8/INT8) और 16-bit inference में memory footprint और bandwidth pressure बहुत अधिक होता है; bit width घटाना decoding speed में सीधे योगदान देता है
- सत्यापित, लगभग lossless FP4 (MXFP4) format अपनाया गया, लेकिन पूरे मॉडल पर इसे सरलता से लागू करने पर complex reasoning, logic और code generation में performance drop हुआ
- MoE (Mixture of Experts) architecture में, अधिकांश पैरामीटर रखने वाले और quantization को सबसे अधिक सहने वाले Experts को चुनकर FP4 में quantize किया गया, जबकि बाकी module अपनी मूल precision पर रखे गए
- FP4 QAT (Quantization-Aware Training) से मॉडल आकार घटाया गया, hardware bandwidth उपयोग अधिकतम किया गया, और overall performance लगभग मूल मॉडल के बराबर रखी गई
-
3.2 DFlash Speculative Decoding
- पारंपरिक speculative decoding में छोटा draft model अगले token का अनुमान लगाता है और बड़ा model उन्हें verify करता है; acceptance rate draft quality पर निर्भर करता है, लेकिन draft जितना मजबूत होगा उसका compute cost उतना बढ़ेगा — यही मूल तनाव है
- DFlash में draft model एक single forward pass में पूरे masked block को भर देता है, जिससे "autoregressive drafting" की serial constraint हट जाती है
- Muon second-order optimizer और model self-distillation का उपयोग कर draft stage overhead को सैद्धांतिक न्यूनतम के करीब लाया गया
- draft model केवल Sliding Window Attention (SWA) का उपयोग करता है, जो MiMo-V2 series की SWA design के साथ स्वाभाविक रूप से aligned है, और पूर्ण prefix dependency हटाकर प्रति prediction compute को context length proportional से constant तक घटा देता है
- training के दौरान mask-signal sampling को GPU-local shard तक नीचे लाया गया, ताकि एक single sequence एक step में ही दसियों हज़ार स्वतंत्र training signal बना सके और device-to-device communication overhead से बचा जा सके
- block size को 8 तक सीमित कर verification overhead घटाया गया और concurrency बढ़ाई गई, जिससे उच्च acceptance length सीधे उच्च inference throughput में बदलती है
- scenario के अनुसार औसत acceptance length
- Coding 6.30 (कुछ sample में अधिकतम 7.14, यानी 8 draft token में से 6~7 स्वीकार)
- Math / Reasoning 5.56
- Agent 4.29
- semantic रूप से अधिक बिखरे हुए और अधिक uncertainty वाले सामान्य conversation scenario में वर्तमान acceptance rate अभी कम है और निरंतर optimization जारी है
-
3.3 TileRT ultra-low-latency inference kernel / system
- 1000 tokens/s की operating frequency पर हर operator का जीवनकाल microsecond स्तर तक सिमट जाता है, और पारंपरिक inference system की "operator boundaries" मुख्य bottleneck बन जाती हैं
- operator execution start, hardware synchronization, और global memory round-trip के हर चरण पर execution flow टूटता है, जिससे स्पष्ट "Execution Gaps" पैदा होते हैं
-
TileRT का paradigm-level execution model innovation
- Persistent Engine Kernel: operator-दर-operator execution start मॉडल को छोड़कर पूरी compute pipeline को GPU के भीतर लगातार resident और flowing रखा जाता है, जिससे data movement और computation का चरम overlap हासिल होता है
- Warp Specialization (heterogeneous pipeline collaboration): Tile स्तर पर communication, data movement और tensor computation को और सूक्ष्म रूप से भौतिक रूप से विभाजित किया जाता है, homogeneous lock-step मॉडल को तोड़कर GPU को finely orchestrated heterogeneous execution system में बदला जाता है
-
microsecond-स्तर hardware-software deep fusion (Codesign)
- model layer में MoE Experts की mixed FP4 quantization और 1 ट्रिलियन पैरामीटर architecture के लिए SWA-aligned DFlash speculative decoding अपनाया गया, और TileRT ने इन algorithmic विशेषताओं व quantization पद्धति के साथ गहराई से जुड़कर customized compile engine और compute kernel दिए
- दोनों टीमों ने hardware physics पर आधारित संयुक्त engineering trade-off के जरिए execution pressure को hardware boundaries के भीतर सहज रूप से converge कराया
- TileRT अगली पीढ़ी के AI infrastructure और ultra-low-latency inference पर केंद्रित system architecture team है, जो persistent kernel, tile pipeline और heterogeneous collaboration के full-stack breakthroughs के माध्यम से जटिल heterogeneous environment में चरम compute utilization हासिल करती है
अतिरिक्त डेमो वीडियो
- 10 सेकंड में Snake गेम बनाने का डेमो
- 1 मिनट में MacOS interface को फिर से बनाने का डेमो
ओपन सोर्स और आगे की दिशा
- HuggingFace पर MiMo-V2.5-Pro-FP4-DFlash checkpoint को open source जारी किया गया है, जिसमें FP4 quantization weights और DFlash model parameters शामिल हैं
- MiMo-V2.5 के लिए UltraSpeed support तैयार किया जा रहा है
1 टिप्पणियां
Hacker News की राय
तेज़ AI वाकई बहुत दिलचस्प है, लेकिन काफ़ी बेचैन भी करती है। अभी भी कुछ कामों में Claude मुझसे तेज़ है, लेकिन फिर भी अभी तक लगभग उसी स्तर पर है
मैं 1 घंटे से PR summary prompt चला रहा हूँ और लगता है इसमें कुछ घंटे और लगेंगे, लेकिन अगर यह लगभग तुरंत खत्म हो जाए तो workflow कैसे बदल जाएगा, इसकी कल्पना करना मुश्किल है। लंबे prompt की वजह से multitasking शुरू करके बाद में पछताना भी पड़ता है। दूसरी ओर, अगर AI उन कामों को जो पहले घंटों या दिनों में होते थे, कुछ सेकंड या मिनटों में कर दे, तो यह पूरा खेल बदल देने वाली बात होगी, और पता नहीं हम उसमें कहाँ फिट होंगे
Cerebras का 3000 TPS अभी नहीं आज़माया, लेकिन 15,000 TPS वाले model demo को आज़माया है जिसका नाम मुझे याद नहीं। यह असली काम में कितना फर्क लाता है, पता नहीं, लेकिन पलक झपकते ही स्क्रीन भर text बनते देखना सच में चौंकाने वाला है। diff दिखाकर यह जाँचना कि बदलाव इरादे के मुताबिक हैं या नहीं जैसे छोटे verification में यह बहुत उपयोगी है, और अगर ऐसी जाँच तेज़ी से कई बार की जा सके तो बिना ध्यान भटकाए बहुत सारी focused inspection हो सकती है, जो मददगार है
जो काम computationally intensive नहीं हैं, उनमें interactive UI मूल रूप से ऐसा ही होता है। प्रोग्राम ज़्यादातर समय यूज़र के button दबाने का इंतज़ार करते हुए खाली पड़े रहते हैं। हमें प्रोग्राम का इंतज़ार करके या कई प्लेटें घुमाते हुए खुद को व्यस्त रखने की ज़रूरत नहीं है। लेकिन सिर्फ़ तेज़ LLM काफ़ी नहीं है, तेज़ compile और test भी चाहिए
गंभीरता से कहूँ तो, Cerebras को लगभग 2k tokens/s और बहुत कम latency पर इस्तेमाल करना भविष्य की एक झलक जैसा लगता है। इससे workflow को उन कामों के इर्द-गिर्द फिर से डिज़ाइन करने का मन होता है जो बिना भारी manual review के हो सकें, जैसे success conditions को साफ़-साफ़ लिख देना। मेरी समस्याओं में से कम ही चीज़ें अभी इसके लिए ठीक बैठती हैं, लेकिन आगे शायद दिशा यही होगी। बेशक तेज़ models आम तौर पर सबसे उच्च प्रदर्शन वाले models नहीं होते, लेकिन अगर उच्च गुणवत्ता के साथ लगभग तुरंत reasoning संभव हो जाए, तो यह सच में ऐसा game changer होगा जिसके लिए हम बिल्कुल तैयार नहीं हैं
लेकिन दूसरे कामों में वह पूरी तरह गलत दिशा में जा सकता है। पहले मैं बीच में बोल सकता था, “रुको, यह सही नहीं है,” लेकिन जब तक स्क्रीन पर text दिखे और मैं प्रतिक्रिया दूँ, तब तक वह बड़े बदलाव कर चुका होता है। जब तक हर edit पर commit न कराया जाए, सही दिशा में जितनी तेज़ी से जाता है उतनी ही तेज़ी से गलत दिशा में जाने से रोकना भी मुश्किल है, और अगर उसके पास ज़्यादा permissions हों तो remote API में भी गड़बड़ कर सकता है
productivity वाली बात मुझे ठीक से समझ नहीं आती। एक सामान्य कर्मचारी के नज़रिए से देखें तो जो काम पहले 2 दिन लेता था वह अब 2 घंटे में हो जाए, तब भी उससे बहुत फर्क नहीं पड़ता। क्योंकि बचे हुए समय को वह अपनी मर्ज़ी से इस्तेमाल नहीं कर सकता, उसे फिर भी 8 घंटे काम करना है
पहले 2 दिनों तक किसी समस्या में गहराई से उतरकर कुछ बनाने का आनंद होता था, लेकिन अब यह पैटर्न बन गया है कि सही prompt डालो और उम्मीद करो कि सही जवाब आए, यानी slot machine खींचने जैसा। मेरे हिसाब से यह हमारे लिए उल्टा बदतर है। हाँ, कंपनियों और executives के लिए स्थिति पूरी तरह उलटी है, और उन्हें यह AI दौर बहुत पसंद आएगा
हालाँकि ज़्यादा नहीं, क्योंकि यह ज़्यादा speed पाने की कीमत है। अगर कोई बड़ा काम AI को देकर एक घंटे बाद लौटो, तो हो सकता है तुमने एक घंटा गंवा दिया हो और बदले में कुछ भी न मिला हो
अभी मैं तीन tabs में तीन काम parallel चला रहा हूँ, और लगातार context switch करना पड़ रहा है, जो कहीं ज़्यादा तकलीफ़देह है। अगर model तेज़ हो, तो इंतज़ार करते समय नया काम शुरू करने की ज़रूरत नहीं रहती
इस technology का इस्तेमाल करके पहले से भी ज़्यादा गहराई से समस्या में उतरने से कोई नहीं रोक रहा। वही समझदारी भरा इस्तेमाल है
अगर चीनी प्रदाताओं की कीमत·स्पीड ऑप्टिमाइज़ेशन और अमेरिकी कंपनियों की बढ़ी हुई कीमतें साथ आती रहीं, तो जल्द ही पूरा खेल बदल जाएगा। बहुत-सी कंपनियाँ पहले से ही अपने AI बिलों को लेकर परेशान हैं
मैं GitHub Copilot का annual subscription इस्तेमाल करता हूँ, और Microsoft ने हाल ही में billing को token-based कर दिया है। अभी भी premium requests के हिसाब से charge होता है, लेकिन GPT 5.4 पहले 1x था और अब 6x हो गया है
मुझे सच में समझ नहीं आता कि अमेरिकी मॉडल labs के पास आखिर कौन-सी moat है। अगर वे कहते हैं कि recursive self-improvement बिल्कुल सामने है, और चीनी labs बस leading अमेरिकी models से थोड़ा ही पीछे हैं, तो फिर अमेरिकी labs की moat क्या है? क्या अमेरिकी models recursive self-improvement में चीनी open-source models से बेहतर हैं? हो सकता है मैं पूरी तरह ग़लत हूँ, लेकिन अगर मैंने OpenAI या Anthropic में पैसा लगाया होता, तो मैं अभी सब निकाल लेना चाहता। मुझे लगता है कि अगले कुछ वर्षों में इनकी वैल्यू लगभग 0 के क़रीब जाने की काफ़ी संभावना है
इसलिए काम की लागत का अनुमान लगाना मुश्किल है। हो सकता है कई बार फिर से शुरू करना पड़े और हर बार पैसे देने पड़ें। ऊपर से यह परखने के लिए कि मॉडल असली है या नकली, आपको एक और prompt डालना पड़ सकता है, जिससे token usage भी बढ़ता है
अगर MiMo की कीमत Deepseek जितनी कम है, तो पहले की चर्चा https://news.ycombinator.com/item?id=48282814 के हिसाब से ultra-fast होने के लिए 3 गुना जोड़ने पर भी यह अब भी हैरान कर देने वाला सस्ता है
MiMo V2.5 Pro का normal-speed version अब भी हमारे द्वारा test किए गए open-weight agentic coding models में सबसे मज़बूत है। यह दिलचस्प है कि कम प्रदर्शन वाले releases की तुलना में इसे काफ़ी कम ध्यान मिल रहा है
यहाँ “fast mode” की कीमत भी बहुत competitive है। डेटा https://gertlabs.com/rankings पर है
यह प्रचार जैसा लग सकता है, लेकिन exponential growth जैसी चीज़ सच में होती है। हम उस चरण की ओर बढ़ रहे हैं जहाँ prompt से लगभग तुरंत कई software बनेंगे और उनमें से सबसे अच्छे को चुना जाएगा।
सबसे बढ़िया syntactic sugar method name वाली library चुनने की बहस उतनी ही अजीब लगेगी जितना यह कहना कि चलो input assembly में लिखते हैं
यह सच में पुराना तरीका है, और अगर product अच्छा हुआ तो वह सफल होगा
सच कहूँ तो AI की वजह से मैं कई बार उस स्तर की refactoring कर पाया हूँ जो वरना हास्यास्पद लगती। सिर्फ़ workload की वजह से नहीं, कई बार इसलिए भी कि पता नहीं होता कि यह सफल भी होगा या नहीं, यानी friction दोगुना होता है। AI होने पर आप एक कप कॉफ़ी पीते-पीते refactoring फेंक कर देख सकते हैं कि कहाँ अटकता है। कुल मिलाकर AI इंसानियत को खुद को और ज़्यादा चरम रूप में दिखाने देगा। अच्छे अर्थ में भी, बुरे अर्थ में भी। बस मुझे लगता है कि बुरा हिस्सा ज़्यादा होगा
छोटे व्यवसायों में code को लगभग पूरी तरह छोड़कर, contextual data और prompts से conversational speed पर सीधे UI render किया जाएगा। यह कुछ-कुछ वैसा होगा जैसा games में Google Genie करता है, लेकिन उससे काफ़ी ज़्यादा accurate रूप में
यह voice में सचमुच बहुत ताकतवर होगा। reasoning क्षमता की वजह से LLM काफ़ी ज़्यादा स्मार्ट हो जाते हैं, लेकिन voice में latency budget इतना कड़ा होता है कि आम तौर पर वह समय लिया ही नहीं जा सकता
Cerebras Kimi K2.6 को 3000t/s पर test कर रहा है, लेकिन अभी invite-only है। frontier models में fast hardware के ज़्यादा आम होने का इंतज़ार है।
Nvidia पर speed के हिसाब से design किए गए models उस gap को भरने के लिए एक अच्छा addition हो सकते हैं
इस नतीजे की नई बात यह है कि standard hardware, यानी सिर्फ़ 8 GPUs वाले एक server से 1 ट्रिलियन से अधिक parameters वाला मॉडल 1000 token/s से ऊपर पहुँच गया
दिलचस्प. frontier models काफ़ी प्रभावशाली हो गए हैं, लेकिन interactive human-in-the-loop coding के लिए सभी थोड़ा धीमे हैं। इसलिए यह vibe coding और कई agents को parallel में चलाने की दिशा को बढ़ावा देता है। तेज़ agent ज़्यादा एक पार्टनर जैसा महसूस होता है
कुछ समय तक मैंने कई कामों के लिए Cerebras GLM 4.7 का इस्तेमाल किया। यह कोई बहुत स्मार्ट model नहीं है, लेकिन साइट पर live prototype चलाकर रखना और "font थोड़ा बड़ा करो. नहीं, इतना भी नहीं" टाइप करने पर उसे real time में बदलते देखना शानदार अनुभव है। और MiMo 2.5, GLM 4.7 से काफ़ी ज़्यादा सक्षम है
GLM 5.1, z.ai का latest iteration है और लोकप्रिय open-weight coding models में से एक है। अगर आपने इसे इस्तेमाल किया है, तो यह जानना दिलचस्प होगा कि हाल की 70% price cut के बाद भी MiMo 2.5 Pro से महंगा GLM 5.1 उससे कैसे compare करता है
1k TPS भी शानदार है, लेकिन इस thread में AI-generated comments कितने हैं, यह उससे भी ज़्यादा दिलचस्प है