MiMo-V2.5-Pro-UltraSpeed: 1T मॉडल जो प्रति सेकंड 1000 टोकन जनरेट करता है

(mimo.xiaomi.com)

4 पॉइंट द्वारा GN⁺ 2026-06-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

1 ट्रिलियन (1T) पैरामीटर मॉडल में डिकोडिंग स्पीड 1000 tokens/s को पहली बार पार करने वाला मॉडल
समर्पित हार्डवेयर नहीं, बल्कि केवल commodity GPU से यह स्पीड हासिल की गई, और एक मानक 8-GPU node पर 1000+ tps आउटपुट दिखाया गया
FP4 quantization और DFlash speculative decoding को जोड़ने वाला model-system codesign इसकी मुख्य तकनीक है
API आवेदन-आधारित और सीमित अवधि के लिए उपलब्ध है, और 3 गुना कीमत पर लगभग 10 गुना जनरेशन स्पीड का दावा करता है
1000 tps पार करना सिर्फ स्पीड सुधार नहीं, बल्कि Coding Agent और real-time decision-making जैसे AI application paradigm को बदलने वाला मोड़ है

Xiaomi MiMo-V2.5-Pro-UltraSpeed लॉन्च

TileRT के साथ सहयोग में 1 ट्रिलियन पैरामीटर मॉडल पर डिकोडिंग स्पीड 1000 tokens/s को पहली बार पार किया गया, जिससे real-time response और तत्काल iteration संभव होने लायक स्पीड मिली
real-time generation speed तुलना में अधिकतम लगभग 1200 tokens/s तक पहुँचा
दृष्टिकोण यह है कि जब मॉडल पर्याप्त तेज़ हो जाता है, तो वह प्रतीक्षा कराने वाला टूल नहीं रहता बल्कि सोच का विस्तार (extension of thinking) बन जाता है

सीमित अवधि · आवेदन-आधारित उपलब्धता

API सीमित promotional price पर जारी किया गया है, और MiMo-V2.5-Pro की तुलना में 3 गुना लागत पर लगभग 10 गुना जनरेशन स्पीड देता है (केवल API, Token Plan समर्थित नहीं)
high-speed inference resource constraints के कारण यह आवेदन-आधारित और सीमित अवधि के लिए चलेगा; केवल स्वीकृत उपयोगकर्ता ही 9 जून 2026 ~ 23 जून 2026 23:59 (UTC+8) के दौरान API का उपयोग कर सकेंगे
आवेदन कैसे करें
- API platform.xiaomimimo.com/ultraspeed पर उपलब्ध है; आवेदन करने पर स्वीकृति की गारंटी नहीं है, और वास्तविक business demand वाले enterprise तथा professional developer को प्राथमिकता दी जाएगी
- standard model access, MiMo-V2.5 series के माध्यम से दिया जाता है
Chat अनुभव (trial के दौरान मुफ़्त)
- स्वीकृत उपयोगकर्ताओं को 2 हफ्तों के लिए मुफ़्त Chat access दिया जाएगा, प्रवेश बिंदु ultraspeed.xiaomimimo.com है
- प्रति अकाउंट प्रतिदिन अधिकतम 10 बार queue entry, प्रति session अधिकतम 30 मिनट, और 5 मिनट से अधिक idle रहने पर स्वतः release

1000 tokens/s — स्पीड से आगे का paradigm shift

1T स्केल पर 1000 tps पार करना सिर्फ़ तेज़ टाइपराइटर नहीं, बल्कि AI application paradigm को जड़ से हिला देने वाला बदलाव है
जब स्पीड ही इंटेलिजेंस में बदलती है
- एक ही वास्तविक समय (wall-clock) के भीतर दर्जनों inference path को parallel चलाकर (Best-of-N / Tree Search), background में auto verification और self-correction के जरिए reasoning quality सीधे बेहतर की जा सकती है
Coding Agent की productivity limit हटना
- पहले inference latency bottleneck होने से developer को स्क्रीन के सामने इंतज़ार करना पड़ता था; 1000 tps पर code generation speed और productivity paradigm स्तर पर तेज़ हो जाती है
real-time decision loop में प्रवेश
- मिलीसेकंड स्तर के "think-respond" cycle के साथ 1T flagship model को high-frequency quant trading signal generation, instant abnormal transaction blocking, intelligent bidding, real-time conversation जैसे time-sensitive scenario में जोड़ा जा सकता है
- सर्जरी सहायता और medical imaging analysis जैसी जीवन-मृत्यु स्थितियों में, lesion analysis और risk prediction में बचाया गया हर सेकंड सर्जन को अतिरिक्त स्वतंत्रता देता है

चरम model-system Codesign

1T मॉडल पर 1000+ tps कोई एकल तकनीक नहीं, बल्कि MiMo model team और TileRT system team के चरम codesign का परिणाम है
समान स्पीड के लिए उद्योग जहाँ अक्सर समर्पित हार्डवेयर (Cerebras का Wafer-Scale, Groq की on-chip SRAM custom architecture) पर निर्भर रहता है, वहाँ इसे commodity GPU पर सिर्फ model-system codesign से हासिल किया गया
मॉडल पक्ष ने bandwidth bottleneck को लक्ष्य करने वाली FP4 quantization से मॉडल आकार और memory access burden घटाया, और साथ ही block-level masked parallel prediction आधारित DFlash अपनाकर प्रति verification step स्वीकृत token length बढ़ाई
system पक्ष में TileRT ने इस algorithmic विशेषता के अनुसार compile engine और compute kernel दिए, जिससे एक मानक single 8-GPU commodity node पर 1000+ tps आउटपुट हासिल हुआ
3.1 FP4 Quantization
- 1T स्केल पर पारंपरिक 8-bit (FP8/INT8) और 16-bit inference में memory footprint और bandwidth pressure बहुत अधिक होता है; bit width घटाना decoding speed में सीधे योगदान देता है
- सत्यापित, लगभग lossless FP4 (MXFP4) format अपनाया गया, लेकिन पूरे मॉडल पर इसे सरलता से लागू करने पर complex reasoning, logic और code generation में performance drop हुआ
- MoE (Mixture of Experts) architecture में, अधिकांश पैरामीटर रखने वाले और quantization को सबसे अधिक सहने वाले Experts को चुनकर FP4 में quantize किया गया, जबकि बाकी module अपनी मूल precision पर रखे गए
- FP4 QAT (Quantization-Aware Training) से मॉडल आकार घटाया गया, hardware bandwidth उपयोग अधिकतम किया गया, और overall performance लगभग मूल मॉडल के बराबर रखी गई
3.2 DFlash Speculative Decoding
- पारंपरिक speculative decoding में छोटा draft model अगले token का अनुमान लगाता है और बड़ा model उन्हें verify करता है; acceptance rate draft quality पर निर्भर करता है, लेकिन draft जितना मजबूत होगा उसका compute cost उतना बढ़ेगा — यही मूल तनाव है
- DFlash में draft model एक single forward pass में पूरे masked block को भर देता है, जिससे "autoregressive drafting" की serial constraint हट जाती है
- Muon second-order optimizer और model self-distillation का उपयोग कर draft stage overhead को सैद्धांतिक न्यूनतम के करीब लाया गया
  - draft model केवल Sliding Window Attention (SWA) का उपयोग करता है, जो MiMo-V2 series की SWA design के साथ स्वाभाविक रूप से aligned है, और पूर्ण prefix dependency हटाकर प्रति prediction compute को context length proportional से constant तक घटा देता है
  - training के दौरान mask-signal sampling को GPU-local shard तक नीचे लाया गया, ताकि एक single sequence एक step में ही दसियों हज़ार स्वतंत्र training signal बना सके और device-to-device communication overhead से बचा जा सके
- block size को 8 तक सीमित कर verification overhead घटाया गया और concurrency बढ़ाई गई, जिससे उच्च acceptance length सीधे उच्च inference throughput में बदलती है
- scenario के अनुसार औसत acceptance length
  - Coding 6.30 (कुछ sample में अधिकतम 7.14, यानी 8 draft token में से 6~7 स्वीकार)
  - Math / Reasoning 5.56
  - Agent 4.29
- semantic रूप से अधिक बिखरे हुए और अधिक uncertainty वाले सामान्य conversation scenario में वर्तमान acceptance rate अभी कम है और निरंतर optimization जारी है
3.3 TileRT ultra-low-latency inference kernel / system
- 1000 tokens/s की operating frequency पर हर operator का जीवनकाल microsecond स्तर तक सिमट जाता है, और पारंपरिक inference system की "operator boundaries" मुख्य bottleneck बन जाती हैं
- operator execution start, hardware synchronization, और global memory round-trip के हर चरण पर execution flow टूटता है, जिससे स्पष्ट "Execution Gaps" पैदा होते हैं
- TileRT का paradigm-level execution model innovation
  - Persistent Engine Kernel: operator-दर-operator execution start मॉडल को छोड़कर पूरी compute pipeline को GPU के भीतर लगातार resident और flowing रखा जाता है, जिससे data movement और computation का चरम overlap हासिल होता है
  - Warp Specialization (heterogeneous pipeline collaboration): Tile स्तर पर communication, data movement और tensor computation को और सूक्ष्म रूप से भौतिक रूप से विभाजित किया जाता है, homogeneous lock-step मॉडल को तोड़कर GPU को finely orchestrated heterogeneous execution system में बदला जाता है
- microsecond-स्तर hardware-software deep fusion (Codesign)
  - model layer में MoE Experts की mixed FP4 quantization और 1 ट्रिलियन पैरामीटर architecture के लिए SWA-aligned DFlash speculative decoding अपनाया गया, और TileRT ने इन algorithmic विशेषताओं व quantization पद्धति के साथ गहराई से जुड़कर customized compile engine और compute kernel दिए
  - दोनों टीमों ने hardware physics पर आधारित संयुक्त engineering trade-off के जरिए execution pressure को hardware boundaries के भीतर सहज रूप से converge कराया
  - TileRT अगली पीढ़ी के AI infrastructure और ultra-low-latency inference पर केंद्रित system architecture team है, जो persistent kernel, tile pipeline और heterogeneous collaboration के full-stack breakthroughs के माध्यम से जटिल heterogeneous environment में चरम compute utilization हासिल करती है

अतिरिक्त डेमो वीडियो

10 सेकंड में Snake गेम बनाने का डेमो
1 मिनट में MacOS interface को फिर से बनाने का डेमो

ओपन सोर्स और आगे की दिशा

HuggingFace पर MiMo-V2.5-Pro-FP4-DFlash checkpoint को open source जारी किया गया है, जिसमें FP4 quantization weights और DFlash model parameters शामिल हैं
MiMo-V2.5 के लिए UltraSpeed support तैयार किया जा रहा है

1 टिप्पणियां

GN⁺ 2026-06-09

Hacker News की राय

तेज़ AI वाकई बहुत दिलचस्प है, लेकिन काफ़ी बेचैन भी करती है। अभी भी कुछ कामों में Claude मुझसे तेज़ है, लेकिन फिर भी अभी तक लगभग उसी स्तर पर है
मैं 1 घंटे से PR summary prompt चला रहा हूँ और लगता है इसमें कुछ घंटे और लगेंगे, लेकिन अगर यह लगभग तुरंत खत्म हो जाए तो workflow कैसे बदल जाएगा, इसकी कल्पना करना मुश्किल है। लंबे prompt की वजह से multitasking शुरू करके बाद में पछताना भी पड़ता है। दूसरी ओर, अगर AI उन कामों को जो पहले घंटों या दिनों में होते थे, कुछ सेकंड या मिनटों में कर दे, तो यह पूरा खेल बदल देने वाली बात होगी, और पता नहीं हम उसमें कहाँ फिट होंगे
- मैं Deepseek-v4-pro को मुख्य model की तरह इस्तेमाल करता हूँ, और कभी-कभी यह काफ़ी परेशान करता है। मैं इसे आसान छोटे-मोटे काम देकर सोचता हूँ, “चलो agent को दे देता हूँ और एक झपकी ले लेता हूँ,” लेकिन कंप्यूटर से उठने से पहले ही यह सारा code लिख चुका होता है
- मैंने groq और GPT OSS इस्तेमाल किए हैं, और 20B 1000 TPS पर, 120B 800 TPS पर चलता है, इसलिए इसकी speed काफ़ी जादू जैसी लगती है
  Cerebras का 3000 TPS अभी नहीं आज़माया, लेकिन 15,000 TPS वाले model demo को आज़माया है जिसका नाम मुझे याद नहीं। यह असली काम में कितना फर्क लाता है, पता नहीं, लेकिन पलक झपकते ही स्क्रीन भर text बनते देखना सच में चौंकाने वाला है। diff दिखाकर यह जाँचना कि बदलाव इरादे के मुताबिक हैं या नहीं जैसे छोटे verification में यह बहुत उपयोगी है, और अगर ऐसी जाँच तेज़ी से कई बार की जा सके तो बिना ध्यान भटकाए बहुत सारी focused inspection हो सकती है, जो मददगार है
- अगर latency काफ़ी कम हो जाए, तो multitasking करने की ज़रूरत ही नहीं रहती। एक बार में एक काम कहो और तुरंत नतीजा देखो, और यह काफ़ी अच्छा काम करने का तरीका है
  जो काम computationally intensive नहीं हैं, उनमें interactive UI मूल रूप से ऐसा ही होता है। प्रोग्राम ज़्यादातर समय यूज़र के button दबाने का इंतज़ार करते हुए खाली पड़े रहते हैं। हमें प्रोग्राम का इंतज़ार करके या कई प्लेटें घुमाते हुए खुद को व्यस्त रखने की ज़रूरत नहीं है। लेकिन सिर्फ़ तेज़ LLM काफ़ी नहीं है, तेज़ compile और test भी चाहिए
- अगला bottleneck compiler है, और इसे भी LLM से model किया जा सकता है। बस लगभग 15% गलत होगा :)
  गंभीरता से कहूँ तो, Cerebras को लगभग 2k tokens/s और बहुत कम latency पर इस्तेमाल करना भविष्य की एक झलक जैसा लगता है। इससे workflow को उन कामों के इर्द-गिर्द फिर से डिज़ाइन करने का मन होता है जो बिना भारी manual review के हो सकें, जैसे success conditions को साफ़-साफ़ लिख देना। मेरी समस्याओं में से कम ही चीज़ें अभी इसके लिए ठीक बैठती हैं, लेकिन आगे शायद दिशा यही होगी। बेशक तेज़ models आम तौर पर सबसे उच्च प्रदर्शन वाले models नहीं होते, लेकिन अगर उच्च गुणवत्ता के साथ लगभग तुरंत reasoning संभव हो जाए, तो यह सच में ऐसा game changer होगा जिसके लिए हम बिल्कुल तैयार नहीं हैं
- इसके दो पहलू हैं। Gemini 3.5 Flash को कुछ करने को कहो तो वह लगभग तुरंत नतीजा देता है और अच्छी तरह काम करता है, और उसकी यह speed कभी-कभी थोड़ी डरावनी लगती है
  लेकिन दूसरे कामों में वह पूरी तरह गलत दिशा में जा सकता है। पहले मैं बीच में बोल सकता था, “रुको, यह सही नहीं है,” लेकिन जब तक स्क्रीन पर text दिखे और मैं प्रतिक्रिया दूँ, तब तक वह बड़े बदलाव कर चुका होता है। जब तक हर edit पर commit न कराया जाए, सही दिशा में जितनी तेज़ी से जाता है उतनी ही तेज़ी से गलत दिशा में जाने से रोकना भी मुश्किल है, और अगर उसके पास ज़्यादा permissions हों तो remote API में भी गड़बड़ कर सकता है
productivity वाली बात मुझे ठीक से समझ नहीं आती। एक सामान्य कर्मचारी के नज़रिए से देखें तो जो काम पहले 2 दिन लेता था वह अब 2 घंटे में हो जाए, तब भी उससे बहुत फर्क नहीं पड़ता। क्योंकि बचे हुए समय को वह अपनी मर्ज़ी से इस्तेमाल नहीं कर सकता, उसे फिर भी 8 घंटे काम करना है
पहले 2 दिनों तक किसी समस्या में गहराई से उतरकर कुछ बनाने का आनंद होता था, लेकिन अब यह पैटर्न बन गया है कि सही prompt डालो और उम्मीद करो कि सही जवाब आए, यानी slot machine खींचने जैसा। मेरे हिसाब से यह हमारे लिए उल्टा बदतर है। हाँ, कंपनियों और executives के लिए स्थिति पूरी तरह उलटी है, और उन्हें यह AI दौर बहुत पसंद आएगा
- AI को देने वाले काम को छोटे हिस्सों में बाँट दो, तो architecture पर नियंत्रण बना रहता है और यह slot machine जैसा नहीं रहता। मैं अभी भी code पढ़ता हूँ और कभी-कभी खुद भी लिखता हूँ
  हालाँकि ज़्यादा नहीं, क्योंकि यह ज़्यादा speed पाने की कीमत है। अगर कोई बड़ा काम AI को देकर एक घंटे बाद लौटो, तो हो सकता है तुमने एक घंटा गंवा दिया हो और बदले में कुछ भी न मिला हो
- मेरे लिए धीमे models context और task की parallel management को मुश्किल बना देते हैं। एक ही काम करना, उसे खत्म करना, थोड़ा आराम करना, और फिर अगले काम पर जाना कहीं बेहतर है
  अभी मैं तीन tabs में तीन काम parallel चला रहा हूँ, और लगातार context switch करना पड़ रहा है, जो कहीं ज़्यादा तकलीफ़देह है। अगर model तेज़ हो, तो इंतज़ार करते समय नया काम शुरू करने की ज़रूरत नहीं रहती
- किसी भी technology को बेवकूफ़ी से इस्तेमाल करने का तरीका होता है और समझदारी से इस्तेमाल करने का भी। इसे “सही जवाब देने वाली slot machine” की तरह लेना बेवकूफ़ी है। थोड़ी देर के लिए चल सकता है, लेकिन सब लोग वही कर सकते हैं, इसलिए यह लंबे समय तक नहीं टिकेगा
  इस technology का इस्तेमाल करके पहले से भी ज़्यादा गहराई से समस्या में उतरने से कोई नहीं रोक रहा। वही समझदारी भरा इस्तेमाल है
- कर्मचारी 8 घंटे काम करते हैं, यह किस दुनिया की बात है, समझ नहीं आता। 8 घंटे की attendance लग सकती है, लेकिन उस पूरे समय में काम नहीं होता
- नतीजों की quality का आकलन करने की हमारी क्षमता उन नतीजों को पैदा करने की क्षमता से भी ज़्यादा पीछे छूटती जा रही है। “सही जवाब” ज़रूरी नहीं कि सबसे ज़्यादा भरोसेमंद लगने वाला output हो
अगर चीनी प्रदाताओं की कीमत·स्पीड ऑप्टिमाइज़ेशन और अमेरिकी कंपनियों की बढ़ी हुई कीमतें साथ आती रहीं, तो जल्द ही पूरा खेल बदल जाएगा। बहुत-सी कंपनियाँ पहले से ही अपने AI बिलों को लेकर परेशान हैं
- चीनी मॉडल काफ़ी अच्छे हैं और सस्ते भी।
  मैं GitHub Copilot का annual subscription इस्तेमाल करता हूँ, और Microsoft ने हाल ही में billing को token-based कर दिया है। अभी भी premium requests के हिसाब से charge होता है, लेकिन GPT 5.4 पहले 1x था और अब 6x हो गया है
- पैसे ज़्यादा नहीं हैं, इसलिए हाल में मैं Claude या GPT की जगह DeepSeek v4 Flash, GLM 5.1 वगैरह को जितना हो सके उतना इस्तेमाल कर रहा हूँ
- एक और समस्या यह है कि अमेरिकी मॉडल सब के सब closed-source हैं। अगर आप कोई बड़ी कंपनी हैं, तो हो सकता है कि आप अपनी organization को OpenAI या Anthropic के हाथों बंधक नहीं बनाना चाहेंगे।
  मुझे सच में समझ नहीं आता कि अमेरिकी मॉडल labs के पास आखिर कौन-सी moat है। अगर वे कहते हैं कि recursive self-improvement बिल्कुल सामने है, और चीनी labs बस leading अमेरिकी models से थोड़ा ही पीछे हैं, तो फिर अमेरिकी labs की moat क्या है? क्या अमेरिकी models recursive self-improvement में चीनी open-source models से बेहतर हैं? हो सकता है मैं पूरी तरह ग़लत हूँ, लेकिन अगर मैंने OpenAI या Anthropic में पैसा लगाया होता, तो मैं अभी सब निकाल लेना चाहता। मुझे लगता है कि अगले कुछ वर्षों में इनकी वैल्यू लगभग 0 के क़रीब जाने की काफ़ी संभावना है
- इससे भी बड़ी समस्या model consistency है। यह पता नहीं कि Anthropic Opus का दाम लेकर requests को किसी सस्ते मॉडल की तरफ़ route करेगा या नहीं।
  इसलिए काम की लागत का अनुमान लगाना मुश्किल है। हो सकता है कई बार फिर से शुरू करना पड़े और हर बार पैसे देने पड़ें। ऊपर से यह परखने के लिए कि मॉडल असली है या नकली, आपको एक और prompt डालना पड़ सकता है, जिससे token usage भी बढ़ता है
- मुझे यह जानने की जिज्ञासा है कि ऐसी pricing को चलाने वाली economic structure क्या है। समझ नहीं आता कि चीनी कंपनियाँ अमेरिकी कंपनियों की तुलना में models को ज़्यादा subsidize कर रही हैं, या यह देशों के energy policy के फ़र्क का नतीजा है
अगर MiMo की कीमत Deepseek जितनी कम है, तो पहले की चर्चा https://news.ycombinator.com/item?id=48282814 के हिसाब से ultra-fast होने के लिए 3 गुना जोड़ने पर भी यह अब भी हैरान कर देने वाला सस्ता है
- MiMo और DeepSeek सस्ते नहीं हैं; असल में Anthropic और OpenAI अपनी दी जाने वाली value के मुकाबले महँगे हैं
MiMo V2.5 Pro का normal-speed version अब भी हमारे द्वारा test किए गए open-weight agentic coding models में सबसे मज़बूत है। यह दिलचस्प है कि कम प्रदर्शन वाले releases की तुलना में इसे काफ़ी कम ध्यान मिल रहा है
यहाँ “fast mode” की कीमत भी बहुत competitive है। डेटा https://gertlabs.com/rankings पर है
- deepseek v4 pro flash से इतना नीचे क्यों दिख रहा है? mimo 2.5 कहाँ है?
यह प्रचार जैसा लग सकता है, लेकिन exponential growth जैसी चीज़ सच में होती है। हम उस चरण की ओर बढ़ रहे हैं जहाँ prompt से लगभग तुरंत कई software बनेंगे और उनमें से सबसे अच्छे को चुना जाएगा।
सबसे बढ़िया syntactic sugar method name वाली library चुनने की बहस उतनी ही अजीब लगेगी जितना यह कहना कि चलो input assembly में लिखते हैं
- यह तो घटिया software की exponential growth जैसा सुनाई देता है। पहले भी software engineering में mass-produced कचरा नहीं था ऐसा नहीं है, लेकिन अब वह विस्फोटक रूप से बढ़ेगा
- एक समय था जब हर 3 महीने में नया frontend framework आ जाता था। अब यह लगभग रुक गया है और किसी को फ़र्क नहीं पड़ता
- पक्का नहीं। engineers अब भी पुराने तरीके से software बना सकते हैं। जैसे Obsidian या Ghostty जैसी चीज़ें महीनों लगाकर बनाना, और code की हर line, dependencies और अच्छी architecture का ध्यान रखना।
  यह सच में पुराना तरीका है, और अगर product अच्छा हुआ तो वह सफल होगा
- मैं इसे ज़्यादा उम्मीद के साथ देखता हूँ। जैसे-जैसे AI बेहतर और तेज़ होगा, हम उस code को भी तेज़ी से और बार-बार improve कर पाएँगे, जिससे पहले workload की वजह से बचते थे।
  सच कहूँ तो AI की वजह से मैं कई बार उस स्तर की refactoring कर पाया हूँ जो वरना हास्यास्पद लगती। सिर्फ़ workload की वजह से नहीं, कई बार इसलिए भी कि पता नहीं होता कि यह सफल भी होगा या नहीं, यानी friction दोगुना होता है। AI होने पर आप एक कप कॉफ़ी पीते-पीते refactoring फेंक कर देख सकते हैं कि कहाँ अटकता है। कुल मिलाकर AI इंसानियत को खुद को और ज़्यादा चरम रूप में दिखाने देगा। अच्छे अर्थ में भी, बुरे अर्थ में भी। बस मुझे लगता है कि बुरा हिस्सा ज़्यादा होगा
- यह exponential रुझान कुछ वर्षों में पूरी तरह in-memory compute तक ले जाएगा, जो 100x ज़्यादा efficient होगा। यानी कम-से-कम 10x बड़े models संभव होंगे, और वे कहीं ज़्यादा स्मार्ट होने के साथ बहुत तेज़ भी होंगे।
  छोटे व्यवसायों में code को लगभग पूरी तरह छोड़कर, contextual data और prompts से conversational speed पर सीधे UI render किया जाएगा। यह कुछ-कुछ वैसा होगा जैसा games में Google Genie करता है, लेकिन उससे काफ़ी ज़्यादा accurate रूप में
यह voice में सचमुच बहुत ताकतवर होगा। reasoning क्षमता की वजह से LLM काफ़ी ज़्यादा स्मार्ट हो जाते हैं, लेकिन voice में latency budget इतना कड़ा होता है कि आम तौर पर वह समय लिया ही नहीं जा सकता
Cerebras Kimi K2.6 को 3000t/s पर test कर रहा है, लेकिन अभी invite-only है। frontier models में fast hardware के ज़्यादा आम होने का इंतज़ार है।
Nvidia पर speed के हिसाब से design किए गए models उस gap को भरने के लिए एक अच्छा addition हो सकते हैं
- मूल पोस्ट में कहा गया है कि अब तक ऐसी speed पाने के लिए Cerebras जैसे special और बहुत महँगे hardware की ज़रूरत पड़ती थी।
  इस नतीजे की नई बात यह है कि standard hardware, यानी सिर्फ़ 8 GPUs वाले एक server से 1 ट्रिलियन से अधिक parameters वाला मॉडल 1000 token/s से ऊपर पहुँच गया
- source क्या है? Cerebras की website पर 1000t/s लिखा है https://www.cerebras.ai/blog/which-is-faster-gemini-3-5-flas...
- Cerebras का पिछले महीने listed होना उसके लिए काफ़ी lucky रहा। अभी होता तो शायद कहानी अलग होती
- Cerebras अभी prefix caching discount नहीं देता, इसलिए agentic workloads में इसे इस्तेमाल करने की लागत sqr(n_turns) जितनी ज़्यादा महँगी पड़ती है
दिलचस्प. frontier models काफ़ी प्रभावशाली हो गए हैं, लेकिन interactive human-in-the-loop coding के लिए सभी थोड़ा धीमे हैं। इसलिए यह vibe coding और कई agents को parallel में चलाने की दिशा को बढ़ावा देता है। तेज़ agent ज़्यादा एक पार्टनर जैसा महसूस होता है
कुछ समय तक मैंने कई कामों के लिए Cerebras GLM 4.7 का इस्तेमाल किया। यह कोई बहुत स्मार्ट model नहीं है, लेकिन साइट पर live prototype चलाकर रखना और "font थोड़ा बड़ा करो. नहीं, इतना भी नहीं" टाइप करने पर उसे real time में बदलते देखना शानदार अनुभव है। और MiMo 2.5, GLM 4.7 से काफ़ी ज़्यादा सक्षम है
- मैंने GLM 4.7 को code-writing agent में आज़माया, लेकिन 200~1000 lines वाली simple scripts में भी यह बेहद खराब था। मुझे Cerebras के दिए models छोड़ने पड़े, और स्मार्ट models सिर्फ enterprise plan में हैं
- MiMo 2.5, MiMo 2.5 Pro जैसा model नहीं है
  GLM 5.1, z.ai का latest iteration है और लोकप्रिय open-weight coding models में से एक है। अगर आपने इसे इस्तेमाल किया है, तो यह जानना दिलचस्प होगा कि हाल की 70% price cut के बाद भी MiMo 2.5 Pro से महंगा GLM 5.1 उससे कैसे compare करता है
1k TPS भी शानदार है, लेकिन इस thread में AI-generated comments कितने हैं, यह उससे भी ज़्यादा दिलचस्प है

MiMo-V2.5-Pro-UltraSpeed: 1T मॉडल जो प्रति सेकंड 1000 टोकन जनरेट करता है

Xiaomi MiMo-V2.5-Pro-UltraSpeed लॉन्च

सीमित अवधि · आवेदन-आधारित उपलब्धता

आवेदन कैसे करें

Chat अनुभव (trial के दौरान मुफ़्त)

1000 tokens/s — स्पीड से आगे का paradigm shift

जब स्पीड ही इंटेलिजेंस में बदलती है

Coding Agent की productivity limit हटना

real-time decision loop में प्रवेश

चरम model-system Codesign

3.1 FP4 Quantization

3.2 DFlash Speculative Decoding

3.3 TileRT ultra-low-latency inference kernel / system

TileRT का paradigm-level execution model innovation

microsecond-स्तर hardware-software deep fusion (Codesign)

अतिरिक्त डेमो वीडियो

ओपन सोर्स और आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय