Mercury 2: diffusion-आधारित अल्ट्रा-फास्ट inference LLM

(inceptionlabs.ai)

7 पॉइंट द्वारा GN⁺ 2026-02-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

diffusion model-आधारित parallel generation तरीके का उपयोग कर पारंपरिक sequential decoding LLM की speed limitations को पार करने वाला language model
एक साथ कई tokens को generate और revise करने वाली parallel refinement संरचना के साथ, 5x से अधिक तेज़ response speed हासिल
1,009 tokens/second processing speed, 128K context, JSON output, tool use capabilities आदि के साथ real-time applications के लिए optimized
coding assistance, agent loops, voice interfaces, search·RAG pipelines जैसे latency-sensitive environments में efficiency साबित
OpenAI API के साथ पूरी तरह compatible, मौजूदा infrastructure में बदलाव किए बिना तुरंत integrate किया जा सकता है

Mercury 2 का अवलोकन

Mercury 2 दुनिया का सबसे तेज़ inference language model है
- इसका लक्ष्य production AI environments में instant responsiveness प्रदान करना है
मौजूदा LLMs की bottleneck autoregressive sequential decoding (one token at a time) संरचना है
- इसके कारण iterative loop-आधारित AI workflows में latency जमा होती जाती है

diffusion-आधारित real-time inference architecture

Mercury 2 sequential decoding की जगह parallel refinement तरीका अपनाता है
- यह कई tokens को एक साथ generate करता है और कुछ ही steps में converge करता है
- यह “typewriter” नहीं बल्कि “editor” की तरह पूरे draft को बार-बार revise करता है
नतीजतन 5x से अधिक तेज़ generation speed और एक नया speed curve हासिल होता है
diffusion-आधारित inference latency और cost को कम रखते हुए high-quality reasoning संभव बनाता है

performance और specifications

speed: NVIDIA Blackwell GPU पर 1,009 tokens/second
pricing: input के प्रति 1 million tokens पर $0.25, output के प्रति 1 million tokens पर $0.75
quality: प्रमुख speed-optimized models के साथ प्रतिस्पर्धी स्तर
features: tunable reasoning, 128K context, tool use, JSON schema-aligned output
latency optimization: p95 latency, high-concurrency environments में consistent responsiveness, stable throughput बरकरार
NVIDIA के एक प्रतिनिधि ने कहा कि Mercury 2 ने NVIDIA AI infrastructure के साथ मिलकर 1,000 tokens/second से अधिक हासिल किया

production use cases

1. coding और editing

autocomplete, refactoring, code agents जैसे developer loops में instant responses प्रदान करता है
Zed के cofounder Max Brunsfeld ने “suggestions की speed जो सोच का हिस्सा लगे” पर ज़ोर दिया

2. agent loops

multi-step reasoning calls की ज़रूरत वाले agent workflows में call latency कम करता है
Viant ने Mercury 2 का उपयोग कर real-time campaign optimization और autonomous advertising systems को मजबूत किया
Wispr Flow real-time conversation और transcript refinement में Mercury 2 की speed का मूल्यांकन कर रहा है
Skyvern ने कहा, “GPT-5.2 से कम-से-कम दो गुना तेज़”

3. real-time voice और interaction

voice interfaces की latency limits सबसे कठोर होती हैं
Happyverse AI ने Mercury 2 के साथ natural real-time conversational avatars बनाए
OpenCall ने low latency और high quality के साथ अधिक responsive voice agents बनाने की संभावना बताई

4. search और RAG pipelines

multi-search, re-ranking, summary process की cumulative latency घटाकर real-time inference संभव बनाता है
SearchBlox ने Mercury 2 के साथ सहयोग में real-time search AI लागू किया,
और customer support, risk, e-commerce जैसे विभिन्न क्षेत्रों में seconds-level intelligence प्रदान की

deployment और integration

Mercury 2 तुरंत उपलब्ध है और OpenAI API के साथ पूरी तरह compatible है
मौजूदा systems में code changes के बिना integrate किया जा सकता है
enterprise evaluation के दौरान workload fit, performance validation, evaluation design support प्रदान किया जाता है
आधिकारिक वाक्य: “Mercury 2 is live. Welcome to diffusion.”

1 टिप्पणियां

GN⁺ 2026-02-26

Hacker News की राय

intelligence(metric) per second को मापने का विचार दिलचस्प है
उदाहरण के लिए, token per intelligence और प्रति सेकंड token की संख्या को साथ में देखने का तरीका
निजी तौर पर, अगर Sonnet 4.6, Opus 4.6 से 5 गुना तेज़ हो, तो मैं ज़्यादातर Sonnet का इस्तेमाल करूंगा
पिछली पीढ़ी में Sonnet सीरीज़ इतनी अच्छी नहीं थी, लेकिन अब गति से मिलने वाला iteration लाभ इतना बड़ा है कि स्थिति बदल गई है
पहले मैं OpenAI Deep Research इस्तेमाल करता था, लेकिन o3-thinking + web search कहीं ज़्यादा तेज़ और पर्याप्त रूप से स्मार्ट था
- मेरा मानना है कि “गति खुद गुणवत्ता का एक आयाम है”
  अगर Cereberas या Groq जैसे हार्डवेयर पर API विकसित करें, तो iteration speed और लागत पूरी तरह अलग स्तर पर होती है
  हाल में लिखे गए research note में भी दिखाया गया है कि planning के लिए AR model और generation के लिए diffusion model अलग करने पर प्रदर्शन काफी बेहतर होता है
- अगर इस metric में प्रति hardware unit efficiency भी जोड़ दी जाए, तो यह और यथार्थवादी लगेगा
  उदाहरण के लिए, अगर 5 टन कोयला काफी है लेकिन 0.0000000001% सुधार के लिए 30 टन खर्च किए जाएँ, तो उसे असली प्रगति नहीं कहेंगे
- अब ऐसे नए model families सामने आ रहे हैं जिनका लक्ष्य तेज़ agent iteration है
  Composer और Flash version models उसके उदाहरण हैं, और Mercury 2 भी खुद को इस श्रेणी में एक मज़बूत मॉडल के रूप में पेश कर रहा है
- लगता है जल्द ही वास्तविक benchmark किया जा सकेगा
  तेज़ मॉडल iteration में तेज़ होते हैं, और बड़े मॉडल पहली कोशिश में ज़्यादा सटीक होते हैं
  अभी मुझे Opus 4.6 पसंद है, लेकिन मैं Sonnet के साथ efficiency का अंतर डेटा में देखना चाहूंगा
- “Intelligence per second” की अवधारणा मुझे सच में बहुत पसंद आई
  Gemini 3 Flash पसंद आने की यही वजह थी — पर्याप्त स्मार्ट और अविश्वसनीय रूप से तेज़
मैंने एक सरल test किया, और “Maradona की उपलब्धियाँ” पूछने पर Mercury 2 ने “Dieadona” जैसी typo कर दी
यह सवाल तो local 3B model भी पूरी तरह जवाब दे सकता है, लेकिन Mercury 2 धीमा है और इसमें गलतियाँ ज़्यादा हैं
Mercury 2 जवाब parallel refinement तरीके से बनाता है
यह एक ऐसी संरचना है जिसमें कई token एक साथ बनाए जाते हैं और कुछ चरणों में converge करते हैं; यह typewriter-style नहीं बल्कि editor की तरह पूरे draft को सँवारने वाला रूप है
DDPM और SGM को SDE के ज़रिए एकीकृत करने पर शोध चल रहा है, और जिज्ञासा है कि क्या transformer की हर layer को diffusion step की तरह देखा जा सकता है
अगर transformer की L layers, diffusion के L-step refinement से मेल खाएँ, तो शायद दोनों मॉडलों के बीच आपसी fitting संभव हो सके
Inception के co-founder और Chief Scientist के तौर पर, Mercury 2 या diffusion LM पर तकनीकी सवालों का स्वागत है
- diffusion model में KV cache कैसे काम करता है, यह जानना चाहता हूँ
  क्या इससे latency या लागत कम हो सकती है, क्या इसका व्यवहार autoregressive caching जैसा होता है, या फिर यह बिल्कुल लागू ही नहीं होता
- diffusion model text block इकाइयों में reasoning करता हुआ लगता है; जब blocks के बीच सूचना-निर्भरता हो, तब यह कैसे संभालता है, यह जानना चाहता हूँ
  dynamic block length लागू किया जा सकता है या नहीं, यह भी दिलचस्प है
- प्रस्तुति में बताए गए Voice AI का वास्तविक व्यवहार जानना चाहता हूँ
  ज़्यादातर voice systems में कुल response latency से ज़्यादा TTFT(time-to-first-token) महत्वपूर्ण होता है
  Mercury 2 का TTFT, दूसरे reasoning models की तुलना में कितना बेहतर है, यह जानना चाहता हूँ
- मैंने एक कमजोर transformer model की तरह loop में फँसने वाली स्थिति देखी
  case link देखें
  इस तरह की घटना का कारण क्या है, यह जानना चाहता हूँ
- यह भी जानना चाहता हूँ कि क्या और अधिक गति के लिए इसे drifting model की दिशा में आगे बढ़ाने की योजना है
मेरे लिए सबसे दिलचस्प बात यह है कि अब ऐसे मॉडल आ गए हैं जो प्रति सेकंड हजारों token generate करते हैं
ऐसे में multi-shot prompting या nudging करने पर भी उपयोगकर्ता को इसका एहसास नहीं होगा, जिससे hallucination या non-deterministic response जैसी समस्याएँ कम हो सकती हैं
- हमारी भी यही सोच है
  Mercury 2, agent tasks की तेज़ iteration को संभव बनाता है
  एक बार की कोशिश कम सटीक हो सकती है, लेकिन कम execution time की वजह से इसे बहुत तेज़ी से सुधारा जा सकता है
- सामान्य मॉडल भी batch inference के साथ काफ़ी तेज़ होते हैं
  उदाहरण के लिए, GPT-OSS 20B एक अकेले 3090 पर bs=64 में लगभग 2k tok/s तक पहुँचता है
मुझे अभी भी diffusion models पर पूरा भरोसा नहीं है
Google जैसी कंपनियों ने भी कोशिश की, लेकिन ज़्यादातर मामलों में वे Pareto frontier पर पीछे रहे
कीमत/प्रदर्शन तुलना लिंक देखें
- Pareto नज़रिए पर एक आपत्ति है
  समान गुणवत्ता के मानदंड पर Mercury, समान AR models से 5 गुना से अधिक तेज़ है
  absolute intelligence अभी भी Opus या Gemini Pro से कम है, लेकिन inference speed के मामले में इसका बड़ा लाभ है
- text diffusion में अभी भी काफी गुंजाइश है
  यह autoregressive transformer की तुलना में कहीं कम खोजा गया क्षेत्र है, इसलिए technical headroom बड़ा है
- यह मॉडल तेज़ edit उपयोग के लिए बिल्कुल सही लग सकता है
  अगर Morph के Fast Apply जैसा “Mercury Edit” version आए, तो मैं ज़रूर आज़माना चाहूँगा
diffusion-आधारित approach बहुत दिलचस्प है
पारंपरिक transformer क्रमिक रूप से token बनाते हैं, जबकि diffusion पूरे output को बार-बार refine कर सकता है
अगर इसने latency समस्या हल कर ली है, तो यह जटिल reasoning tasks के लिए नई संभावनाएँ खोल सकता है
जानना चाहता हूँ कि क्या local hardware पर चल सकने वाला कोई open-weight diffusion LLM है
consumer GPU वातावरण में प्रदर्शन का अंतर खुद देखना चाहूँगा
Mercury 2 Car Wash Test में फेल हो गया
इसे general-purpose reasoning model की बजाय विशिष्ट उपयोग (जैसे coding agent) पर केंद्रित करना, और उसी क्षेत्र के SOTA models (Qwen3-Coder-Next आदि) से तुलना करना शायद बेहतर होगा
- निजी तौर पर, मैं तेज़ लेकिन गलती-भरे मॉडल की बजाय धीमा लेकिन सटीक मॉडल पसंद करता हूँ
  लंबा session चलाना पड़े तब भी accuracy ज़्यादा महत्वपूर्ण है
अगर यह मॉडल Talaas chip पर डाला जाए, तो क्या यह प्रति सेकंड 50,000 से अधिक token generate कर सकता है, यह जानना दिलचस्प होगा
- अगर इसे memory latency के बिना ASIC-style circuit में एम्बेड किया जाए, तो शायद किसी भी मॉडल में जबरदस्त speedup मिल सकता है

Mercury 2: diffusion-आधारित अल्ट्रा-फास्ट inference LLM

Mercury 2 का अवलोकन

diffusion-आधारित real-time inference architecture

performance और specifications

production use cases

1. coding और editing

2. agent loops

3. real-time voice और interaction

4. search और RAG pipelines

deployment और integration

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय