- diffusion model-आधारित parallel generation तरीके का उपयोग कर पारंपरिक sequential decoding LLM की speed limitations को पार करने वाला language model
- एक साथ कई tokens को generate और revise करने वाली parallel refinement संरचना के साथ, 5x से अधिक तेज़ response speed हासिल
- 1,009 tokens/second processing speed, 128K context, JSON output, tool use capabilities आदि के साथ real-time applications के लिए optimized
- coding assistance, agent loops, voice interfaces, search·RAG pipelines जैसे latency-sensitive environments में efficiency साबित
- OpenAI API के साथ पूरी तरह compatible, मौजूदा infrastructure में बदलाव किए बिना तुरंत integrate किया जा सकता है
Mercury 2 का अवलोकन
- Mercury 2 दुनिया का सबसे तेज़ inference language model है
- इसका लक्ष्य production AI environments में instant responsiveness प्रदान करना है
- मौजूदा LLMs की bottleneck autoregressive sequential decoding (one token at a time) संरचना है
- इसके कारण iterative loop-आधारित AI workflows में latency जमा होती जाती है
diffusion-आधारित real-time inference architecture
- Mercury 2 sequential decoding की जगह parallel refinement तरीका अपनाता है
- यह कई tokens को एक साथ generate करता है और कुछ ही steps में converge करता है
- यह “typewriter” नहीं बल्कि “editor” की तरह पूरे draft को बार-बार revise करता है
- नतीजतन 5x से अधिक तेज़ generation speed और एक नया speed curve हासिल होता है
- diffusion-आधारित inference latency और cost को कम रखते हुए high-quality reasoning संभव बनाता है
performance और specifications
- speed: NVIDIA Blackwell GPU पर 1,009 tokens/second
- pricing: input के प्रति 1 million tokens पर $0.25, output के प्रति 1 million tokens पर $0.75
- quality: प्रमुख speed-optimized models के साथ प्रतिस्पर्धी स्तर
- features: tunable reasoning, 128K context, tool use, JSON schema-aligned output
- latency optimization: p95 latency, high-concurrency environments में consistent responsiveness, stable throughput बरकरार
- NVIDIA के एक प्रतिनिधि ने कहा कि Mercury 2 ने NVIDIA AI infrastructure के साथ मिलकर 1,000 tokens/second से अधिक हासिल किया
production use cases
1. coding और editing
- autocomplete, refactoring, code agents जैसे developer loops में instant responses प्रदान करता है
- Zed के cofounder Max Brunsfeld ने “suggestions की speed जो सोच का हिस्सा लगे” पर ज़ोर दिया
2. agent loops
- multi-step reasoning calls की ज़रूरत वाले agent workflows में call latency कम करता है
- Viant ने Mercury 2 का उपयोग कर real-time campaign optimization और autonomous advertising systems को मजबूत किया
- Wispr Flow real-time conversation और transcript refinement में Mercury 2 की speed का मूल्यांकन कर रहा है
- Skyvern ने कहा, “GPT-5.2 से कम-से-कम दो गुना तेज़”
3. real-time voice और interaction
- voice interfaces की latency limits सबसे कठोर होती हैं
- Happyverse AI ने Mercury 2 के साथ natural real-time conversational avatars बनाए
- OpenCall ने low latency और high quality के साथ अधिक responsive voice agents बनाने की संभावना बताई
4. search और RAG pipelines
- multi-search, re-ranking, summary process की cumulative latency घटाकर real-time inference संभव बनाता है
- SearchBlox ने Mercury 2 के साथ सहयोग में real-time search AI लागू किया,
और customer support, risk, e-commerce जैसे विभिन्न क्षेत्रों में seconds-level intelligence प्रदान की
deployment और integration
- Mercury 2 तुरंत उपलब्ध है और OpenAI API के साथ पूरी तरह compatible है
- मौजूदा systems में code changes के बिना integrate किया जा सकता है
- enterprise evaluation के दौरान workload fit, performance validation, evaluation design support प्रदान किया जाता है
- आधिकारिक वाक्य: “Mercury 2 is live. Welcome to diffusion.”
1 टिप्पणियां
Hacker News की राय
intelligence(metric) per second को मापने का विचार दिलचस्प है
उदाहरण के लिए, token per intelligence और प्रति सेकंड token की संख्या को साथ में देखने का तरीका
निजी तौर पर, अगर Sonnet 4.6, Opus 4.6 से 5 गुना तेज़ हो, तो मैं ज़्यादातर Sonnet का इस्तेमाल करूंगा
पिछली पीढ़ी में Sonnet सीरीज़ इतनी अच्छी नहीं थी, लेकिन अब गति से मिलने वाला iteration लाभ इतना बड़ा है कि स्थिति बदल गई है
पहले मैं OpenAI Deep Research इस्तेमाल करता था, लेकिन o3-thinking + web search कहीं ज़्यादा तेज़ और पर्याप्त रूप से स्मार्ट था
अगर Cereberas या Groq जैसे हार्डवेयर पर API विकसित करें, तो iteration speed और लागत पूरी तरह अलग स्तर पर होती है
हाल में लिखे गए research note में भी दिखाया गया है कि planning के लिए AR model और generation के लिए diffusion model अलग करने पर प्रदर्शन काफी बेहतर होता है
उदाहरण के लिए, अगर 5 टन कोयला काफी है लेकिन 0.0000000001% सुधार के लिए 30 टन खर्च किए जाएँ, तो उसे असली प्रगति नहीं कहेंगे
Composer और Flash version models उसके उदाहरण हैं, और Mercury 2 भी खुद को इस श्रेणी में एक मज़बूत मॉडल के रूप में पेश कर रहा है
तेज़ मॉडल iteration में तेज़ होते हैं, और बड़े मॉडल पहली कोशिश में ज़्यादा सटीक होते हैं
अभी मुझे Opus 4.6 पसंद है, लेकिन मैं Sonnet के साथ efficiency का अंतर डेटा में देखना चाहूंगा
Gemini 3 Flash पसंद आने की यही वजह थी — पर्याप्त स्मार्ट और अविश्वसनीय रूप से तेज़
मैंने एक सरल test किया, और “Maradona की उपलब्धियाँ” पूछने पर Mercury 2 ने “Dieadona” जैसी typo कर दी
यह सवाल तो local 3B model भी पूरी तरह जवाब दे सकता है, लेकिन Mercury 2 धीमा है और इसमें गलतियाँ ज़्यादा हैं
Mercury 2 जवाब parallel refinement तरीके से बनाता है
यह एक ऐसी संरचना है जिसमें कई token एक साथ बनाए जाते हैं और कुछ चरणों में converge करते हैं; यह typewriter-style नहीं बल्कि editor की तरह पूरे draft को सँवारने वाला रूप है
DDPM और SGM को SDE के ज़रिए एकीकृत करने पर शोध चल रहा है, और जिज्ञासा है कि क्या transformer की हर layer को diffusion step की तरह देखा जा सकता है
अगर transformer की L layers, diffusion के L-step refinement से मेल खाएँ, तो शायद दोनों मॉडलों के बीच आपसी fitting संभव हो सके
Inception के co-founder और Chief Scientist के तौर पर, Mercury 2 या diffusion LM पर तकनीकी सवालों का स्वागत है
क्या इससे latency या लागत कम हो सकती है, क्या इसका व्यवहार autoregressive caching जैसा होता है, या फिर यह बिल्कुल लागू ही नहीं होता
dynamic block length लागू किया जा सकता है या नहीं, यह भी दिलचस्प है
ज़्यादातर voice systems में कुल response latency से ज़्यादा TTFT(time-to-first-token) महत्वपूर्ण होता है
Mercury 2 का TTFT, दूसरे reasoning models की तुलना में कितना बेहतर है, यह जानना चाहता हूँ
case link देखें
इस तरह की घटना का कारण क्या है, यह जानना चाहता हूँ
मेरे लिए सबसे दिलचस्प बात यह है कि अब ऐसे मॉडल आ गए हैं जो प्रति सेकंड हजारों token generate करते हैं
ऐसे में multi-shot prompting या nudging करने पर भी उपयोगकर्ता को इसका एहसास नहीं होगा, जिससे hallucination या non-deterministic response जैसी समस्याएँ कम हो सकती हैं
Mercury 2, agent tasks की तेज़ iteration को संभव बनाता है
एक बार की कोशिश कम सटीक हो सकती है, लेकिन कम execution time की वजह से इसे बहुत तेज़ी से सुधारा जा सकता है
उदाहरण के लिए, GPT-OSS 20B एक अकेले 3090 पर bs=64 में लगभग 2k tok/s तक पहुँचता है
मुझे अभी भी diffusion models पर पूरा भरोसा नहीं है
Google जैसी कंपनियों ने भी कोशिश की, लेकिन ज़्यादातर मामलों में वे Pareto frontier पर पीछे रहे
कीमत/प्रदर्शन तुलना लिंक देखें
समान गुणवत्ता के मानदंड पर Mercury, समान AR models से 5 गुना से अधिक तेज़ है
absolute intelligence अभी भी Opus या Gemini Pro से कम है, लेकिन inference speed के मामले में इसका बड़ा लाभ है
यह autoregressive transformer की तुलना में कहीं कम खोजा गया क्षेत्र है, इसलिए technical headroom बड़ा है
अगर Morph के Fast Apply जैसा “Mercury Edit” version आए, तो मैं ज़रूर आज़माना चाहूँगा
diffusion-आधारित approach बहुत दिलचस्प है
पारंपरिक transformer क्रमिक रूप से token बनाते हैं, जबकि diffusion पूरे output को बार-बार refine कर सकता है
अगर इसने latency समस्या हल कर ली है, तो यह जटिल reasoning tasks के लिए नई संभावनाएँ खोल सकता है
जानना चाहता हूँ कि क्या local hardware पर चल सकने वाला कोई open-weight diffusion LLM है
consumer GPU वातावरण में प्रदर्शन का अंतर खुद देखना चाहूँगा
Mercury 2 Car Wash Test में फेल हो गया
इसे general-purpose reasoning model की बजाय विशिष्ट उपयोग (जैसे coding agent) पर केंद्रित करना, और उसी क्षेत्र के SOTA models (Qwen3-Coder-Next आदि) से तुलना करना शायद बेहतर होगा
लंबा session चलाना पड़े तब भी accuracy ज़्यादा महत्वपूर्ण है
अगर यह मॉडल Talaas chip पर डाला जाए, तो क्या यह प्रति सेकंड 50,000 से अधिक token generate कर सकता है, यह जानना दिलचस्प होगा