तेज़ LLM inference की दो अलग-अलग तकनीकें

(seangoedecke.com)

6 पॉइंट द्वारा GN⁺ 2026-02-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Anthropic और OpenAI ने अपने-अपने शीर्ष coding models के ‘fast mode’ पेश किए हैं, जिनसे inference speed में बड़ी बढ़ोतरी हुई है
Anthropic ने उसी Opus 4.6 model का उपयोग करते हुए batch size घटाकर अधिकतम 2.5 गुना तेज token processing speed दी
OpenAI ने Cerebras chip-आधारित नया model GPT-5.3-Codex-Spark पेश किया, जो प्रति सेकंड 1000 से अधिक tokens जनरेट करता है, लेकिन accuracy अपेक्षाकृत कम है
दोनों approaches क्रमशः low-batch inference और ultra-large chip-आधारित in-memory inference जैसी बिल्कुल अलग technical principles पर आधारित हैं
तेज inference तकनीकी रूप से प्रभावशाली है, लेकिन speed से अधिक accuracy महत्वपूर्ण है—इसलिए economics और practical usefulness अभी स्पष्ट नहीं हैं

Anthropic के Fast Mode की संरचना

Anthropic का तरीका batch size घटाकर latency को न्यूनतम करने पर आधारित है
- GPU में मुख्य bottleneck memory transfer होता है, और कई users की requests को batching करने से throughput बढ़ता है, लेकिन waiting time भी बढ़ता है
- Fast mode ऐसा है जैसे user के request करते ही चल पड़ने वाली ‘तुरंत निकलने वाली बस’
यह तरीका 6 गुना अधिक लागत पर 2.5 गुना तेज speed देता है
- batch wait time हट जाने से first token आने तक की latency कम हो जाती है
- लेकिन GPU का कुल throughput घट जाता है
कुछ users ने कहा कि first token के बाद waiting time इतना बड़ा नहीं होता, और small batch का असर compute load घटने से execution speed बढ़ने के ज्यादा करीब है

OpenAI के Fast Mode की संरचना

OpenAI ने Cerebras chip का उपयोग करते हुए पूरी तरह अलग approach अपनाई
- मौजूदा model की जगह GPT-5.3-Codex-Spark नाम का lightweight (distilled) model इस्तेमाल किया
- Spark मूल model जितना refined नहीं है, लेकिन 15 गुना से अधिक तेज inference speed हासिल करता है
Cerebras chip 70 वर्ग इंच आकार की ultra-large wafer-scale chip है, जिसमें SRAM 44GB built-in है
- पूरे model को SRAM में लोड करके external memory access के बिना in-memory inference किया जाता है
- यह GPU के दर्जनों MB स्तर के SRAM की तुलना में बहुत बड़ा अंतर दिखाता है
माना जाता है कि Spark model कई Cerebras chips में sharding करके resident रखा गया है, और यही configuration speed improvement का मुख्य कारण है

तकनीकी तुलना और मूल्यांकन

Anthropic ने मौजूदा model को ज्यों का त्यों बनाए रखते हुए सिर्फ batch policy समायोजित की
OpenAI ने नई hardware architecture और model design को जोड़कर अधिक बुनियादी performance improvement हासिल किया
Cerebras chip पर model चलाना जटिल तकनीकी चुनौती है, और Spark model की training भी आसान काम नहीं है
दोनों कंपनियों की approaches speed improvement के एक ही लक्ष्य को अलग-अलग technical paths से हासिल करने का उदाहरण हैं, और OpenAI का तरीका तकनीकी रूप से अधिक प्रभावशाली है

तेज inference का मतलब और सीमाएँ

दोनों कंपनियों की घोषणाओं के बाद ‘fast AI inference’ अगली प्रतिस्पर्धी धुरी जैसा दिखता है, लेकिन वास्तव में इसमें रणनीतिक प्रतिक्रिया का स्वर अधिक मजबूत है
- Anthropic ने संभवतः OpenAI की घोषणा के जवाब में तेज़ी से प्रतिक्रिया दी
- OpenAI अभी Cerebras सहयोग के प्रयोगात्मक परिणाम सार्वजनिक करने के चरण में है
तेज लेकिन कम refined models की वास्तविक उपयोगिता में सीमाएँ हैं
- users को model की गलतियों को संभालने में अधिक समय लग सकता है, इसलिए speed से ज्यादा accuracy महत्वपूर्ण रहती है
फिर भी ऐसे ‘low-accuracy, high-speed inference’ models के AI systems के subcomponents के रूप में उपयोग की संभावना है
- उदाहरण: Claude Code में Haiku का उपयोग, OpenAI के Spark के internal integration की संभावना

कम्युनिटी चर्चा और अतिरिक्त अवलोकन

Hacker News पर batching की performance characteristics और chips के बीच communication bottleneck पर कई तरह की राय सामने आई
- कुछ लोगों का कहना है कि continuous batching से waiting time लगभग खत्म हो जाता है
- अन्य लोगों ने तर्क दिया कि chips के बीच interconnect inference speed को प्रभावित करता है
batch size और latency के बीच trade-off अब भी बना हुआ है
Anthropic ने स्पष्ट किया कि first token latency अब भी धीमी हो सकती है, और OpenAI इसे websocket-आधारित persistent connection से कम करने की कोशिश कर रहा है
कुल मिलाकर, तेज़ LLM inference की संरचना जटिल है और इसे किसी सरल model से समझाना मुश्किल है

1 टिप्पणियां

GN⁺ 2026-02-16

Hacker News की राय

लोग Anthropic के fast mode को गलत समझ रहे हैं। शायद नाम की वजह से
असल में यह ज़्यादा महंगा है, और कठिन समस्याओं पर ज़्यादा समझदारी से काम करता है।
इस पेपर का parallel distill and refine approach इस पर बिल्कुल फिट बैठता है।
इसमें कई paths को parallel में generate करने के बाद जल्दी distill और refine करके नतीजा दिया जाता है।
यह तरीका ज़्यादा tokens खर्च करता है, लेकिन इससे output ज़्यादा तेज़ और ज़्यादा स्मार्ट हो सकता है
speculative decoding का quality improvement से कोई लेना-देना नहीं है, और simple batching speed बढ़ाती है लेकिन cost कम करती है
Gemini Deepthink और GPT-5.2-pro भी इसी तरह का parallel inference करते हैं, लेकिन वे पूरे paths को अंत तक compute करने के बाद result को refine करते हैं
- Anthropic के आधिकारिक docs के अनुसार fast mode Opus 4.6 model वही का वही है, बस API settings अलग हैं ताकि speed को प्राथमिकता दी जा सके। Quality समान है
Cerebras chip की 44GB SRAM में पूरे model को memory पर लोड करके inference चलाने का idea दिलचस्प है
GPT-5.3-Codex-Spark का size single-chip memory से नहीं, बल्कि connect किए जा सकने वाले chips की संख्या से सीमित होता है
Cerebras 40B से बड़े models को भी ज़्यादा तेज़ support करता है, इसलिए Spark के GLM 4.7 (355B parameters, 32B active) के क़रीब होने की संभावना ज़्यादा है
Cerebras pricing page देखें
- model को shard करने पर speed बहुत धीमी हो जाती है। wafer-scale chip का फायदा on-chip memory bandwidth है, और अगर वही छोड़ दें तो फिर उसका मतलब नहीं रहता
  power efficiency के लिहाज़ से Groq, TPU, और Nvidia solutions बेहतर हैं
- Cerebras 40B से बड़े models को भी तेज़ चला सकता है, इस बात को देखते हुए मूल लेख का दावा भरोसेमंद नहीं लगता
- chips को serial में connect करने से सिर्फ latency बढ़ती है, throughput कम नहीं होता
- Groq chips की तरह SRAM छोटा होने पर भी बड़े models चलाए जा सकते हैं। इसलिए chip interconnect का मतलब हमेशा speed drop नहीं होता
संभावना है कि Anthropic fast requests को सबसे नए hardware पर route करता हो
वह TPU, GPU जैसी कई पीढ़ियों के equipment चलाता है, और अनुमान है कि fast mode सिर्फ सबसे तेज़ machines पर process होता होगा
- GB200 की memory bandwidth H100 से 2.4 गुना तेज़ है। इसलिए संभावना है कि fast mode बस hardware का फर्क हो
  speculative decoding जैसी techniques पहले से इस्तेमाल हो रही हैं, इसलिए शायद batching improvement इसकी वजह नहीं है
लेख के आख़िरी दावे की तरह, speed से ज़्यादा accuracy महत्वपूर्ण है — यह बात अभी सही हो सकती है
लेकिन अगर OpenAI–Cerebras साझेदारी से Codex-5.3 जैसे बड़े models सीधे chip पर चलने लगें,
तो तेज़ और सटीक models संभव होंगे, और वे customer support जैसे कामों को replace करने की स्थिति में पहुँच सकते हैं
- लेकिन 40GB SRAM के साथ 5~7TB स्तर के model चलाने के लिए कई megawatt की power चाहिए होगी। Cerebras की power consumption बहुत ज़्यादा है
  आगे चलकर अगर LLM-specific silicon आया, तो काफ़ी ज़्यादा efficient दौर आ सकता है
- अगर अब भी AI-generated data पर training से quality गिरने की समस्या हल नहीं हुई है, तो model updates करना धीरे-धीरे और कठिन होता जाएगा
batching के इंतज़ार की समस्या continuous batching से पहले ही हल की जा चुकी है
इसी तकनीक की वजह से Claude Code को सस्ते में उपलब्ध कराया जा सका
संबंधित लेख
bus वाली analogy थोड़ी अजीब है। असल में fast mode batching में बड़ा हिस्सा लेकर throughput बढ़ाने का तरीका है
Anthropic के traffic scale को देखते हुए, batch लगभग तुरंत भर जाने चाहिए
यह जानना दिलचस्प है कि ChatGPT message भेजते ही लगभग तुरंत जवाब कैसे दे देता है
अगर batching का इंतज़ार नहीं करना पड़ता, तो वजह या तो बहुत ज़्यादा traffic हो सकती है, या फिर input को WebSocket के ज़रिए GPU तक पहले से stream किया जाता होगा
कई लोग SRAM और HBM के अंतर को लेकर भ्रमित रहते हैं
HBM, DRAM-आधारित है इसलिए capacity बड़ी होती है लेकिन वह धीमी है, जबकि SRAM बहुत तेज़ है लेकिन महंगी है
Cerebras एक ही chip में 44GB की विशाल SRAM integrate करके बेहद extreme speed हासिल करता है
लेकिन design सरल नहीं है, इसलिए असली performance कई factors पर निर्भर करती है
- Nvidia का 80GB HBM external memory है, जबकि Cerebras का 44GB internal SRAM है
  संभव है OpenAI ने model को 44GB के हिसाब से design किया हो, या कई chips को chain के रूप में connect किया हो
real-time voice AI में latency सबसे अहम है
इंसानों को 800ms से ज़्यादा का wait awkward लगता है, इसलिए LLM inference के लिए लगभग 400~500ms का ही समय मिलता है
Sonnet की speed (80 tok/s) पर एक sentence भी मुश्किल है, लेकिन Cerebras या Groq की speed (1000 tok/s से ज़्यादा) पर 400 tokens से अधिक संभव हैं
इसलिए छोटे models को domain-specific तरीके से tune करना बड़े models से ज़्यादा efficient हो सकता है
कई छोटे agents को मिलाकर इस्तेमाल करने वाला council approach speed और quality दोनों पाने का तरीका है
साथ ही speculative decoding से अक्सर इस्तेमाल होने वाले responses का पहले से अनुमान लगाकर TTS तैयार कर लिया जाए, तो 60% बातचीत में 200ms से कम response संभव है
- OpenAI ही एकमात्र बड़ा research lab लगता है जो voice models पर फोकस कर रहा है, इसलिए संभव है कि इस दिशा में वही आगे बढ़े

तेज़ LLM inference की दो अलग-अलग तकनीकें

Anthropic के Fast Mode की संरचना

OpenAI के Fast Mode की संरचना

तकनीकी तुलना और मूल्यांकन

तेज inference का मतलब और सीमाएँ

कम्युनिटी चर्चा और अतिरिक्त अवलोकन

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय