- Anthropic और OpenAI ने अपने-अपने शीर्ष coding models के ‘fast mode’ पेश किए हैं, जिनसे inference speed में बड़ी बढ़ोतरी हुई है
- Anthropic ने उसी Opus 4.6 model का उपयोग करते हुए batch size घटाकर अधिकतम 2.5 गुना तेज token processing speed दी
- OpenAI ने Cerebras chip-आधारित नया model GPT-5.3-Codex-Spark पेश किया, जो प्रति सेकंड 1000 से अधिक tokens जनरेट करता है, लेकिन accuracy अपेक्षाकृत कम है
- दोनों approaches क्रमशः low-batch inference और ultra-large chip-आधारित in-memory inference जैसी बिल्कुल अलग technical principles पर आधारित हैं
- तेज inference तकनीकी रूप से प्रभावशाली है, लेकिन speed से अधिक accuracy महत्वपूर्ण है—इसलिए economics और practical usefulness अभी स्पष्ट नहीं हैं
Anthropic के Fast Mode की संरचना
- Anthropic का तरीका batch size घटाकर latency को न्यूनतम करने पर आधारित है
- GPU में मुख्य bottleneck memory transfer होता है, और कई users की requests को batching करने से throughput बढ़ता है, लेकिन waiting time भी बढ़ता है
- Fast mode ऐसा है जैसे user के request करते ही चल पड़ने वाली ‘तुरंत निकलने वाली बस’
- यह तरीका 6 गुना अधिक लागत पर 2.5 गुना तेज speed देता है
- batch wait time हट जाने से first token आने तक की latency कम हो जाती है
- लेकिन GPU का कुल throughput घट जाता है
- कुछ users ने कहा कि first token के बाद waiting time इतना बड़ा नहीं होता, और small batch का असर compute load घटने से execution speed बढ़ने के ज्यादा करीब है
OpenAI के Fast Mode की संरचना
- OpenAI ने Cerebras chip का उपयोग करते हुए पूरी तरह अलग approach अपनाई
- मौजूदा model की जगह GPT-5.3-Codex-Spark नाम का lightweight (distilled) model इस्तेमाल किया
- Spark मूल model जितना refined नहीं है, लेकिन 15 गुना से अधिक तेज inference speed हासिल करता है
- Cerebras chip 70 वर्ग इंच आकार की ultra-large wafer-scale chip है, जिसमें SRAM 44GB built-in है
- पूरे model को SRAM में लोड करके external memory access के बिना in-memory inference किया जाता है
- यह GPU के दर्जनों MB स्तर के SRAM की तुलना में बहुत बड़ा अंतर दिखाता है
- माना जाता है कि Spark model कई Cerebras chips में sharding करके resident रखा गया है, और यही configuration speed improvement का मुख्य कारण है
तकनीकी तुलना और मूल्यांकन
- Anthropic ने मौजूदा model को ज्यों का त्यों बनाए रखते हुए सिर्फ batch policy समायोजित की
- OpenAI ने नई hardware architecture और model design को जोड़कर अधिक बुनियादी performance improvement हासिल किया
- Cerebras chip पर model चलाना जटिल तकनीकी चुनौती है, और Spark model की training भी आसान काम नहीं है
- दोनों कंपनियों की approaches speed improvement के एक ही लक्ष्य को अलग-अलग technical paths से हासिल करने का उदाहरण हैं, और OpenAI का तरीका तकनीकी रूप से अधिक प्रभावशाली है
तेज inference का मतलब और सीमाएँ
- दोनों कंपनियों की घोषणाओं के बाद ‘fast AI inference’ अगली प्रतिस्पर्धी धुरी जैसा दिखता है, लेकिन वास्तव में इसमें रणनीतिक प्रतिक्रिया का स्वर अधिक मजबूत है
- Anthropic ने संभवतः OpenAI की घोषणा के जवाब में तेज़ी से प्रतिक्रिया दी
- OpenAI अभी Cerebras सहयोग के प्रयोगात्मक परिणाम सार्वजनिक करने के चरण में है
- तेज लेकिन कम refined models की वास्तविक उपयोगिता में सीमाएँ हैं
- users को model की गलतियों को संभालने में अधिक समय लग सकता है, इसलिए speed से ज्यादा accuracy महत्वपूर्ण रहती है
- फिर भी ऐसे ‘low-accuracy, high-speed inference’ models के AI systems के subcomponents के रूप में उपयोग की संभावना है
- उदाहरण: Claude Code में Haiku का उपयोग, OpenAI के Spark के internal integration की संभावना
कम्युनिटी चर्चा और अतिरिक्त अवलोकन
- Hacker News पर batching की performance characteristics और chips के बीच communication bottleneck पर कई तरह की राय सामने आई
- कुछ लोगों का कहना है कि continuous batching से waiting time लगभग खत्म हो जाता है
- अन्य लोगों ने तर्क दिया कि chips के बीच interconnect inference speed को प्रभावित करता है
- batch size और latency के बीच trade-off अब भी बना हुआ है
- Anthropic ने स्पष्ट किया कि first token latency अब भी धीमी हो सकती है, और OpenAI इसे websocket-आधारित persistent connection से कम करने की कोशिश कर रहा है
- कुल मिलाकर, तेज़ LLM inference की संरचना जटिल है और इसे किसी सरल model से समझाना मुश्किल है
1 टिप्पणियां
Hacker News की राय
लोग Anthropic के fast mode को गलत समझ रहे हैं। शायद नाम की वजह से
असल में यह ज़्यादा महंगा है, और कठिन समस्याओं पर ज़्यादा समझदारी से काम करता है।
इस पेपर का parallel distill and refine approach इस पर बिल्कुल फिट बैठता है।
इसमें कई paths को parallel में generate करने के बाद जल्दी distill और refine करके नतीजा दिया जाता है।
यह तरीका ज़्यादा tokens खर्च करता है, लेकिन इससे output ज़्यादा तेज़ और ज़्यादा स्मार्ट हो सकता है
speculative decoding का quality improvement से कोई लेना-देना नहीं है, और simple batching speed बढ़ाती है लेकिन cost कम करती है
Gemini Deepthink और GPT-5.2-pro भी इसी तरह का parallel inference करते हैं, लेकिन वे पूरे paths को अंत तक compute करने के बाद result को refine करते हैं
Cerebras chip की 44GB SRAM में पूरे model को memory पर लोड करके inference चलाने का idea दिलचस्प है
GPT-5.3-Codex-Spark का size single-chip memory से नहीं, बल्कि connect किए जा सकने वाले chips की संख्या से सीमित होता है
Cerebras 40B से बड़े models को भी ज़्यादा तेज़ support करता है, इसलिए Spark के GLM 4.7 (355B parameters, 32B active) के क़रीब होने की संभावना ज़्यादा है
Cerebras pricing page देखें
power efficiency के लिहाज़ से Groq, TPU, और Nvidia solutions बेहतर हैं
संभावना है कि Anthropic fast requests को सबसे नए hardware पर route करता हो
वह TPU, GPU जैसी कई पीढ़ियों के equipment चलाता है, और अनुमान है कि fast mode सिर्फ सबसे तेज़ machines पर process होता होगा
speculative decoding जैसी techniques पहले से इस्तेमाल हो रही हैं, इसलिए शायद batching improvement इसकी वजह नहीं है
लेख के आख़िरी दावे की तरह, speed से ज़्यादा accuracy महत्वपूर्ण है — यह बात अभी सही हो सकती है
लेकिन अगर OpenAI–Cerebras साझेदारी से Codex-5.3 जैसे बड़े models सीधे chip पर चलने लगें,
तो तेज़ और सटीक models संभव होंगे, और वे customer support जैसे कामों को replace करने की स्थिति में पहुँच सकते हैं
आगे चलकर अगर LLM-specific silicon आया, तो काफ़ी ज़्यादा efficient दौर आ सकता है
batching के इंतज़ार की समस्या continuous batching से पहले ही हल की जा चुकी है
इसी तकनीक की वजह से Claude Code को सस्ते में उपलब्ध कराया जा सका
संबंधित लेख
bus वाली analogy थोड़ी अजीब है। असल में fast mode batching में बड़ा हिस्सा लेकर throughput बढ़ाने का तरीका है
Anthropic के traffic scale को देखते हुए, batch लगभग तुरंत भर जाने चाहिए
यह जानना दिलचस्प है कि ChatGPT message भेजते ही लगभग तुरंत जवाब कैसे दे देता है
अगर batching का इंतज़ार नहीं करना पड़ता, तो वजह या तो बहुत ज़्यादा traffic हो सकती है, या फिर input को WebSocket के ज़रिए GPU तक पहले से stream किया जाता होगा
कई लोग SRAM और HBM के अंतर को लेकर भ्रमित रहते हैं
HBM, DRAM-आधारित है इसलिए capacity बड़ी होती है लेकिन वह धीमी है, जबकि SRAM बहुत तेज़ है लेकिन महंगी है
Cerebras एक ही chip में 44GB की विशाल SRAM integrate करके बेहद extreme speed हासिल करता है
लेकिन design सरल नहीं है, इसलिए असली performance कई factors पर निर्भर करती है
संभव है OpenAI ने model को 44GB के हिसाब से design किया हो, या कई chips को chain के रूप में connect किया हो
real-time voice AI में latency सबसे अहम है
इंसानों को 800ms से ज़्यादा का wait awkward लगता है, इसलिए LLM inference के लिए लगभग 400~500ms का ही समय मिलता है
Sonnet की speed (80 tok/s) पर एक sentence भी मुश्किल है, लेकिन Cerebras या Groq की speed (1000 tok/s से ज़्यादा) पर 400 tokens से अधिक संभव हैं
इसलिए छोटे models को domain-specific तरीके से tune करना बड़े models से ज़्यादा efficient हो सकता है
कई छोटे agents को मिलाकर इस्तेमाल करने वाला council approach speed और quality दोनों पाने का तरीका है
साथ ही speculative decoding से अक्सर इस्तेमाल होने वाले responses का पहले से अनुमान लगाकर TTS तैयार कर लिया जाए, तो 60% बातचीत में 200ms से कम response संभव है