2.5 गुना तेज और 6 गुना महंगा Claude Opus 4.6 Fast Mode पेश
(x.com/claudeai)- उसी Opus 4.6 मॉडल का उपयोग करते हुए API कॉन्फ़िगरेशन बदलकर latency को न्यूनतम किया गया
- तेज iteration, live debugging आदि जैसे समय-संवेदनशील interactive कार्यों के लिए अनुकूलित
- CLI या VS Code extension में
/fastदर्ज करके on·off toggle करें, या user settings फ़ाइल में"fastMode": trueके साथ हमेशा सक्रिय रखें - सक्रिय होने पर अपने-आप Opus 4.6 पर स्विच हो जाता है, और status message व
↯icon दिखता है - Fast Mode में मानक Opus 4.6 की तुलना में token की प्रति-इकाई कीमत अधिक है
- 200K से कम context में input $30/MTok, output $150/MTok लागू (मानक में input $5, output $25)
- 200K से अधिक context में input $60/MTok, output $225/MTok लागू (मानक में input $10, output $37.5)
- 2/16 तक 50% छूट लागू
- Fast Mode के लिए अलग rate limit लागू होती है, और सीमा पार होने या credit खत्म होने पर अपने-आप मानक मोड में fallback हो जाता है
- Fast Mode को research preview के रूप में उपलब्ध कराया गया है, इसलिए फीचर और कीमत बदल सकती है
3 टिप्पणियां
Hacker News की राय
गति 2.5 गुना बढ़ी है, लेकिन कीमत 6 गुना है
यह काफ़ी महंगा प्रीमियम है। खासकर Gemini 3 Pro की तुलना में, जिसकी token speed Opus 4.6 के मुकाबले प्रति सेकंड 1.8 गुना है, जबकि कीमत लगभग 0.45 गुना है
हालांकि coding performance कमजोर है, और Gemini CLI में अभी भी Claude Code जैसी agent capability नहीं है
आखिरकार यह बड़े customers (whales) से तेज़ी से पैसा खर्च करवाने वाली दिलचस्प संरचना है
अगर slow mode होता तो अच्छा रहता। यानी कम लागत वाले spot GPU पर jobs को scheduled run करने की सुविधा
मैं अक्सर lunch time या दफ़्तर से निकलने से पहले process चला देता हूँ, इसलिए उसका तुरंत चलना ज़रूरी नहीं होता। idle GPU पर सस्ते में चल जाए तो काफ़ी है
इस mode में subscription plan की बची हुई usage इस्तेमाल नहीं की जा सकती
fast mode usage का बिल हमेशा अलग से बनता है, और plan में शामिल tokens से अलग, पहले token से ही extra charges लगते हैं
अभी $50 का free extra usage event चल रहा है
ccusage tool से देखें to API मानक रोज़ का खर्च $200 तक जा सकता है। 6 गुना शुल्क हो तो $50 सिर्फ 20 मिनट में ख़त्म हो जाएगा
मेरे लिए यह feature बहुत ज़्यादा उपयोगी नहीं लगता
bottleneck model नहीं, बल्कि LLM द्वारा बनाए गए code को समझने की मेरी speed है
“Fast mode को कब इस्तेमाल करना है” वाले दस्तावेज़ को देखें,
लगता है कि इसी तरह का विभाजन सोचा गया है। लेकिन pricing structure वाजिब है या नहीं, इस पर सवाल है
जो लोग cost-effectiveness को प्राथमिकता देते हैं, वे parallel execution से काम चलाएँगे
मेरा सामान्य workflow planning phase और implementation phase में बँटा होता है
fast mode planning phase में सबसे उपयोगी लगती है
सिर्फ “context reset के बाद fast mode में run” ही नहीं,
“context reset के बाद normal speed पर run” वाला option भी होना चाहिए
exploratory agents धीमे हों तो भी ठीक है, लेकिन अगर planning को तेज़ी से iterate किया जा सके तो efficiency काफ़ी बढ़ेगी
सामान्य Pro account असल में slow mode ही है
मैं अभी Kimi2.5 CLI को test कर रहा हूँ, यह तेज़ भी है और web interface भी देता है, इसलिए VPN environment में भी remotely इस्तेमाल किया जा सकता है
अब तो लगता है Hacker News को सीधे Claude marketing blog पर CNAME कर देना चाहिए
मैं जानना चाहता हूँ कि speed improvement की वजह क्या है। सिर्फ़ priority adjustment से यह मुश्किल लगता है
यह नया hardware (Groq, Cerebras आदि) भी हो सकता है। कुछ cloud पर ही उपलब्ध होने से यह संभव लगता है
आगे चलकर LLM providers “speed vs intelligence” को अलग-अलग करके price करेंगे या नहीं, यह भी दिलचस्प है
batch बड़ा करने से parallelism बढ़ता है, लेकिन individual request की speed घटती है.
SemiAnalysis InferenceMAX™ graph को देखें तो GPU प्रति throughput और token speed के बीच Pareto curve मौजूद है
“Claude ने C compiler बनाया” वाली पोस्ट देखकर, Anthropic और OpenAI जैसे labs की internal inference speed को लेकर जिज्ञासा हुई
inference speed जितनी तेज़ होगी, software market पर क़ब्ज़ा करना उतना आसान होगा
अगर Anthropic ने 2.5 गुना speed public की है, तो हो सकता है कि अंदरूनी तौर पर वे 5~10 गुना तेज़ mode इस्तेमाल कर रहे हों
ऐसे भविष्य में जहाँ agents एक-दूसरे से negotiate करेंगे, वहाँ सबसे तेज़ compute power वाला विजेता होगा
संभव है कि कुछ servers ने individual request speed बढ़ाने के लिए total throughput की कुर्बानी दी हो।
शायद यह नई पीढ़ी के hardware पर भी चल रहा हो
हक़ीक़त में शायद उन्होंने parallelization से 2.5 गुना speed improvement ही हासिल किया है
"अगला task कौन-सा अच्छा रहेगा?"
लगता है कि एक बार में $3.46 का अतिरिक्त charge लग रहा है, और subscription model में यह cover नहीं होता।
कुछ समय पहले जो $50 दिए थे, शायद यह ट्राय करने के लिए ही दिए थे lol
अब लगता है AI धीरे-धीरे सिर्फ अमीर लोग ही इस्तेमाल करेंगे ...