13 पॉइंट द्वारा xguru 2026-02-08 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • उसी Opus 4.6 मॉडल का उपयोग करते हुए API कॉन्फ़िगरेशन बदलकर latency को न्यूनतम किया गया
  • तेज iteration, live debugging आदि जैसे समय-संवेदनशील interactive कार्यों के लिए अनुकूलित
  • CLI या VS Code extension में /fast दर्ज करके on·off toggle करें, या user settings फ़ाइल में "fastMode": true के साथ हमेशा सक्रिय रखें
  • सक्रिय होने पर अपने-आप Opus 4.6 पर स्विच हो जाता है, और status message व icon दिखता है
  • Fast Mode में मानक Opus 4.6 की तुलना में token की प्रति-इकाई कीमत अधिक है
    • 200K से कम context में input $30/MTok, output $150/MTok लागू (मानक में input $5, output $25)
    • 200K से अधिक context में input $60/MTok, output $225/MTok लागू (मानक में input $10, output $37.5)
    • 2/16 तक 50% छूट लागू
  • Fast Mode के लिए अलग rate limit लागू होती है, और सीमा पार होने या credit खत्म होने पर अपने-आप मानक मोड में fallback हो जाता है
  • Fast Mode को research preview के रूप में उपलब्ध कराया गया है, इसलिए फीचर और कीमत बदल सकती है

3 टिप्पणियां

 
GN⁺ 2026-02-09
Hacker News की राय
  • गति 2.5 गुना बढ़ी है, लेकिन कीमत 6 गुना है
    यह काफ़ी महंगा प्रीमियम है। खासकर Gemini 3 Pro की तुलना में, जिसकी token speed Opus 4.6 के मुकाबले प्रति सेकंड 1.8 गुना है, जबकि कीमत लगभग 0.45 गुना है
    हालांकि coding performance कमजोर है, और Gemini CLI में अभी भी Claude Code जैसी agent capability नहीं है

    • अगर token के हिसाब से कीमत 6 गुना है, तो प्रति सेकंड के हिसाब से यह 15 गुना महंगी है। ऊपर से यह API मानक है, और subscription plans इससे काफ़ी सस्ते हैं
      आखिरकार यह बड़े customers (whales) से तेज़ी से पैसा खर्च करवाने वाली दिलचस्प संरचना है
    • Gemini frontend काम के लिए काफ़ी अच्छा है
    • Gemini CLI की जगह OpenCode भी इस्तेमाल किया जा सकता है
  • अगर slow mode होता तो अच्छा रहता। यानी कम लागत वाले spot GPU पर jobs को scheduled run करने की सुविधा
    मैं अक्सर lunch time या दफ़्तर से निकलने से पहले process चला देता हूँ, इसलिए उसका तुरंत चलना ज़रूरी नहीं होता। idle GPU पर सस्ते में चल जाए तो काफ़ी है

    • Batches API standard API की तुलना में 50% शुल्क पर चलता है
    • OpenAI ने भी पहले ऐसा ही batch processing feature दिया था
    • मैं भी यही सोचता हूँ। अगर रात में 50% शुल्क पर चला सकें तो अच्छा होगा। लेकिन Claude Code में अभी इसका integration नहीं है
    • पहले से discounted MAX plan असल में slow mode की तरह काम करता है
    • अगर समय संवेदनशील नहीं है, तो GPU की जगह CPU/RAM पर चलाना भी एक तरीका है
  • इस mode में subscription plan की बची हुई usage इस्तेमाल नहीं की जा सकती
    fast mode usage का बिल हमेशा अलग से बनता है, और plan में शामिल tokens से अलग, पहले token से ही extra charges लगते हैं
    अभी $50 का free extra usage event चल रहा है

    • आख़िरकार इसका उपयोग बहुत कम है। Claude Max इस्तेमाल करने पर भी TDD के दौरान usage manage करनी पड़ती है
      ccusage tool से देखें to API मानक रोज़ का खर्च $200 तक जा सकता है। 6 गुना शुल्क हो तो $50 सिर्फ 20 मिनट में ख़त्म हो जाएगा
  • मेरे लिए यह feature बहुत ज़्यादा उपयोगी नहीं लगता
    bottleneck model नहीं, बल्कि LLM द्वारा बनाए गए code को समझने की मेरी speed है

    • बहुत से लोग असली code को ध्यान से देखते भी नहीं हैं। आजकल की दुनिया काफ़ी दिलचस्प है
    • अगर speed काफ़ी तेज़ हो जाए तो मैं code पढ़ने की बजाय सवाल पूछने वाले तरीके से इसे इस्तेमाल करूँगा, लेकिन अभी वह स्तर नहीं आया है
    • जो लोग code को सिर्फ़ ‘feeling’ से लिखते हैं, वे समझ से ज़्यादा result पर ध्यान देते हैं
    • अगर test harness और verification procedure अच्छी तरह बनाए जाएँ, तो code को सीधे देखे बिना भी उस पर भरोसा किया जा सकता है
  • “Fast mode को कब इस्तेमाल करना है” वाले दस्तावेज़ को देखें,

    • लंबे समय तक चलने वाले agent या background tasks के लिए normal mode
    • human-in-the-loop scenarios के लिए fast mode
      लगता है कि इसी तरह का विभाजन सोचा गया है। लेकिन pricing structure वाजिब है या नहीं, इस पर सवाल है
    • Opus की API pricing पहले से ही महंगी है, इसलिए यह आख़िर में high-end service ही बनी रह सकती है
      जो लोग cost-effectiveness को प्राथमिकता देते हैं, वे parallel execution से काम चलाएँगे
  • मेरा सामान्य workflow planning phase और implementation phase में बँटा होता है
    fast mode planning phase में सबसे उपयोगी लगती है
    सिर्फ “context reset के बाद fast mode में run” ही नहीं,
    “context reset के बाद normal speed पर run” वाला option भी होना चाहिए
    exploratory agents धीमे हों तो भी ठीक है, लेकिन अगर planning को तेज़ी से iterate किया जा सके तो efficiency काफ़ी बढ़ेगी

  • सामान्य Pro account असल में slow mode ही है
    मैं अभी Kimi2.5 CLI को test कर रहा हूँ, यह तेज़ भी है और web interface भी देता है, इसलिए VPN environment में भी remotely इस्तेमाल किया जा सकता है

  • अब तो लगता है Hacker News को सीधे Claude marketing blog पर CNAME कर देना चाहिए

    • फिर simonw के self-promotion posts छूट जाएँगे
    • सच कहें तो OpenAI से जुड़ी posts इससे कहीं ज़्यादा हैं। नाम बदलकर AINews रखना शायद ज़्यादा ठीक होगा
  • मैं जानना चाहता हूँ कि speed improvement की वजह क्या है। सिर्फ़ priority adjustment से यह मुश्किल लगता है
    यह नया hardware (Groq, Cerebras आदि) भी हो सकता है। कुछ cloud पर ही उपलब्ध होने से यह संभव लगता है
    आगे चलकर LLM providers “speed vs intelligence” को अलग-अलग करके price करेंगे या नहीं, यह भी दिलचस्प है

    • GPU में batching और multi-stream बढ़ाकर token throughput बढ़ाया जाता है
      batch बड़ा करने से parallelism बढ़ता है, लेकिन individual request की speed घटती है.
      SemiAnalysis InferenceMAX™ graph को देखें तो GPU प्रति throughput और token speed के बीच Pareto curve मौजूद है
    • hardware upgrade या traffic priority adjustment के अलावा, batch window घटाना या KV cache को GPU पर बनाए रखना जैसी कई tuning भी संभव हैं
    • यह सिर्फ़ queue को bypass करने वाला priority-based model भी हो सकता है। क्योंकि पैसा कमाने का यह आसान तरीका है
    • हो सकता है पहले इसे internal use के लिए बनाया गया हो। असल में यह सिर्फ़ simple priority adjustment हो, लेकिन शायद उन्होंने सोचा हो कि external customers ज़्यादा नहीं होंगे
    • या फिर Nvidia GB300(Blackwell) जैसे नए GPU इस्तेमाल किए जा रहे हों
  • “Claude ने C compiler बनाया” वाली पोस्ट देखकर, Anthropic और OpenAI जैसे labs की internal inference speed को लेकर जिज्ञासा हुई
    inference speed जितनी तेज़ होगी, software market पर क़ब्ज़ा करना उतना आसान होगा
    अगर Anthropic ने 2.5 गुना speed public की है, तो हो सकता है कि अंदरूनी तौर पर वे 5~10 गुना तेज़ mode इस्तेमाल कर रहे हों
    ऐसे भविष्य में जहाँ agents एक-दूसरे से negotiate करेंगे, वहाँ सबसे तेज़ compute power वाला विजेता होगा

    • Anthropic ने कहा है कि वे पहले से internal use में मौजूद 2.5 गुना mode को official API के रूप में public कर रहे हैं
      संभव है कि कुछ servers ने individual request speed बढ़ाने के लिए total throughput की कुर्बानी दी हो।
      शायद यह नई पीढ़ी के hardware पर भी चल रहा हो
    • “वे 10 गुना performance छिपाकर बैठे हैं” यह बात तर्कसंगत नहीं लगती। SaaS कंपनियों के पास market competition के दौरान इतनी गुंजाइश नहीं होती
      हक़ीक़त में शायद उन्होंने parallelization से 2.5 गुना speed improvement ही हासिल किया है
    • यह ऐसा भी लग सकता है कि base speed को जानबूझकर धीमा रखा गया हो ताकि लोग fast mode पर पैसा खर्च करें, यानी एक तरह का speed hostage model
 
kimjoin2 2026-02-09

"अगला task कौन-सा अच्छा रहेगा?"
लगता है कि एक बार में $3.46 का अतिरिक्त charge लग रहा है, और subscription model में यह cover नहीं होता।
कुछ समय पहले जो $50 दिए थे, शायद यह ट्राय करने के लिए ही दिए थे lol

 
elbum 2026-02-08

अब लगता है AI धीरे-धीरे सिर्फ अमीर लोग ही इस्तेमाल करेंगे ...