• 2026 मार्च की शुरुआत में Claude Code का cache TTL 1 घंटे से बदलकर 5 मिनट कर दिया गया, और एक ही usage pattern में भी server-side configuration के अंतर के कारण यह बदलाव देखा गया
  • TTL घटने से cache regeneration cost 20~32% बढ़ गई और लंबे session में quota consumption तेज़ी से बढ़ा
  • विश्लेषण के अनुसार, model के हिसाब से लगभग 17% अतिरिक्त लागत आई, और कुछ users 5-घंटे quota limit तक पहुँचने लगे
  • Anthropic ने बताया कि 6 मार्च का बदलाव एक जानबूझकर किया गया कदम था, और request के अनुसार अलग-अलग TTL लागू करके कुल लागत घटाने का लक्ष्य था
  • community ने लागत वृद्धि, transparency की कमी, और पहले से सूचना न देने की आलोचना की और TTL setting में user choice सुनिश्चित करने की मांग की

Cache TTL बदलाव से लागत और quota समस्या की रिपोर्ट

  • विश्लेषण के अनुसार 2026 मार्च की शुरुआत में Anthropic के Claude Code cache TTL का default 1 घंटे से बदलकर 5 मिनट कर दिया गया
    • 11 जनवरी 2026 से 11 अप्रैल तक के 119,866 API call data points के आधार पर विश्लेषण किया गया
    • 6 मार्च से 8 मार्च के बीच 5-मिनट TTL फिर से दिखाई देने लगा और 1-घंटे TTL धीरे-धीरे गायब हो गया
    • यह एक ही client version और एक ही usage pattern में हुआ, इसलिए इसे server-side setting change के रूप में पहचाना गया
  • TTL बदलाव के कारण cache creation cost 20~32% बढ़ी, और subscription users की quota consumption में तेज़ उछाल देखा गया
    • 5-मिनट TTL में यदि session 5 मिनट से अधिक रुक जाए, तो cache expire हो जाता है और पूरा context फिर से upload करना पड़ता है
    • cache regeneration, read की तुलना में अधिकतम 12.5 गुना महंगी है, और लंबे coding session में इसकी लागत जमा होती जाती है
    • फरवरी में, जब 1-घंटे TTL बना हुआ था, waste rate 1.1% था, लेकिन मार्च के बाद यह 15~53% तक उछल गया
  • लागत विश्लेषण के नतीजे

    • claude-sonnet-4-6 model: कुल लागत $5,561.17 → 1-घंटे TTL के आधार पर $4,612.09 (लगभग 17.1% अतिरिक्त खर्च)
    • claude-opus-4-6 model: कुल लागत $9,268.97 → 1-घंटे TTL के आधार पर $7,687.17 (लगभग 17.1% अतिरिक्त खर्च)
    • अलग-अलग model में waste का लगभग समान अनुपात लगातार दिखाई दिया
  • quota पर प्रभाव

    • cache creation tokens quota में पूरी तरह जोड़े जाते हैं, जबकि cache read कम weight के साथ गिने जाते हैं
    • मार्च के बाद subscription users पहली बार 5-घंटे quota limit तक पहुँचने लगे

Anthropic का आधिकारिक जवाब

  • बदलाव स्वीकार किया: 6 मार्च का बदलाव जानबूझकर किया गया कदम था और यह cache optimization work का हिस्सा था
    • इसे request type के अनुसार अलग-अलग TTL लागू करने के लिए design किया गया है, और कोई single global default मौजूद नहीं है
    • यदि सभी requests पर 1-घंटे TTL लागू किया जाए, तो उल्टा लागत बढ़ सकती है
    • 5-मिनट TTL उन requests में अधिक efficient है जिनका reuse नहीं होता, और सभी requests के मिश्रण के आधार पर कुल लागत बचत होती है
  • bug fix: v2.1.90 में उस client bug को ठीक किया गया जिसमें subscription quota पूरी तरह खत्म कर चुके session, session खत्म होने तक 5-मिनट TTL पर fixed हो जाते थे
  • मांगों पर जवाब
    1. बदलाव हुआ था, और इसे 6 मार्च को जानबूझकर लागू किया गया
    2. TTL request के अनुसार dynamically चुना जाता है, कोई global default नहीं है
    3. 1-घंटे TTL को default के रूप में restore करने या setting option देने की कोई योजना नहीं है
    4. cache read token quota accounting के तरीके पर अलग issue में आगे जानकारी दी जाएगी

community की प्रतिक्रिया

  • कई users ने लागत बढ़ने और usability घटने की ओर इशारा करते हुए असंतोष जताया

    • कई लोगों का कहना था, “5-मिनट TTL असल में session को हर 5 मिनट में restart करने जैसा बना देता है, जिससे productivity घटती है”
    • यह भी कहा गया, “subscription users पहले ही शुल्क advance में दे चुके हैं, लेकिन TTL बदलाव से वास्तविक usable time कम हो गया”
    • “user cost को प्रभावित करने वाले ऐसे बदलावों की पहले से घोषणा जरूरी है” जैसी मांगें लगातार उठीं
  • कुछ users ने कहा कि यह API users के लिए positive change है, लेकिन दूसरे users ने जवाब दिया कि “API में तो पहले से 5-मिनट TTL default था”

  • transparency की कमी को लेकर आलोचना केंद्रित रही

    • “cost-related infrastructure बदलावों के लिए बाद की सफाई नहीं, पहले की सूचना चाहिए”
    • “ऐसे ‘silent changes’ भरोसे को नुकसान पहुँचाते हैं और users पर समस्या की वजह खुद ढूंढने का बोझ डालते हैं”
  • documentation record के अनुसार default cache 5-मिनट TTL है, और 1-घंटे TTL अतिरिक्त लागत वाले option के रूप में दिया जाता है

    • जनवरी 2026 के आधिकारिक documents में भी यही विवरण देखा गया

निष्कर्ष

  • 6 मार्च 2026 को Anthropic ने Claude Code की cache TTL policy को 1 घंटे से 5 मिनट में बदल दिया
  • कंपनी ने इसे cost optimization के लिए किया गया जानबूझकर समायोजन बताया, लेकिन users ने लागत वृद्धि, quota exhaustion, और transparency की कमी को समस्या बताया
  • community अब आगे TTL setting में user choice और policy बदलावों की अग्रिम सूचना की मांग कर रही है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.