Anthropic ने 6 मार्च 2026 को cache TTL को 1 घंटे से घटाकर 5 मिनट किया
(github.com/anthropics)- 2026 मार्च की शुरुआत में Claude Code का cache TTL 1 घंटे से बदलकर 5 मिनट कर दिया गया, और एक ही usage pattern में भी server-side configuration के अंतर के कारण यह बदलाव देखा गया
- TTL घटने से cache regeneration cost 20~32% बढ़ गई और लंबे session में quota consumption तेज़ी से बढ़ा
- विश्लेषण के अनुसार, model के हिसाब से लगभग 17% अतिरिक्त लागत आई, और कुछ users 5-घंटे quota limit तक पहुँचने लगे
- Anthropic ने बताया कि 6 मार्च का बदलाव एक जानबूझकर किया गया कदम था, और request के अनुसार अलग-अलग TTL लागू करके कुल लागत घटाने का लक्ष्य था
- community ने लागत वृद्धि, transparency की कमी, और पहले से सूचना न देने की आलोचना की और TTL setting में user choice सुनिश्चित करने की मांग की
Cache TTL बदलाव से लागत और quota समस्या की रिपोर्ट
- विश्लेषण के अनुसार 2026 मार्च की शुरुआत में Anthropic के Claude Code cache TTL का default 1 घंटे से बदलकर 5 मिनट कर दिया गया
- 11 जनवरी 2026 से 11 अप्रैल तक के 119,866 API call data points के आधार पर विश्लेषण किया गया
- 6 मार्च से 8 मार्च के बीच 5-मिनट TTL फिर से दिखाई देने लगा और 1-घंटे TTL धीरे-धीरे गायब हो गया
- यह एक ही client version और एक ही usage pattern में हुआ, इसलिए इसे server-side setting change के रूप में पहचाना गया
- TTL बदलाव के कारण cache creation cost 20~32% बढ़ी, और subscription users की quota consumption में तेज़ उछाल देखा गया
- 5-मिनट TTL में यदि session 5 मिनट से अधिक रुक जाए, तो cache expire हो जाता है और पूरा context फिर से upload करना पड़ता है
- cache regeneration, read की तुलना में अधिकतम 12.5 गुना महंगी है, और लंबे coding session में इसकी लागत जमा होती जाती है
- फरवरी में, जब 1-घंटे TTL बना हुआ था, waste rate 1.1% था, लेकिन मार्च के बाद यह 15~53% तक उछल गया
-
लागत विश्लेषण के नतीजे
claude-sonnet-4-6model: कुल लागत $5,561.17 → 1-घंटे TTL के आधार पर $4,612.09 (लगभग 17.1% अतिरिक्त खर्च)claude-opus-4-6model: कुल लागत $9,268.97 → 1-घंटे TTL के आधार पर $7,687.17 (लगभग 17.1% अतिरिक्त खर्च)- अलग-अलग model में waste का लगभग समान अनुपात लगातार दिखाई दिया
-
quota पर प्रभाव
- cache creation tokens quota में पूरी तरह जोड़े जाते हैं, जबकि cache read कम weight के साथ गिने जाते हैं
- मार्च के बाद subscription users पहली बार 5-घंटे quota limit तक पहुँचने लगे
Anthropic का आधिकारिक जवाब
- बदलाव स्वीकार किया: 6 मार्च का बदलाव जानबूझकर किया गया कदम था और यह cache optimization work का हिस्सा था
- इसे request type के अनुसार अलग-अलग TTL लागू करने के लिए design किया गया है, और कोई single global default मौजूद नहीं है
- यदि सभी requests पर 1-घंटे TTL लागू किया जाए, तो उल्टा लागत बढ़ सकती है
- 5-मिनट TTL उन requests में अधिक efficient है जिनका reuse नहीं होता, और सभी requests के मिश्रण के आधार पर कुल लागत बचत होती है
- bug fix: v2.1.90 में उस client bug को ठीक किया गया जिसमें subscription quota पूरी तरह खत्म कर चुके session, session खत्म होने तक 5-मिनट TTL पर fixed हो जाते थे
- मांगों पर जवाब
- बदलाव हुआ था, और इसे 6 मार्च को जानबूझकर लागू किया गया
- TTL request के अनुसार dynamically चुना जाता है, कोई global default नहीं है
- 1-घंटे TTL को default के रूप में restore करने या setting option देने की कोई योजना नहीं है
- cache read token quota accounting के तरीके पर अलग issue में आगे जानकारी दी जाएगी
community की प्रतिक्रिया
-
कई users ने लागत बढ़ने और usability घटने की ओर इशारा करते हुए असंतोष जताया
- कई लोगों का कहना था, “5-मिनट TTL असल में session को हर 5 मिनट में restart करने जैसा बना देता है, जिससे productivity घटती है”
- यह भी कहा गया, “subscription users पहले ही शुल्क advance में दे चुके हैं, लेकिन TTL बदलाव से वास्तविक usable time कम हो गया”
- “user cost को प्रभावित करने वाले ऐसे बदलावों की पहले से घोषणा जरूरी है” जैसी मांगें लगातार उठीं
-
कुछ users ने कहा कि यह API users के लिए positive change है, लेकिन दूसरे users ने जवाब दिया कि “API में तो पहले से 5-मिनट TTL default था”
-
transparency की कमी को लेकर आलोचना केंद्रित रही
- “cost-related infrastructure बदलावों के लिए बाद की सफाई नहीं, पहले की सूचना चाहिए”
- “ऐसे ‘silent changes’ भरोसे को नुकसान पहुँचाते हैं और users पर समस्या की वजह खुद ढूंढने का बोझ डालते हैं”
-
documentation record के अनुसार default cache 5-मिनट TTL है, और 1-घंटे TTL अतिरिक्त लागत वाले option के रूप में दिया जाता है
- जनवरी 2026 के आधिकारिक documents में भी यही विवरण देखा गया
निष्कर्ष
- 6 मार्च 2026 को Anthropic ने Claude Code की cache TTL policy को 1 घंटे से 5 मिनट में बदल दिया
- कंपनी ने इसे cost optimization के लिए किया गया जानबूझकर समायोजन बताया, लेकिन users ने लागत वृद्धि, quota exhaustion, और transparency की कमी को समस्या बताया
- community अब आगे TTL setting में user choice और policy बदलावों की अग्रिम सूचना की मांग कर रही है
अभी कोई टिप्पणी नहीं है.