Claude Code Pro Max 5x प्लान में सामान्य उपयोग पर भी 1.5 घंटे में quota खत्म होने की समस्या
(github.com/anthropics)- Pro Max 5x(1M context) प्लान में सामान्य स्तर के Q&A और development काम से भी 1.5 घंटे में token limit पार होने की समस्या सामने आई
- कारण के तौर पर
cache_readtoken को पूरे अनुपात (1.0x) से गिने जाने वाली गड़बड़ी की ओर इशारा किया गया, जिससे caching का असर खत्म होकर consumption तेज हो जाता है - background session के automatic calls, automatic compaction(auto-compact), और बड़े context input मिलकर consumption speed को और बढ़ाते हैं
- कम्युनिटी ने cache TTL में कमी (1 घंटा→5 मिनट) और cache invalidation(cache busting) को मुख्य कारण के रूप में विश्लेषित किया
- Anthropic default context reduction(400k), UX improvements, और inactive call optimization पर काम कर रहा है और user feedback इकट्ठा कर रहा है
Pro Max 5x प्लान में quota के तेज़ी से खत्म होने की समस्या
- Pro Max 5x(claude-opus-4-6, 1M context) प्लान में मध्यम स्तर के Q&A और हल्के development से भी 1.5 घंटे में quota खत्म होने की घटना रिपोर्ट हुई
- इससे पहले 5 घंटे के high-intensity development में consumption सामान्य था, लेकिन reset के बाद तेज़ consumption शुरू हो गया
- environment था Claude Code CLI on WSL2, और यह एक single session (2 बार auto-compact) में हुआ
cache_readtoken को पूरे अनुपात (1.0x) से गिने जाने वाली गड़बड़ी को मुख्य कारण माना गया- सामान्य स्थिति में
cache_readको 1/10 अनुपात से गिना जाना चाहिए; ऐसा न होने पर caching का लाभ खत्म हो जाता है - session log(
~/.claude/projects/.../*.jsonl) केusageobject के जरिए token usage का विश्लेषण किया गया
- सामान्य स्थिति में
- background session के automatic calls, auto-compact की high-cost processing, और 1M context window के बड़े input मिलकर consumption speed को तेज़ करते हैं
- कम्युनिटी विश्लेषण के अनुसार, कुछ users ने cache TTL में कमी (1 घंटा→5 मिनट) और cache invalidation(cache busting) को मुख्य कारण बताया
- Anthropic टीम default context reduction(400k), UX improvements, और inactive call optimization पर काम कर रही है, और user feedback के जरिए अतिरिक्त data इकट्ठा करने का अनुरोध कर रही है
मापा गया token consumption
-
विंडो 1 (15:00–20:00, 5 घंटे, high-intensity development)
- API calls 2,715, Cache read 1,044M, Cache create 16.8M, output 1.15M token
- प्रभावी input (1/10 अनुपात लागू होने पर) 121.8M token
- Express server + iOS app implementation, graphify pipeline, SPEC-आधारित multi-agent coordination किया गया
-
विंडो 2 (20:00–21:30, 1.5 घंटे, मध्यम स्तर का उपयोग)
- main session(vibehq): API 222 बार, Cache read 23.2M, Cache create 1.4M, output 91k
- background session(token-analysis, career-ops सहित): कुल 691 calls, Cache read 103.9M, output 387k
- कुल 13.1M प्रभावी token (1/10 अनुपात लागू होने पर) → सामान्य स्थिति में quota over नहीं होना चाहिए
- वास्तव में 105.7M token (1.0x calculation पर) → प्रति घंटे 70.5M के स्तर पर, जो quota खत्म होने से मेल खाता है
मुख्य समस्या सारांश
-
1. Cache read token की billing limit calculation में गड़बड़ी
- अपेक्षा:
cache_readको 1/10 अनुपात से गिना जाए - वास्तविकता: पूरे अनुपात से गिना गया, जिससे caching effect निष्प्रभावी हो गया
- 1M context environment में प्रति call 100~960k token भेजे गए, इसलिए 200 से अधिक calls पर कुछ ही मिनटों में quota खत्म हो सकता है
- अपेक्षा:
-
2. Background session द्वारा shared quota consumption
- inactive session(token-analysis, career-ops आदि) भी auto-compact और post-processing calls के जरिए shared quota लगातार consume करते हैं
-
3. auto-compact के high-cost calls
- compact करने से पहले पूरा context(~966k token)
cache_creationके रूप में भेजा जाता है, जिससे सबसे महंगा call अपने-आप होता है
- compact करने से पहले पूरा context(~966k token)
-
4. 1M context window के side effects
- बड़ा context प्रति call token count को बहुत बढ़ा देता है, जिससे quota consumption speed तेज़ हो जाती है
पुनरुत्पादन प्रक्रिया
- Pro Max 5x प्लान में Opus model के साथ Claude Code चलाएँ
~/.claude/rules/में लगभग 30 rule files (19k token overhead) शामिल करें- file reading, build, test जैसे tool-केंद्रित काम करें
/contextcommand से context के बढ़ने की पुष्टि करें- 200~300 calls के बाद quota में तेज़ गिरावट की पुष्टि करें
- दूसरे terminal में 2~3 session चालू रखें
- reset के बाद भी कम समय में quota खत्म होने की पुष्टि करें
अपेक्षित व्यवहार और वास्तविक व्यवहार की तुलना
-
अपेक्षित:
cache_readको 1/10 अनुपात से गिना जाए- inactive session का consumption न्यूनतम हो
- auto-compact अत्यधिक consumption न कराए
- मध्यम उपयोग पर 2~3 घंटे तक चलना चाहिए
-
वास्तविक:
- 1.5 घंटे में खत्म
- background session ने 78% consumption किया
- कुल 105.7M token transfer से अनुमान है कि
cache_readको पूरे अनुपात से गिना गया
सुधार के सुझाव
cache_readcalculation method को स्पष्ट किया जाए — documentation में वास्तविक billing limit ratio स्पष्ट रूप से लिखा जाए- effective token आधारित limit —
cache_readको 1/10 अनुपात से गिने जाने के लिए सुधार किया जाए - session idle detection — inactive session के automatic calls रोके जाएँ या warning दिखाई जाए
- real-time token consumption visibility —
cache_read,cache_create, input और output के अनुसार usage दिखाया जाए - context-आधारित cost prediction — काम शुरू करने से पहले अनुमानित token cost दिखाई जाए
कम्युनिटी विश्लेषण और चर्चा
-
cnighswonger
claude-code-cache-fixinterceptor के जरिए 24 घंटे में 1,500 calls का data इकट्ठा किया- तीन hypotheses(
cache_read0.0x, 0.1x, 1.0x) की जांच में केवल 0.0x model ने 5 घंटे की window में consistent result(CV 34.4%) दिखाया - निष्कर्ष:
cache_readका वास्तव में quota पर लगभग कोई असर नहीं, cache सामान्य रूप से काम कर रहा है - हालांकि, single-account data होने के कारण अतिरिक्त verification की जरूरत है
-
henu-wang
- cache TTL के 1 घंटे से 5 मिनट तक घट जाने वाली regression के बाद, session pause होते ही
cache_createहोने लगा, जिससे 12.5 गुना अधिक cost आई - context जितना लंबा होता है, cost उतनी ही non-linear तरीके से बढ़ती है
- अस्थायी समाधान के तौर पर short session रखना,
/compactcommand का सक्रिय उपयोग, और CLAUDE.md में core context को पहले से लोड करना सुझाया गया
- cache TTL के 1 घंटे से 5 मिनट तक घट जाने वाली regression के बाद, session pause होते ही
-
bcherny (Anthropic टीम)
- 1M context window के उपयोग में prompt cache miss का high cost होने की बात मानी
- UX improvements (long session resume पर
/clearसुझाना) और default context को 400k तक घटाने का प्रयोग चल रहा है - multi-agent और plugin उपयोग में inactive कामों द्वारा token over-consumption के मामले पहचाने गए, और automatic cleanup तथा scheduling improvements पर काम हो रहा है
-
wadabum
- नए session में cache बिल्कुल hit न होने वाले bug(#47098, #47107) की ओर ध्यान दिलाया
git status-आधारित system prompt औरCLAUDE.mdblock हर session में बदलने से cache invalidation(cache busting) होता है- cnighswonger ने जवाब दिया कि interceptor कुछ sorting stabilization करता है, लेकिन
git-statusसमस्या के लिए अलग fix की जरूरत है
कम्युनिटी सुझाव सारांश
- RockyMM: session limit पर पहुँचने पर auto-summary के बाद resume का मार्गदर्शन हो, और TTL को 10 मिनट किया जाए
- mikebutash: Pro प्लान में 5 घंटे में केवल 2 prompts संभव होने की बात कही, और v2.1.81 पर rollback तथा cache-fix install से 3~4 गुना सुधार की पुष्टि की
- wutlu: काम के अनुसार session reset करके समस्या कम की
- dprkh: debug mode skill(Skill.md) साझा कर कारण पता लगाने में मदद की
निष्कर्ष
- Pro Max 5x प्लान में quota के तेज़ी से खत्म होने की समस्या cache behavior, TTL regression, context inflation, और background calls के संयुक्त प्रभाव से जुड़ी पाई गई
- कम्युनिटी का विश्लेषण है कि
cache_readcalculation bug से अधिक, cache invalidation और TTL reduction मुख्य कारण हैं - Anthropic टीम default context reduction, cache UX improvement, और inactive call optimization पर काम कर रही है, और user feedback(
/feedback) के जरिए अतिरिक्त data इकट्ठा करने का अनुरोध कर रही है
2 टिप्पणियां
क्वालिटी के हिसाब से इसका कोई असली विकल्प नहीं है
और अगर किसी आसान patch से इसे थोड़ा और इस्तेमाल किया जा सके तो अच्छा होगा।
Hacker News की राय
मैं Claude Code टीम का Boris हूँ। हाल में रिपोर्ट की गई समस्याओं की जाँच के बाद, मुख्य कारण दो निकले
CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 claudeकमांड इस्तेमाल करेंजिन users को यह समस्या आ रही है, वे
/feedbackकमांड से feedback भेजें, इससे debugging में मदद मिलेगी/clearनोटिस कोई समाधान नहीं है। cache साफ़ करने पर आखिर फिर से build करना ही पड़ता है, इसलिए cost वही रहती है। UX के ज़रिए users को छोटे context की तरफ धकेलना service quality गिराना है। अगर दिक्कत cost की है, तो pricing या architecture ठीक करनी चाहिएहाल में Claude साफ़ तौर पर धीमा और अक्षम हो गया था। files बताने पर भी वह 5 मिनट से ज़्यादा exploration loop में फँसा रहता था, और session limit जल्दी आ जाती थी। दिन में सिर्फ तीन बार इस्तेमाल करने पर weekly limit का 25% खत्म हो जाता था। इसलिए मैं $100 वाले Codex plan पर चला गया, और accuracy व उदारता दोनों में वह कहीं बेहतर है। हाँ, Codex का बोलने का अंदाज़ थोड़ा खटकता है, इसलिए मैंने Agents.md में अलग से instructions जोड़ दिए। UI की feeling पहले वाले Claude Code में बेहतर थी, लेकिन backend debugging और जटिल समस्या-समाधान में Codex आगे है। अभी तो मैं Codex और Cursor के $20 plans की तुलना करने की सलाह दूँगा
issues को देखते हुए समझ आता है कि Anthropic tickets जल्दी क्यों बंद करता है। ज़्यादातर AI-जनरेटेड noise लगते हैं। मेरा समाधान यह रहा
Anthropic का जबरन 1M model लागू करना मुझे सबसे ज़्यादा खलता है
/model opusया/model sonnetकमांड से 1M model बंद किया जा सकता हैअब लग रहा है कि subsidy के दौर का अंत आ रहा है। Google Gemini community में भी हाल में quota कटौती को लेकर शिकायतों की बाढ़ है (issue link)। मैं भी आखिरकार Kiro IDE और Codex CLI के संयोजन पर चला गया और संतुष्ट हूँ
मूल कारण की तरफ इशारा करने वाला issue “Not planned” के रूप में बंद किया जाना चिंताजनक है
version 2.1.34 पर rollback करने के बाद quota और cache की ज़्यादातर समस्याएँ हल हो गईं।
~/.claude/settings.jsonमें"effortLevel": "high","CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": 1वगैरह जोड़ दिए, और बाकी versions हटा दिए।Adaptive thinking अभी अधूरा है, लेकिन आगे सुधरे तो मददगार हो सकता है। फिर भी Codex पर जाने का सोच रहा हूँ
~/.bashrcमेंCLAUDE_CODE_MAX_OUTPUT_TOKENS=64000,DISABLE_AUTOUPDATER=1वगैरह सेट कर रखा हैछोटे models में भी ऐसी ही समस्या थी। मेरा मानना है कि निष्पक्ष लेन-देन पारदर्शी माप से शुरू होता है। मैं इस महीने की subscription रद्द करने वाला हूँ
इस साल मैंने tax filing पर AI agents का प्रयोग किया। Opus 4.6, Codex 5.4, और Antigravity 3.1 को अलग-अलग $20 plans पर इस्तेमाल किया।
Codex ने 12 मिनट में इसे पूरी तरह निपटा दिया, और Antigravity से एक page छूट गया था लेकिन जल्दी ठीक हो गया। Claude Code usage limit पार होने से रुक गया, और दोबारा कोशिश के बाद भी त्रुटि रही। उम्मीद से कमज़ोर निकला
Reddit पर आई update notice के बाद से Claude इतना बदल गया है कि रोज़मर्रा coding के लिए इस्तेमाल लायक नहीं रहा। Pro account का credit एक घंटे में खत्म हो गया, इसलिए मैं फिर से Gemini या ChatGPT पर लौट गया
आखिरकार लगता है कि Anthropic की token billing structure आम users के खिलाफ डिज़ाइन की गई है। एक बार वास्तव में इस्तेमाल करो, तुरंत महसूस हो जाएगा कि वे कितना ज़्यादा पैसा चाहते थे