Claude Code और Codex की settings बदलकर tokens कैसे बचाएं

(stdy.blog)

60 पॉइंट द्वारा spilist2 2026-04-20 | 5 टिप्पणियां | WhatsApp पर शेयर करें

पृष्ठभूमि

Claude Opus 4.7 के release notes में 'token usage increase' वाला हिस्सा सबसे ज़्यादा ध्यान खींचने वाला था।
अब हम ऐसे दौर में हैं जहाँ अगर पर्याप्त tokens और समय हो, तो बहुत कुछ किया जा सकता है; इसलिए token efficiency भी लगातार एक मुद्दा बनी हुई है।
- मार्च के आसपास community में इस बात पर काफ़ी हलचल हुई कि Claude Code ने caching TTL को चुपचाप 1 घंटे → 5 मिनट कर दिया
- Opus 4.7 के साथ मापने पर पता चला कि यह 4.6 की तुलना में लगभग 1.5 गुना ज़्यादा tokens खर्च करता है
- Claude Code caching efficiency पर research repository भी मौजूद है
इसी से यह सवाल उठा कि "क्या Claude Code और Codex में settings बदलकर token efficiency बढ़ाई जा सकती है?" Claude Code की official docs (settings/environment variables/IDE), Codex की official docs (settings/environment variables/MCP), और Codex source code का विश्लेषण करने पर सार्थक नतीजे मिले।
रोज़मर्रा के interactive mode के अलावा, programmable non-interactive mode में भी token efficiency, boot speed, stability आदि बेहतर करने के कई तरीके पता चले।

अपनी current state जाँचने के लिए prompt

सीधे मुद्दे पर आते हुए, जो लोग अपनी coding agent settings की जाँच करना चाहते हैं उनके लिए prompt:

https://gist.github.com/spilist/c468cbf1ed0ffc91100f813aabdcd520/… 를 읽고 그대로 실행해줘

वास्तव में tokens कहाँ खर्च होते हैं

Coding agent में tokens आम तौर पर तीन रास्तों से बहते हैं:

हर session या हर turn में अपने-आप जुड़ने वाला अतिरिक्त text
conversation history में बचे हुए बहुत लंबे tool call outputs
search, connectors, IDE integration जैसी external connections से आने वाले अतिरिक्त calls

Claude Code और Codex में ऊपर के इन 3 बिंदुओं को कम करने वाले levers का परिचय। (जिन MCP servers/plugins का उपयोग नहीं होता उन्हें बंद करना, model और reasoning level समायोजित करना जैसी बुनियादी बातें यहाँ छोड़ी गई हैं।)

हर setting की व्याख्या, trade-offs आदि ब्लॉग में विस्तार से लिखे गए हैं।

Claude Code (अंतिम सत्यापित version: 2.1.114)

includeGitInstructions: false
autoConnectIde: false
CLAUDE_CODE_GLOB_NO_IGNORE=false
output limit सेट करना (BASH_MAX_OUTPUT_LENGTH, CLAUDE_CODE_FILE_READ_MAX_OUTPUT_TOKENS, MAX_MCP_OUTPUT_TOKENS)
छोटे और सरल कामों, या non-interactive mode के लिए environment variables और flags
- ENABLE_CLAUDEAI_MCP_SERVERS=false: MCP servers बंद करें
- CLAUDE_CODE_DISABLE_AUTO_MEMORY=1: auto-saved memory को load होने से रोकें
- CLAUDE_CODE_DISABLE_CLAUDE_MDS=1: global/project CLAUDE.md को ignore करें
- CLAUDE_AGENT_SDK_DISABLE_BUILTIN_AGENTS=1: built-in subagents और skill definitions को system prompt से बाहर रखें
- --tools: native tools को चुनिंदा रूप से activate करें। --tools "" हो तो सब disable। सिर्फ model intelligence इस्तेमाल करने वाले worker में सब बंद रखना ठीक है, लेकिन interactive mode में आसान काम करवाते समय सब बंद कर देंगे तो वह काम ही नहीं कर पाएगा, इसलिए "Bash,Edit,Glob,Grep,Read,Write" की तरह सिर्फ ज़रूरी tools चालू करें
- --strict-mcp-config: CLI में explicitly दी गई MCP settings ही उपयोग होंगी, global MCP settings ignore होंगी। इससे हर worker में सिर्फ ज़रूरी connectors साफ़-सुथरे ढंग से inject किए जा सकते हैं।
- --disable-slash-commands: /help, /clear जैसे slash commands की definitions system prompt से हट जाती हैं
- --no-session-persistence: session save/resume path का उपयोग नहीं होता, इसलिए one-off execution के निशान नहीं बचते
- --exclude-dynamic-system-prompt-sections: machine/environment के हिसाब से बदलने वाले sections हटाकर prompt cache reuse rate बढ़ाता है
- --system-prompt: चाहें तो Claude system prompt को पूरी तरह replace भी किया जा सकता है
attribution खाली करना

Codex CLI (अंतिम सत्यापित version: 0.121.0 + उस version का Codex Github source code)

ChatGPT से जुड़े MCP (apps/connectors) बंद करें (features.apps = false)
web_search = "disabled"
output limit सेट करना (tool_output_token_limit)
non-interactive mode में बेहतर चलाने वाले flags
- --profile: कुछ खास settings (web_search = "disabled", tool_output_token_limit = 2000 आदि) को group करके चुनिंदा रूप से लागू किया जा सकता है
- --json + --output-last-message FILE : pipeline में parsing/extraction आसान हो जाती है, जिससे post-processing चरण में tokens की दोबारा खपत कम होती है
- --sandbox read-only: जिन automations में सिर्फ reading चाहिए, उनमें अनजाने write attempts → retry loop → token waste को रोकता है
- --skip-git-repo-check: trusted directory न होने पर भी run किया जा सकता है
- --ephemeral: session file को disk पर save नहीं करता
- --color never: pipe output साफ़ रहती है
attribution खाली करना

समापन

मैंने काफ़ी सावधानी से fact-check किया है, लेकिन स्वाभाविक रूप से कुछ हिस्से गलत हो सकते हैं। अगर आप आराम से बताकर सुधार सुझाएँ तो आभारी रहूँगा।

5 टिप्पणियां

dzzwe 2026-04-20

यह एक अच्छा रेफ़रेंस बनने वाला लेख है। अगर मूल लेख का तरीका "आने वाले tokens" के valve को बंद करने का है,
तो मैंने अक्सर ऐसे cases देखे हैं जहाँ समस्या "रजिस्टर हुई चीज़ों की संख्या ही बहुत बढ़ जाने" की होती है, इसलिए
मैंने claude-slim नाम का एक टूल बनाया है।

यह एक CLI है जो ऐसी स्थितियों को scan, classify और organize करता है, जैसे 60 skills में से आधे कभी एक बार भी इस्तेमाल न हुए हों, या plugins की वजह से CLAUDE.md बहुत बड़ा हो गया हो। token counting js-tiktoken आधारित है,
और यह चीज़ों को delete नहीं करता बल्कि skills.disabled/ में move करता है, इसलिए कभी भी restore किया जा सकता है।

https://github.com/iops-leo/claude-slim

मुझे लगता है कि यह मूल लेख की settings और दिशा को ठीक-ठीक complement करता है, इसलिए दोनों को साथ में इस्तेमाल करना अच्छा रहेगा।

spilist2 2026-04-20

ओह, साझा करने के लिए धन्यवाद!

duse0001 2026-04-20

अच्छी जानकारी साझा करने के लिए धन्यवाद। मूल रूप से मुझे महसूस हो रहा है कि token usage खुद ही बहुत कम हो गया है, इसलिए अच्छा होगा अगर Claude में इसे बढ़ाया जाए। harness चलते-चलते बीच में कट जाता है...