Caveman - Claude/Codex टोकन बचाने के लिए गुफावासी बोलचाल

(github.com/JuliusBrussee)

30 पॉइंट द्वारा GN⁺ 2026-04-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें

गुफावासी बोलचाल में जवाब देने के लिए मजबूर करके औसतन 65~75% output tokens की बचत करने वाली स्किल
Lite·Full·Ultra तीन चरणों में compression intensity नियंत्रित करते हुए, तकनीकी सटीकता बनाए रखकर छोटे और efficient जवाब बनाती है
वास्तविक benchmark में React·PostgreSQL·Git से जुड़ी व्याख्याओं में भी token उपयोग आधे से कम हो गया
response speed लगभग 3 गुना बेहतर, readability में सुधार, cost reduction का प्रभाव एक साथ देती है
Claude Code और Codex में सरल command से install किया जा सकता है, और पूरे session में लगातार इस्तेमाल संभव है

Caveman अवलोकन

Claude Code और Codex के लिए plugin, जो LLM के जवाबों को ‘गुफावासी बोलचाल(caveman-speak)’ में बदलकर token उपयोग लगभग 75% कम करता है
तकनीकी सटीकता बनाए रखते हुए अनावश्यक शब्द हटाकर छोटे और efficient जवाब बनाता है
install एक लाइन के command से संभव है, और सभी session में लगातार इस्तेमाल किया जा सकता है
कमी केवल output tokens में होती है — thinking/reasoning tokens पर कोई असर नहीं
हटाए जाने वाले उदाहरण:
- greeting·opening: "Sure, I'd be happy to help" (8 tokens की बर्बादी)
- कारण बताने की शुरुआत: "The reason this is happening is because" (7 tokens)
- recommendation phrasing: "I would recommend that you consider" (7 tokens)
- फालतू introduction: "Sure, let me take a look at that for you" (10 tokens)
जिन चीजों को बनाए रखा जाता है: code blocks, technical terms (polymorphism आदि), error messages, git commit·PR messages

Before / After उदाहरण

एक ही तकनीकी व्याख्या को छोटे वाक्यों में compress करके व्यक्त करता है
- React component rerendering के कारण की व्याख्या: 69 tokens → 19 tokens
- authentication middleware bug की व्याख्या: 75% से अधिक token बचत
Lite / Full / Ultra तीन चरणों में compression intensity नियंत्रित की जा सकती है
- Lite (/caveman lite): अनावश्यक expressions हटाता है, grammar बनाए रखता है — professional लेकिन बिना फालतू विस्तार
- Full (/caveman full): default caveman mode — articles छोड़े जाते हैं, छोटे और टूटे हुए वाक्य
- Ultra (/caveman ultra): अधिकतम compression — telegram style, हर चीज़ संक्षिप्त

Benchmark

Claude API के ज़रिए वास्तविक token उपयोग की तुलना में औसतन 65% reduction
reduction range: 22%~87%
- React rerendering bug की व्याख्या: 1,180 → 159 tokens (87% reduction)
- PostgreSQL connection pool settings: 2,347 → 380 tokens (84% reduction)
- Docker multi-stage build: 1,042 → 290 tokens (72% reduction)
- git rebase vs merge व्याख्या: 702 → 292 tokens (58% reduction)
- callback → async/await refactoring: 387 → 301 tokens (22% reduction, सबसे कम प्रभाव)
कमी केवल output tokens में, thinking·reasoning tokens वैसे ही रहते हैं
मुख्य फायदे हैं readability में सुधार और response speed में बढ़ोतरी, cost reduction एक अतिरिक्त प्रभाव है

वैज्ञानिक आधार

मार्च 2026 के शोधपत्र "Brevity Constraints Reverse Performance Hierarchies in Language Models": बड़े models पर संक्षिप्त जवाब देने की बाध्यता लगाने पर कुछ benchmark में accuracy 26%p बढ़ी और performance ranking उलटने की पुष्टि हुई
"Verbose not always better. Sometimes less word = more correct"
- लंबे जवाबों की तुलना में कुछ मामलों में छोटे जवाब अधिक सटीक हो सकते हैं

install करने का तरीका

एक-लाइन install: npx skills add JuliusBrussee/caveman
Claude Code plugin: claude plugin marketplace add JuliusBrussee/caveman
Codex: repository clone करने के बाद /plugins मेनू में Caveman खोजकर install करें
trigger: /caveman, "talk like caveman", "caveman mode", "less tokens please"
बंद करने के लिए: "stop caveman" या "normal mode"
एक बार install → उसके बाद पूरे session पर लागू

उपयोग विधि

trigger commands: /caveman, $caveman, “talk like caveman”, “caveman mode”, “less tokens please”
बंद करने के commands: “stop caveman”, “normal mode”

intensity control

Level	Trigger	विशेषता
Lite	`/caveman lite`	grammar बनाए रखता है, अनावश्यक शब्द हटाता है
Full	`/caveman full`	default mode, articles·फालतू शब्द हटाता है
Ultra	`/caveman ultra`	अधिकतम compression, abbreviations-केंद्रित अभिव्यक्ति

यह सेटिंग session खत्म होने तक बनी रहती है
MIT लाइसेंस / Python 100% / Claude Code & Codex plugin support

2 टिप्पणियां

joyfui 2026-04-06

यहाँ Sparta-स्टाइल बोलचाल..? हाहा

GN⁺ 2026-04-06

Hacker News की राय

मैं ही लेखक हूँ। कुछ लोग इस repository के दावे से भी ज़्यादा बड़े दावे का खंडन कर रहे हैं। असल में यह मज़ाक में बनाया गया था, कोई research-स्तर की commentary नहीं है
इस skill का मकसद hidden reasoning token कम करना नहीं, बल्कि output text की फालतू लंबाई घटाना है। code पर इसका कोई असर नहीं पड़ता
मुझे लगता है Anthropic models को RL से इतना tune किया गया है कि जानबूझकर performance को बहुत बुरी तरह गिराना आसान नहीं है
README में लिखा “~75%” आँकड़ा शुरुआती test का नतीजा था, इसलिए उसे और सावधानी से लिखना चाहिए था। अभी proper benchmark तैयार हो रहा है
यह skill मुफ़्त नहीं है, load होने पर कुछ context खा जाता है। इसलिए सही evaluation में input/output tokens, latency, और quality सब शामिल होने चाहिए
ऐसी research भी है कि concise prompts, response की लंबाई घटाते हुए quality बनाए रख सकते हैं (paper link)
निष्कर्ष यह है कि यह दिलचस्प idea है, लेकिन इसकी व्याख्या बहुत बढ़ा-चढ़ाकर की गई है, और formal evaluation से पहले README को ज़्यादा सटीक होना चाहिए
- बात तर्कसंगत लगती है। ऑनलाइन चर्चा अक्सर ऐसे ही बह जाती है। फिर भी यह thread औसत से बेहतर है, हालांकि कभी-कभी निराशाजनक लगती है
- अगर benchmark चाहिए, तो adam-s/testing-claude-agent देखने की सलाह दूँगा
- संक्षेप में: “यह मज़ाक है। मुझ पर गुस्सा मत करो। लेकिन शायद थोड़ा काम करता है?”
- मैंने भी LLM के साथ ऐसी ही बातचीत की है, और उसने समझाया कि छोटे सवालों पर वह छोटा जवाब देता है, जबकि विनम्र अनुरोधों पर ज़्यादा जानकारी वाले जवाब देता है। आखिरकार सवाल पूछने का तरीका जवाब की शैली को प्रभावित करता है
  (और समझ नहीं आता कि इस तरह के संबंधित comments को बार-बार downvote क्यों किया जाता है)
- “Anthropic models coding के लिए optimized हैं इसलिए performance गिराने को मजबूर नहीं किया जा सकता” यह बात थोड़ी उलझी हुई लगती है।
  अगर “बेवकूफ़ की तरह बर्ताव करो” जैसा prompt जोड़ दें तो performance गिरना स्वाभाविक है। असली सवाल यह है कि कोई खास output style वास्तव में कितना असर डालती है
मैं हमेशा सोचता था कि जब LLM को उसकी default style के अलावा किसी और तरीके से बोलने पर मजबूर किया जाता है, तो उसकी reasoning ability घट जाती है।
क्योंकि model की कुछ layers को “क्या कहना है” और “कैसे कहना है” में से किसी एक पर ध्यान देना पड़ता होगा
collaborative fiction या roleplay जैसे प्रयोगों में मैंने देखा है कि model को जितने ज़्यादा facts ध्यान में रखने पड़ते हैं, style बनाए रखना उतना कठिन हो जाता है
- उल्टा, अगर कहो “ज़्यादा बातें करो”, तो output बहुत बढ़ जाता है। personality निर्देश सच में बड़ा असर डालते हैं
- मैं भी ऐसा ही सोचता हूँ। आखिर model का attention budget सीमित होता है, इसलिए वह एक समय में सीमित ही काम कर सकता है
यह idea मज़ेदार है। लेकिन सिर्फ simple token नहीं, rich tokens की दिशा भी देखना चाहूँगा।
जैसे “make good” की जगह “improve idiomatically” जैसी ज़्यादा refined अभिव्यक्ति। भाषा वास्तविकता को समायोजित करने वाला modulator है, इसलिए उसका सूक्ष्म उपयोग बेहतर नतीजे दे सकता है। benchmark का इंतज़ार है
- यह “caveman” style पुराने telegram लेखन की याद दिलाती है। क्या model telegram abbreviation book जैसी information-compressed “rich tokens” सीखकर browser में decode कर सकता है? telegram abbreviation book link
- यह कुछ RISC vs CISC बहस जैसा लगता है। जैसे simplicity ने scalability में जीत हासिल की, वैसे ही LLM भी simple और orthogonal concepts के साथ सोचने की दिशा में बढ़ रहे हैं
- “MILSPEC prose register. Max per-token semantic yield.” जैसा prompt आज़माने का सुझाव है
मैंने Claude से caveman की तरह बात करके देखा, लेकिन समझने की क्षमता गिर गई और गलतफ़हमियाँ बढ़ गईं। उल्टा मुझे और समझाना पड़ा, और typo होने पर context loss बहुत बड़ा हो जाता है।
आखिर में लगता है कि और ज़्यादा शब्द चाहिए। ऐसा भी लगता है कि LLM अपने पिछले जवाबों से मिलने वाली जानकारी भी कम इस्तेमाल कर पाता है
- आम forums (Twitter, Reddit) पर भी लोग शिकायत करते हैं कि LLM बेवकूफ़ है, लेकिन उनकी लिखने की शैली देखो तो वजह समझ आती है
- ChatGPT के शुरुआती दिनों में मैंने सिर्फ s-expression में बात करके देखी थी, और model ने भी s-expression में जवाब दिया था। सामग्री बिखरी हुई थी, लेकिन parentheses सही थे। अब ऐसा नहीं होता
- “ज़्यादा बोलना क्यों? कम बोलो तो समय बचे। समुद्र दुनिया”
- ज़्यादातर “caveman” style data वैज्ञानिक बातचीत का नहीं होता, इसलिए model शायद उस context की भविष्यवाणी नहीं कर पाता
मैंने Grug brained developer का AI tooling से सामना करने वाला लेख देखा (grugbrain.dev)
- मैं भी अक्सर Grug को उदाहरण बनाकर LLM से concepts समझवाता हूँ
यह idea दिलचस्प है। लेकिन मेरी company performance को token consumption से मापती है। क्या Claude को जानबूझकर बहुत verbose बनाने वाला कोई skill भी है?
- हर loop में /tmp में ELI5 style में explanation लिखवाओ
- यह सच है या मज़ाक? क्या आप Nvidia में काम करते हैं?
idea प्यारा है, लेकिन असल में bottleneck input tokens हैं।
model अनगिनत files, tool outputs, और directory trees पढ़ता है, लेकिन output में बस कुछ सौ lines का code और छोटी-सी explanation होती है
- single turn में यह सही है, लेकिन कई turns जमा होने पर output optimization मायने रखती है।
  वैसे “Cute idea, but” के बिना भी वही बात कही जा सकती है (link)
- और यह skill thinking tokens पर असर नहीं डालता। बल्कि caveman style में बदलने के लिए शायद और ज़्यादा internal reasoning की ज़रूरत पड़े
संबंधित research के तौर पर ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026) भी है
दिलचस्प। output को 2B model से decompress करना भी संभव लग रहा है
या तो कोई यह पहले ही आज़मा चुका होगा, या मैं खुद इसे implement करने का सोच रहा हूँ
अगर LLM इंसानी भाषा की बजाय गैर-मानवीय भाषा में बातचीत करें, तो efficiency बढ़ सकती है।
एक छोटा local model इंसानी input को LLM-friendly भाषा में translate करे, बड़ा model उसी भाषा में सोचे, फिर उसे वापस translate किया जाए
Apple Fundamental Models जैसे छोटी context window वाले models इस translation layer के रूप में इस्तेमाल हो सकते हैं।
RL के ज़रिए model को ऐसी भाषा खुद खोजने देना भी संभव लगता है। यह सच में बहुत मज़ेदार project हो सकता है
- मेरे मन में भी ऐसा ही विचार आया था। एक dedicated LLM language बनाकर उसी पर model को train करना अच्छा होगा, लेकिन शायद 6 से 10 करोड़ डॉलर लगेंगे।
  क्योंकि पूरी तरह नई भाषा और training method बनानी होगी। फिर भी अगर कोई VC funding जुटाए, तो मैं शामिल होना चाहूँगा

Caveman - Claude/Codex टोकन बचाने के लिए गुफावासी बोलचाल

Caveman अवलोकन

Before / After उदाहरण

Benchmark

वैज्ञानिक आधार

install करने का तरीका

उपयोग विधि

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय