Caveman - Claude/Codex टोकन बचाने के लिए गुफावासी बोलचाल
(github.com/JuliusBrussee)- गुफावासी बोलचाल में जवाब देने के लिए मजबूर करके औसतन 65~75% output tokens की बचत करने वाली स्किल
- Lite·Full·Ultra तीन चरणों में compression intensity नियंत्रित करते हुए, तकनीकी सटीकता बनाए रखकर छोटे और efficient जवाब बनाती है
- वास्तविक benchmark में React·PostgreSQL·Git से जुड़ी व्याख्याओं में भी token उपयोग आधे से कम हो गया
- response speed लगभग 3 गुना बेहतर, readability में सुधार, cost reduction का प्रभाव एक साथ देती है
- Claude Code और Codex में सरल command से install किया जा सकता है, और पूरे session में लगातार इस्तेमाल संभव है
Caveman अवलोकन
- Claude Code और Codex के लिए plugin, जो LLM के जवाबों को ‘गुफावासी बोलचाल(caveman-speak)’ में बदलकर token उपयोग लगभग 75% कम करता है
- तकनीकी सटीकता बनाए रखते हुए अनावश्यक शब्द हटाकर छोटे और efficient जवाब बनाता है
- install एक लाइन के command से संभव है, और सभी session में लगातार इस्तेमाल किया जा सकता है
- कमी केवल output tokens में होती है — thinking/reasoning tokens पर कोई असर नहीं
- हटाए जाने वाले उदाहरण:
- greeting·opening: "Sure, I'd be happy to help" (8 tokens की बर्बादी)
- कारण बताने की शुरुआत: "The reason this is happening is because" (7 tokens)
- recommendation phrasing: "I would recommend that you consider" (7 tokens)
- फालतू introduction: "Sure, let me take a look at that for you" (10 tokens)
- जिन चीजों को बनाए रखा जाता है: code blocks, technical terms (polymorphism आदि), error messages, git commit·PR messages
Before / After उदाहरण
- एक ही तकनीकी व्याख्या को छोटे वाक्यों में compress करके व्यक्त करता है
- React component rerendering के कारण की व्याख्या: 69 tokens → 19 tokens
- authentication middleware bug की व्याख्या: 75% से अधिक token बचत
- Lite / Full / Ultra तीन चरणों में compression intensity नियंत्रित की जा सकती है
- Lite (
/caveman lite): अनावश्यक expressions हटाता है, grammar बनाए रखता है — professional लेकिन बिना फालतू विस्तार - Full (
/caveman full): default caveman mode — articles छोड़े जाते हैं, छोटे और टूटे हुए वाक्य - Ultra (
/caveman ultra): अधिकतम compression — telegram style, हर चीज़ संक्षिप्त
- Lite (
Benchmark
- Claude API के ज़रिए वास्तविक token उपयोग की तुलना में औसतन 65% reduction
- reduction range: 22%~87%
- React rerendering bug की व्याख्या: 1,180 → 159 tokens (87% reduction)
- PostgreSQL connection pool settings: 2,347 → 380 tokens (84% reduction)
- Docker multi-stage build: 1,042 → 290 tokens (72% reduction)
- git rebase vs merge व्याख्या: 702 → 292 tokens (58% reduction)
- callback → async/await refactoring: 387 → 301 tokens (22% reduction, सबसे कम प्रभाव)
- कमी केवल output tokens में, thinking·reasoning tokens वैसे ही रहते हैं
- मुख्य फायदे हैं readability में सुधार और response speed में बढ़ोतरी, cost reduction एक अतिरिक्त प्रभाव है
वैज्ञानिक आधार
- मार्च 2026 के शोधपत्र "Brevity Constraints Reverse Performance Hierarchies in Language Models": बड़े models पर संक्षिप्त जवाब देने की बाध्यता लगाने पर कुछ benchmark में accuracy 26%p बढ़ी और performance ranking उलटने की पुष्टि हुई
- "Verbose not always better. Sometimes less word = more correct"
- लंबे जवाबों की तुलना में कुछ मामलों में छोटे जवाब अधिक सटीक हो सकते हैं
install करने का तरीका
- एक-लाइन install:
npx skills add JuliusBrussee/caveman - Claude Code plugin:
claude plugin marketplace add JuliusBrussee/caveman - Codex: repository clone करने के बाद
/pluginsमेनू में Caveman खोजकर install करें - trigger:
/caveman, "talk like caveman", "caveman mode", "less tokens please" - बंद करने के लिए: "stop caveman" या "normal mode"
- एक बार install → उसके बाद पूरे session पर लागू
उपयोग विधि
-
trigger commands:
/caveman,$caveman, “talk like caveman”, “caveman mode”, “less tokens please” -
बंद करने के commands: “stop caveman”, “normal mode”
-
intensity control
Level Trigger विशेषता Lite /caveman litegrammar बनाए रखता है, अनावश्यक शब्द हटाता है Full /caveman fulldefault mode, articles·फालतू शब्द हटाता है Ultra /caveman ultraअधिकतम compression, abbreviations-केंद्रित अभिव्यक्ति -
यह सेटिंग session खत्म होने तक बनी रहती है
-
MIT लाइसेंस / Python 100% / Claude Code & Codex plugin support
2 टिप्पणियां
यहाँ Sparta-स्टाइल बोलचाल..? हाहा
Hacker News की राय
मैं ही लेखक हूँ। कुछ लोग इस repository के दावे से भी ज़्यादा बड़े दावे का खंडन कर रहे हैं। असल में यह मज़ाक में बनाया गया था, कोई research-स्तर की commentary नहीं है
इस skill का मकसद hidden reasoning token कम करना नहीं, बल्कि output text की फालतू लंबाई घटाना है। code पर इसका कोई असर नहीं पड़ता
मुझे लगता है Anthropic models को RL से इतना tune किया गया है कि जानबूझकर performance को बहुत बुरी तरह गिराना आसान नहीं है
README में लिखा “~75%” आँकड़ा शुरुआती test का नतीजा था, इसलिए उसे और सावधानी से लिखना चाहिए था। अभी proper benchmark तैयार हो रहा है
यह skill मुफ़्त नहीं है, load होने पर कुछ context खा जाता है। इसलिए सही evaluation में input/output tokens, latency, और quality सब शामिल होने चाहिए
ऐसी research भी है कि concise prompts, response की लंबाई घटाते हुए quality बनाए रख सकते हैं (paper link)
निष्कर्ष यह है कि यह दिलचस्प idea है, लेकिन इसकी व्याख्या बहुत बढ़ा-चढ़ाकर की गई है, और formal evaluation से पहले README को ज़्यादा सटीक होना चाहिए
(और समझ नहीं आता कि इस तरह के संबंधित comments को बार-बार downvote क्यों किया जाता है)
अगर “बेवकूफ़ की तरह बर्ताव करो” जैसा prompt जोड़ दें तो performance गिरना स्वाभाविक है। असली सवाल यह है कि कोई खास output style वास्तव में कितना असर डालती है
मैं हमेशा सोचता था कि जब LLM को उसकी default style के अलावा किसी और तरीके से बोलने पर मजबूर किया जाता है, तो उसकी reasoning ability घट जाती है।
क्योंकि model की कुछ layers को “क्या कहना है” और “कैसे कहना है” में से किसी एक पर ध्यान देना पड़ता होगा
collaborative fiction या roleplay जैसे प्रयोगों में मैंने देखा है कि model को जितने ज़्यादा facts ध्यान में रखने पड़ते हैं, style बनाए रखना उतना कठिन हो जाता है
यह idea मज़ेदार है। लेकिन सिर्फ simple token नहीं, rich tokens की दिशा भी देखना चाहूँगा।
जैसे “make good” की जगह “improve idiomatically” जैसी ज़्यादा refined अभिव्यक्ति। भाषा वास्तविकता को समायोजित करने वाला modulator है, इसलिए उसका सूक्ष्म उपयोग बेहतर नतीजे दे सकता है। benchmark का इंतज़ार है
मैंने Claude से caveman की तरह बात करके देखा, लेकिन समझने की क्षमता गिर गई और गलतफ़हमियाँ बढ़ गईं। उल्टा मुझे और समझाना पड़ा, और typo होने पर context loss बहुत बड़ा हो जाता है।
आखिर में लगता है कि और ज़्यादा शब्द चाहिए। ऐसा भी लगता है कि LLM अपने पिछले जवाबों से मिलने वाली जानकारी भी कम इस्तेमाल कर पाता है
मैंने Grug brained developer का AI tooling से सामना करने वाला लेख देखा (grugbrain.dev)
यह idea दिलचस्प है। लेकिन मेरी company performance को token consumption से मापती है। क्या Claude को जानबूझकर बहुत verbose बनाने वाला कोई skill भी है?
/tmpमें ELI5 style में explanation लिखवाओidea प्यारा है, लेकिन असल में bottleneck input tokens हैं।
model अनगिनत files, tool outputs, और directory trees पढ़ता है, लेकिन output में बस कुछ सौ lines का code और छोटी-सी explanation होती है
वैसे “Cute idea, but” के बिना भी वही बात कही जा सकती है (link)
संबंधित research के तौर पर ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026) भी है
दिलचस्प। output को 2B model से decompress करना भी संभव लग रहा है
या तो कोई यह पहले ही आज़मा चुका होगा, या मैं खुद इसे implement करने का सोच रहा हूँ
अगर LLM इंसानी भाषा की बजाय गैर-मानवीय भाषा में बातचीत करें, तो efficiency बढ़ सकती है।
एक छोटा local model इंसानी input को LLM-friendly भाषा में translate करे, बड़ा model उसी भाषा में सोचे, फिर उसे वापस translate किया जाए
Apple Fundamental Models जैसे छोटी context window वाले models इस translation layer के रूप में इस्तेमाल हो सकते हैं।
RL के ज़रिए model को ऐसी भाषा खुद खोजने देना भी संभव लगता है। यह सच में बहुत मज़ेदार project हो सकता है
क्योंकि पूरी तरह नई भाषा और training method बनानी होगी। फिर भी अगर कोई VC funding जुटाए, तो मैं शामिल होना चाहूँगा