Claude Code / Codex CLI के भारी code generation को local LLM पर delegate करने वाला plug-in (tunaLlama)

(github.com/hang-in)

4 पॉइंट द्वारा kurthong 2026-05-16 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

यह एक delegation tool है, जिसे उन लोगों के लिए बनाया गया है जिनकी vibe coding के दौरान Claude Code या Codex CLI की subscription usage limit जल्दी खत्म हो जाती है।

https://github.com/hang-in/tunaLlama

Claude Code से coding करते समय जिन चरणों में output लंबा होता है (code generation, file review, refactor), वे सबसे ज़्यादा tokens खर्च करते हैं। लेकिन ये चरण आम तौर पर deterministic होते हैं और model quality का फर्क कम पड़ता है। इसके उलट decomposition (requirements → task list) और verification (मिला हुआ परिणाम requirements को पूरा करता है या नहीं) में input/output छोटा होता है, लेकिन model quality का फर्क बड़ा होता है।

tunaLlama इसी asymmetry को ज्यों का त्यों code flow में ढालने वाला backend + plug-in है।

भूमिका / मॉडल / ज़िम्मेदारीArchitectClaude / Codex (subscription)decomposition / spec / verification / integrationDeveloperlocal LLM (Ollama / Cloud / LM Studio)code generation / self review / self fixReviewerArchitect जैसी same sessionfinal judgment

सिर्फ token-heavy चरण local पर भेजे जाते हैं, जबकि छोटे decomposition और verification चरण Claude / Codex में ही रहते हैं।

Claude Code और Codex CLI, दोनों plug-in के ज़रिए external tools इस्तेमाल कर सकते हैं.
एक बार install कर देने पर agent काम करते हुए जब ज़रूरत समझे, तब खुद ही उसे call करने वाली संरचना है।
यूज़र को हर बार "यह tool इस्तेमाल करो" कहने की ज़रूरत नहीं पड़ती। tunaLlama ऐसा ही एक plug-in प्रकार है, जो MCP (Model Context Protocol) server के माध्यम से 13 tools expose करता है।
एक ही repo से Claude Code और Codex CLI दोनों काम करते हैं।
(claude-plugin/marketplace.json फ़ाइल को दोनों clients पहचानते हैं।)

जब यूज़र काम का अनुरोध करता है (कोरियाई / अंग्रेज़ी)

Architect task decomposition करता है - छोटा हो तो tuna_dev_review, लंबा हो तो spec document लिखकर tuna_dev_review_from_spec
backend generate → review → fix loop दोहराता है (bounded delegation - समाप्ति की शर्त review pass या max iter)
सभी calls SQLite में रिकॉर्ड होते हैं और Korean morphological analyzer (Kiwi) से index किए जाते हैं।
Architect परिणाम verify करके यूज़र को लौटाता है

जब mid-size local LLM को अकेले चलाया गया बनाम Architect ने context व्यवस्थित करके देने के बाद तुलना की गई, तो +0.58 ~ +0.64 का सुधार मिला (3 models validation, Phase 7-2)। यानी वही local LLM होने पर भी अगर context ठीक से व्यवस्थित करके दिया जाए, तो परिणाम अर्थपूर्ण रूप से बेहतर होते हैं।
हालाँकि यह measurement synthetic seed पर आधारित है। इसे ऐसे test set पर मापा गया है जिसमें वास्तविक दुनिया में अक्सर आने वाले task scenarios को पहले से बनाया गया था, इसलिए असली user workflow में भी बिल्कुल वैसा ही निकलेगा या नहीं, यह अलग प्रश्न है। organic dogfooding metric v0.5.7+ से 4 प्रकार (standalone_toy_rate / convention_adherence_rate / ast_excess_score / syntactically_valid) को ~/.tunallama/metrics.db में अपने आप जमा कर रहा है, और external users के लिए reproducibility, accumulated baseline तक, लगातार इकट्ठी की जा रही है।

limit बचत के लिए Anthropic / OpenAI की limit calculation formula public नहीं है, इसलिए "X% बचत" जैसा कोई quantitative परिणाम नहीं है। बस इतना कि "सीधे इस्तेमाल करने से बेहतर है"।

कोरियाई समर्थन

Kiwi morphological analyzer जोड़ने से कोरियाई search indexing संभव है। imel geomjeung जैसे बिना spacing वाले input पर भी imel से search करने पर match मिल सकता है। यह FTS5 के unicode61 tokenizer की उस सीमा को पूरा करने वाली संरचना है, जिसमें वह कोरियाई को केवल syllable / jamo स्तर पर काटता है। हालाँकि Kiwi जिन नए शब्दों / technical terms को ठीक से process नहीं कर पाता, उनसे search quality प्रभावित हो सकती है।

5 मिनट में install

session में एक लाइन दे दीजिए, काम पूरा:

"https://github.com/hang-in/tunaLlama ka INSTALL.md follow karke install kar do"

agent अपने आप dependencies install करेगा, .env configure करेगा, plug-in register करेगा, और verification तक step-by-step आगे बढ़ेगा।
अगर manual install चाहिए, तो README देखें।

दोनों environments के लिए operation matrix

Claude Code और Codex CLI एक ही repo से काम करते हैं, लेकिन कुछ features सिर्फ एक तरफ verify किए गए हैं (v0.5.6 measured, Claude Code 2.1.138 + Codex CLI 0.128.0):

आइटमClaude CodeCodex CLIMCP tools 13 calls✓✓
DB sharing (~/.tunallama/memory.db)✓✓
state.md sharing✓✓
tuna_load_memory / tuna_recall explicit calls✓✓
Agents auto-discovery✓
SessionStart hook + state.md auto-prepend✓
(v0.5.5+)✗MCP resource auto-attach✗✗
Claude Code में state.md auto-prepend अपने आप काम करता है,
जबकि Codex CLI में पहले turn पर यूज़र द्वारा tuna_load_memory की explicit call या docs को सीधे fetch करना recommended है।
MCP tool के 13 calls दोनों तरफ सामान्य रूप से काम करते हैं, इसलिए delegation खुद tool level पर संभव है।

सीमाएँ

usage limit बचत का डेटा अनुभव-आधारित है (ऊपर उल्लेखित)
MCP tool system prompt cost एक जानबूझकर चुना गया trade-off है - 13 tools के description + schema हर conversation system prompt में लगभग 1.6k tokens prepend करते हैं। यह accidental context bloat नहीं, बल्कि Architect को सही delegation tool चुनने देने की affordance cost के रूप में design किया गया है

local LLM environment (Ollama आदि, Ollama cloud भी सामान्य रूप से काम करता है) अनिवार्य है - इसके बिना काम नहीं करेगा
search metrics synthetic seed पर आधारित हैं (ऊपर उल्लेखित)
Codex CLI के कुछ features काम नहीं करते (ऊपर matrix)
कोरियाई नए शब्द / technical terms search quality को प्रभावित कर सकते हैं

prompt seed / AGENTS.md क्यों नहीं

यह context limitation को इस तरह हल करने की कोशिश नहीं करता कि agent को और ज़्यादा documents पढ़ा दिए जाएँ।
इसके बजाय, task units को छोटे हिस्सों में बाँटकर MCP tools के ज़रिए local / low-cost LLM को भेजा जाता है, और ऊपरी Architect model छोटे spec, review परिणाम, और final diff judgment पर फोकस करता है।
document-based operation rules समय के साथ stale state, drift, और lost-in-the-middle जैसी समस्याएँ पैदा कर सकते हैं।
tunaLlama इससे बचने के लिए delegation calls को SQLite में रिकॉर्ड करता है और ज़रूरत पड़ने पर search / recall करने वाली execution layer रखता है।

किन लोगों के लिए उपयोगी हो सकता है

Claude Code Pro/Max subscription users (limit management motivation)
Codex CLI users (OpenAI subscription / API quota management)
वे लोग जिनके पास पहले से Ollama local / Ollama Cloud / LM Studio environment है
जो लोग कोरियाई tasks संभालते हैं (Kiwi integration)

टेस्ट / लाइसेंस

v0.5.x usable dogfooding release. 507 unit/plugin tests + 27 integration/search_quality tests, 90% coverage.
measurement command README में दिया गया है (pytest --no-cov -q -m "not search_quality and not integration")।
license MIT है। English README (README.en.md) synchronized रखा जा रहा है। feedback / issues / PR स्वागत योग्य हैं।
दूसरे AI CLI compatibility proposals का भी स्वागत है।