नमस्ते।

मैंने एक repository सार्वजनिक की है, जिसमें यह प्रयोग किया गया है कि छोटे लोकल LLM लंबे कामों को कितनी अच्छी तरह संभाल सकते हैं।

Gemento
https://github.com/hang-in/gemento

यह प्रोजेक्ट न कोई नया model architecture है, न कोई paper, और न ही यह दावा है कि 4B model frontier models की जगह ले सकता है।

इसके बजाय, यह एक experimental harness के ज्यादा करीब है, जो reproducible तरीके से यह मापता है कि “जिन चीजों को हम model के अंदर होना चाहिए मानते थे, अगर उनमें से कुछ को workflow के बाहर निकाल दिया जाए, तो क्या छोटे models में भी कुछ हद तक performance वापस आ सकती है?”

शुरुआत उस समस्या से हुई, जिससे मैं seCall और tunaFlow बनाते समय बार-बार टकराया।

  • लंबे काम session के पार जीवित नहीं रह पाते
  • context बहुत जल्दी महंगा हो जाता है
  • model अपनी गलतियों को खुद ठीक से पहचान नहीं पाता
  • छोटे लोकल models में one-shot inference की सीमाएँ साफ दिखती हैं

इसलिए मैंने एक सरल सवाल से शुरुआत की।

prompt context को लगातार बढ़ाने के बजाय, अगर memory, state, verification, computation, और loop control को बाहर निकाल दिया जाए, तो क्या होगा?

Gemento में इसे चार axes में बाँटा गया है।

  1. Tattoo
    working memory / intermediate state को structured JSON state के रूप में externalize करना

  2. Tools
    computation को function-calling आधारित tools के रूप में externalize करना

  3. Role
    self-verification को Proposer / Critic / Judge role separation के रूप में externalize करना

  4. Orchestrator
    termination conditions और iteration control को Python loop के रूप में externalize करना

नाम फिल्म Memento के tattoo, polaroid, और memo रूपकों से लिया गया है।

अब तक मैंने मुख्य रूप से Gemma 4 E4B का उपयोग किया है, जो effective 4B-स्तर का लोकल model है।

अभी sample size छोटा है, और कुछ परिणाम statistical रूप से significant नहीं हैं। इसलिए README में भी supported / conditionally supported / inconclusive / rejected को अलग-अलग दर्ज किया गया है।

कुछ ध्यान खींचने वाले परिणाम इस प्रकार रहे।

  • one-shot inference की तुलना में multi-loop स्पष्ट रूप से बेहतर रहा।
    Exp02: 50% → 94.4%
    Exp10: 1-loop 41.3% → 8-loop ABC 78.1%

  • उसी model से “जाँचो कि तुम गलत हो या नहीं” कहलवाने वाला तरीका लगभग पूरी तरह विफल रहा।
    Exp03: planted error 15 में से 0 का पता

  • इसके विपरीत, role separation करने पर error detection काफी बेहतर हुआ।
    Exp035: 15 में से 12 का पता, 80%

  • गणितीय calculation में tool externalization का प्रभाव स्पष्ट था।
    Exp08 / Exp08b में tool call और error hint को force करने पर एक खास math task 0% → 100% तक recover हुआ।

  • लंबे context वाले tasks में simple dump की तुलना में chunked ABC+Tattoo ने मजबूत प्रदर्शन किया।
    Exp09 Large 20K condition में Solo 0%, RAG 67%, ABC+Tattoo 100%
    हालाँकि, मैं अभी यह निष्कर्ष नहीं निकाल रहा हूँ कि ABC+Tattoo, RAG से सामान्य रूप से बेहतर है। H9b अभी inconclusive है।

  • Judge के रूप में stronger model डालने का तरीका उल्टा विफल रहा।
    Exp11 में सिर्फ Judge को Gemini 2.5 Flash में बदला गया, लेकिन mixed condition baseline all-Gemma से नीचे रहा।
    जो mechanism देखा गया, वह यह था कि “stronger Judge कमजोर model की self-discovery process में मदद करने के बजाय, intermediate state schema और conclusion convergence में बाधा डाल सकता है।”

  • दूसरी ओर, शुरुआती चरण में Extractor role जोड़ना छोटा लेकिन सकारात्मक बदलाव था।
    Exp12: Δ +0.050
    खासकर कुछ catastrophic cases में recovery दिखी।

  • लेकिन बाद के चरण में Reducer role उल्टा नुकसानदेह रहा।
    Exp13: Δ -0.053
    अंतिम उत्तर को “साफ-सुथरे ढंग से व्यवस्थित” करने की प्रक्रिया में evidence structure compress हो गई, और abstraction loss देखा गया, जिससे score गिरा।

इसलिए मेरी वर्तमान व्याख्या यह है।

छोटे models को बस किसी stronger model से judge करवाने की तुलना में, उसी model के भीतर roles को कहाँ रखा जाता है, यह शायद ज्यादा महत्वपूर्ण हो सकता है।

खासकर pre-stage role addition अपेक्षाकृत सुरक्षित रहा, जबकि post-stage summary/cleanup जोखिमभरा था।

मैंने यह भी स्पष्ट रूप से लिखा है कि यह प्रोजेक्ट अभी क्या दावा नहीं करता।

  • यह दावा नहीं कि 4B model बड़े models की जगह ले सकता है
  • यह दावा नहीं कि ABC+Tattoo हमेशा RAG से बेहतर है
  • यह कोई नया architecture या training method नहीं है
  • यह दावा नहीं कि paper-स्तर की statistical testing पूरी हो चुकी है
  • Related work के कुछ हिस्सों का bibliographic verification अभी पूरा नहीं हुआ है

फिलहाल यह “public experiment notes” के ज्यादा करीब है।

अकेले किए गए experiments में भ्रम पैदा होना आसान है। खासकर इस तरह के structural experiments में taskset, scorer, prompt, और loop conditions के अनुसार परिणाम आसानी से बदल सकते हैं।

इसीलिए मैंने इसे polished paper बनने से पहले सार्वजनिक किया।

मैं जिन तरह के feedback की उम्मीद कर रहा हूँ, वे मोटे तौर पर ये हैं।

  • क्या यह दूसरे लोकल models पर reproduce होता है
  • क्या taskset / scorer में bias है
  • क्या RAG baseline पर्याप्त रूप से fair है
  • क्या ABC+Tattoo वास्तव में अलग failure modes दिखाता है
  • अगर Search Tool / Graph Tool / Evidence Tool जोड़े जाएँ, तो क्या Tool axis में और स्पष्ट प्रभाव दिखता है

अगला candidate experiment Exp14 Search Tool है।

रुचि रखने वाले लोग README या docs/reference देख सकते हैं।

counterexamples, reproduction failure, और आलोचना—सबका स्वागत है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.