PonderTTT - TTT-आधारित अनुकूली computation allocation

नमस्ते, यह हाई स्कूल के छात्र के रूप में स्वतंत्र शोध के तहत किया गया मेरा पहला arXiv पेपर है.

मुख्य विचार:
LLM आसान input और कठिन input पर एक जैसी computation इस्तेमाल करता है, जो अप्रभावी है, इसलिए TTT layer के reconstruction loss को signal के रूप में इस्तेमाल करके UPDATE/SKIP तय किया जाता है.
अलग training के बिना सिर्फ threshold + EMA से Oracle के मुकाबले 82-89% performance हासिल की गई.

इसे JAX/Flax में implement किया गया है, और फिलहाल Gemma 3 के साथ scale-up validation चल रहा है.

फीडबैक का स्वागत है!

3 टिप्पणियां

jhk0530 2026-01-07

आप हाई स्कूल के छात्र हैं, फिर भी कमाल हैं। गारंटर की समस्या आपने कैसे हल की?

devworld 2026-01-07

मैंने पहले से रिसर्च कर रहे विदेश के PhD और प्रोफेसरों को लगन से cold email भेजे, तब यह मिला!

jhk0530 2026-01-07

आह, यह तो कमाल का सटीक जवाब है

PonderTTT - TTT-आधारित अनुकूली computation allocation

संबंधित पढ़ाई

3 टिप्पणियां