PonderTTT - TTT-आधारित अनुकूली computation allocation
(ponderttt.worldsw.dev)नमस्ते, यह हाई स्कूल के छात्र के रूप में स्वतंत्र शोध के तहत किया गया मेरा पहला arXiv पेपर है.
मुख्य विचार:
LLM आसान input और कठिन input पर एक जैसी computation इस्तेमाल करता है, जो अप्रभावी है, इसलिए TTT layer के reconstruction loss को signal के रूप में इस्तेमाल करके UPDATE/SKIP तय किया जाता है.
अलग training के बिना सिर्फ threshold + EMA से Oracle के मुकाबले 82-89% performance हासिल की गई.
इसे JAX/Flax में implement किया गया है, और फिलहाल Gemma 3 के साथ scale-up validation चल रहा है.
फीडबैक का स्वागत है!
3 टिप्पणियां
आप हाई स्कूल के छात्र हैं, फिर भी कमाल हैं। गारंटर की समस्या आपने कैसे हल की?
मैंने पहले से रिसर्च कर रहे विदेश के PhD और प्रोफेसरों को लगन से cold email भेजे, तब यह मिला!
आह, यह तो कमाल का सटीक जवाब है