4 पॉइंट द्वारा devworld 2026-01-07 | 3 टिप्पणियां | WhatsApp पर शेयर करें

नमस्ते, यह हाई स्कूल के छात्र के रूप में स्वतंत्र शोध के तहत किया गया मेरा पहला arXiv पेपर है.

Paper | Code

मुख्य विचार:
LLM आसान input और कठिन input पर एक जैसी computation इस्तेमाल करता है, जो अप्रभावी है, इसलिए TTT layer के reconstruction loss को signal के रूप में इस्तेमाल करके UPDATE/SKIP तय किया जाता है.
अलग training के बिना सिर्फ threshold + EMA से Oracle के मुकाबले 82-89% performance हासिल की गई.

इसे JAX/Flax में implement किया गया है, और फिलहाल Gemma 3 के साथ scale-up validation चल रहा है.

फीडबैक का स्वागत है!

3 टिप्पणियां

 
jhk0530 2026-01-07

आप हाई स्कूल के छात्र हैं, फिर भी कमाल हैं। गारंटर की समस्या आपने कैसे हल की?

 
devworld 2026-01-07

मैंने पहले से रिसर्च कर रहे विदेश के PhD और प्रोफेसरों को लगन से cold email भेजे, तब यह मिला!

 
jhk0530 2026-01-07

आह, यह तो कमाल का सटीक जवाब है