कम ही ज़्यादा है: छोटे नेटवर्क के साथ recursive reasoning को लागू करना

(alexiajm.github.io)

3 पॉइंट द्वारा GN⁺ 2025-10-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Tiny Recursion Model (TRM) लगभग 7M parameters वाला एक छोटा neural network है, फिर भी यह ARC-AGI-1 में 45% और ARC-AGI-2 में 8% जैसी उच्च performance हासिल करता है
यह साबित करता है कि बड़े language model के बिना भी recursive reasoning approach लागू करके कठिन समस्याएँ हल की जा सकती हैं
यह मॉडल मौजूदा Hierarchical Reasoning Model (HRM) की जटिल संरचना को सरल बनाकर केवल मुख्य recursive reasoning process को बनाए रखता है
TRM मानव मस्तिष्क, जटिल mathematical theorem, या hierarchical structure के बिना एक छोटे और efficient model के रूप में जवाबों की गुणवत्ता को लगातार बेहतर बनाता है
यह पेपर इस बात पर ज़ोर देता है कि कठिन समस्याओं के समाधान में मॉडल के आकार से अधिक नया approach महत्वपूर्ण है

अवलोकन

इस पेपर में Tiny Recursion Model (TRM) नाम का एक नया recursive reasoning model प्रस्तावित किया गया है
TRM बहुत छोटे 7M parameters वाले neural network के रूप में बना है, फिर भी इसने ARC-AGI-1 में 45% और ARC-AGI-2 में 8% जैसी सार्थक accuracy दर्ज की है
यह मॉडल प्रयोगों के माध्यम से दिखाता है कि बड़ी कंपनियों द्वारा सैकड़ों मिलियन डॉलर खर्च करके train किए गए बड़े model के बिना भी, efficient recursive reasoning के ज़रिए जटिल समस्याएँ पर्याप्त रूप से हल की जा सकती हैं
फिलहाल उद्योग में LLM के उपयोग पर अत्यधिक ध्यान केंद्रित है, लेकिन TRM यह संकेत देता है कि नई reasoning और learning direction का महत्व अधिक है

मौजूदा शोध से अंतर

मौजूदा Hierarchical Reasoning Model (HRM) में biological logic, जटिल hierarchical structure, और mathematical theorem (जैसे fixed-point theorem) पर निर्भरता अधिक थी
TRM इस जटिलता को हटाकर केवल सबसे सरल recursive reasoning core mechanism को छोड़ता है, जिससे design और implementation दोनों अधिक सहज रूप से सरल हो जाते हैं
मानव मस्तिष्क की संरचना या सैद्धांतिक पृष्ठभूमि के बिना भी recursive self-iteration process के माध्यम से जवाब की accuracy को लगातार बेहतर बनाना इसका मुख्य बिंदु है

TRM कैसे काम करता है

यह input question x, initial answer y, और hidden state z को embed करके शुरू करता है
अधिकतम K बार के improvement steps के दौरान, नीचे दिए गए दो चरण बार-बार चलाए जाते हैं:
- i) मौजूदा question x, answer y, और hidden state z से hidden value z को n बार दोहराकर update किया जाता है (recursive reasoning)
- ii) मौजूदा answer y और नए hidden z से answer y को फिर से update किया जाता है ताकि बेहतर answer निकाला जा सके
यह recursive iteration process मॉडल parameters बढ़ाए बिना जवाब की गुणवत्ता को लगातार बेहतर बनाता है और overfitting के जोखिम को भी कम करता है

निष्कर्ष

TRM पर शोध यह साबित करता है कि मॉडल का आकार सफलता के लिए अनिवार्य तत्व नहीं है
प्रयोगों से दिखाया गया है कि केवल recursive reasoning principle के आधार पर भी छोटा neural network बड़े model के क़रीब पहुँचने वाला प्रदर्शन हासिल कर सकता है
यह भविष्य के AI research में efficient और रचनात्मक नई दिशाओं के विकास के महत्व पर ज़ोर देता है
अधिक जानकारी पेपर में देखी जा सकती है

1 टिप्पणियां

GN⁺ 2025-10-10

Hacker News राय

मैं सभी को ARC-AGI आयोजकों की HRM पर लिखी गई ब्लॉग पोस्ट ध्यान से पढ़ने की ज़ोरदार सिफारिश करता हूँ
उसी data augmentation/'test time training' शर्तों के तहत, यह दिखाया गया है कि एक बेसलाइन Transformer भी HRM में रिपोर्ट किए गए “शानदार प्रदर्शन” के लगभग करीब पहुँच जाता है
यह पेपर भी शायद ARC-AGI पर अपनी तुलना कुछ मिलती-जुलती शर्तों में कर रहा है
मैं भी छोटे मॉडल से बेहतरीन reasoning performance पाना चाहूँगा
लेकिन पहले यह समझना ज़रूरी है कि ARC-AGI किस चीज़ का मूल्यांकन करता है, commercial LLMs के बीच तुलना के लिए आम तौर पर कौन-सी settings इस्तेमाल होती हैं, और HRM या इस पेपर में कौन-सी विशेष settings उपयोग की गई हैं
benchmark naming अक्सर ज़रूरत से ज़्यादा उम्मीदें पैदा करती है, और HRM व इस पेपर दोनों में मुझे वैसा ही लगा
- TRM पेपर में उस ब्लॉग पोस्ट का पहले ही ज़िक्र है
  HRM analysis post को बहुत ज़्यादा बारीकी से देखने की ज़रूरत नहीं, और TRM की संरचना HRM की तुलना में disentangled है इसलिए ablation कहीं अधिक आसान है
  मुझे लगता है कि arcprize HRM ब्लॉग की असली अहमियत ablation tests के महत्व पर ज़ोर देने में है
  ARC-AGI को सभी मॉडलों के लिए एक challenge के रूप में डिज़ाइन किया गया था
  यह मान लिया गया था कि इसे हल करने के लिए कम-से-कम LLM स्तर की बड़े language models वाली reasoning क्षमता चाहिए होगी, लेकिन लगता है यह एक गलतफहमी थी
  मैं यह पूछना चाहता हूँ कि क्या HRM और TRM को ARC-AGI samples के छोटे dataset पर विशेष रूप से train किया गया, जबकि LLMs को नहीं किया गया?
  या फिर आप किस अंतर पर ज़ोर देना चाहते हैं, यह जानना चाहता हूँ
“बेसिक Transformer” कहने के बजाय इसे “recurrent संरचना वाला Transformer-जैसा architecture” कहना अधिक सही होगा
फिर भी यह एक दिलचस्प प्रयोग का विषय है
इसके कुछ स्पष्ट फायदे हैं, लेकिन मुझे नहीं लगता कि यह वास्तव में बेहतर Transformer है
अभी इसे जितना असाधारण ध्यान मिल रहा है, वह थोड़ा ज़्यादा लगता है
यह पढ़कर एक बार फिर Finite Impulse Response (FIR) filters (मौजूदा LLMs) और Infinite Impulse Response (IIR) filters (recursive models) के बीच की समानता याद आ गई
यह न तो कोई महान उपमा है, न बहुत मौलिक, लेकिन FIR में समान cutoff characteristics पाने के लिए IIR की तुलना में बहुत अधिक coefficients चाहिए होते हैं
उदाहरण के लिए, window design method से IIR को FIR में बदला जा सकता है, और तब recursive structure को unroll करके सीमित depth पर रोक दिया जाता है
इसी तरह, अगर TRM को unroll करें तो वह पारंपरिक LLM architecture में global feedback हटाकर attention+ff blocks की पुनरावृत्ति जैसा बन जाता है
ऊपर से, TRM असली IIR के विपरीत एक finite cutoff लागू करता है, इसलिए संरचनात्मक रूप से यह FIR/LLM के अधिक करीब लगता है
TRM की तुलना उसके इसी तरह unrolled किए गए रूप से करना भी दिलचस्प होगा
हालाँकि, यह शायद नींद की कमी में आया हुआ भ्रम भी हो सकता है
- मैं Deep Equilibrium Models का परिचय देना चाहूँगा
  यह इस अवलोकन से शुरू होता है कि अधिकांश मौजूदा deep sequence models की hidden layers किसी fixed point पर converge करती हैं, और फिर सीधे root finding के ज़रिए उसी fixed point को खोजती हैं
  यह तरीका अनंत depth वाले (weight-tied) feedforward network को चलाने के बराबर है, और implicit differentiation से backpropagation भी संभव बनाता है
  (arxiv पेपर लिंक)
  Deep equilibrium models की दिलचस्प बात यह है कि सिर्फ एक ही layer के साथ भी वे कई layers वाले deep learning network के बराबर हो सकते हैं
  बस recurrence होना चाहिए
  यह task की कठिनाई के अनुसार iterations की संख्या खुद समायोजित करता है
मैंने HRM को शैक्षिक उद्देश्य से implement किया और pathfinding में अच्छा प्रदर्शन पाया
बाद में ablation experiments किए तो ARC-AGI टीम जैसी ही निष्कर्ष पर पहुँचा (यानी HRM architecture खुद बहुत बड़ा योगदान नहीं देता)
इससे थोड़ी निराशा हुई
मुझे लगता है कि latent space reasoning में कुछ संभावना है
implementation repository
- मुझे लगता है यह बेहतरीन काम है, इसे व्यवस्थित करके साझा करने के लिए धन्यवाद
  replication और अनुभव साझा करना वाकई बहुत महत्वपूर्ण है
मैं जानना चाहता हूँ कि arXiv पेपर में दिखाया गया परिणाम वास्तव में scale हो सकता है या नहीं
अगर यह नतीजा वास्तविक applications में भी काम करता है, तो यह निश्चित रूप से क्रांतिकारी होगा
दूसरी ओर, अगर ऐसा हुआ, तो यह कल्पना करना भी दिलचस्प है कि मौजूदा AI data center infrastructure पर हो रहा खगोलीय निवेश एक झटके में बेमानी हो सकता है
(हालाँकि शायद बहुत लंबे समय के लिए नहीं)
- HRM की बात करते समय arcprize HRM analysis post ज़रूर देखनी चाहिए
  यह पेपर HRM का एक simplified version लगता है, और संभवतः उसी analysis post की ablation study का भी संदर्भ लेता है
  यह भी महत्वपूर्ण है कि HRM कोई broadly applicable structure नहीं है जैसे सामान्य transformer LLMs होते हैं
  अभी तक इस बात का कोई प्रमाण नहीं है कि HRM ने general generative AI tasks में काम किया है
  मैं पेपर पढ़ रहा हूँ, लेकिन यह architecture भी HRM की तरह समान tasks (जैसे ARC-AGI जैसी spatial reasoning समस्याएँ) के लिए उपयुक्त लगता है, और इसे अधिक general-purpose architecture में integrate करने की ज़रूरत है
- मुझे लगता है कि यहाँ Jevon’s paradox लागू होगा
  AI/बिजली की unit cost घटेगी तो demand और बढ़ेगी
- यह विचार कि AI bubble इसलिए फूटेगा क्योंकि AI technology इतनी बेहतर हो जाएगी कि efficiency चरम पर पहुँच जाएगी, काफ़ी plausible लगता है
- AI data center capex के बेमानी हो जाने वाली बात पर
  GPU compute सिर्फ text inference के लिए नहीं है, और खासकर video generation की demand तो किसी breakthrough के बाद भी कुछ समय तक saturate होना मुश्किल लगती है
- अगर वास्तव में ऐसा प्रदर्शन हासिल हो गया, तो industry लगभग तुरंत इस तरीके को अपनाकर और बड़े, और अधिक शक्तिशाली models train करने की दिशा में बढ़ेगी
“7M parameters के साथ TRM ने ARC-AGI-1 पर 45% और ARC-AGI-2 पर 8% test accuracy हासिल की, जो Deepseek R1, o3-mini, Gemini 2.5 Pro जैसे अधिकांश LLMs से अधिक है, जबकि parameters 0.01% से भी कम हैं”
यह सचमुच प्रभावशाली है
संदर्भ के तौर पर, संरचनात्मक रूप से यह Jeff Hawkins की “On Intelligence” में प्रस्तावित Hierarchical Temporal Memory जैसा महसूस होता है
(हालाँकि इसमें sparsity की विशेषता नहीं है, लेकिन hierarchical/temporal तत्व समान हैं)
HTM wiki, Numenta
- मुझे लगता है कि sparsity का न होना मौजूदा LLM approach की Achilles' heel हो सकता है
सारांश
Hierarchical Reasoning Model(HRM) एक नया तरीका है जिसमें दो छोटे neural networks को अलग-अलग cycle पर recursively चलाया जाता है
इसे biological inspiration से बनाया गया है, और छोटे मॉडल (27M parameters) तथा छोटे और सीमित data (लगभग 1000 examples) के साथ Sudoku, Maze, ARC-AGI जैसी कठिन puzzle-type समस्याओं में बड़े LLMs से बेहतर प्रदर्शन करता है
इसकी architecture अभी पूरी तरह समझी नहीं गई है और संभव है कि इसका performance भी optimal न हो
हम इससे कहीं अधिक सरल recursive reasoning method (TRM, Tiny Recursive Model) प्रस्तावित करते हैं, और यह मॉडल 2-layer छोटे network के साथ HRM की तुलना में कहीं बेहतर generalization performance दिखाता है
सिर्फ 7M parameters के साथ यह बड़े LLMs को पीछे छोड़ देता है (ARC-AGI-1 पर 45%, ARC-AGI-2 पर 8% test accuracy, और parameters 0.01% से भी कम)
- सिर्फ 7M parameters के साथ बड़े LLMs से आगे निकलने वाला यह परिणाम काफ़ी आकर्षक है
  फिर भी जिज्ञासा है कि कहीं इसमें कोई छिपी हुई सीमा तो नहीं
ARC समस्याओं में recurrence का अच्छा असर देखकर दिलचस्प लगा
अगर आपको recurrence में रुचि है, तो इस मॉडल को दूसरी समस्याओं पर लागू करने वाले नीचे दिए गए papers भी उपयोगी हो सकते हैं
- Language modeling: Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
- puzzle problem solving: A Simple Loss Function for Convergent Algorithm Synthesis using RNNs
- end-to-end algorithm synthesis: End-to-end Algorithm Synthesis with Recurrent Networks, Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks
- सामान्य approach: Think Again Networks and the Delta Loss, Universal Transformers, Adaptive Computation Time for Recurrent Neural Networks
कुल मिलाकर मुझे transformer RNN परिवार पसंद है
मूल रूप से यह EBM के energy landscape सीखकर समाधान की ओर खिंचने जैसी संरचना है
ऐसा लगता है जैसे discrete समस्याओं को धीरे-धीरे convex बनाया जा रहा हो
इससे neural cellular automata, flow matching/diffusion आदि की याद आती है
यह तरीका control problems के लिए भी आशाजनक लगता है
state space में लगातार घूमते हुए हर step पर केवल valid actions चुनने जैसा
मुझे लगता है कि यह मूल रूप से neuralese Chain-of-Thought(CoT) जैसा ही है
z/z_L को साफ़ तौर पर reasoning embedding कहा गया है, और यह recursive प्रक्रिया के दौरान बदलते या बने रहते हुए output embeddings (z_H/y) को धीरे-धीरे refine करता है
क्या यह वास्तव में neuralese CoT/reasoning chain नहीं है?

कम ही ज़्यादा है: छोटे नेटवर्क के साथ recursive reasoning को लागू करना

अवलोकन

मौजूदा शोध से अंतर

TRM कैसे काम करता है

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय