पदानुक्रमिक रीजनिंग मॉडल

(arxiv.org)

6 पॉइंट द्वारा GN⁺ 2025-07-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

पदानुक्रमिक रीजनिंग मॉडल (Hierarchical Reasoning Model) AI के जटिल goal-oriented व्यवहारों को execute करने की प्रक्रिया में मौजूदा LLM-आधारित Chain-of-Thought तकनीक की सीमाओं (अस्थिर task decomposition, अधिक data की आवश्यकता, latency की समस्या) को पार करता है
मानव मस्तिष्क की hierarchical processing अवधारणा से प्रेरित होकर, HRM एक नई recurrent संरचना पेश करता है, जिसमें high-level module उच्च-स्तरीय abstract planning संभालता है और low-level module तेज़ी से विस्तृत operations प्रोसेस करता है
HRM लगभग 27 million parameters और सिर्फ 1,000 training samples के साथ भी कठिन reasoning समस्याओं में उत्कृष्ट प्रदर्शन दिखाता है
pretraining और Chain-of-Thought data के बिना भी यह जटिल Sudoku और बड़े maze में optimal path खोज जैसी समस्याओं में लगभग पूर्ण accuracy हासिल करता है
HRM मौजूदा बड़े मॉडलों की तुलना में अधिक efficiency और performance दिखाता है, और general-purpose computing तथा general intelligence systems के लिए एक turning point बनने की संभावना दर्शाता है

अवलोकन

AI क्षेत्र में reasoning जटिल goal-oriented व्यवहारों के design और execution की प्रक्रिया के रूप में एक महत्वपूर्ण चुनौती है। मौजूदा large language models (LLMs) मुख्यतः Chain-of-Thought (CoT) तकनीक का उपयोग करते हैं, लेकिन इसमें कमजोर task decomposition, अधिक data की ज़रूरत, और उच्च latency जैसी सीमाएँ हैं।

मानव मस्तिष्क की hierarchical और multi-timescale processing संरचना से प्रेरित होकर Hierarchical Reasoning Model (HRM) प्रस्तावित किया गया
HRM दो dependent recurrent modules (high-level/low-level) से बना है, जो intermediate process की explicit supervision के बिना single forward pass में sequential reasoning करता है
27 million parameters के साथ सिर्फ 1,000 samples का उपयोग करके state-of-the-art performance दिखाता है

मौजूदा deep learning और LLM की संरचनात्मक सीमाएँ

deep learning की शुरुआत network depth बढ़ाकर representational power बढ़ाने से हुई थी, लेकिन वास्तविक Transformer-आधारित LLMs संरचनात्मक रूप से उथले हैं और depth की सीमा रखते हैं
fixed-depth Transformer जटिल logical reasoning या algorithmic समस्याओं में computational complexity के कारण मूलभूत सीमाओं का सामना करता है
Chain-of-Thought मानव द्वारा परिभाषित भाषा-आधारित step-by-step decomposition पर निर्भर करता है, इसलिए गलती या गलत क्रम के कारण पूरा reasoning आसानी से ढह सकता है
CoT से बहुत अधिक data, token generation, और धीमा execution जैसी समस्याएँ भी पैदा होती हैं

HRM के design principles

मानव मस्तिष्क की hierarchical और multi-timescale processing की नकल करते हुए design किया गया

hierarchical processing: मस्तिष्क उच्च और निम्न क्षेत्रों में information को पदानुक्रमिक और temporal रूप से अलग-अलग प्रोसेस करता है
timescale separation: ऊपरी क्षेत्र धीरे काम करते हैं, जबकि निचले क्षेत्र तेज़ी से काम करते हैं, जिससे efficient guidance संभव होती है
recurrent connections: बार-बार होने वाले feedback के ज़रिए internal representations को fine-tune करते हुए deep reasoning संभव किया जाता है

HRM मॉडल आर्किटेक्चर

input network, low-level recurrent module, high-level recurrent module, output network से मिलकर बना है
input को vector के रूप में embed किया जाता है
low-level module अपने पिछले state, high-level के वर्तमान state, और input के आधार पर कई बार update होता है
high-level module हर cycle समाप्त होने पर low-level module का अंतिम state लेकर केवल एक बार update होता है
अंत में high-level module के state से prediction निकाला जाता है

hierarchical convergence mechanism

मौजूदा RNN बहुत जल्दी converge हो जाते हैं, जिससे अतिरिक्त computation अर्थहीन हो जाता है
HRM में low-level RNN हर cycle में local equilibrium तक स्थिर रूप से converge करता है, फिर high-level module नया context देता है ताकि low-level module फिर से शुरू हो सके
इस hierarchical convergence संरचना की वजह से deep (अधिक चरणों वाले) computation संभव होते हैं और convergence speed भी उचित रूप से नियंत्रित रहती है

1-step approximate gradient training

BPTT (Backpropagation Through Time) पर निर्भर रहने से कई चरणों के states स्टोर करने पड़ते हैं, जिससे memory burden बहुत बढ़ता है
HRM high-level और low-level दोनों modules में केवल अंतिम state से gradient approximate करके training करता है, जिससे memory usage O(1) बना रहता है और अधिक biologically realistic तरीका संभव होता है
गणितीय रूप से यह Deep Equilibrium Model (DEQ) के सिद्धांत पर आधारित है

deep supervision & adaptive computation time (ACT)

deep supervision

periodic feedback प्रदान किया जाता है, हर forward pass (segment) पर output निकाला जाता है, और प्रत्येक segment का training loss अलग से compute किया जाता है
अगले segment में जाते समय state को graph से detach करके deep recurrent संरचना की stability और performance बढ़ाई जाती है

adaptive computation time (ACT)

मानव की automatic और deliberate thinking switch करने की अवधारणा अपनाकर, Q-learning के माध्यम से segment repetition count को dynamic रूप से सीखा और तय किया जाता है
Q-head हर segment पर halt/continue action के Q-value की भविष्यवाणी करता है
Q-learning prediction accuracy और optimal stopping point दोनों को ध्यान में रखकर कुल loss compute करता है

performance और architecture की विशेषताएँ

Sudoku-Extreme (9x9), बड़े maze (30x30) जैसी समस्याएँ, जहाँ मौजूदा CoT-आधारित मॉडल विफल रहे, HRM उन्हें लगभग 1,000 data points के साथ लगभग पूर्ण रूप से हल करता है
ARC-AGI (Abstraction and Reasoning Corpus) benchmark पर सिर्फ 27M parameters के साथ 40.3% performance हासिल की गई (CoT-आधारित o3-mini-high 34.5%, Claude 3.7 8K 21.2%)
inference चरण में केवल computation steps बढ़ाकर अतिरिक्त performance improvement संभव है, इसलिए architecture में बदलाव या retraining के बिना भी compute resources का उपयोग किया जा सकता है
HRM आंतरिक रूप से Transformer-आधारित sequence-to-sequence संरचना का उपयोग करता है,
- embedding layer के बाद low-level और high-level दोनों modules में encoder-only Transformer blocks का उपयोग
- आधुनिक LLM सुविधाएँ लागू: Rotary Positional Encoding, Gated Linear Units, RMSNorm आदि
- parameters के लिए truncated LeCun Normal initialization, Adam-atan2 optimizer और fixed learning rate का उपयोग

निष्कर्ष

HRM, biologically inspired hierarchical recurrent संरचना और efficient, deep learning methods के माध्यम से कम data और कम parameters के साथ भी मौजूदा तरीकों की तुलना में बेहतर general reasoning capability साबित करता है
यह deep learning/LLM की depth limitation से आगे बढ़कर general-purpose computation और intelligent systems की दिशा में विकास की संभावना दिखाने वाला एक महत्वपूर्ण उदाहरण है

1 टिप्पणियां

GN⁺ 2025-07-28

Hacker News राय

एब्स्ट्रैक्ट और इंट्रोडक्शन को मोटे तौर पर देखने पर, Hierarchical Reasoning Model (HRM) के नतीजे सचमुच चौंकाने वाले लगते हैं
- सिर्फ 1,000 input-output examples का इस्तेमाल करके, और बिना pretraining या Chain-of-Thought (CoT) supervision के भी, HRM ऐसे सवाल हल कर देता है जिन्हें अब तक के state-of-the-art LLM भी संभाल नहीं पाते, यह काफी प्रभावशाली है
- उदाहरण के लिए, complex Sudoku (Extreme Full) और 30x30 maze में optimal path खोजने जैसे कामों में इसने लगभग perfect accuracy दर्ज की है (जबकि CoT तरीका यहां 0% accuracy पर ही रह जाता है)
- Abstraction and Reasoning Corpus (ARC) AGI challenge में भी HRM ने 27M parameters, 30x30 grid (900 tokens) के साथ 40.3% performance हासिल की, और इससे कहीं बड़े models (o3-mini-high, Claude 3.7 8K आदि) को पीछे छोड़ा
- इस paper को मैं ध्यान से पढ़ने वाला हूं
27M parameters वाला model सिर्फ 1,000 data points पर 'from scratch' train हुआ है, यह बात काफी संदिग्ध लगती है
- और यह भी समझ नहीं आता कि इसे उन्हीं conditions में trained दूसरे models से compare क्यों नहीं किया गया
- इसके बजाय वे सिर्फ general-purpose external LLMs से तुलना कर रहे हैं, जबकि हो सकता है कि उन LLMs ने वे 1,000 examples training में कभी देखे ही न हों
- यह approach कहीं न कहीं overfit जैसी लगती है
सही बात!
- HRM दो interdependent recurrent modules का इस्तेमाल करता है (upper module: abstract और slow planning, lower module: fast और detailed computation)
- इसी structure की वजह से HRM कम parameters (27M) और छोटे dataset (~1,000 examples) के साथ भी गहरी computation क्षमता हासिल करता है
- HRM ने कठिन benchmarks (Extreme Sudoku, Maze-Hard, ARC-AGI) में latest CoT models को पीछे छोड़ा
- उदाहरण के तौर पर, Sudoku में 96% accuracy, और ARC-AGI-2 में 40.3% performance के साथ Claude 3.7, DeepSeek R1 जैसे बड़े models से भी आगे निकला
- यह कैसे संभव हो रहा है, इसकी व्याख्या चाहिए... लगता है खुद कंप्यूटर पर चलाकर देखना पड़ेगा
"T steps खत्म होने के बाद upper module (H-module) lower module की result state लेकर update करता है, और इसी दौरान lower module की computation path को दोबारा शुरू कर एक नई convergence phase शुरू कराता है"
- lower RNN जब computation पूरा कर लेता है, तब upper module result का मूल्यांकन करता है, lower RNN को नया context देता है, और loop दोहराया जाता है
- lower RNN बार-बार backpropagation learning करता है, और upper module समय-समय पर दखल देकर output बेहतर होने तक उसे adjust करता रहता है
- "Neuroscientific evidence बताता है कि ऐसे cognitive modes prefrontal cortex, default mode network जैसी neural circuits को साझा करते हैं. यानी, brain task complexity और reward संभावना के हिसाब से इन circuits के 'run time' को dynamically adjust करता है"
- लेखकों ने इसी brain mechanism से प्रेरित 'adaptive halting strategy' को HRM में शामिल किया है, यानी 'तेज़/धीमा सोचना' रणनीति लागू की है
- यानी यह ऐसा scheduler है जो task की कठिनाई और दिए गए data के हिसाब से computation resources के उपयोग को अपने-आप adjust करता है
- paper में जगह-जगह असली brain से समानताओं का हवाला दिया गया है, यह मुझे सच में पसंद आया
- मेरा मानना है कि AGI तभी संभव होगा जब ऐसे primitive blocks को extreme complexity के साथ जोड़ा जाए, और cooperation, competition, communication, concurrency, specialization जैसे बहुत-से 'modules' का उपयोग हो
- मानव मस्तिष्क भी evolutionary नज़रिए से cognitive function हासिल करने के लिए शायद ऐसा ही रहा होगा; धीमे और low-power biological tissue के साथ यही एकमात्र हल समझ में आता है
hlm/llm structure split की बात पढ़ते ही मानव मस्तिष्क की संरचना याद आ गई
मेरा कहना है कि skeptical नज़रिया ज़रूरी है
- खासकर backpropagation को bypass करने जैसी बातें काफी दिलचस्प हैं
- लेकिन अभी तक शायद यह peer review से नहीं गुज़रा है, और results section में evaluation method भी पर्याप्त ठोस नहीं है, numerical details सिर्फ main figure में दिखती हैं
- Benchmarks (ARC2) leaderboard और असली numbers भी अलग हैं (अभी top entries 19% के आसपास हैं, जबकि HRM लगभग 5% स्तर पर है)
- इसे https://www.kaggle.com/competitions/arc-prize-2025/leaderboard पर सीधे देखा जा सकता है
लेखकों का code https://github.com/sapientinc/HRM पर public है
- AI/ML क्षेत्र में working code के साथ आई preprint paper को अक्सर official peer-reviewed paper से कहीं अधिक मूल्यवान माना जाता है
- preprint को कोई भी verify और reproduce कर सकता है, जबकि standard peer review कुछ बहुत कम, व्यस्त (और कभी-कभी ठीक से paid भी नहीं) reviewers पर निर्भर करता है
- अगर authors का दावा सही है, तो उसे स्वाभाविक रूप से मान्यता मिल जाएगी; अगर नहीं, तो वह भुला दिया जाएगा
- व्यवहार में यह open-source style का distributed, global verification है; यह थोड़ा rough हो सकता है, लेकिन पारंपरिक paper review से कहीं अधिक प्रभावी है
machine learning papers में healthy skepticism बहुत ज़रूरी है
- papers की संख्या बढ़ने से पारंपरिक peer review लगभग निष्प्रभावी हो गया है
- कई बार reviewers के पास वास्तव में संबंधित क्षेत्र की पर्याप्त expertise नहीं होती, या वे students होते हैं
- असली peer review तो वह प्रक्रिया है जिसमें दूसरे experts arXiv जैसी जगहों से paper देखकर implementation करते हैं, results को independently reproduce करते हैं, और बाद की papers में cite करते हैं
- यह comment thread खुद भी असली peer review है
मेरे हिसाब से skeptical verification का सबसे अच्छा तरीका reproduction experiments और result comparison है
- अगले महीने मेरी 10 दिन की छुट्टी है, तब मैं source code, dataset वगैरह में authors ने क्या-क्या जारी किया है, यह देखकर खुद reproduce करने की योजना बना रहा हूं
सिर्फ इस वजह से कि अभी peer review नहीं हुआ, तुरंत फैसला सुना देना जल्दबाज़ी होगी
- mamba1 और mamba2 papers भी शुरुआत में peer review से नहीं गुज़रे थे
- लेकिन मैं इस बात से सहमत हूं कि बड़े दावों के लिए मज़बूत सबूत चाहिए, और मैं अभी local machine पर खुद results reproduce करने की कोशिश कर रहा हूं
paper अभी-अभी publish हुआ है, ऐसे में peer review की उम्मीद करना process को न समझने जैसा लगता है
- research को peer review में भेजने के लिए पहले उसे 'publish' करना ही पड़ता है
मैं cognitive psychologist हूं, और लंबे समय से broadly यही सोचता आया हूं कि AI को इसी दिशा में जाना चाहिए
- Fuzzy Trace Theory देखें [1]; memory word-level details से लेकर gist तक कई स्तरों पर representations बनाती है, फिर उन्हें जोड़कर retrieve करती है
- summary-like representation और detailed information का मेल शक्तिशाली generalization और flexible recall paths को संभव बनाता है
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
अगर मेरी समझ सही है, तो HRM 1,000 Sudoku (puzzle, solution) pairs देखकर rules खुद सीखता है
- उसके बाद यह पहले कभी न देखे गए नए puzzles को 55% accuracy के साथ हल कर सकता है
- अगर इसे दस लाख examples पर train किया जाए, तो यह लगभग perfect हो जाता है
- यह बात चौंकाती है कि इसमें कोई pretraining बिल्कुल नहीं है
- दूसरी ओर AlphaZero में rules (chess, Go) built-in होते हैं और वह सिर्फ strategy सीखता है, जबकि HRM rules भी खुद सीखता है
- मैं इसे सीधे GitHub repository में जाकर देखने वाला हूं
- AlphaZero में rules built-in हैं, लेकिन MuZero और उसके बाद के models rules built-in किए बिना काम करते हैं
  - MuZero ने AlphaZero से बेहतर performance दिखाई, और EfficientZero ने training volume भी कम किया
  - Atari games जैसे कई environments में यह शानदार है
- source code से खुद प्रयोग करने पर मेरा निष्कर्ष:
  - scientific reproducibility के लिए मैं ज़रूर चाहूंगा कि library versions साफ़-साफ़ दी जाएं (pyproject.toml और बेहतर होगा)
  - 1,000 Sudoku examples असल में hand-coded permutation algorithm से data augmentation करके बढ़ाए गए हैं, इसलिए वास्तविक dataset लगभग दस लाख examples का है
    (यानी यह वास्तव में सिर्फ 1,000 नहीं है)
मुझे उम्मीद है/थोड़ा डर भी है कि HRM model जल्द ही MoE (Mixture of Experts) के साथ जोड़ा जाएगा
- LLMs को और ताकतवर बनाने का आर्थिक दबाव बहुत बड़ा है, इसलिए मुझे लगता है ऐसा संयोजन कुछ महीनों के भीतर भी हो सकता है
- paper सिर्फ sudoku-solving जैसे puzzle problems पर केंद्रित है, यह Q&A या LLM के मुख्य use cases को नहीं छूता
- अगली पीढ़ी के LLMs के साथ इसके integration पर चर्चा न होना थोड़ा खलता है
- MoE का संबंध concept clusters से है, लेकिन आगे चलकर concept की depth, hierarchy levels, और training time जैसी चीज़ें भी latent space में शामिल करनी होंगी; यह वैसा ही है जैसे हम math textbook पढ़ते समय और छोटा article पढ़ते समय अलग तरह से पढ़ते हैं
- HRM को कम संख्या वाले rules के जटिल मेल से बने puzzles के लिए design किया गया है
  - rules कम होने की वजह से छोटे model से भी training संभव है, और model छोटा होने से इसे बार-बार loop में चलाकर सभी interactions संभाले जा सकते हैं
  - language modeling में बहुत सारे phrases और उनके relations को store करना पड़ता है, इसलिए वैसा छोटा model यहां शायद काम न करे
  - अच्छी बात यह है कि language domain में आमतौर पर कुछ ही computation steps के बाद usable result मिल जाता है
  - अगर LLM जितना बड़ा model HRM-style repeated loop में डाला जाए, तो वह इतना धीमा हो जाएगा कि practical use मुश्किल होगा
  - हालांकि यह कल्पना की जा सकती है कि LLM core + छोटा HRM मिलाकर constraint-satisfaction tasks को अलग से handle कराया जाए
- मेरे मन में भी थोड़ा संदेह है, क्योंकि Sudoku के अलावा दूसरे applications या limitations पर ज्यादा चर्चा नहीं है
paper को सरसरी नज़र से देखकर लगता है कि MoE LLM systems (autoregressive, diffusion, energy-based, चाहे कोई भी approach हो) को भी HRM structure के रूप में hierarchical nesting दी जा सकती है
- इन्हें मिलाकर efficiency और quality पर नए benchmarks भी बनाए जा सकते हैं
neuroscience से प्रेरित इस approach को मैं उच्च अंक दूंगा, और paper में overall मुझे कोई खास समस्या नहीं दिखती
- मैंने खुद replication नहीं की, लेकिन authors ने जो बनाया है वह कम-से-कम एक शायद general-purpose constraint-satisfaction solver लगता है
- यह कम examples देखकर constraints के rules भी सीख लेता है, और अगर यह सच है तो इतना ही अपने-आप में काफी दिलचस्प है
- लेकिन CoT models के साथ direct comparison मुझे बहुत convincing नहीं लगता
- CoT models सिद्धांत रूप में किसी भी complex problem को हल कर सकते हैं, जबकि HRM को हर specialized puzzle के लिए अलग से train करना पड़ता है, इसलिए इसके लिए generality का दावा करना कठिन है
- जैसे chess engine Stockfish, LLM से बेहतर chess खेलता है, लेकिन इससे यह नहीं कहा जा सकता कि Stockfish ज्यादा 'intelligent' है
- idea अच्छा है, लेकिन paper में थोड़ा marketing-style overstatement महसूस हुआ
- सहमत! सच कहूं तो सिर्फ यह उपलब्धि भी बहुत बड़ी है
  - hype को नियंत्रित रखने की ज़रूरत है, लेकिन इतने छोटे model से ऐसे results आना फिर भी चौंकाने वाला है
  - खास समस्याओं के लिए custom models अधिक efficient और reliable होते हैं, इसलिए सिर्फ general-purpose होने के नाम पर inefficient architecture थोपने की ज़रूरत नहीं है
- आपने कहा कि CoT models मूलतः किसी भी complex task को हल कर सकते हैं, तो उसका आधार क्या है?
  - क्या इसके लिए कोई mathematical proof है, यह भी सवाल है
  - निजी तौर पर मुझे लगता है कि CoT, मौजूदा LLMs की सीमाओं को bypass करने का एक तरह का workaround भर है
अगर यह paper सही साबित होता है, तो इसका असर बहुत बड़ा होगा, इसलिए मैं इसे करीब से देख रहा हूं
- इसका basic concept तर्कसंगत लगता है, लेकिन जब तक third-party validation नहीं आती, मैं सावधानी से ही देखूंगा
- मन है कि इसे अपने काम में भी सीधे परखकर देखूं