पदानुक्रमिक रीजनिंग मॉडल
(arxiv.org)- पदानुक्रमिक रीजनिंग मॉडल (Hierarchical Reasoning Model) AI के जटिल goal-oriented व्यवहारों को execute करने की प्रक्रिया में मौजूदा LLM-आधारित Chain-of-Thought तकनीक की सीमाओं (अस्थिर task decomposition, अधिक data की आवश्यकता, latency की समस्या) को पार करता है
- मानव मस्तिष्क की hierarchical processing अवधारणा से प्रेरित होकर, HRM एक नई recurrent संरचना पेश करता है, जिसमें high-level module उच्च-स्तरीय abstract planning संभालता है और low-level module तेज़ी से विस्तृत operations प्रोसेस करता है
- HRM लगभग 27 million parameters और सिर्फ 1,000 training samples के साथ भी कठिन reasoning समस्याओं में उत्कृष्ट प्रदर्शन दिखाता है
- pretraining और Chain-of-Thought data के बिना भी यह जटिल Sudoku और बड़े maze में optimal path खोज जैसी समस्याओं में लगभग पूर्ण accuracy हासिल करता है
- HRM मौजूदा बड़े मॉडलों की तुलना में अधिक efficiency और performance दिखाता है, और general-purpose computing तथा general intelligence systems के लिए एक turning point बनने की संभावना दर्शाता है
अवलोकन
AI क्षेत्र में reasoning जटिल goal-oriented व्यवहारों के design और execution की प्रक्रिया के रूप में एक महत्वपूर्ण चुनौती है। मौजूदा large language models (LLMs) मुख्यतः Chain-of-Thought (CoT) तकनीक का उपयोग करते हैं, लेकिन इसमें कमजोर task decomposition, अधिक data की ज़रूरत, और उच्च latency जैसी सीमाएँ हैं।
- मानव मस्तिष्क की hierarchical और multi-timescale processing संरचना से प्रेरित होकर Hierarchical Reasoning Model (HRM) प्रस्तावित किया गया
- HRM दो dependent recurrent modules (high-level/low-level) से बना है, जो intermediate process की explicit supervision के बिना single forward pass में sequential reasoning करता है
- 27 million parameters के साथ सिर्फ 1,000 samples का उपयोग करके state-of-the-art performance दिखाता है
मौजूदा deep learning और LLM की संरचनात्मक सीमाएँ
- deep learning की शुरुआत network depth बढ़ाकर representational power बढ़ाने से हुई थी, लेकिन वास्तविक Transformer-आधारित LLMs संरचनात्मक रूप से उथले हैं और depth की सीमा रखते हैं
- fixed-depth Transformer जटिल logical reasoning या algorithmic समस्याओं में computational complexity के कारण मूलभूत सीमाओं का सामना करता है
- Chain-of-Thought मानव द्वारा परिभाषित भाषा-आधारित step-by-step decomposition पर निर्भर करता है, इसलिए गलती या गलत क्रम के कारण पूरा reasoning आसानी से ढह सकता है
- CoT से बहुत अधिक data, token generation, और धीमा execution जैसी समस्याएँ भी पैदा होती हैं
HRM के design principles
मानव मस्तिष्क की hierarchical और multi-timescale processing की नकल करते हुए design किया गया
- hierarchical processing: मस्तिष्क उच्च और निम्न क्षेत्रों में information को पदानुक्रमिक और temporal रूप से अलग-अलग प्रोसेस करता है
- timescale separation: ऊपरी क्षेत्र धीरे काम करते हैं, जबकि निचले क्षेत्र तेज़ी से काम करते हैं, जिससे efficient guidance संभव होती है
- recurrent connections: बार-बार होने वाले feedback के ज़रिए internal representations को fine-tune करते हुए deep reasoning संभव किया जाता है
HRM मॉडल आर्किटेक्चर
- input network, low-level recurrent module, high-level recurrent module, output network से मिलकर बना है
- input को vector के रूप में embed किया जाता है
- low-level module अपने पिछले state, high-level के वर्तमान state, और input के आधार पर कई बार update होता है
- high-level module हर cycle समाप्त होने पर low-level module का अंतिम state लेकर केवल एक बार update होता है
- अंत में high-level module के state से prediction निकाला जाता है
hierarchical convergence mechanism
- मौजूदा RNN बहुत जल्दी converge हो जाते हैं, जिससे अतिरिक्त computation अर्थहीन हो जाता है
- HRM में low-level RNN हर cycle में local equilibrium तक स्थिर रूप से converge करता है, फिर high-level module नया context देता है ताकि low-level module फिर से शुरू हो सके
- इस hierarchical convergence संरचना की वजह से deep (अधिक चरणों वाले) computation संभव होते हैं और convergence speed भी उचित रूप से नियंत्रित रहती है
1-step approximate gradient training
- BPTT (Backpropagation Through Time) पर निर्भर रहने से कई चरणों के states स्टोर करने पड़ते हैं, जिससे memory burden बहुत बढ़ता है
- HRM high-level और low-level दोनों modules में केवल अंतिम state से gradient approximate करके training करता है, जिससे memory usage O(1) बना रहता है और अधिक biologically realistic तरीका संभव होता है
- गणितीय रूप से यह Deep Equilibrium Model (DEQ) के सिद्धांत पर आधारित है
deep supervision & adaptive computation time (ACT)
deep supervision
- periodic feedback प्रदान किया जाता है, हर forward pass (segment) पर output निकाला जाता है, और प्रत्येक segment का training loss अलग से compute किया जाता है
- अगले segment में जाते समय state को graph से detach करके deep recurrent संरचना की stability और performance बढ़ाई जाती है
adaptive computation time (ACT)
- मानव की automatic और deliberate thinking switch करने की अवधारणा अपनाकर, Q-learning के माध्यम से segment repetition count को dynamic रूप से सीखा और तय किया जाता है
- Q-head हर segment पर halt/continue action के Q-value की भविष्यवाणी करता है
- Q-learning prediction accuracy और optimal stopping point दोनों को ध्यान में रखकर कुल loss compute करता है
performance और architecture की विशेषताएँ
-
Sudoku-Extreme (9x9), बड़े maze (30x30) जैसी समस्याएँ, जहाँ मौजूदा CoT-आधारित मॉडल विफल रहे, HRM उन्हें लगभग 1,000 data points के साथ लगभग पूर्ण रूप से हल करता है
-
ARC-AGI (Abstraction and Reasoning Corpus) benchmark पर सिर्फ 27M parameters के साथ 40.3% performance हासिल की गई (CoT-आधारित o3-mini-high 34.5%, Claude 3.7 8K 21.2%)
-
inference चरण में केवल computation steps बढ़ाकर अतिरिक्त performance improvement संभव है, इसलिए architecture में बदलाव या retraining के बिना भी compute resources का उपयोग किया जा सकता है
-
HRM आंतरिक रूप से Transformer-आधारित sequence-to-sequence संरचना का उपयोग करता है,
- embedding layer के बाद low-level और high-level दोनों modules में encoder-only Transformer blocks का उपयोग
- आधुनिक LLM सुविधाएँ लागू: Rotary Positional Encoding, Gated Linear Units, RMSNorm आदि
- parameters के लिए truncated LeCun Normal initialization, Adam-atan2 optimizer और fixed learning rate का उपयोग
निष्कर्ष
- HRM, biologically inspired hierarchical recurrent संरचना और efficient, deep learning methods के माध्यम से कम data और कम parameters के साथ भी मौजूदा तरीकों की तुलना में बेहतर general reasoning capability साबित करता है
- यह deep learning/LLM की depth limitation से आगे बढ़कर general-purpose computation और intelligent systems की दिशा में विकास की संभावना दिखाने वाला एक महत्वपूर्ण उदाहरण है
1 टिप्पणियां
Hacker News राय
एब्स्ट्रैक्ट और इंट्रोडक्शन को मोटे तौर पर देखने पर, Hierarchical Reasoning Model (HRM) के नतीजे सचमुच चौंकाने वाले लगते हैं
27M parameters वाला model सिर्फ 1,000 data points पर 'from scratch' train हुआ है, यह बात काफी संदिग्ध लगती है
सही बात!
"T steps खत्म होने के बाद upper module (H-module) lower module की result state लेकर update करता है, और इसी दौरान lower module की computation path को दोबारा शुरू कर एक नई convergence phase शुरू कराता है"
hlm/llm structure split की बात पढ़ते ही मानव मस्तिष्क की संरचना याद आ गई
मेरा कहना है कि skeptical नज़रिया ज़रूरी है
लेखकों का code https://github.com/sapientinc/HRM पर public है
machine learning papers में healthy skepticism बहुत ज़रूरी है
मेरे हिसाब से skeptical verification का सबसे अच्छा तरीका reproduction experiments और result comparison है
सिर्फ इस वजह से कि अभी peer review नहीं हुआ, तुरंत फैसला सुना देना जल्दबाज़ी होगी
paper अभी-अभी publish हुआ है, ऐसे में peer review की उम्मीद करना process को न समझने जैसा लगता है
मैं cognitive psychologist हूं, और लंबे समय से broadly यही सोचता आया हूं कि AI को इसी दिशा में जाना चाहिए
अगर मेरी समझ सही है, तो HRM 1,000 Sudoku (puzzle, solution) pairs देखकर rules खुद सीखता है
उसके बाद यह पहले कभी न देखे गए नए puzzles को 55% accuracy के साथ हल कर सकता है
अगर इसे दस लाख examples पर train किया जाए, तो यह लगभग perfect हो जाता है
यह बात चौंकाती है कि इसमें कोई pretraining बिल्कुल नहीं है
दूसरी ओर AlphaZero में rules (chess, Go) built-in होते हैं और वह सिर्फ strategy सीखता है, जबकि HRM rules भी खुद सीखता है
मैं इसे सीधे GitHub repository में जाकर देखने वाला हूं
AlphaZero में rules built-in हैं, लेकिन MuZero और उसके बाद के models rules built-in किए बिना काम करते हैं
source code से खुद प्रयोग करने पर मेरा निष्कर्ष:
pyproject.tomlऔर बेहतर होगा)(यानी यह वास्तव में सिर्फ 1,000 नहीं है)
मुझे उम्मीद है/थोड़ा डर भी है कि HRM model जल्द ही MoE (Mixture of Experts) के साथ जोड़ा जाएगा
LLMs को और ताकतवर बनाने का आर्थिक दबाव बहुत बड़ा है, इसलिए मुझे लगता है ऐसा संयोजन कुछ महीनों के भीतर भी हो सकता है
paper सिर्फ sudoku-solving जैसे puzzle problems पर केंद्रित है, यह Q&A या LLM के मुख्य use cases को नहीं छूता
अगली पीढ़ी के LLMs के साथ इसके integration पर चर्चा न होना थोड़ा खलता है
MoE का संबंध concept clusters से है, लेकिन आगे चलकर concept की depth, hierarchy levels, और training time जैसी चीज़ें भी latent space में शामिल करनी होंगी; यह वैसा ही है जैसे हम math textbook पढ़ते समय और छोटा article पढ़ते समय अलग तरह से पढ़ते हैं
HRM को कम संख्या वाले rules के जटिल मेल से बने puzzles के लिए design किया गया है
मेरे मन में भी थोड़ा संदेह है, क्योंकि Sudoku के अलावा दूसरे applications या limitations पर ज्यादा चर्चा नहीं है
paper को सरसरी नज़र से देखकर लगता है कि MoE LLM systems (autoregressive, diffusion, energy-based, चाहे कोई भी approach हो) को भी HRM structure के रूप में hierarchical nesting दी जा सकती है
neuroscience से प्रेरित इस approach को मैं उच्च अंक दूंगा, और paper में overall मुझे कोई खास समस्या नहीं दिखती
मैंने खुद replication नहीं की, लेकिन authors ने जो बनाया है वह कम-से-कम एक शायद general-purpose constraint-satisfaction solver लगता है
यह कम examples देखकर constraints के rules भी सीख लेता है, और अगर यह सच है तो इतना ही अपने-आप में काफी दिलचस्प है
लेकिन CoT models के साथ direct comparison मुझे बहुत convincing नहीं लगता
CoT models सिद्धांत रूप में किसी भी complex problem को हल कर सकते हैं, जबकि HRM को हर specialized puzzle के लिए अलग से train करना पड़ता है, इसलिए इसके लिए generality का दावा करना कठिन है
जैसे chess engine Stockfish, LLM से बेहतर chess खेलता है, लेकिन इससे यह नहीं कहा जा सकता कि Stockfish ज्यादा 'intelligent' है
idea अच्छा है, लेकिन paper में थोड़ा marketing-style overstatement महसूस हुआ
सहमत! सच कहूं तो सिर्फ यह उपलब्धि भी बहुत बड़ी है
आपने कहा कि CoT models मूलतः किसी भी complex task को हल कर सकते हैं, तो उसका आधार क्या है?
अगर यह paper सही साबित होता है, तो इसका असर बहुत बड़ा होगा, इसलिए मैं इसे करीब से देख रहा हूं