Q-learning अभी scalable नहीं है

(seohong.me)

1 पॉइंट द्वारा GN⁺ 2025-06-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

RL ने Go·Chess और LLM post-training में बड़ी उपलब्धियां हासिल की हैं, लेकिन इनमें से ज्यादातर on-policy RL पर निर्भर हैं, जिसमें नए rollouts की जरूरत होती है; यह off-policy RL से अलग स्थिति है, जहां पुराने data को स्वतंत्र रूप से reuse किया जा सकता है
प्रमुख off-policy RL तरीका Q-learning sample-efficient है, लेकिन ऐसे long-horizon tasks में अभी पर्याप्त रूप से scale नहीं हुआ है जिनमें 100 से ज्यादा meaningful decision steps चाहिए
bottleneck यह है कि TD learning के biased bootstrap targets horizon लंबा होने पर accumulate होते जाते हैं; यह next-token prediction, diffusion models और contrastive learning से अलग constraint है
OGBench experiments में flow BC, IQL, CRL, SAC+BC सामान्य offline RL datasets से 1000 गुना बड़े 1B dataset पर भी सभी long-horizon tasks solve नहीं कर पाए, और performance optimal level से नीचे plateau हो गई
n-step returns और hierarchical RL जैसे horizon reduction ने scalability और final performance सुधारी, लेकिन मौजूदा techniques समस्या को सिर्फ constant factor से कम करती हैं; arbitrary complex long-horizon tasks solve करने के लिए वे पर्याप्त नहीं हैं

RL scalability की मौजूदा स्थिति

next-token prediction, denoising diffusion और contrastive learning ने दिखाया है कि वे बड़े data और अरबों parameters वाले models पर scalable objective functions हैं
RL ने भी Go·Chess में superhuman performance हासिल की है, और LLMs में math और coding जैसे complex reasoning tasks solve कर रहा है
हालांकि, अभी के ज्यादातर real-world success cases on-policy RL algorithms पर आधारित हैं
- प्रमुख उदाहरण REINFORCE, PPO, GRPO आदि हैं
- मौजूदा policy से नए sampled rollouts हमेशा जरूरी होते हैं
- पुराने data को reuse नहीं किया जा सकता
- PPO-प्रकार के methods data को सीमित रूप से reuse कर सकते हैं, लेकिन OpenAI docs जैसी classification के अनुसार इन्हें on-policy RL माना जाता है
board games या LLMs जैसे environments में, जहां rollouts सस्ते में बड़ी संख्या में बनाए जा सकते हैं, यह constraint बड़ा issue नहीं हो सकता
robotics में, language model को RL से post-train करते समय इस्तेमाल होने जितने samples वास्तविक दुनिया में generate करने में कई महीने या उससे ज्यादा लगते हैं, और training के दौरान robot reset करने के लिए किसी इंसान को 24 घंटे पास रहना पड़ता है

Off-policy RL और Q-learning

off-policy RL सिद्धांततः किसी भी समय और किसी भी तरीके से collect किए गए data का इस्तेमाल कर सकता है
वही data कई बार reuse किया जा सकता है, इसलिए आम तौर पर sample efficiency बेहतर होती है
real environment में dog robot को शुरू से 20 मिनट में चलना सिखाने का उदाहरण भी है
- संबंधित example: walk in the park
Q-learning सबसे ज्यादा इस्तेमाल होने वाला off-policy RL algorithm है
practical model-free off-policy RL algorithms में से ज्यादातर TD loss के variants पर आधारित हैं
RL को ज्यादा real-world problems पर लागू करने के लिए मुख्य सवाल बनता है: “क्या Q-learning, यानी TD learning, scalable है?”
अगर हां, तो robotics और computer-use agents जैसे ज्यादा विविध और complex real-world tasks efficiently solve किए जा सकते हैं

“Scalable” का मतलब: width नहीं, depth

यहां scalability का मतलब है कि पर्याप्त coverage वाले data, compute और time को बढ़ाने पर ज्यादा कठिन और ज्यादा लंबे horizon की problems solve करने की क्षमता
यह एक ही model से ज्यादा संख्या में tasks solve करने की क्षमता से अलग है
- tasks की संख्या बढ़ना जरूरी नहीं कि ज्यादा कठिन tasks solve करने के बराबर हो
- कई मौजूदा scaling studies इस “width” axis की संभावना दिखाती हैं
ज्यादा महत्वपूर्ण और कठिन axis depth है
- क्योंकि इसके लिए ज्यादा advanced decision-making ability चाहिए
Q-learning अपने मौजूदा रूप में depth axis पर ज्यादा scalable नहीं है
complex long-horizon problems के लिए Q-learning और off-policy RL को scale करने के लिए algorithmic breakthrough की जरूरत है

बड़े पैमाने की RL सफलताओं में Q-learning की कमी

कई real-world RL successes TD-based Q-learning के बजाय दूसरे तरीकों पर आधारित हैं
AlphaGo, AlphaZero, MuZero model-based RL और Monte Carlo tree search का इस्तेमाल करते हैं, और board games में TD learning का इस्तेमाल नहीं करते
- संदर्भ: MuZero paper page 15
OpenAI Five ने Dota 2 में PPO से superhuman performance हासिल की
- संदर्भ: OpenAI Five paper footnote 6
LLMs के लिए RL में अभी PPO, GRPO जैसे on-policy policy-gradient परिवार के methods dominate करते हैं
AlphaGo या LLM जैसे scale पर off-policy RL, खासकर 1-step TD learning, की सफल real-world example पेश नहीं की गई है
यह आकलन off-policy RL को खारिज करने से ज्यादा इस चिंता जैसा है कि RL algorithm research की और जरूरत है

long-horizon tasks में Q-learning क्यों डगमगाता है

Q-learning का TD loss मौजूदा Q value को reward और next state की maximum Q value जोड़कर बने target से match करना सीखता है
यह target biased bootstrap target है, जो actual optimal Q value के बराबर नहीं भी हो सकता
Q-learning को scale करने में कठिनाई का मुख्य कारण यह है कि prediction target का bias horizon के साथ accumulate होता जाता है
यह bias accumulation TD learning की fundamental limitation की तरह काम करता है
- next-token prediction, denoising diffusion, contrastive learning जैसे objective functions में ऐसा prediction target bias नहीं होता
- BYOL, DINO में bias हो भी तो horizon के साथ accumulate नहीं होता
जैसे-जैसे problem complex होती है और horizon लंबा होता है, bootstrap target का bias ज्यादा गंभीर रूप से जमा होता है
सिर्फ ज्यादा data और बड़े models से इस problem को आसानी से कम करना मुश्किल है
असल में ज्यादा बड़े discount rate (\gamma > 0.999) का शायद ही इस्तेमाल होने का एक प्रमुख कारण भी इससे जुड़ा है
policy-gradient methods को यह problem अपेक्षाकृत कम झेलनी पड़ती है
- GAE जैसी on-policy value-estimation techniques ज्यादा variance स्वीकार करते हुए भी लंबे horizon को relatively आसानी से handle करती हैं
- वे strict 1-step recursion से बंधी नहीं होतीं

OGBench आधारित scalability experiments

हालिया paper Horizon Reduction Makes RL Scalable विभिन्न controlled scaling studies से ऊपर की hypothesis को verify करता है
लक्ष्य यह देखना है कि मौजूदा off-policy RL methods सिर्फ data और compute बढ़ाकर बहुत कठिन tasks solve कर सकते हैं या नहीं
experiments में OGBench के complex और पहले unsolved tasks का इस्तेमाल किया गया
tasks की requirements ये हैं
- agent को unstructured random play-style demos से complex goal-reaching behavior सीखना होता है
- test time पर precise manipulation, combinatorial puzzle solving और long-horizon navigation करना होता है
- tasks 1,000 environment steps तक चलते हैं
experiments confounding variables घटाने के लिए design किए गए
- overfitting practically impossible हो, इतना near-infinite data collect किया गया
- exploration problem हटाने के लिए offline RL पर focus किया गया
- यह सुनिश्चित किया गया कि dataset में पर्याप्त coverage हो, और दिए गए dataset से सभी tasks solve किए जा सकें
- representation learning burden घटाने के लिए ground-truth state observation सीधे दिया गया
अगर इस controlled environment में भी Q-learning scale नहीं होता, तो limited data और noisy observation वाले real-world environments में संभावना और कम हो जाती है

standard offline RL algorithms के परिणाम

standard और widely used offline RL algorithms सभी tasks solve नहीं कर पाए
target algorithms flow BC, IQL, CRL, SAC+BC हैं
experiments 1B-size dataset पर भी किए गए
- यह सामान्य offline RL dataset से (1000 \times) बड़ा है
ज्यादा महत्वपूर्ण बात यह है कि performance अक्सर optimal performance से बहुत नीचे plateau पर पहुंच गई
larger models, longer training, अलग hyperparameters आदि कई ablations और controlled experiments भी कारगर नहीं रहे
exception के रूप में जो तरीका effective था, वह horizon reduction था

Horizon reduction से आए सुधार

पहले की hypothesis यह थी कि horizon और उससे होने वाला bias accumulation off-policy RL scaling की मुख्य बाधा है
इसे verify करने के लिए biased TD backups की संख्या घटाने वाली कई horizon reduction techniques आजमाई गईं
- examples में n-step returns, hierarchical RL आदि शामिल हैं
results positive थे
- n-step returns जैसी simple techniques ने भी scalability और final performance को काफी सुधारा
- यह सिर्फ training तेज करने वाली trick नहीं, बल्कि asymptotic performance भी सुधारती है
- full hierarchical methods और बेहतर काम करते हैं
पूरे experiments में consistently काम करने वाली एकमात्र technique horizon reduction थी
सिर्फ data और compute बढ़ाना horizon के curse को solve करने के लिए पर्याप्त नहीं है
इस problem को directly target करने वाले बेहतर algorithms की जरूरत है

scalable off-policy RL objective functions की ओर research directions

horizon reduction Q-learning की scalability खोलता है, लेकिन मौजूदा techniques problem को fundamentally solve नहीं करतीं
n-step returns और hierarchical RL जैसे मौजूदा methods ज्यादातर problem को constant factor से कम करते हैं
arbitrary complex long-horizon problems तक scale होने वाले off-policy RL algorithms अभी भी कम हैं
संभावित research directions को तीन बिंदुओं में समेटा जा सकता है
- arbitrary-length horizon handle करने के लिए 2-level hierarchy से आगे simple और scalable recursive hierarchical structures खोजने का तरीका
- model learning supervised learning है और on-policy RL भी scalable है, इसलिए पहले model सीखकर उस model के अंदर on-policy RL चलाने वाला model-based RL approach
- TD learning को पूरी तरह avoid करने के तरीके
  - उदाहरण के लिए quasimetric RL RL के LP formulation पर आधारित है
  - contrastive RL जैसे MC-based methods भी TD-based approaches से बेहतर scale हो सकते हैं या नहीं, यह test किया जा सकता है
ऊपर का experimental setup ऐसे ideas test करने का starting point हो सकता है
- complex robot tasks और datasets पहले से design किए गए हैं
- verify किया गया है कि दिए गए data से tasks solve किए जा सकते हैं
- cubes और जोड़ने जैसे तरीकों से tasks को arbitrary रूप से कठिन बनाकर algorithm scalability को controlled तरीके से stress-test किया जा सकता है
- code release: horizon-reduction

1 टिप्पणियां

GN⁺ 2025-06-16

Hacker News टिप्पणियाँ

लगता है यह लेख Q learning के स्केल न होने के और भी बड़े कारण को छोड़ देता है
जैसे-जैसे horizon लंबा होता है, संभावित states की संख्या आम तौर पर exponentionally बढ़ती है, और उन states को संभाल सकने वाला Q सीखने के लिए data भी exponentionally बढ़ना पड़ता है
on-policy learning में यह समस्या कम होती है, क्योंकि वहाँ केवल वर्तमान policy के आसपास की states महत्वपूर्ण होती हैं, और वास्तव में केवल उन्हीं states का sample लिया जाता है
- लेख का overestimation bias विश्लेषण सही लगता है
  Q learning में max operation की वजह से समय के साथ noise amplify होना मुख्य बात है, और https://arxiv.org/abs/1509.06461 जैसी bias mitigation techniques ने reinforcement learning agents के प्रदर्शन को बेहतर बनाने में सफलता पाई है
  शोध के अनुसार यह phenomenon उन states में अधिक मज़बूती से दिखाई देता है जहाँ network बहुत कम गया है
  states की संख्या का exponentionally बड़ा होना तभी निर्णायक है जब उन states के बीच कोई pattern न हो. अगर सीखने योग्य structure है, तो यह अच्छी तरह काम कर सकता है, और यह deep learning की कमज़ोरी नहीं बल्कि ताकत है
  असली सवाल सही learning objective तय करने का है, और लेख का तर्क यही है कि Q learning वह objective नहीं है
  यह भी सोचने लायक है कि MuZero जैसा model-based reinforcement learning लेख में उठाई गई चिंता का समाधान हो सकता है या नहीं. MuZero पिछली trajectories का reanalyze करके learning efficiency बढ़ा सकता है, और Monte Carlo Tree Search (MCTS) model को कई steps तक unfold करके horizon घटाने का एक principled तरीका है
  MCTS का max operation भी मिलती-जुलती समस्या पैदा कर सकता है, लेकिन search का और गहरा होना इसे संतुलित कर सकता है
- https://news.ycombinator.com/item?id=44280505 यह thread मददगार हो सकता है
  मैं पूरी तरह non-expert हूँ, लेकिन लगता है कि कुछ tasks “deep” होने के बावजूद इतने “uniform” हो सकते हैं कि खराब samples से भी काम चल जाए. मैं ऐसे tasks को ergodic tasks कहना चाहूँगा
  बेशक, ऐसे tasks भी होंगे जो ऐसे नहीं हैं
- क्या यह अंतर मूल रूप से साधारण grid Monte Carlo integration और importance sampling Monte Carlo integration के अंतर जैसा है?
यह paper मानकर चलता है कि आपको reinforcement learning की पहले से काफ़ी समझ है
अगर आप reinforcement learning को सच में गहराई से समझना चाहते हैं, तो David Silver (DeepMind) की introductory lectures बेहतरीन हैं: https://youtu.be/2pWv7GOvuf0?si=CmFJHNnNqraL5i0s
पूरी तरह सहमत हूँ, और मुझे लगता है यह बहुत अच्छा summary है
बहुत संक्षेप में, यह moving target का पीछा करने की समस्या है, और वह target इस बात पर बदलता है कि मैं खुद कैसे move करता हूँ
value-based reinforcement learning में ऐसा कोई वास्तविक सही answer नहीं है जिस पर converge किया जा सके. आप मूलतः ऐसी quantity को minimize कर रहे हैं जिसकी equation के दोनों sides पर उसी का अपना approximation मौजूद है
फिर भी मैं इसे निराशाजनक नहीं मानता. मुझे लगता है reinforcement learning काम करने के बहुत क़रीब पहुँच चुका है; अब तक जो कमी थी वह भरोसेमंद world model / forward dynamics function की थी
अगर वह हो, तो आप explore किए बिना plan कर सकते हैं, और अब हमारे पास ऐसे models आ गए हैं
off-policy learning का फ़ायदा मूल रूप से इस तथ्य से सीमित है कि शुरुआती exploration से आया inefficient data बाद में अधिक परिष्कृत policy को बेहतर बनाने में बहुत उपयोगी नहीं होता
chess की गलतियाँ, झटके जैसी चालें, या puzzle solving की विफलताएँ सोचिए, बात साफ़ हो जाती है
यह और स्पष्ट हो जाता है जब आप समझते हैं कि data केवल तभी off-policy होता है जब वह ऐसे कामों का वर्णन करता है जो current policy कभी नहीं करेगी
मुझे लगता है इस समस्या का समाधान दुर्भाग्य से बेहतर generalization और sample efficiency की ज़रूरत से जुड़ा है
- क्या यह दावा बहुत ज़्यादा साबित नहीं कर देता?
  फिर उस कुत्ते को कैसे समझाएँ जो off-policy learning से 20 मिनट में चलना सीख गया? या आप इससे ज़्यादा सूक्ष्म दावा कर रहे हैं?
यह अजीब है कि Decision Transformer और Trajectory Transformer का ज़िक्र नहीं है
दोनों offline approaches हैं, और attention mechanism की वजह से ये credit assignment problem को बायपास करके long-horizon tasks में काफ़ी अच्छा काम करते हैं
ज़्यादातर reinforcement learning researchers इन approaches को “असली reinforcement learning” नहीं मानते. क्योंकि context window के बाहर credit assign नहीं किया जा सकता, इसलिए infinite-horizon tasks सीखे नहीं जा सकते
लेकिन अगर context window 10 लाख tokens से ज़्यादा की हो, तो क्या व्यवहार में यह कम समस्या नहीं रह जाएगी? इस पर दूसरे विचार जानना चाहूँगा
DT: https://arxiv.org/abs/2106.01345
TT: https://arxiv.org/abs/2106.02039
- TFP में Decision Transformer को cite किया गया है
  सिर्फ़ Transformer इस्तेमाल करने से credit assignment problem बायपास नहीं हो जाती
  Transformer sequential modeling problems हल करने की architecture है, और reinforcement learning में आने वाली credit assignment problem भी ऐसे ही problems का एक उदाहरण है. ऐसी architectures पहले भी बहुत रही हैं
  credit assignment problem कठिन है, यह data sparsity के बारे में एक कथन है. केवल architecture चुन लेने से इसे “बायपास” नहीं किया जा सकता
इंसान वास्तव में दोनों करते हैं
अपने actions के परिणामों को explore करते हुए on-policy तरीके से भी सीखते हैं, और expert demonstrations की तरह off-policy तरीके से भी
फ़र्क यह है कि इंसान अच्छे और बुरे actions में अंतर कर सकते हैं, और केवल वे actions छाँटकर सीख सकते हैं जिन्हें वे अच्छा मानते हैं
ज़्यादातर off-policy reinforcement learning में बहुत सारे बुरे actions भी शामिल हो जाते हैं, और learning set में शामिल होने से learning धीमी हो जाती है
- “अच्छे और बुरे actions में अंतर कर सकते हैं” यह हमेशा सही नहीं होता
  इसी वजह से कुछ expert demonstrations आकर्षक लगते हैं. कभी-कभी आप देखते हैं कि beginner-level “best practice” के हिसाब से पूरी तरह गलत लगने वाला तरीका भी बेहतर परिणाम देता है
  बेशक, कभी-कभी इसका मतलब बस इतना होता है कि अगर आप उस स्तर तक अच्छे हैं, तो आप ऐसी techniques या mistakes को भी झेल सकते हैं
यह भी ध्यान देने लायक है कि जिन long-horizon tasks को इंसान दोहराव वाले training से सीखते हैं, उन्हें वे पहले छोटे-horizon tasks में तोड़ते हैं और बाद में उन्हें hierarchical तरीके से जोड़कर सीखते हैं
- यह भोला विचार हो सकता है, लेकिन यह algorithm से ज़्यादा approach की समस्या लगती है
  हो सकता है model शुरुआत से ही long-horizon tasks न संभाल सके, लेकिन वह पहले short-horizon skills सीख सकता है, और फिर उन्हीं छोटे skill bundles का उपयोग करके लंबा horizon सीख सकता है
  यह वैसा ही है जैसे हम सब chunking करते हैं
  कोई भी commercial airplane को महाद्वीप पार उड़ाना हाथ और बाँह की सूक्ष्म हरकतों के sequence के रूप में नहीं सीखता
  बचपन में गेंद पकड़ना शायद ऐसे सीखा जाता है, लेकिन उड़ान या sports सीखी हुई skills और planning की hierarchy से बनते हैं
लेख पसंद आया, लेकिन बिना explanation के abbreviations के इस्तेमाल ने इसे व्यापक पाठकों के लिए और उपयोगी बनने का मौका कम कर दिया
छोटी-सी टिप्पणी है, लेकिन abbreviations और technical jargon समझा दिए जाएँ तो अच्छा होगा
- सामग्री बहुत अच्छी हो लेकिन भारी prior knowledge मानकर चलने वाले, इसलिए कम accessible लेखों में AI tools से explanation और simplification करवाना काफ़ी उपयोगी होता है
  मैंने अभी नए browser Dia में यह करके देखा, और यह अच्छी तरह काम करता है. चाहें तो इसे अपने पसंदीदा model provider में copy-paste भी कर सकते हैं
  इससे लेख संक्षिप्त बना रहता है, और साथ ही आप AI tool से सवाल पूछकर बात साफ़ कर सकते हैं
- जब निष्कर्ष यह हो कि “कोई scalable Q learning method बना दे”, तो साफ़ है कि यह दूसरे reinforcement learning researchers को ध्यान में रखकर लिखा गया है
Q-Learning जैसी off-policy techniques की जादुई बात यह है कि वे suboptimal training data देखने पर भी optimal result तक converge कर सकती हैं
उदाहरण के लिए, अगर बिना किसी strategy के पूरी तरह random moves करने वाले agents के chess games का dataset Q-Learning को input के रूप में दिया जाए, तो high-quality input की तुलना में धीमा ज़रूर होगा, लेकिन अंततः optimal policy तक converge करेगा
- अगर यह सच है, तो मुझे लगता है कि यह task के ergodic होने की परिभाषा के काफ़ी क़रीब है
  हो सकता है मैं शब्द का थोड़ा ढीला इस्तेमाल कर रहा हूँ, लेकिन मेरा मानना है कि non-ergodic tasks भी मौजूद होंगे

Q-learning अभी scalable नहीं है

RL scalability की मौजूदा स्थिति

Off-policy RL और Q-learning

“Scalable” का मतलब: width नहीं, depth

बड़े पैमाने की RL सफलताओं में Q-learning की कमी

long-horizon tasks में Q-learning क्यों डगमगाता है

OGBench आधारित scalability experiments

standard offline RL algorithms के परिणाम

Horizon reduction से आए सुधार

scalable off-policy RL objective functions की ओर research directions

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ