- हाल में बड़े language models (LLM) आदि की तरह reinforcement learning (RL) की scalability पर ध्यान बढ़ा है
- वास्तव में AlphaGo, LLM आदि ने मजबूत प्रदर्शन दिखाया है, लेकिन इनमें मुख्यतः on-policy RL algorithms का उपयोग हुआ है
- Off-policy RL के प्रतिनिधि algorithm Q-learning में लंबे horizon वाली समस्याओं में cumulative bias की वजह से scalability कम हो जाती है
- प्रयोगों से पता चलता है कि data और compute को बहुत बढ़ाने पर भी standard Q-learning परिवार के algorithms में जटिल long-horizon tasks पर performance limits मौजूद रहती हैं
- horizon समस्या को कम करने वाले hierarchy methods जैसे केवल स्थानीय समाधान ही हैं, इसलिए मूल रूप से scalable नए off-policy RL objective की ज़रूरत है
RL, क्या यह scalable है?
- हाल में language models का next-token prediction, diffusion models, contrastive learning objectives ऐसे लक्ष्य हैं जो data और compute बढ़ने पर अच्छी तरह scale होते हैं
- games, mathematics, coding आदि में RL ने भी मजबूत उपलब्धियां दिखाई हैं, और इनमें कई मामलों में on-policy RL algorithms (जैसे PPO, REINFORCE आदि) का उपयोग हुआ है
- On-policy RL में हमेशा केवल नए roll-outs, यानी नवीनतम policy से सीधे generated data ही इस्तेमाल किया जा सकता है
- यह तरीका simulation या LLM में बड़ी समस्या नहीं है, लेकिन robots जैसे real-world environments में बहुत inefficient है
- उदाहरण के लिए, robot experiments में पर्याप्त data इकट्ठा करने में कई महीने लग सकते हैं, और मानव की manual intervention की आवश्यकता होती है
Off-policy RL का उदय
- Off-policy RL की खासियत यह है कि इसमें पहले का सारा data दोबारा इस्तेमाल किया जा सकता है, इसलिए इसकी sample efficiency बहुत अच्छी होती है
- प्रतिनिधि रूप से Q-learning व्यापक रूप से उपयोग किया जाता है, और real-time dog robot walking जैसी उपलब्धियां भी दिखी हैं
- Q-learning temporal difference (TD) loss को minimize करने पर आधारित है, और लगभग सभी off-policy RL इसी सिद्धांत का पालन करते हैं
- real-world problems पर RL लागू करने के लिए आखिरकार मुख्य सवाल यही है: क्या Q-learning भी scale कर सकता है?
Q-learning की scaling limits
- लेखक का तर्क है कि वर्तमान Q-learning लंबे horizon (100 decision steps से अधिक) वाली समस्याओं में अच्छी तरह scale नहीं करता
- यहां “scalability” का अर्थ है: क्या समस्या की depth/difficulty बढ़ने पर सिर्फ data और compute resources बढ़ाकर उसे हल किया जा सकता है
- जैसा कि कई papers में experimental रूप से दिखाया गया है, इसका मतलब केवल हल की जा सकने वाली problems की संख्या (‘width’) बढ़ाना नहीं है
- लेखक का दावा: Q-learning परिवार depth axis (difficulty) पर scalable नहीं है, और algorithmic innovation आवश्यक है
- इसके दो मुख्य आधार हैं: एक empirical success cases की कमी, और दूसरा हाल में किए गए systematic experiments
अनुभवजन्य आधार
- AlphaGo, AlphaZero, MuZero सभी model-based, on-policy RL हैं, TD-learning परिवार के नहीं
- OpenAI Five भी PPO जैसे on-policy methods पर आधारित है
- LLM के लिए RL भी अधिकांशतः policy-gradient family के on-policy variants पर आधारित है
- Q-learning या similar off-policy RL के AlphaGo या LLM स्तर के बड़े real-world success cases लगभग नहीं हैं
- लेखक का कहना है कि कई papers और practical cases की जांच के बाद भी उन्हें Q-learning आधारित बड़े success cases ज्ञात नहीं हैं
Q-learning की सीमा का कारण: Horizon और cumulative bias
- Q-learning में bootstrapped (यानी estimate से prediction target बनाना) TD targets हमेशा biased होते हैं; यह bias time-horizon के साथ accumulate होता जाता है
- इसके विपरीत, token prediction, diffusion, contrastive learning जैसे अन्य highly scalable objectives में prediction targets में ऐसा cumulative bias नहीं होता
- जैसे-जैसे horizon (decision length) बढ़ता है, accumulated error की वजह से Q-learning की performance scaling सीमित हो जाती है
- इसे कम करने के लिए कई बार discount factor को छोटा रखा जाता है
- Policy gradient जैसे on-policy value estimation methods पर GAE जैसी techniques के कारण horizon समस्या का प्रभाव अपेक्षाकृत कम होता है
प्रयोगों के माध्यम से scaling limit की जांच
- हाल के paper में ultra-long horizon tasks के लिए OGBench आदि में हजारों steps वाले कठिन tasks डिज़ाइन किए गए
- environment में “लगभग infinite” data, मजबूत models, representation neural network के बोझ को कम करना आदि करके noise factors को न्यूनतम किया गया
- मौजूदा offline RL methods (BC, IQL, CRL, SAC+BC आदि) सभी बहुत बड़े datasets पर भी जटिल tasks नहीं सीख पाए
- data, model size, training time, hyperparameters सहित सभी variables पर ablation tests किए गए, लेकिन performance limits को पार नहीं किया जा सका
- हालांकि, horizon (decision length) कम करने वाली techniques ही performance scaling में स्पष्ट रूप से प्रभावी रहीं
Horizon reduction techniques का प्रभाव
- n-step return, hierarchical RL आदि में horizon reduction ही RL scaling पर निर्णायक प्रभाव दिखाती है
- horizon reduction केवल training speed-up नहीं है, बल्कि final performance को भी नाटकीय रूप से सुधारती है
- लेकिन ये तरीके समस्या का मूल समाधान नहीं हैं, बल्कि horizon को केवल constant factor तक घटाते हैं
- horizon curse को दूर करने के लिए नए algorithmic approaches की आवश्यकता है
नए scalable off-policy RL objective की आवश्यकता
- अब तक के शोध से यह सिद्ध हो चुका है कि सिर्फ data/model size बढ़ाकर horizon curse को मूल रूप से दूर नहीं किया जा सकता
- अंततः ऐसे off-policy RL variants की ज़रूरत है जो मनमानी लंबाई की long-horizon समस्याओं पर भी scale कर सकें
- यदि यह लक्ष्य हासिल होता है, तो robots, LLM, और विभिन्न decision-making agents जैसी अधिक व्यापक real-world समस्याओं को हल करना संभव होगा
आगे के research ideas और प्रस्ताव
- दो-स्तरीय hierarchy से आगे बढ़कर मनमानी लंबाई के horizon से निपटने वाली सरल और scalable नई hierarchical structures प्रस्तावित की जा सकती हैं
- Model-based RL में supervised learning आधारित modeling और on-policy RL के संयोजन से scalable होने की संभावना है
- TD learning को पूरी तरह हटाकर quasimetric RL, contrastive RL जैसी नई दिशाओं की खोज भी उपयोगी हो सकती है
- तैयार किए गए evaluation environments और code को open किया गया है, जिन्हें विभिन्न नए RL algorithms के scale-test benchmark के रूप में उपयोग किया जा सकता है
आभार
- paper और post पर सहयोग/feedback देने वाले अनेक researchers को धन्यवाद दिया गया है
- यह सामग्री [Horizon Reduction Makes RL Scalable] paper आदि पर आधारित है, और इसे लेखक की व्यक्तिगत राय बताया गया है
1 टिप्पणियां
Hacker News टिप्पणियाँ
मुझे लगता है कि Q-Learning की scalability की सीमाएँ ब्लॉग में बताई गई बातों से भी बड़ी वजहों से आती हैं। एजेंट को जिन states को संभालना होता है, उनकी संख्या horizon बढ़ने के साथ आमतौर पर geometric रूप से बढ़ती है। इसके कारण उन states को कवर करने वाले Q को train करने के लिए data की माँग भी geometric रूप से बढ़ जाती है। दूसरी ओर, on-policy learning केवल महत्वपूर्ण states को सीखती है, इसलिए geometric state space होने के बावजूद training data उन्हीं बिंदुओं पर केंद्रित रहता है जहाँ उसकी ज़रूरत होती है, और समस्या तुलनात्मक रूप से सरल हो जाती है
लेख में Q-learning के overapproximation bias के विश्लेषण से सहमत हूँ। Q-learning का Max operator समय-अक्ष के साथ noise को amplify करने की प्रवृत्ति रखता है। इस पेपर की तरह bias कम करने के तरीकों ने RL agents के performance को सफलतापूर्वक बेहतर किया है। ऐसे नतीजे भी हैं कि यह phenomenon उन states में अधिक दिखता है जहाँ network कम जाता है। भले ही states की संख्या geometric रूप से बढ़े, अगर कोई learnable structure मौजूद हो तो performance संभव हो जाती है, और यही deep learning की ताकत है। मुख्य बात सही training objective चुनना है, और लेख का तर्क है कि Q-learning की सीमा वहीं पर है। सोचता हूँ कि क्या MuZero जैसे model-based RL systems इसका समाधान हो सकते हैं। MuZero पिछली trajectories का reanalysis करके training efficiency बढ़ाता है, और Monte Carlo Tree Search(MCTS) कई steps unfold करके horizon को कम करने का एक principled तरीका है। MCTS के भीतर भी Max operator की समस्या आ सकती है, लेकिन search गहराई बढ़ने पर इन समस्याओं का कुछ हद तक प्रतिकार संभव है
लगता है यह थ्रेड मददगार हो सकता है। पूरी तरह non-expert नज़रिए से देखें तो कुछ tasks में “depth” होने के बावजूद एक तरह की uniformity बनी रहती है, और ऐसे मामलों में sample quality कुछ कम होने पर भी learning संभव रहती है। मैं ऐसे tasks को “ergodic” कहना चाहूँगा। लेकिन निश्चित रूप से ऐसे tasks भी मौजूद हैं जो ऐसे नहीं होते
सोच रहा हूँ कि क्या यह सामान्य grid Monte Carlo integration और importance sampling Monte Carlo integration के अंतर जैसा है
Majorana-1 पर अपनी राय साझा कर रहा हूँ
अफसोस है कि ब्लॉग में Decision Transformers, Trajectory Transformers जैसे offline approaches का ज़िक्र नहीं है। ये attention mechanism की वजह से credit assignment समस्या से बचते हैं और लंबे-horizon tasks में अच्छा performance दिखाते हैं। कई RL researchers मानते हैं कि ये “वास्तविक RL” नहीं हैं, क्योंकि ये context window के बाहर credit assign नहीं कर सकते। इसी कारण इन्हें infinite horizon tasks पर लागू करना कठिन माना जाता है। लेकिन अगर context window 10 लाख से बड़ा हो, तो क्या व्यवहार में यह उतनी बड़ी समस्या नहीं रह जाएगी? Decision Transformer पेपर, Trajectory Transformer पेपर देखें
मुझे लगता है कि इसने RL के मूल को बहुत अच्छी तरह संक्षेप में बताया है। बहुत सरल शब्दों में कहें तो, आप लगातार चलते हुए एक लक्ष्य का पीछा कर रहे हैं, लेकिन उस लक्ष्य की स्थिति भी इस पर निर्भर करती रहती है कि आप कैसे चल रहे हैं। यानी value-based RL में कोई absolute ground truth नहीं होता; यह अपनी ही estimates के दोनों पक्षों को मिलाने का खेल है। लेकिन मुझे यह निराशाजनक नहीं लगता। उल्टा, मुझे लगता है कि RL अब जल्द ही practical होने वाला है, क्योंकि अब तक भरोसेमंद world models या dynamics functions की कमी एक बड़ी वजह थी। अब उस क्षेत्र में भी तेज़ प्रगति हो रही है
यह पेपर/ब्लॉग पहले से RL ज्ञान रखने वालों के लिए है। अगर RL को और गहराई से पढ़ना चाहते हैं, तो David Silver(Deep Mind) की intro lecture की सिफारिश करता हूँ
off-policy learning की मूल सीमा यह है कि अप्रभावी शुरुआती exploration data, अधिक उन्नत policy सीखने में बहुत मददगार नहीं होता। उदाहरण के लिए, chess में शुरुआती गलतियाँ, अर्थहीन चालें, या puzzle हल न कर पाने वाले व्यवहार। data तब off-policy हो जाता है जब वह संबंधित action वर्तमान policy यानी वह action जो agent वास्तव में चुनेगा, उससे अलग हो। इसलिए आखिरकार इस समस्या का सार बेहतर generalization और sample efficiency बढ़ाने में है
जब इंसान लंबे-term वाले tasks सीखते हैं, तो वे दोहराए गए अभ्यास के ज़रिए पूरे task को छोटे horizon वाले subtasks में बाँटकर सीखते हैं, और बाद में इन partial skills को hierarchy में जोड़ते हैं
इंसान वास्तव में on-policy और off-policy दोनों तरह की learning का उपयोग करते हैं। अपने actions के परिणामों को सीधे explore करते समय on-policy learning होती है, और दूसरे experts के demonstrations देखकर off-policy भी सीखते हैं। लेकिन इंसानों और RL में फर्क यह है कि इंसान अच्छे और बुरे actions में अंतर करके केवल “अच्छी चीज़ें” चुनकर सीखते हैं। जबकि अधिकांश off-policy RL में खराब actions भी data के रूप में इस्तेमाल होते हैं, जिससे कुल training speed धीमी हो जाती है
ब्लॉग की सामग्री पसंद आई, लेकिन बिना समझाए गए acronyms और technical terms इसके व्यापक पाठक वर्ग के लिए उपयोगिता कम कर देते हैं। बेहतर होता अगर terms और acronyms को ज़रूर समझाया जाता ताकि accessibility बढ़ती
ऐसे blog posts, जिनमें सामग्री बहुत समृद्ध होती है लेकिन जिन्हें समझने के लिए काफी prior knowledge चाहिए, उनमें AI tools explanation और आसान व्याख्या के लिए बहुत मददगार होते हैं। हाल में browser-based Dia इस्तेमाल किया और वह प्रभावी लगा। किसी दूसरे AI model में copy-paste कर देने पर भी पूरी चीज़ संक्षेप में समझी जा सकती है और जिज्ञासाओं के जवाब मिल सकते हैं
साफ़ लगता है कि यह लेख RL researchers के लिए लिखा गया है। निष्कर्ष कुछ ऐसा है: “कोई Q-learning को scalable बनाने का तरीका ढूँढो!”
उल्टा, मुझे लगता है कि यही बात इस लेख को और साफ़-सुथरा बनाती है
Q-Learning जैसे off-policy methods की ताकत यह है कि near-optimal data न होने पर भी वे अंततः optimal solution तक converge कर सकते हैं। उदाहरण के लिए, बिना किसी strategy वाले chess games का data इकट्ठा करके भी उसे Q-Learning के input के रूप में इस्तेमाल किया जाए तो अंततः optimal policy सीखी जा सकती है, भले ही अच्छे data की तुलना में इसमें ज़्यादा समय लगे