- Reinforcement Learning के मुख्य सिद्धांतों और अनुप्रयोगों को कवर करने वाला Stanford University का graduate-level course, जो इस बात पर केंद्रित है कि autonomous systems स्वयं निर्णय लेना कैसे सीखते हैं
- Robotics, games, consumer modeling, healthcare जैसे विभिन्न क्षेत्रों की समस्याओं को RL के रूप में परिभाषित और हल करने के तरीके सीखना
- Lectures, written assignments, coding assignments के माध्यम से बुनियादी RL algorithms से लेकर Deep Reinforcement Learning (Deep RL) तक का hands-on अधिगम
- छात्रों को पहले से Python, linear algebra, probability and statistics, machine learning basics का ज्ञान होना चाहिए, और assignments Gradescope के माध्यम से जमा किए जाते हैं
- RL के exploration vs exploitation problem, policy search, offline RL, AlphaGo case study आदि को शामिल करने वाला एक व्यवस्थित curriculum, जो AI research और applied development की मुख्य क्षमताओं को मजबूत करने के लिए महत्वपूर्ण है
कोर्स अवलोकन और संचालन
- AI के लक्ष्यों को हासिल करने के लिए स्वायत्त रूप से निर्णय लेना सीखने वाले systems की आवश्यकता पर ज़ोर
- Reinforcement Learning ऐसे systems को लागू करने का एक शक्तिशाली paradigm है, जिसका उपयोग कई वास्तविक अनुप्रयोगों में किया जा सकता है
- कक्षाएं मंगलवार और गुरुवार को live आयोजित होती हैं, और recorded videos Canvas के माध्यम से उपलब्ध कराए जाते हैं
- Ed Forum के माध्यम से Q&A होता है, और Gradescope पर assignments और quizzes प्रबंधित किए जाते हैं
- Emma Brunskill course instructor हैं, और कई teaching assistants सहयोग करते हैं
पूर्वापेक्षित योग्यता
- Python programming skill अनिवार्य है; सभी assignments Python में लिखे जाते हैं
- University-level calculus, linear algebra, probability and statistics का ज्ञान आवश्यक है
- Machine learning basics (जैसे: CS221, CS229) की समझ अपेक्षित है
- इसमें cost function definition, gradient descent optimization, convex optimization जैसी अवधारणाएँ शामिल हैं
सीखने के लक्ष्य
- Reinforcement Learning को interactive न होने वाले machine learning से अलग करने वाली मुख्य विशेषताओं को परिभाषित करना
- किसी दिए गए application problem को RL के रूप में formulate करना, और state space, action space, reward model डिज़ाइन करना
- Policy search, Q-learning, MDP planning जैसे प्रमुख algorithms को implement करना
- Regret, sample complexity, computational complexity, convergence जैसे evaluation criteria को समझना
- Exploration vs exploitation समस्या के विभिन्न approaches की तुलना करना
पाठ्यक्रम समय-सारिणी सारांश
- सप्ताह 1: Reinforcement Learning परिचय, Tabular MDP planning
- सप्ताह 2: Policy evaluation, Q-learning और function approximation
- सप्ताह 3~4: Policy search (1~3), offline RL और imitation learning
- सप्ताह 5: Midterm exam, DPO topic
- सप्ताह 6~7: Offline RL उन्नत भाग, exploration (1~3)
- सप्ताह 8: Exploration (4), guest lecture, project milestone submission
- सप्ताह 9: Monte Carlo Tree Search / AlphaGo, quiz
- सप्ताह 10~11: Guest lectures, final project poster session और report submission
पाठ्यपुस्तकें और संदर्भ सामग्री
- कोई आधिकारिक textbook नहीं है; मुख्य संदर्भ पुस्तक Sutton & Barto की “Reinforcement Learning: An Introduction (2nd Ed.)” है
- अतिरिक्त सामग्री के रूप में Wiering & van Otterlo की Reinforcement Learning: State-of-the-Art, Russell & Norvig की Artificial Intelligence: A Modern Approach, Goodfellow की Deep Learning, David Silver के RL lectures आदि दिए गए हैं
मूल्यांकन अनुपात
- Assignment 1: 10%, Assignment 2: 18%, Assignment 3: 18%
- Midterm exam: 25%, Quiz: 5%, Project: 24%
- Proposal 1%, milestone 2%, poster 5%, paper 16%
- Class participation bonus: अधिकतम 0.5%
देर से जमा करने और submission policy
- कुल 5 late days दिए जाते हैं
- प्रत्येक assignment पर अधिकतम 2 दिन इस्तेमाल किए जा सकते हैं; इससे अधिक होने पर अंक काटे जाते हैं
- deadline के 24 घंटे के भीतर जमा करने पर अधिकतम 50% अंक, उसके बाद जमा करने पर 0 अंक
- Poster presentation और final paper के लिए late submission की अनुमति नहीं है
परीक्षाएँ
- 1 midterm exam और 1 quiz आयोजित होते हैं, दोनों campus में in-person होते हैं
- आधिकारिक कारण होने पर remote या alternative exam संभव है
- अनुमत सामग्री: 1 handwritten notes sheet (midterm), 1 double-sided sheet (quiz)
- निषिद्ध: calculator, laptop, mobile phone, tablet आदि
assignments और submission
- सभी assignments Assignments page पर पोस्ट किए जाते हैं
- कुछ assignments में cloud computing resources का उपयोग किया जा सकता है
- submission instructions एक dedicated page पर उपलब्ध हैं
शैक्षणिक नैतिकता और AI tools का उपयोग
- लिखित assignments में ideas पर चर्चा की जा सकती है, लेकिन solutions स्वतंत्र रूप से लिखे जाने चाहिए
- coding assignments में केवल input/output results साझा किए जा सकते हैं, code share करना मना है
- Similarity checking software से plagiarism की जाँच की जाती है
- Generative AI (GPT-4, Gemini, Copilot आदि) का उपयोग human collaboration स्तर तक अनुमत है
- सीधे code generation या solutions की copying प्रतिबंधित है
- उपयोग करने पर इसका उल्लेख करना होगा, और अंतिम ज़िम्मेदारी छात्र की होगी
- LLM को project co-author के रूप में दर्ज नहीं किया जा सकता
शैक्षणिक सहायता और पुनर्मूल्यांकन अनुरोध
- disability-related academic support के लिए Office of Accessible Education (OAE) के माध्यम से अनुरोध किया जा सकता है
- Regrade request grade जारी होने के 3 दिनों के भीतर Gradescope पर जमा की जा सकती है
- पुनरावलोकन के दौरान पूरे assignment का फिर से मूल्यांकन किया जा सकता है
ग्रेड और enrollment format
- Credit/No Credit mode में पढ़ने पर भी वही evaluation criteria लागू होते हैं
- C- या उससे अधिक (लगभग 70%) प्राप्त करने पर CR दिया जाता है
अन्य
- SCPD students administrative inquiries के लिए dedicated email का उपयोग कर सकते हैं
- वेबसाइट design Andrej Karpathy ने बनाया है
1 टिप्पणियां
Hacker News की राय
मुझे लगा था कि lecture videos सार्वजनिक हो गई हैं, इसलिए उत्साहित था, लेकिन देखा तो वे private थीं
महामारी के समय कई संस्थानों ने अपनी सामग्री दुनिया भर के लिए खोल दी थी, लेकिन अब रुझान ऐसा है कि नई lectures ही नहीं, पुरानी videos भी बंद की जा रही हैं
MIT OCW में भी advanced graduate courses तक जाते-जाते सामग्री गायब हो जाती है
बेशक मैं समझता हूँ कि universities को अपने alumni को प्राथमिकता देनी चाहिए, लेकिन lecture videos जैसी बुनियादी सामग्री सार्वजनिक करने में वास्तव में लगभग कोई लागत नहीं होती
ऐसी सामग्री दुनिया के लिए बहुत मूल्यवान लगती है
कुछ professors copyright कारणों से lecture slides या recordings साझा नहीं करना चाहते
लेकिन यह रवैया सच्ची प्रतिष्ठा नहीं, बल्कि कानूनी बाधाओं के जरिए विशिष्टता बनाने जैसा लगता है
आखिरकार इसका फायदा सिर्फ महँगी tuition देने वाले students, बदलना न चाहने वाले instructors, और university administrators को ही मिलता है
एक कहावत है, “RL सीखने का सबसे खराब तरीका है, लेकिन बाकी सभी तरीकों से बेहतर है”
बहुत से scientists मानते हैं कि अगले 10 वर्षों में RL state-of-the-art model training का मुख्यधारा तरीका नहीं रहेगा
मैं भी सहमत हूँ, और इस course को पढ़ते समय दूसरे paradigms पर भी सोचने की सलाह दूँगा
जैसे image generation में diffusion model ने और GPT में RLHF ने बड़ी छलांग दिलाई, वैसे ही RL भी अंतिम चरण नहीं है
हमारा काम इससे बेहतर तरीका खोजना है
पर्याप्त execution time दिया जाए तो यह गणितीय रूप से optimal solution की गारंटी देता है
इसलिए autonomous vehicles GPT नहीं, RL का उपयोग करते हैं
जब लाखों से अरबों visits को optimize करना हो, तब contextual multi-armed bandit जोड़ने से purchases बढ़ाने में बहुत प्रभाव पड़ता है
लेकिन वास्तविक काम में समझ आया कि out-of-distribution generalization केवल reward-based learning से संभव नहीं है
मैं जानना चाहता था कि videos सार्वजनिक हैं या नहीं, और spring quarter lectures YouTube playlist में हैं
जिसने केवल पारंपरिक ML सीखी हो, उसके लिए यह समझना मुश्किल है कि RL को सामान्य समस्याओं पर कैसे लागू किया जाए
उदाहरण के लिए, BCE loss वाली binary classification या house price prediction जैसी समस्याओं पर RL को जबरन कैसे लागू करें, यह समझ नहीं आता
loss function को जोड़ने का तरीका साफ नहीं लगता
house price prediction जैसी स्पष्ट regression समस्याओं में पारंपरिक तरीके काफी प्रभावी हैं, इसलिए RL की जरूरत नहीं होती
दूसरी ओर, Go जैसे sequential decision-making problems में reward signal sparse होता है और strategy improvement स्पष्ट नहीं होता, इसलिए RL उपयुक्त है
RL label-रहित जटिल परिस्थितियों में उपयोगी है, लेकिन chess जैसी समस्याओं में भी असल बात उसे supervised learning problem में बदलना है
यह state और action space परिभाषित वाले sequential decision-making problems के लिए उपयुक्त है, लेकिन binary classification या regression पर फिट नहीं बैठता
RL उन समस्याओं में मजबूत है जहाँ भविष्य के परिणाम पहले से ज्ञात नहीं होते और वर्तमान में निर्णय लेना पड़ता है
RL के बारे में अक्सर कहा जाता है कि यह unstable है और converge करना कठिन है
Stanford के researchers भी इसे मानते हैं
जानना चाहता हूँ कि इसका कोई समाधान है या नहीं
एक ही maximum value नहीं, बल्कि पूरे reward distribution को सीखकर यह स्थिरता बढ़ाता है
अगर आपने Ilya का podcast सुना है, तो इस lecture का शीर्षक दिलचस्प लगेगा
RL पर किताबों की सिफारिशें खोज रहा हूँ
deep learning मैं पहले ही काफी पढ़ चुका हूँ
Sutton की Reinforcement Learning, Kevin Patrick Murphy की Reinforcement Learning, an overview, और Sebastian Raschka की नई किताब पर नज़र है
इसका मुफ्त PDF algorithmsbook.com से डाउनलोड किया जा सकता है