CS234: Reinforcement Learning शीतकालीन सत्र 2025

(web.stanford.edu)

3 पॉइंट द्वारा GN⁺ 2025-11-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Reinforcement Learning के मुख्य सिद्धांतों और अनुप्रयोगों को कवर करने वाला Stanford University का graduate-level course, जो इस बात पर केंद्रित है कि autonomous systems स्वयं निर्णय लेना कैसे सीखते हैं
Robotics, games, consumer modeling, healthcare जैसे विभिन्न क्षेत्रों की समस्याओं को RL के रूप में परिभाषित और हल करने के तरीके सीखना
Lectures, written assignments, coding assignments के माध्यम से बुनियादी RL algorithms से लेकर Deep Reinforcement Learning (Deep RL) तक का hands-on अधिगम
छात्रों को पहले से Python, linear algebra, probability and statistics, machine learning basics का ज्ञान होना चाहिए, और assignments Gradescope के माध्यम से जमा किए जाते हैं
RL के exploration vs exploitation problem, policy search, offline RL, AlphaGo case study आदि को शामिल करने वाला एक व्यवस्थित curriculum, जो AI research और applied development की मुख्य क्षमताओं को मजबूत करने के लिए महत्वपूर्ण है

कोर्स अवलोकन और संचालन

AI के लक्ष्यों को हासिल करने के लिए स्वायत्त रूप से निर्णय लेना सीखने वाले systems की आवश्यकता पर ज़ोर
- Reinforcement Learning ऐसे systems को लागू करने का एक शक्तिशाली paradigm है, जिसका उपयोग कई वास्तविक अनुप्रयोगों में किया जा सकता है
कक्षाएं मंगलवार और गुरुवार को live आयोजित होती हैं, और recorded videos Canvas के माध्यम से उपलब्ध कराए जाते हैं
Ed Forum के माध्यम से Q&A होता है, और Gradescope पर assignments और quizzes प्रबंधित किए जाते हैं
Emma Brunskill course instructor हैं, और कई teaching assistants सहयोग करते हैं

पूर्वापेक्षित योग्यता

Python programming skill अनिवार्य है; सभी assignments Python में लिखे जाते हैं
University-level calculus, linear algebra, probability and statistics का ज्ञान आवश्यक है
Machine learning basics (जैसे: CS221, CS229) की समझ अपेक्षित है
- इसमें cost function definition, gradient descent optimization, convex optimization जैसी अवधारणाएँ शामिल हैं

सीखने के लक्ष्य

Reinforcement Learning को interactive न होने वाले machine learning से अलग करने वाली मुख्य विशेषताओं को परिभाषित करना
किसी दिए गए application problem को RL के रूप में formulate करना, और state space, action space, reward model डिज़ाइन करना
Policy search, Q-learning, MDP planning जैसे प्रमुख algorithms को implement करना
Regret, sample complexity, computational complexity, convergence जैसे evaluation criteria को समझना
Exploration vs exploitation समस्या के विभिन्न approaches की तुलना करना

पाठ्यक्रम समय-सारिणी सारांश

सप्ताह 1: Reinforcement Learning परिचय, Tabular MDP planning
सप्ताह 2: Policy evaluation, Q-learning और function approximation
सप्ताह 3~4: Policy search (1~3), offline RL और imitation learning
सप्ताह 5: Midterm exam, DPO topic
सप्ताह 6~7: Offline RL उन्नत भाग, exploration (1~3)
सप्ताह 8: Exploration (4), guest lecture, project milestone submission
सप्ताह 9: Monte Carlo Tree Search / AlphaGo, quiz
सप्ताह 10~11: Guest lectures, final project poster session और report submission

पाठ्यपुस्तकें और संदर्भ सामग्री

कोई आधिकारिक textbook नहीं है; मुख्य संदर्भ पुस्तक Sutton & Barto की “Reinforcement Learning: An Introduction (2nd Ed.)” है
अतिरिक्त सामग्री के रूप में Wiering & van Otterlo की Reinforcement Learning: State-of-the-Art, Russell & Norvig की Artificial Intelligence: A Modern Approach, Goodfellow की Deep Learning, David Silver के RL lectures आदि दिए गए हैं

मूल्यांकन अनुपात

Assignment 1: 10%, Assignment 2: 18%, Assignment 3: 18%
Midterm exam: 25%, Quiz: 5%, Project: 24%
- Proposal 1%, milestone 2%, poster 5%, paper 16%
Class participation bonus: अधिकतम 0.5%

देर से जमा करने और submission policy

कुल 5 late days दिए जाते हैं
प्रत्येक assignment पर अधिकतम 2 दिन इस्तेमाल किए जा सकते हैं; इससे अधिक होने पर अंक काटे जाते हैं
- deadline के 24 घंटे के भीतर जमा करने पर अधिकतम 50% अंक, उसके बाद जमा करने पर 0 अंक
Poster presentation और final paper के लिए late submission की अनुमति नहीं है

परीक्षाएँ

1 midterm exam और 1 quiz आयोजित होते हैं, दोनों campus में in-person होते हैं
आधिकारिक कारण होने पर remote या alternative exam संभव है
अनुमत सामग्री: 1 handwritten notes sheet (midterm), 1 double-sided sheet (quiz)
निषिद्ध: calculator, laptop, mobile phone, tablet आदि

assignments और submission

सभी assignments Assignments page पर पोस्ट किए जाते हैं
कुछ assignments में cloud computing resources का उपयोग किया जा सकता है
submission instructions एक dedicated page पर उपलब्ध हैं

शैक्षणिक नैतिकता और AI tools का उपयोग

लिखित assignments में ideas पर चर्चा की जा सकती है, लेकिन solutions स्वतंत्र रूप से लिखे जाने चाहिए
coding assignments में केवल input/output results साझा किए जा सकते हैं, code share करना मना है
Similarity checking software से plagiarism की जाँच की जाती है
Generative AI (GPT-4, Gemini, Copilot आदि) का उपयोग human collaboration स्तर तक अनुमत है
- सीधे code generation या solutions की copying प्रतिबंधित है
- उपयोग करने पर इसका उल्लेख करना होगा, और अंतिम ज़िम्मेदारी छात्र की होगी
LLM को project co-author के रूप में दर्ज नहीं किया जा सकता

शैक्षणिक सहायता और पुनर्मूल्यांकन अनुरोध

disability-related academic support के लिए Office of Accessible Education (OAE) के माध्यम से अनुरोध किया जा सकता है
Regrade request grade जारी होने के 3 दिनों के भीतर Gradescope पर जमा की जा सकती है
पुनरावलोकन के दौरान पूरे assignment का फिर से मूल्यांकन किया जा सकता है

ग्रेड और enrollment format

Credit/No Credit mode में पढ़ने पर भी वही evaluation criteria लागू होते हैं
C- या उससे अधिक (लगभग 70%) प्राप्त करने पर CR दिया जाता है

अन्य

SCPD students administrative inquiries के लिए dedicated email का उपयोग कर सकते हैं
वेबसाइट design Andrej Karpathy ने बनाया है

1 टिप्पणियां

GN⁺ 2025-11-28

Hacker News की राय

मुझे लगा था कि lecture videos सार्वजनिक हो गई हैं, इसलिए उत्साहित था, लेकिन देखा तो वे private थीं
महामारी के समय कई संस्थानों ने अपनी सामग्री दुनिया भर के लिए खोल दी थी, लेकिन अब रुझान ऐसा है कि नई lectures ही नहीं, पुरानी videos भी बंद की जा रही हैं
MIT OCW में भी advanced graduate courses तक जाते-जाते सामग्री गायब हो जाती है
बेशक मैं समझता हूँ कि universities को अपने alumni को प्राथमिकता देनी चाहिए, लेकिन lecture videos जैसी बुनियादी सामग्री सार्वजनिक करने में वास्तव में लगभग कोई लागत नहीं होती
ऐसी सामग्री दुनिया के लिए बहुत मूल्यवान लगती है
- 2024 की lecture videos YouTube playlist पर उपलब्ध हैं
- यह तर्क भी दिया जाता है कि नई सामग्री सार्वजनिक करने से दूसरी संस्थाएँ आसानी से plagiarism कर सकती हैं
  कुछ professors copyright कारणों से lecture slides या recordings साझा नहीं करना चाहते
  लेकिन यह रवैया सच्ची प्रतिष्ठा नहीं, बल्कि कानूनी बाधाओं के जरिए विशिष्टता बनाने जैसा लगता है
  आखिरकार इसका फायदा सिर्फ महँगी tuition देने वाले students, बदलना न चाहने वाले instructors, और university administrators को ही मिलता है
एक कहावत है, “RL सीखने का सबसे खराब तरीका है, लेकिन बाकी सभी तरीकों से बेहतर है”
बहुत से scientists मानते हैं कि अगले 10 वर्षों में RL state-of-the-art model training का मुख्यधारा तरीका नहीं रहेगा
मैं भी सहमत हूँ, और इस course को पढ़ते समय दूसरे paradigms पर भी सोचने की सलाह दूँगा
जैसे image generation में diffusion model ने और GPT में RLHF ने बड़ी छलांग दिलाई, वैसे ही RL भी अंतिम चरण नहीं है
हमारा काम इससे बेहतर तरीका खोजना है
- अक्सर माना जाता है कि लोगों की रुचि सिर्फ image या text generation में है, लेकिन RL control problems में बेहतरीन है
  पर्याप्त execution time दिया जाए तो यह गणितीय रूप से optimal solution की गारंटी देता है
  इसलिए autonomous vehicles GPT नहीं, RL का उपयोग करते हैं
- RL वास्तव में learning method से अधिक dataset generation method के करीब है
- advertising industry में भी RL अब भी सक्रिय रूप से उपयोग होता है
  जब लाखों से अरबों visits को optimize करना हो, तब contextual multi-armed bandit जोड़ने से purchases बढ़ाने में बहुत प्रभाव पड़ता है
- combinatorial optimization समस्याओं या simulation-based environments में कौन-सा paradigm उपयुक्त होगा, यह जानने की उत्सुकता है
- छात्र जीवन में मैं RLHF को परीक्षा के अंक बढ़ाने की रणनीति जैसा समझता था
  लेकिन वास्तविक काम में समझ आया कि out-of-distribution generalization केवल reward-based learning से संभव नहीं है
मैं जानना चाहता था कि videos सार्वजनिक हैं या नहीं, और spring quarter lectures YouTube playlist में हैं
जिसने केवल पारंपरिक ML सीखी हो, उसके लिए यह समझना मुश्किल है कि RL को सामान्य समस्याओं पर कैसे लागू किया जाए
उदाहरण के लिए, BCE loss वाली binary classification या house price prediction जैसी समस्याओं पर RL को जबरन कैसे लागू करें, यह समझ नहीं आता
loss function को जोड़ने का तरीका साफ नहीं लगता
- RL इस्तेमाल करना है या नहीं, यह तय करते समय तीन बातों पर विचार करना चाहिए: ① हर उदाहरण से मिलने वाली loss information की मात्रा, ② क्या loss signal से model को समायोजित किया जा सकता है, ③ feature space की जटिलता
  house price prediction जैसी स्पष्ट regression समस्याओं में पारंपरिक तरीके काफी प्रभावी हैं, इसलिए RL की जरूरत नहीं होती
  दूसरी ओर, Go जैसे sequential decision-making problems में reward signal sparse होता है और strategy improvement स्पष्ट नहीं होता, इसलिए RL उपयुक्त है
- मैं होता तो RL का उपयोग नहीं करता
  RL label-रहित जटिल परिस्थितियों में उपयोगी है, लेकिन chess जैसी समस्याओं में भी असल बात उसे supervised learning problem में बदलना है
- RL Markov Decision Process (MDP) में optimal policy खोजने की तकनीक है
  यह state और action space परिभाषित वाले sequential decision-making problems के लिए उपयुक्त है, लेकिन binary classification या regression पर फिट नहीं बैठता
  RL उन समस्याओं में मजबूत है जहाँ भविष्य के परिणाम पहले से ज्ञात नहीं होते और वर्तमान में निर्णय लेना पड़ता है
RL के बारे में अक्सर कहा जाता है कि यह unstable है और converge करना कठिन है
Stanford के researchers भी इसे मानते हैं
जानना चाहता हूँ कि इसका कोई समाधान है या नहीं
- FlowRL एक संभावित विकल्प है
  एक ही maximum value नहीं, बल्कि पूरे reward distribution को सीखकर यह स्थिरता बढ़ाता है
अगर आपने Ilya का podcast सुना है, तो इस lecture का शीर्षक दिलचस्प लगेगा
- मज़ाक में कहा गया, “क्या आखिरकार AI winter आने वाली है?”
- यह भी पूछा गया कि किस podcast की बात हो रही है
RL पर किताबों की सिफारिशें खोज रहा हूँ
deep learning मैं पहले ही काफी पढ़ चुका हूँ
Sutton की Reinforcement Learning, Kevin Patrick Murphy की Reinforcement Learning, an overview, और Sebastian Raschka की नई किताब पर नज़र है
- Kochenderfer आदि की Algorithms for Decision Making भी RL से जुड़े approaches को कवर करती है
  इसका मुफ्त PDF algorithmsbook.com से डाउनलोड किया जा सकता है

CS234: Reinforcement Learning शीतकालीन सत्र 2025

कोर्स अवलोकन और संचालन

पूर्वापेक्षित योग्यता

सीखने के लक्ष्य

पाठ्यक्रम समय-सारिणी सारांश

पाठ्यपुस्तकें और संदर्भ सामग्री

मूल्यांकन अनुपात

देर से जमा करने और submission policy

परीक्षाएँ

assignments और submission

शैक्षणिक नैतिकता और AI tools का उपयोग

शैक्षणिक सहायता और पुनर्मूल्यांकन अनुरोध

ग्रेड और enrollment format

अन्य

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय