40 पॉइंट द्वारा GN⁺ 2025-03-12 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • यह किताब reinforcement learning के बुनियादी concepts, समस्याओं और algorithms का गणितीय रूप से सहज परिचय देने का लक्ष्य रखती है
  • algorithms की प्रक्रिया ही नहीं, बल्कि वे क्यों डिज़ाइन किए गए और प्रभावी क्यों हैं, इसे समझाने के लिए गणितीय दृष्टिकोण से व्याख्या करती है
  • गणित की गहराई को उपयुक्त स्तर पर रखा गया है, और ऐसे उदाहरण दिए गए हैं जिन्हें पाठक अपनी पसंद से पढ़ सकते हैं
  • algorithms के मुख्य विचारों को जटिल तत्वों से अलग करके समझाया गया है ताकि पाठक उन्हें बेहतर ढंग से समझ सकें
  • हर अध्याय पिछले अध्याय पर आधारित है और अगले अध्याय के लिए आधार प्रदान करता है

विषय-वस्तु

  • यह किताब 10 अध्यायों से बनी है और बुनियादी tools तथा algorithms पर दो भागों में विभाजित है।
  • हर अध्याय आपस में जुड़ा हुआ है, इसलिए शुरुआती अध्यायों का पहले अध्ययन करना आवश्यक है।

पाठक वर्ग

  • यह किताब reinforcement learning में रुचि रखने वाले senior undergraduate students, graduate students, researchers और practitioners के लिए है।
  • यह बुनियादी concepts से शुरू होती है ताकि reinforcement learning की background knowledge न होने पर भी इसे समझा जा सके।
  • probability theory और linear algebra का ज्ञान आवश्यक है, और ज़रूरी गणितीय आधार appendix में शामिल है।

व्याख्यान वीडियो

  • किताब और lecture videos को साथ में उपयोग करके बेहतर सीख हासिल की जा सकती है।
  • चीनी lecture videos Bilibili चैनल और YouTube चैनल पर उपलब्ध हैं, और फ़रवरी 2025 तक उन्हें 1,300,000 से अधिक views मिल चुके हैं।
  • अंग्रेज़ी lecture videos YouTube पर अपलोड किए गए हैं।

लेखक परिचय

  • लेखक की जानकारी homepage और research group website पर देखी जा सकती है।
  • वे 2019 से reinforcement learning पर graduate-level course पढ़ा रहे हैं, और यह किताब lecture notes के रूप में तैयार की गई थी।
  • आशा है कि यह किताब पाठकों को reinforcement learning के क्षेत्र में सहज रूप से प्रवेश करने में मदद करेगी।

उद्धरण

  • किताब का शीर्षक: "Mathematical Foundations of Reinforcement Learning"
  • लेखक: S. Zhao
  • प्रकाशन वर्ष: 2025
  • प्रकाशक: Springer Nature Press तथा Tsinghua University Press

अद्यतन रिकॉर्ड

  • फ़रवरी 2025: 5,000+ stars प्राप्त
  • दिसंबर 2024: 4,000+ stars प्राप्त
  • अक्टूबर 2024: किताब के कवर का डिज़ाइन पूरा
  • सितंबर 2024: Springer प्रकाशन से पहले अंतिम संशोधन
  • अगस्त 2024: 3,000+ stars प्राप्त और code जोड़ा गया
  • जून 2024: प्रकाशन से पहले अंतिम संशोधन
  • अप्रैल 2024: Grid World environment code जोड़ा गया
  • मार्च 2024: 2,000 stars प्राप्त
  • मार्च 2024: तीसरे संस्करण का draft online
  • सितंबर 2023: 1,000+ stars प्राप्त
  • अगस्त 2023: दूसरे संस्करण का draft online
  • नवंबर 2022: Springer Nature और Tsinghua University Press के साथ संयुक्त प्रकाशन की योजना
  • अक्टूबर 2022: lecture notes और videos online
  • अगस्त 2022: पहला draft online

2 टिप्पणियां

 
kipsong133 2025-03-13

अच्छी सामग्री का परिचय देने के लिए धन्यवाद।

 
GN⁺ 2025-03-12
Hacker News राय
  • OpenAI Gym के दौर में रिइनफोर्समेंट लर्निंग (RL) की सबसे बड़ी खूबी यह थी कि यह शुरुआती लोगों के लिए आसानी से सुलभ था। छोटे environments में शौकिया तौर पर RL सीखा जा सकता था और Cartpole जैसी सरल समस्याओं पर इसे आज़माया जा सकता था। यह जानने की जिज्ञासा है कि क्या LLMs से जुड़े ऐसे ही सुलभ RL tasks या learning environments मौजूद हैं। यह भी जानना है कि एक सामान्य MacBook Air पर LLM x RL क्षेत्र में कुछ किया जा सकता है या नहीं

    • Pieter Abbeel की Deep RL fundamentals पर 6-लेक्चर series भी बहुत recommend की जाती है। यह अच्छा overview और intuition देती है
    • रिइनफोर्समेंट लर्निंग और संबंधित topics पर सबसे बेहतरीन lectures Dimitris Bertsekas के हैं
    • RL का शानदार visual overview देने वाले diagrams और 30-मिनट के introductory YouTube video की भी जोरदार सिफारिश है
    • उम्मीद है कि engineering, logistics और medicine के वास्तविक problems हल करने के लिए RL का उपयोग करने वाले hyper-growth startups बहुत बनेंगे
    • LLMs को अभी बहुत attention मिल रही है, लेकिन यह हैरानी की बात है कि venture capital RL companies में खास दिलचस्पी नहीं दिखा रही
  • RL पर एक और बेहतरीन resource Mykel Kochenderfer की textbooks का collection है

    • Murphy की RL-focused, अभी जारी textbook का भी ज़िक्र होना चाहिए
    • इच्छुक लोगों के लिए Sutton की किताब का अधिकांश हिस्सा implement करने वाला एक GitHub repository मौजूद है
    • MinRL के code का link दिया गया है, इसके लिए आभार। RL research करते समय comparative studies को reproduce करना और अपने contribution को validate करना एक बड़ी समस्या रही है। visualization tools और केवल observations से verify किए जा सकने वाले gridworld sandbox के साथ एक simple library बहुत उपयोगी होती है
  • यह किताब कहती है कि पाठक को probability theory और linear algebra की जानकारी चाहिए। ऐसे वाक्य हमेशा थोड़ी सावधानी से लेने चाहिए, और यह समझते हुए कि इन्हें math nerds ने लिखा है। औसत गणितीय क्षमता वाले औसत programmer को सावधान रहना चाहिए

  • समझ नहीं आता कि इस material को समझ लेने के बाद this field में job कैसे मिलेगी। अभी तो software engineer (SWE) बने हुए हैं