4 पॉइंट द्वारा GN⁺ 2024-05-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

डीप रिइनफोर्समेंट लर्निंग का इंट्रोडक्शन कोर्स

  • यह कोर्स Deep Reinforcement Learning के बुनियादी और क्लासिक एल्गोरिदम पर आधारित एक व्यावहारिक शुरुआत का पाठ्यक्रम है।
  • इस कोर्स को पूरा करने के बाद आप DQN, SAC, PPO जैसे एल्गोरिदम को स्वयं implement कर सकेंगे और इनके सैद्धांतिक बैकग्राउंड को भी बेहतर तरीके से समझ पाएँगे।
  • आप Atari गेम्स खेलाना या चंद्रमा पर उतरने वाला AI train कराना सीख जाएँगे।

सेटअप

  • ताकि आप केवल training पर ध्यान दे सकें, सेटअप के चरण नीचे दिए गए हैं
    • Miniconda install करें (Python संस्करण चुनने वाला environment manager)
    • इस Git repository को checkout कर उसी फोल्डर में जाएँ
    • drlzh virtual environment बनाकर activate करें
      conda create --name drlzh python=3.11
      conda activate drlzh  
      
    • Poetry install करें और dependencies install करें (Atari के लिए gymnasium[accept-rom-license] सहित)
      pip install poetry
      poetry install
      
    • Visual Studio Code install करें

शुरुआत कैसे करें

  • Visual Studio Code में इस repository फोल्डर को खोलें (.vscode फोल्डर को बने रहने दें)
  • पहला 00_Intro.ipynb notebook खोलकर क्रमशः follow करें
  • फिर आगे बढ़कर अगला notebook खोलें
  • कहीं अटकें तो /solution फोल्डर देखें
  • चरण-दर-चरण coding की विस्तृत समझ के लिए YouTube वीडियो देखें

GN⁺ की राय

  • Reinforcement Learning उन AI तकनीकों में से एक है जिसने गेम्स और रोबोटिक्स में बड़ी सफलता हासिल की है, लेकिन वास्तविक समस्याओं पर इसे लागू करना अभी भी आसान नहीं है। उदाहरण के लिए, training में बहुत समय लग सकता है और safety-critical स्थितियों में trial-and-error संभव नहीं होता।
  • यह कोर्स Atari गेम या lunar-landing simulation जैसे सरल मुद्दों को कवर करता है, इसलिए beginners के लिए अच्छा है, लेकिन वास्तविक काम में इस्तेमाल के लिए अतिरिक्त सीखने की जरूरत पड़ेगी।
  • ऐसे ओपन-सोर्स लर्निंग संसाधनों की बढ़ती उपलब्धता से अधिक डेवलपर्स को AI तकनीक सीखने और उपयोग करने का मौका मिल रहा है। विशेषकर robotics और autonomous driving में reinforcement learning भविष्य के इंजीनियरों के लिए एक essential स्किल मानी जा सकती है।
  • अभ्यास वातावरण बनाने के लिए इसमें Conda, Poetry जैसे कई tools का इस्तेमाल किया गया है, इसलिए शुरुआत करने वालों के लिए सेटअप भारी लग सकता है। अगर cloud-based प्रैक्टिस environment मिले तो entry barrier काफी कम हो सकता है।

1 टिप्पणियां

 
GN⁺ 2024-05-06
Hacker News टिप्पणी

संक्षेप में:

  • Deep Reinforcement Learning (डीप रिइनफोर्समेंट लर्निंग) सीखने की कोशिश करते हुए कई अच्छे resources मिले, लेकिन ऐसी सामग्री कम थी जो theory और practice का सही बैलेंस दे सके।
  • इसलिए मैंने इसे खुद बनाकर open source में शेयर करने का फैसला किया। शुरुआत से Python नोटबुक में algorithms को दोबारा लिखकर इसे एक शैक्षणिक/शिक्षात्मक दृष्टिकोण के साथ तैयार किया।
  • इसमें QLearning, DQN, SAC और PPO जैसे सबसे ज़्यादा इस्तेमाल किए जाने वाले algorithms की theory और coding practice को गाइड करने वाले practical, step-by-step tutorials हैं।

फीडबैक

  • काम करने वाले simple examples तो बहुत हैं, लेकिन जब कोई issue आए तो क्या करना चाहिए इस पर practical resources कम हैं। जैसे action max value पर अटकने की या exploration सही से न होने जैसी problem cases पर सलाह मिलना बेहतर होगा।
  • नई RL technologies भी Tetris में अक्सर simple heuristics जितना अच्छा performance नहीं दे पातीं।
  • उन्होंने Gym जैसी music generation के लिए DRL framework RaveForce शेयर की, ताकि algorithms को test किया जा सके।
  • जिन लोगों का stats/ML background कम है, उनके लिए भी यह समझना आसान होगा कि agent कैसे सीखता है।
  • YouTube वीडियो लिंक add करना अच्छा रहेगा।
  • शीर्षक में उन्होंने Andrej Karpathy की "Neural Network: Zero To Hero" से प्रेरणा ली है, यह बताते हुए; साथ ही personal brand confusion होने की चिंता पर भी एक point raise हुआ है।