-
परिचय
- मानव फीडबैक के माध्यम से Reinforcement Learning (RLHF) आधुनिक machine learning systems को deploy करने के लिए एक महत्वपूर्ण तकनीकी tool बन चुका है.
- यह पुस्तक RLHF की मुख्य विधियों का परिचय देती है और इसकी शुरुआत economics, philosophy, optimal control जैसे विविध वैज्ञानिक क्षेत्रों के संगम से होती है.
- इसमें definitions, problem setup, data collection आदि के साथ साहित्य में प्रयुक्त सामान्य mathematical concepts की व्याख्या की गई है.
-
Optimization और Reinforcement Learning
- इसमें preference data, reward modeling, regularization, instruction tuning, rejection sampling, policy gradient, direct alignment algorithms जैसी विभिन्न optimization methods को शामिल किया गया है.
-
उन्नत विषय
- इसमें Constitutional AI और AI feedback, inference तथा reinforcement fine-tuning, synthetic data, evaluation, overoptimization जैसे उन्नत विषयों को शामिल किया गया है.
-
आभार
- परियोजना में प्रत्यक्ष रूप से मदद करने वाले Costa Huang और Claude को धन्यवाद दिया गया है.
- GitHub contributors को भी धन्यवाद दिया गया है.
-
उद्धरण
- लेखक: Nathan Lambert
- शीर्षक: Reinforcement Learning from Human Feedback
- प्रकाशन वर्ष: 2024
- प्रकाशक: Online
- URL: https://rlhfbook.com
1 टिप्पणियां
Hacker News राय
लेखक के उस प्रयास को सकारात्मक रूप से देखता है जो RLHF के सिद्धांत और व्यवहार पर सार्वजनिक दस्तावेज़ों की कमी को भरने की कोशिश करता है। मौजूदा state of the art मुख्य रूप से arXiv पेपरों में दस्तावेज़ित है, और हर पेपर एक "snapshot" से अधिक एक "difference" के करीब होता है, इसलिए वर्तमान स्थिति को समझने के लिए कई पुराने पेपरों से ज्ञान को जोड़ना पड़ता है। मौजूदा state of the art को संदर्भित करने में आसान एक "snapshot" के रूप में बनाना बहुत मूल्यवान है
उल्लेख किया गया है कि लेखक स्वयं अभी भी इस पर काम कर रहे हैं, और GitHub पर corrections या suggestions का स्वागत है
यह उद्धरण उपयोगी बताया गया है: "मानव feedback के माध्यम से reinforcement learning को उन डोमेन में machine learning models को optimize करने के लिए डिज़ाइन किया गया है जहाँ reward function को डिज़ाइन करना कठिन होता है"
RLHF की परिभाषा जानने के बाद यह "जो चीज़ें हम महत्वपूर्ण बताते हैं उन्हें सीखना" जैसा महसूस होता है। भविष्य के लिए ऊँची उम्मीदें व्यक्त की गई हैं
RLHF पर अन्य उपयोगी सामग्री साझा की गई है
उल्लेख किया गया है कि इस सामग्री का epub संस्करण चाहिए
Kevin Murphy की "Reinforcement Learning: An Overview" (deep) reinforcement learning और sequential decision making के क्षेत्र का एक अद्यतन overview प्रदान करती है, जिसमें value-based RL, policy gradient methods, model-based methods आदि शामिल हैं
RLHF और distillation के बीच अंतर पर एक प्रश्न उठाया गया है