ChatGPT को कैसे train किया गया - RLHF

xguru · 2023-02-08T10:42:16+09:00

मॉडल द्वारा जनरेट किए गए परिणाम की को आंकने के लिए सबसे उपयुक्त मीट्रिक मानव preference score है मॉडल के परिणाम पर मनुष्यों द्वारा दिए गए feedback को जनरेट किए गए टेक्स्ट की गुणवत्ता के संकेतक के रूप में इस्तेमाल करना, और आगे उस feedback को प्रतिबिंबित करने वाला loss डिज़ाइन करके मॉडल को optimize करना ही RLHF(Reinforcement Learning from Human Feedback) है RLHF: Step by Step #1 Language Model को train करना (pre-training) #2 Reward Model को train करने के लिए डेटा एकत्र करना और मॉडल train करना #3 Reinforcement Learning के ज़रिए Language Model को fine-tuning करना RLHF, विचार करने वाली बातें फिलहाल की सीमाएँ

(littlefoxdiary.tistory.com)

15 पॉइंट द्वारा xguru 2023-02-08 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

मॉडल द्वारा जनरेट किए गए परिणाम की <अच्छाई> को आंकने के लिए सबसे उपयुक्त मीट्रिक मानव preference score है
मॉडल के परिणाम पर मनुष्यों द्वारा दिए गए feedback को जनरेट किए गए टेक्स्ट की गुणवत्ता के संकेतक के रूप में इस्तेमाल करना, और आगे उस feedback को प्रतिबिंबित करने वाला loss डिज़ाइन करके मॉडल को optimize करना ही RLHF(Reinforcement Learning from Human Feedback) है
RLHF: Step by Step
- #1 Language Model को train करना (pre-training)
- #2 Reward Model को train करने के लिए डेटा एकत्र करना और मॉडल train करना
- #3 Reinforcement Learning के ज़रिए Language Model को fine-tuning करना
RLHF, विचार करने वाली बातें
- फिलहाल की सीमाएँ

ChatGPT को कैसे train किया गया - RLHF

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.