- मॉडल द्वारा जनरेट किए गए परिणाम की <अच्छाई> को आंकने के लिए सबसे उपयुक्त मीट्रिक मानव preference score है
- मॉडल के परिणाम पर मनुष्यों द्वारा दिए गए feedback को जनरेट किए गए टेक्स्ट की गुणवत्ता के संकेतक के रूप में इस्तेमाल करना, और आगे उस feedback को प्रतिबिंबित करने वाला loss डिज़ाइन करके मॉडल को optimize करना ही RLHF(Reinforcement Learning from Human Feedback) है
- RLHF: Step by Step
- #1 Language Model को train करना (pre-training)
- #2 Reward Model को train करने के लिए डेटा एकत्र करना और मॉडल train करना
- #3 Reinforcement Learning के ज़रिए Language Model को fine-tuning करना
- RLHF, विचार करने वाली बातें
अभी कोई टिप्पणी नहीं है.