- यह लेख बड़े भाषा मॉडल (Large Language Models, LLMs) की fine-tuning प्रक्रिया में देखे गए एक अनोखे learning pattern पर चर्चा करता है, जिसमें ये मॉडल एक ही उदाहरण से प्रभावी रूप से सीखते हुए दिखाई देते हैं.
- यह अवलोकन neural network की sample efficiency के बारे में सामान्य समझ के विपरीत है, क्योंकि प्रभावी learning के लिए आमतौर पर कई उदाहरणों की आवश्यकता होती है.
- लेखकों ने इस phenomenon की पुष्टि करने के लिए कई प्रयोग किए, जो इस परिकल्पना का समर्थन करते हैं कि LLMs इनपुट को बहुत तेज़ी से याद कर सकते हैं.
- neural network की learning प्रक्रिया में input और output के उदाहरण दिखाए जाते हैं, और उन्हें input के आधार पर output की भविष्यवाणी करना सिखाया जाता है. यह प्रक्रिया मॉडल को प्रभावी रूप से सिखाने के लिए कई बार (epoch) दोहराई जाती है.
- लेखकों ने Kaggle प्रतियोगिता के लिए मॉडल train करते समय हर epoch के अंत में loss में तेज़ गिरावट देखी, जो असामान्य थी और शुरुआत में bug होने का संदेह हुआ.
- लेखकों और community के अन्य developers ने अलग-अलग training loop और methods का उपयोग करते हुए भी इसी तरह के pattern देखे, जिससे संकेत मिलता है कि यह bug नहीं बल्कि LLM fine-tuning की एक विशेषता है.
- परिकल्पना यह है that ये training curves overfitting दिखा रहे हैं, यानी मॉडल केवल एक या दो उदाहरणों से input को पहचानना सीख रहा है.
- लेखकों ने अलग-अलग learning rate schedules के साथ प्रयोग किए और देखा कि मॉडल सिर्फ एक बार उदाहरण देखने के बाद भी उसे तेज़ी से पहचानना सीख जाता है.
- लेखकों का सुझाव है कि pre-trained बड़े भाषा मॉडल में minimum loss के पास का क्षेत्र बहुत smooth loss surface रख सकता है, जिससे वे एक ही उदाहरण से तेज़ी से सीख पाते हैं.
- यह तेज़ learning पारंपरिक training methods को चुनौती दे सकती है और catastrophic forgetting की समस्या को बढ़ा सकती है, जिसमें नई जानकारी आने पर मॉडल पहले सीखी हुई जानकारी भूल जाता है.
- लेखक dropout या stochastic depth जैसी तकनीकों के उपयोग को बढ़ाने, या training के दौरान विभिन्न datasets के मिश्रण का उपयोग करने जैसी संभावित mitigation strategies का सुझाव देते हैं.
- लेखक इस phenomenon और LLMs के training व उपयोग पर इसके प्रभाव को बेहतर समझने के लिए आगे के शोध और वैकल्पिक hypotheses का प्रस्ताव करते हैं.
1 टिप्पणियां
Hacker News राय