मल्टी-टोकन पूर्वानुमान से बेहतर बड़े भाषा मॉडल प्रशिक्षण
- GPT और Llama जैसे Large Language Models सामान्यतः अगले टोकन पूर्वानुमान लॉस पर प्रशिक्षित होते हैं
- इस शोध में प्रस्ताव है कि यदि भाषा मॉडल को एक साथ कई भविष्य के टोकन अनुमानित करने के लिए प्रशिक्षित किया जाए तो सैंपल दक्षता बेहतर हो जाती है
- खास तौर पर, प्रशिक्षण कॉर्पस के प्रत्येक स्थान पर साझा मॉडल ट्रंक पर चलने वाले n स्वतंत्र आउटपुट हेड्स का उपयोग करके अगले n टोकन अनुमानित करने के लिए मॉडल को प्रोत्साहित किया जाता है
- मल्टी-टोकन पूर्वानुमान को एक अतिरिक्त प्रशिक्षण टास्क के रूप में लेते हुए, कोड और प्राकृतिक भाषा दोनों मॉडलों के लिए प्रशिक्षण समय में किसी अतिरिक्त ओवरहेड के बिना डाउनस्ट्रीम कार्य-क्षमता में सुधार पाया गया
मॉडल जितना बड़ा हो, उतना प्रभावी; और मल्टी-एपोक प्रशिक्षण में भी आकर्षक
- यह विधि मॉडल का आकार बढ़ने पर अधिक उपयोगी होती है और कई epochs तक प्रशिक्षण में भी इसका लाभ बना रहता है
- विशेष रूप से कोडिंग जैसे जेनरेशन बेंचमार्क पर इसका लाभ स्पष्ट है, क्योंकि यह मॉडल मजबूत बेसलाइन से लगातार कुछ प्रतिशत अंकों तक बेहतर प्रदर्शन दिखाता है
- 13B parameter मॉडल ने HumanEval में 12% और MBPP में 17% अधिक प्रश्न हल किए
इंडक्शन हेड निर्माण और एल्गोरिदमिक रीज़निंग में लाभ
- छोटे एल्गोरिदमिक कार्यों पर किए गए प्रयोग दिखाते हैं कि मल्टी-टोकन पूर्वानुमान इंडक्शन हेड विकास और एल्गोरिदमिक रीज़निंग क्षमता के लिए लाभदायक है
- अतिरिक्त लाभ के रूप में, 4-टोकन पूर्वानुमान पर प्रशिक्षित मॉडल बड़े बैच साइज पर भी इन्फरेंस स्पीड में अधिकतम 3x तक तेज़ है
GN⁺ की राय
-
भाषा मॉडल की दक्षता बढ़ाने के लिए एक नया प्रशिक्षण तरीका प्रस्तावित करने वाला यह रोचक शोध है। खासकर बड़े मॉडलों में प्रदर्शन सुधार का स्पष्ट दिखना उल्लेखनीय है
-
यदि मल्टी-टोकन पूर्वानुमान का दीर्घकालिक निर्भरता (long-range dependency) सीखने पर क्या प्रभाव पड़ता है, इसका अतिरिक्त परीक्षण हो तो बेहतर होगा। उदाहरण के लिए, वाक्य-दर-वाक्य संदर्भ-समाधान जैसे लंबी दूरी की dependency वाले टास्क में प्रदर्शन बदलाव देखना भी अर्थपूर्ण होगा
-
कोडिंग या गणितीय समस्या-समाधान जैसे विशिष्ट डोमेन के जेनरेशन टास्क में सुधार स्पष्ट रूप से बड़ा बताया गया है, जबकि सामान्य प्राकृतिक भाषा समझ या QA टास्क में इसका असर क्या होगा यह उत्सुकता का विषय है। यदि विभिन्न बेंचमार्क पर प्रयोगात्मक परिणाम और मिलें तो इसे और बेहतर समझा जा सकेगा
-
इन्फरेंस स्पीड में सुधार व्यावहारिक दृष्टि से बड़ा लाभ दे सकता है। विशेषकर वास्तविक समय की मांग वाले चैटबॉट या प्रश्नोत्तर प्रणालियों में इसका उपयोग करना लाभकारी दिखता है
-
Anthropic की Constitutional AI और OpenAI के InstructGPT जैसे RLHF-बेस्ड मॉडल जब चर्चा में हैं, ऐसे में यह शोध इसलिए महत्वपूर्ण है क्योंकि यह केवल सुपरवाइज़्ड लर्निंग से ही भाषा मॉडल की प्रदर्शन-क्षमता बेहतर करने का तरीका सुझाता है। निश्चय ही नैतिक वैल्यू अलाइनमेंट जैसी चुनौतियां अभी भी बाकी हैं, लेकिन प्रशिक्षण दक्षता के हिसाब से यह प्रतिस्पर्धी दृष्टिकोण प्रतीत होता है
1 टिप्पणियां
Hacker News टिप्पणी
सार: