प्री-ट्रेनिंग का प्रक्रियात्मक ज्ञान बड़े भाषा मॉडलों की reasoning को बढ़ावा देने में क्या भूमिका निभाता है
(arxiv.org)-
प्रक्रियात्मक ज्ञान का बड़े भाषा मॉडलों की reasoning पर प्रभाव
-
बड़े भाषा मॉडल (LLM) की क्षमताओं और सीमाओं का हाल के वर्षों में विस्तार से अध्ययन किया गया है। LLM समस्या-समाधान क्षमता दिखाते हैं, लेकिन इंसानों की तुलना में reasoning में एक अंतर मौजूद है, जिससे generalization strategies की मजबूती पर सवाल उठते हैं।
-
LLM डिज़ाइन में इस्तेमाल किए गए डेटा की विशाल मात्रा के कारण, generalization को मापने की पारंपरिक विधि यानी training-test set separation लागू करना कठिन है। इसे दूर करने के लिए, यह जाँचा गया कि reasoning tasks करते समय LLM प्री-ट्रेनिंग डेटा से कौन-सी generalization strategies इस्तेमाल करते हैं।
-
दो आकार के मॉडल (7B और 35B) और 2.5B प्री-ट्रेनिंग tokens का उपयोग करके, तीन सरल गणितीय reasoning tasks के लिए उन दस्तावेज़ों की पहचान की गई जो मॉडल के output को प्रभावित करते हैं, और उनकी तुलना उस डेटा से की गई जो factual questions के उत्तर देने को प्रभावित करता है।
-
मॉडल हर factual question के लिए मुख्य रूप से अलग-अलग डेटा सेट का उपयोग करते हैं, लेकिन एक ही task के भीतर अलग reasoning questions पर भी दस्तावेज़ अक्सर समान प्रभाव डालते हैं, जो प्रक्रियात्मक ज्ञान की मौजूदगी को दर्शाता है।
-
factual questions के उत्तर अक्सर सबसे अधिक प्रभावशाली डेटा में दिखाई देते हैं, लेकिन reasoning questions के मामले में उत्तर या मध्यवर्ती reasoning steps के उत्तर उच्च प्रभाव नहीं दिखाते।
-
reasoning questions के शीर्ष दस्तावेज़ों के गुणात्मक विश्लेषण से यह पुष्टि हुई कि प्रभावशाली दस्तावेज़ों में अक्सर formula या code के रूप में समाधान विधि दिखाने वाला प्रक्रियात्मक ज्ञान शामिल होता है।
-
ये निष्कर्ष संकेत देते हैं कि मॉडल द्वारा अपनाया गया reasoning approach केवल साधारण retrieval नहीं है, बल्कि ऐसे दस्तावेज़ों से प्रक्रियात्मक ज्ञान का synthesis करने वाली एक generalizable strategy है जो समान प्रकार की reasoning करते हैं।
1 टिप्पणियां
Hacker News राय
यह इंगित किया गया कि LLM हर समस्या के उदाहरण ट्रेनिंग डेटा में नहीं ढूंढ सकता, और information retrieval शैली की खोज के लिए ज़रूरी factual lookup उदाहरण पर्याप्त नहीं हैं
यह इंगित किया गया कि इंसानों को समस्या चरण-दर-चरण हल करनी होती है ताकि neural network उसका अनुकरण कर सके
कहा गया कि LLM समस्या-समाधान क्षमता दिखाते हैं, लेकिन इंसानों की तुलना में reasoning का अंतर बना हुआ है
समझाया गया कि जब language model reasoning सवालों का जवाब देता है, तो वह अक्सर सीमित दस्तावेज़-समूह से जानकारी खोजता है
दावा किया गया कि Google का pretraining chip design में महत्वपूर्ण भूमिका निभाता है
पूछा गया कि generated images डरावने सपने जैसी क्यों लगती हैं, और दावा किया गया कि अधिक reasoning training data की ज़रूरत है
AlphaGo और AlphaZero की तुलना के माध्यम से समझाया गया कि इंसानी procedural knowledge ML training में मददगार है, लेकिन इसकी सीमाएँ भी हो सकती हैं
सुझाव दिया गया कि student notes, exams, book reviews आदि पर ट्रेनिंग देने से LLM बेहतर हो सकते हैं, और कहा गया कि यह बहुत दिलचस्प होगा