• संज्ञानात्मक व्यवहार स्व-उन्नयन करने वाले रीज़नर को कैसे संभव बनाते हैं, या बेहद प्रभावी STaRs की चार आदतें

  • टेस्ट-टाइम रीज़निंग: यह एक शक्तिशाली paradigm है जो language models को जटिल समस्याओं पर अधिक देर तक और अधिक सावधानी से सोचने में सक्षम बनाता है। reinforcement learning (RL) सत्यापनीय कार्यों पर language models के स्व-उन्नयन को बढ़ावा दे सकता है, लेकिन कुछ मॉडल उल्लेखनीय प्रदर्शन दिखाते हैं जबकि अन्य जल्दी ठहराव पर पहुँच जाते हैं। उदाहरण के लिए, Qwen-2.5-3B समान RL training के तहत Llama-3.2-3B से काफी बेहतर प्रदर्शन करता है.

  • अंतर्निहित गुण: ऐसे कौन से अंतर्निहित गुण हैं जो प्रभावी स्व-उन्नयन को संभव बनाते हैं, यह प्रश्न उठता है। इसकी जाँच के लिए, verification, backtracking, subgoal setting, और backward chaining नामक चार प्रमुख संज्ञानात्मक व्यवहारों का विश्लेषण करने वाला एक framework प्रस्तुत किया गया है। ये व्यवहार विशेषज्ञ मानव problem-solvers और सफल language models दोनों द्वारा उपयोग किए जाते हैं.

  • प्रयोगात्मक परिणाम: Qwen स्वाभाविक रूप से इन रीज़निंग व्यवहारों को दिखाता है, जबकि Llama में शुरुआत में इनकी कमी होती है। नियंत्रित behavioral dataset का उपयोग करके किए गए व्यवस्थित प्रयोगों में पाया गया कि यदि Llama को इन रीज़निंग व्यवहारों वाले उदाहरणों से तैयार किया जाए, तो वह RL के दौरान उल्लेखनीय सुधार करता है और Qwen के प्रदर्शन की बराबरी कर सकता है या उसे पार कर सकता है.

  • रीज़निंग व्यवहारों का महत्व: सही उत्तर की शुद्धता से अधिक महत्वपूर्ण तत्व इन रीज़निंग व्यवहारों की उपस्थिति है। सही रीज़निंग पैटर्न वाले गलत solutions से तैयार किया गया मॉडल, सही solutions पर प्रशिक्षित मॉडल के समान प्रदर्शन हासिल करता है.

  • निरंतर pretraining: OpenWebMath डेटा का उपयोग करके रीज़निंग व्यवहारों को बढ़ाने वाली filtering के माध्यम से Llama मॉडल को Qwen की स्व-उन्नयन trajectory का अनुसरण करने योग्य बनाया गया। इससे प्रारंभिक रीज़निंग व्यवहार और सुधार क्षमता के बीच एक मौलिक संबंध स्थापित होता है, जो बताता है कि कुछ language models अतिरिक्त computation का प्रभावी उपयोग क्यों कर पाते हैं.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.