GSM-Symbolic: बड़े language models की गणितीय तर्क क्षमता की सीमाओं को समझना
- हाल के वर्षों में बड़े language models (LLM) की प्रगति ने गणित में औपचारिक तर्क क्षमता को लेकर रुचि बढ़ाई है.
- GSM8K benchmark का उपयोग प्राथमिक विद्यालय स्तर के प्रश्नों पर मॉडल की गणितीय तर्क क्षमता का मूल्यांकन करने के लिए व्यापक रूप से किया जाता है.
- हाल के वर्षों में GSM8K पर LLM का प्रदर्शन काफी बेहतर हुआ है, लेकिन क्या वास्तव में उनकी गणितीय तर्क क्षमता विकसित हुई है, यह अभी स्पष्ट नहीं है.
- इस समस्या को हल करने के लिए कई नवीन open और closed models पर बड़े पैमाने का अध्ययन किया गया.
- मौजूदा मूल्यांकन की सीमाओं को दूर करने के लिए, symbolic templates से बना एक बेहतर benchmark, GSM-Symbolic, पेश किया गया, जो विविध प्रश्न निर्माण को संभव बनाता है.
- GSM-Symbolic अधिक नियंत्रित मूल्यांकन को संभव बनाता है और इस तरह तर्क क्षमता को मापने के लिए अधिक विश्वसनीय संकेतक प्रदान करता है.
- अध्ययन के परिणाम बताते हैं कि LLM एक ही प्रश्न के अलग-अलग implementations पर उत्तर देते समय उल्लेखनीय variability दिखाते हैं.
- खास तौर पर, GSM-Symbolic benchmark में केवल प्रश्न के संख्यात्मक मान बदलने पर भी सभी models का प्रदर्शन गिर जाता है.
- इसके अलावा, इन models की गणितीय तर्क क्षमता की नाजुकता की जांच की गई, और दिखाया गया कि प्रश्न में clauses की संख्या बढ़ने पर प्रदर्शन काफी घट जाता है.
- इससे यह परिकल्पना सामने आती है कि वर्तमान LLM वास्तविक logical reasoning नहीं कर सकते, बल्कि training data में मौजूद reasoning steps की नकल करते हैं.
- यदि प्रश्न में एक ऐसा clause जोड़ दिया जाए जो प्रासंगिक दिखता हो, भले ही वह अंतिम उत्तर के लिए आवश्यक reasoning chain में योगदान न देता हो, तब भी सभी आधुनिक models में प्रदर्शन अधिकतम 65% तक गिर जाता है.
GN⁺ की संक्षिप्त जानकारी
- यह अध्ययन बड़े language models की गणितीय तर्क क्षमता और उसकी सीमाओं को अधिक सूक्ष्मता से समझने में मदद करता है.
- GSM-Symbolic benchmark ऐसा tool प्रदान करता है, जिसकी मदद से विविध प्रश्नों के माध्यम से मॉडल की तर्क क्षमता का अधिक सटीक मूल्यांकन किया जा सकता है.
- यह अध्ययन दिखाता है कि LLM वास्तविक logical reasoning की तुलना में training data के reasoning steps की नकल करने की अधिक प्रवृत्ति रखते हैं.
- गणितीय तर्क क्षमता का मूल्यांकन करने वाले अन्य benchmarks के रूप में MATH, MATHQA आदि की सिफारिश की जाती है.
1 टिप्पणियां
Hacker News राय