2 पॉइंट द्वारा GN⁺ 2024-10-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें

GSM-Symbolic: बड़े language models की गणितीय तर्क क्षमता की सीमाओं को समझना

  • हाल के वर्षों में बड़े language models (LLM) की प्रगति ने गणित में औपचारिक तर्क क्षमता को लेकर रुचि बढ़ाई है.
  • GSM8K benchmark का उपयोग प्राथमिक विद्यालय स्तर के प्रश्नों पर मॉडल की गणितीय तर्क क्षमता का मूल्यांकन करने के लिए व्यापक रूप से किया जाता है.
  • हाल के वर्षों में GSM8K पर LLM का प्रदर्शन काफी बेहतर हुआ है, लेकिन क्या वास्तव में उनकी गणितीय तर्क क्षमता विकसित हुई है, यह अभी स्पष्ट नहीं है.
  • इस समस्या को हल करने के लिए कई नवीन open और closed models पर बड़े पैमाने का अध्ययन किया गया.
  • मौजूदा मूल्यांकन की सीमाओं को दूर करने के लिए, symbolic templates से बना एक बेहतर benchmark, GSM-Symbolic, पेश किया गया, जो विविध प्रश्न निर्माण को संभव बनाता है.
  • GSM-Symbolic अधिक नियंत्रित मूल्यांकन को संभव बनाता है और इस तरह तर्क क्षमता को मापने के लिए अधिक विश्वसनीय संकेतक प्रदान करता है.
  • अध्ययन के परिणाम बताते हैं कि LLM एक ही प्रश्न के अलग-अलग implementations पर उत्तर देते समय उल्लेखनीय variability दिखाते हैं.
  • खास तौर पर, GSM-Symbolic benchmark में केवल प्रश्न के संख्यात्मक मान बदलने पर भी सभी models का प्रदर्शन गिर जाता है.
  • इसके अलावा, इन models की गणितीय तर्क क्षमता की नाजुकता की जांच की गई, और दिखाया गया कि प्रश्न में clauses की संख्या बढ़ने पर प्रदर्शन काफी घट जाता है.
  • इससे यह परिकल्पना सामने आती है कि वर्तमान LLM वास्तविक logical reasoning नहीं कर सकते, बल्कि training data में मौजूद reasoning steps की नकल करते हैं.
  • यदि प्रश्न में एक ऐसा clause जोड़ दिया जाए जो प्रासंगिक दिखता हो, भले ही वह अंतिम उत्तर के लिए आवश्यक reasoning chain में योगदान न देता हो, तब भी सभी आधुनिक models में प्रदर्शन अधिकतम 65% तक गिर जाता है.

GN⁺ की संक्षिप्त जानकारी

  • यह अध्ययन बड़े language models की गणितीय तर्क क्षमता और उसकी सीमाओं को अधिक सूक्ष्मता से समझने में मदद करता है.
  • GSM-Symbolic benchmark ऐसा tool प्रदान करता है, जिसकी मदद से विविध प्रश्नों के माध्यम से मॉडल की तर्क क्षमता का अधिक सटीक मूल्यांकन किया जा सकता है.
  • यह अध्ययन दिखाता है कि LLM वास्तविक logical reasoning की तुलना में training data के reasoning steps की नकल करने की अधिक प्रवृत्ति रखते हैं.
  • गणितीय तर्क क्षमता का मूल्यांकन करने वाले अन्य benchmarks के रूप में MATH, MATHQA आदि की सिफारिश की जाती है.

1 टिप्पणियां

 
GN⁺ 2024-10-13
Hacker News राय
  • LLM का प्रदर्शन गिरना कॉलेज के नए छात्रों की समस्या-समाधान क्षमता जैसा है। सरल समस्याएँ ये अच्छी तरह हल कर लेते हैं, लेकिन जिन समस्याओं में कई चरणों को जोड़ना पड़ता है उनमें सटीकता घट जाती है। इसका मतलब है कि LLM हाई स्कूल पास छात्र के स्तर तक की तार्किक सोच कर सकते हैं
    • उदाहरण के लिए, अनावश्यक जानकारी वाली समस्याओं में LLM का प्रदर्शन काफी गिर जाता है। यह वैसा ही है जैसा इंसानों के साथ भी हो सकता है जब वे अनावश्यक जानकारी शामिल होने वाली समस्या पढ़ते हैं
  • गणितीय reasoning की कमजोरियों पर हुए शोध से पता चलता है कि सवाल में clauses जितने बढ़ते हैं, प्रदर्शन उतना घटता है। यह इसलिए हो सकता है क्योंकि LLM वास्तविक तार्किक reasoning नहीं कर पाते
    • tokenization प्रक्रिया में साधारण arithmetic समस्याओं की prediction भी अर्थहीन हो जाती है। यह tools के उपयोग की जरूरत दिखाता है, लेकिन वास्तविक तार्किक reasoning के लिए नकारात्मक संकेत है
  • "Alice in Wonderland" समस्या जैसे ही नतीजे दिखाई देते हैं। यह pattern matching और reasoning के बीच की किसी मध्यवर्ती अवस्था में मौजूद model की समस्या हो सकती है
    • इससे संकेत मिलता है कि गणित और reasoning से जुड़े LLM benchmarks के नतीजों पर भरोसा नहीं किया जा सकता। समस्या के अक्षर, अंक और वाक्य संरचना का परिणामों पर बड़ा असर पड़ता है
  • GSM-Symbolic benchmark में केवल संख्यात्मक मान बदलने पर भी सभी models का प्रदर्शन गिर जाता है। यह overfitting का प्रमाण है और दिखाता है कि गणितीय reasoning सीखने में LLM की बुनियादी सीमाएँ हैं
  • LLM का "सोचने" का तरीका अधिकांश स्कूली पाठ्यक्रम पार कर लेने लायक है। लेकिन अगर कोई शिक्षक ऐसे प्रश्न दे जो pattern matching पर निर्भर न हों, तो इन्हें कठिनाई हो सकती है
  • प्रसिद्ध logical puzzles में LLM किसी खास तत्व को बदल देने पर समस्या हल नहीं कर पाते। यह दिखाता है कि LLM formal reasoning नहीं कर सकते
  • LLM formal reasoning नहीं कर सकते, लेकिन training data से "reasoning steps" लागू करके कई तार्किक समस्याएँ हल कर सकते हैं। यह एक दिलचस्प द्वैत है
  • इंसानों और जानवरों की गणितीय reasoning की सीमाएँ दिखाने वाला शोध दिलचस्प होगा। संभव है कि कुछ विचार ऐसे हों जिन्हें इंसान समझ ही न सकें, और इससे यह सवाल उठता है कि क्या हम ऐसी मशीनें बना सकते हैं जो इंसानों से अलग तरीके से reasoning कर सकें