Putnam प्रश्नों में हल्का बदलाव करने पर O1-preview की सटीकता 30% घटी
(openreview.net)-
Putnam-AXIOM बेंचमार्क का परिचय
- Putnam-AXIOM एक चुनौतीपूर्ण benchmark है जो बड़े भाषा मॉडल (LLM) की गणितीय reasoning क्षमता का मूल्यांकन करने के लिए बनाया गया है।
- इसमें William Lowell Putnam Mathematical Competition के 236 गणितीय प्रश्न और step-by-step solutions शामिल हैं।
- डेटा दूषण (contamination) से बचने के लिए, 52 प्रश्नों पर functional variation लागू करके Putnam-AXIOM Variation benchmark बनाया गया।
- प्रश्नों के घटकों (जैसे variables, constants) को programmatically बदलकर ऑनलाइन मौजूद न होने वाले नए प्रश्नों को अनंत बार जेनरेट किया जा सकता है।
-
बेंचमार्क के परिणामों की महत्वपूर्ण बातें
- अधिकांश मॉडल बदल़े हुए प्रश्नों पर मूल प्रश्नों की तुलना में काफी कम accuracy दिखाते हैं।
- OpenAI का o1-preview मॉडल Putnam-AXIOM Original में 41.95% accuracy प्राप्त करता है, लेकिन modified dataset पर लगभग 30% सटीकता गिरावट दर्ज हुई।
-
समीक्षक प्रतिक्रिया
- Reviewer 9XA: बेंचमार्क को प्रश्न फॉर्मैटिंग, उत्तर समानता जाँच और अन्य चरणों में noise को न्यूनतम करने के लिए डिज़ाइन किया गया है, लेकिन contamination से सुरक्षा पर्याप्त न होने की संभावना है। केवल 53 प्रश्नों पर functional variation लागू होने से eval की शक्ति घट सकती है।
- Reviewer krr4: dataset 236 उदाहरणों वाला है, इसलिए इसे एक मजबूत benchmark के रूप में पर्याप्त convincing नहीं माना जा सकता। अधिकतर मॉडलों का accuracy बहुत कम दिखने के कारण प्रश्न कठिनाई को अधिक hierarchical होना चाहिए।
- Reviewer Nbvs: गणितीय समस्या-सुलझाने की क्षमता परखने के लिए कठिन प्रश्न सेट देने में यह एक अच्छा योगदान है। वर्तमान box-based evaluation framework में समस्या लीक को कम करने के लिए question perturbation एक अच्छी रणनीति बन सकता है।
- Reviewer MsMi: यह एक नया कठिन reasoning benchmark है, और मजबूत मॉडल भी इसमें अच्छा प्रदर्शन नहीं कर पाते।
\boxed{}command की मांग benchmark की expressivity को सीमित करती है।
-
अतिरिक्त प्रश्न और सुझाव
- कई प्रश्न गलत grade हुए क्योंकि
\boxed{}command सही तरीके से नहीं use की गई। - डेटा सेट को बार-बार edit करके ऐसा algorithmic तरीका क्या हो जिससे कोई भी मॉडल उसे याद (memorize) न कर सके।
- कई प्रश्न गलत grade हुए क्योंकि
1 टिप्पणियां
Hacker News टिप्पणियाँ
एक टिप्पणी में याद किया गया कि ChatGPT पहले "10 पाउंड पंख और 10 पाउंड ईंट में से कौन ज्यादा भारी है?" जैसा सवाल बिल्कुल सही हल कर लेता था। लेकिन समस्या को थोड़ा बदलने पर उसकी performance गिर जाती है।
एक सुझाव यह था कि मॉडल को 1905 से पहले के सभी डिजिटाइज़्ड डेटा पर ट्रेन करके mass-energy equivalence सूत्र के बारे में पूछने का प्रयोग किया जाए।
एक राय यह थी कि LLM का वास्तविक वर्किंग परफॉर्मेंस एशियाई स्टाइल के exams के लिए छात्रों की रटंत तैयारी जैसा है।
किसी ने कहा कि इनपुट में थोड़ा सा बदलाव करने पर मॉडल वापस उसी अपेक्षित सवाल पर जाकर गलत जवाब दे सकता है।
एक राय यह भी थी कि LLM अभी भी बहुत कठिन गणित और competitive programming problems हल करने में मजबूत हैं।
यह सवाल उठाया गया कि क्या यह कोई सार्वजनिक राज नहीं कि मॉडल अभी भी random benchmarks पर hardcode हैं।
यह भी कहा गया कि समस्या का reframe इंसानों के लिए भी confusing हो सकता है।
एक मत था कि ये pattern matching में बहुत अच्छे हैं, लेकिन जैसे ही pattern बदलता है, काम नहीं करते।
एक टिप्पणी ने यह इंगित किया कि OpenAI ने किसी खास dataset पर performance claim नहीं की।
यह भी कहा गया कि o1-preview से o1 में performance सुधार दिखा और rephrased प्रश्न पर सही जवाब मिला।