1 पॉइंट द्वारा GN⁺ 2025-01-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Putnam-AXIOM बेंचमार्क का परिचय

    • Putnam-AXIOM एक चुनौतीपूर्ण benchmark है जो बड़े भाषा मॉडल (LLM) की गणितीय reasoning क्षमता का मूल्यांकन करने के लिए बनाया गया है।
    • इसमें William Lowell Putnam Mathematical Competition के 236 गणितीय प्रश्न और step-by-step solutions शामिल हैं।
    • डेटा दूषण (contamination) से बचने के लिए, 52 प्रश्नों पर functional variation लागू करके Putnam-AXIOM Variation benchmark बनाया गया।
    • प्रश्नों के घटकों (जैसे variables, constants) को programmatically बदलकर ऑनलाइन मौजूद न होने वाले नए प्रश्नों को अनंत बार जेनरेट किया जा सकता है।
  • बेंचमार्क के परिणामों की महत्वपूर्ण बातें

    • अधिकांश मॉडल बदल़े हुए प्रश्नों पर मूल प्रश्नों की तुलना में काफी कम accuracy दिखाते हैं।
    • OpenAI का o1-preview मॉडल Putnam-AXIOM Original में 41.95% accuracy प्राप्त करता है, लेकिन modified dataset पर लगभग 30% सटीकता गिरावट दर्ज हुई।
  • समीक्षक प्रतिक्रिया

    • Reviewer 9XA: बेंचमार्क को प्रश्न फॉर्मैटिंग, उत्तर समानता जाँच और अन्य चरणों में noise को न्यूनतम करने के लिए डिज़ाइन किया गया है, लेकिन contamination से सुरक्षा पर्याप्त न होने की संभावना है। केवल 53 प्रश्नों पर functional variation लागू होने से eval की शक्ति घट सकती है।
    • Reviewer krr4: dataset 236 उदाहरणों वाला है, इसलिए इसे एक मजबूत benchmark के रूप में पर्याप्त convincing नहीं माना जा सकता। अधिकतर मॉडलों का accuracy बहुत कम दिखने के कारण प्रश्न कठिनाई को अधिक hierarchical होना चाहिए।
    • Reviewer Nbvs: गणितीय समस्या-सुलझाने की क्षमता परखने के लिए कठिन प्रश्न सेट देने में यह एक अच्छा योगदान है। वर्तमान box-based evaluation framework में समस्या लीक को कम करने के लिए question perturbation एक अच्छी रणनीति बन सकता है।
    • Reviewer MsMi: यह एक नया कठिन reasoning benchmark है, और मजबूत मॉडल भी इसमें अच्छा प्रदर्शन नहीं कर पाते। \boxed{} command की मांग benchmark की expressivity को सीमित करती है।
  • अतिरिक्त प्रश्न और सुझाव

    • कई प्रश्न गलत grade हुए क्योंकि \boxed{} command सही तरीके से नहीं use की गई।
    • डेटा सेट को बार-बार edit करके ऐसा algorithmic तरीका क्या हो जिससे कोई भी मॉडल उसे याद (memorize) न कर सके।

1 टिप्पणियां

 
GN⁺ 2025-01-02
Hacker News टिप्पणियाँ
  • एक टिप्पणी में याद किया गया कि ChatGPT पहले "10 पाउंड पंख और 10 पाउंड ईंट में से कौन ज्यादा भारी है?" जैसा सवाल बिल्कुल सही हल कर लेता था। लेकिन समस्या को थोड़ा बदलने पर उसकी performance गिर जाती है।

    • उदाहरण के लिए, "9.99 पाउंड स्टील और 10.01 पाउंड कॉटन में से कौन ज्यादा भारी है?" सवाल पर गलत जवाब दिया गया।
    • मॉडल की असली क्षमता समझनी हो तो उसे ट्रेनिंग डेटा से बाहर जाकर टेस्ट करना होगा।
  • एक सुझाव यह था कि मॉडल को 1905 से पहले के सभी डिजिटाइज़्ड डेटा पर ट्रेन करके mass-energy equivalence सूत्र के बारे में पूछने का प्रयोग किया जाए।

    • शायद इससे pattern recognition को बुद्धिमत्ता के एक रूप के रूप में देखने वाली बहस का हल निकल सके।
  • एक राय यह थी कि LLM का वास्तविक वर्किंग परफॉर्मेंस एशियाई स्टाइल के exams के लिए छात्रों की रटंत तैयारी जैसा है।

    • यानी वे अर्थ समझे बिना भी चीज़ों को लगभग परफेक्ट तरीके से दोहरा सकते हैं।
  • किसी ने कहा कि इनपुट में थोड़ा सा बदलाव करने पर मॉडल वापस उसी अपेक्षित सवाल पर जाकर गलत जवाब दे सकता है।

    • अगर सवाल को अलग-अलग एंगल से चेक करने और conclusion तक पहुँचने को कहा जाए तो बेहतर जवाब मिल सकते हैं।
  • एक राय यह भी थी कि LLM अभी भी बहुत कठिन गणित और competitive programming problems हल करने में मजबूत हैं।

    • हालांकि वे पहले देखे हुए प्रश्नों पर बेहतर काम करती हैं।
  • यह सवाल उठाया गया कि क्या यह कोई सार्वजनिक राज नहीं कि मॉडल अभी भी random benchmarks पर hardcode हैं।

  • यह भी कहा गया कि समस्या का reframe इंसानों के लिए भी confusing हो सकता है।

    • नए, हालिया प्रश्नों के reframe होने के असर को देखना चाह रहे हैं।
  • एक मत था कि ये pattern matching में बहुत अच्छे हैं, लेकिन जैसे ही pattern बदलता है, काम नहीं करते।

    • इशारा किया गया कि इन्हें traditional तरीके से train किया गया है, और टेस्ट-टाइम computation या Monte Carlo Tree Search मौजूद नहीं है।
  • एक टिप्पणी ने यह इंगित किया कि OpenAI ने किसी खास dataset पर performance claim नहीं की।

    • यानी dataset में मौजूद प्रश्नों पर performance में बड़ी वृद्धि देखने का निष्कर्ष निकाला जा सकता है।
  • यह भी कहा गया कि o1-preview से o1 में performance सुधार दिखा और rephrased प्रश्न पर सही जवाब मिला।

    • SOTA तेजी से बदल रहा है।