Putnam प्रश्नों में हल्का बदलाव करने पर O1-preview की सटीकता 30% घटी

(openreview.net)

1 पॉइंट द्वारा GN⁺ 2025-01-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Putnam-AXIOM बेंचमार्क का परिचय
- Putnam-AXIOM एक चुनौतीपूर्ण benchmark है जो बड़े भाषा मॉडल (LLM) की गणितीय reasoning क्षमता का मूल्यांकन करने के लिए बनाया गया है।
- इसमें William Lowell Putnam Mathematical Competition के 236 गणितीय प्रश्न और step-by-step solutions शामिल हैं।
- डेटा दूषण (contamination) से बचने के लिए, 52 प्रश्नों पर functional variation लागू करके Putnam-AXIOM Variation benchmark बनाया गया।
- प्रश्नों के घटकों (जैसे variables, constants) को programmatically बदलकर ऑनलाइन मौजूद न होने वाले नए प्रश्नों को अनंत बार जेनरेट किया जा सकता है।
बेंचमार्क के परिणामों की महत्वपूर्ण बातें
- अधिकांश मॉडल बदल़े हुए प्रश्नों पर मूल प्रश्नों की तुलना में काफी कम accuracy दिखाते हैं।
- OpenAI का o1-preview मॉडल Putnam-AXIOM Original में 41.95% accuracy प्राप्त करता है, लेकिन modified dataset पर लगभग 30% सटीकता गिरावट दर्ज हुई।
समीक्षक प्रतिक्रिया
- Reviewer 9XA: बेंचमार्क को प्रश्न फॉर्मैटिंग, उत्तर समानता जाँच और अन्य चरणों में noise को न्यूनतम करने के लिए डिज़ाइन किया गया है, लेकिन contamination से सुरक्षा पर्याप्त न होने की संभावना है। केवल 53 प्रश्नों पर functional variation लागू होने से eval की शक्ति घट सकती है।
- Reviewer krr4: dataset 236 उदाहरणों वाला है, इसलिए इसे एक मजबूत benchmark के रूप में पर्याप्त convincing नहीं माना जा सकता। अधिकतर मॉडलों का accuracy बहुत कम दिखने के कारण प्रश्न कठिनाई को अधिक hierarchical होना चाहिए।
- Reviewer Nbvs: गणितीय समस्या-सुलझाने की क्षमता परखने के लिए कठिन प्रश्न सेट देने में यह एक अच्छा योगदान है। वर्तमान box-based evaluation framework में समस्या लीक को कम करने के लिए question perturbation एक अच्छी रणनीति बन सकता है।
- Reviewer MsMi: यह एक नया कठिन reasoning benchmark है, और मजबूत मॉडल भी इसमें अच्छा प्रदर्शन नहीं कर पाते। \boxed{} command की मांग benchmark की expressivity को सीमित करती है।
अतिरिक्त प्रश्न और सुझाव
- कई प्रश्न गलत grade हुए क्योंकि \boxed{} command सही तरीके से नहीं use की गई।
- डेटा सेट को बार-बार edit करके ऐसा algorithmic तरीका क्या हो जिससे कोई भी मॉडल उसे याद (memorize) न कर सके।

1 टिप्पणियां

GN⁺ 2025-01-02

Hacker News टिप्पणियां

मुझे याद है जब यह सवाल पहली बार आया था, तब ChatGPT ने “10 पाउंड पंख और 10 पाउंड ईंटों में क्या ज़्यादा भारी है?” का सही जवाब दिया था और लोग काफ़ी उत्साहित हो गए थे
लेकिन ज़ाहिर है उसने सही जवाब दिया, और बहुत संभव है कि वह सवाल training data में रहा हो
अगर सिर्फ़ संज्ञाएं बदल दें या संख्याएं बदलकर सच में एक तरफ़ को ज़्यादा भारी बना दें, तो प्रदर्शन अस्थिर हो जाता है
अभी chatgpt.com पर मैंने पूछा, “9.99 पाउंड स्टील की सिल्लियों की एक बोरी और 10.01 पाउंड मुलायम कपास की एक बोरी में क्या ज़्यादा भारी है?” तो पहले जवाब में उसने कहा कि स्टील की सिल्लियां ज़्यादा भारी हैं, लेकिन अंत में कहा कि कपास थोड़ी ज़्यादा भारी है — यानी सही होकर भी गलत जवाब दिया
ऐसी क्षमता को ठीक से देखने के लिए training data से बाहर जाना ज़रूरी है, और जो सवाल 5 सेकंड में दिमाग़ में आते हैं वे अक्सर पहले से बहुत देखे गए होते हैं या दूसरे लोग भी आसानी से सोच सकते हैं
थोड़ा सा भी परिचित रास्ते से हटें तो गणित का प्रदर्शन कहीं कम प्रभावशाली दिखता है
- ChatGPT Plus में नए session में, बिना किसी trick के सिर्फ़ पहला जवाब देखें तो GPT-4, GPT-4o और GPT o1 सभी ने सही जवाब दिया कि 10.01 पाउंड कपास की बोरी 9.99 पाउंड स्टील सिल्लियों की बोरी से भारी है
  उन्होंने समझाया कि material या density से फर्क नहीं पड़ता, क्योंकि समान इकाई में वजन की तुलना है और 10.01, 9.99 से बड़ा है
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  अब तक इस thread में जिन tasks के बारे में लोगों ने कहा कि LLM नहीं कर सकते, o1-mini वे सभी अच्छे से कर रहा है
- अगर subscription के बिना कोशिश करें, तो अभी ज़्यादातर संभावना है कि आपको 4o-mini से generated जवाब मिलें
  यह linked paper में चर्चा किए गए reasoning model परिवार — o1, o1-mini, पुराने o1-preview — में से नहीं है
  यहां तक कि यह मुख्य non-reasoning model 4o भी न हो सकता है, और free account में दिखने वाला “4o auto” model name नहीं, बल्कि cost-effective तरीके से model अपने-आप चुनने की व्यवस्था जैसा लगता है
  ChatGPT subscription न हो तो पहले की तरह usage limit के साथ किसी खास model को चुनना भी अब संभव नहीं है
- Claude 3.5 Sonnet से classic doctor riddle पूछा तो reasoning process जोड़ने से जवाब बेहतर लगा, लेकिन इसमें न समझ पाने के संकेत भी दिखे
  सवाल था: “एक महिला और उसका बेटा सड़क दुर्घटना में फंसते हैं, महिला की मौत हो जाती है, और बच्चे को देखकर doctor कहता है, ‘मैं इस बच्चे की surgery नहीं कर सकता, यह मेरा बेटा है।’ यह कैसे संभव है?” इस पर उसने जवाब दिया, “doctor बच्चे का पिता है,” और समझाया कि यह gender bias दिखाने वाली classic riddle है
  लेकिन असली मंशा यह पूछना था कि doctor मां भी हो सकती है; उसने same-sex parents की संभावना भी जोड़ी, पर मुख्य बात से चूक गया
- मैंने पहली बार जो variant देखा था वह था “1 पाउंड पंख और 1 पाउंड सोना में क्या ज़्यादा भारी है?”, और यह कहीं ज़्यादा कठिन सवाल है
  जो जवाब मैंने सुना वह था कि सोना troy weight में तौला जाता है और पंख avoirdupois weight में, इसलिए troy pound 12 ounces का होता है और avoirdupois pound 16 ounces का, तो पंख ज़्यादा भारी हैं
  ये बातें सभी सही हैं, लेकिन जवाब अधूरा है
  जैसे avoirdupois pound, troy pound से भारी होता है, वैसे ही avoirdupois ounce, troy ounce से हल्का होता है
  बस यह अंतर 16 ounces बनाम 12 ounces के फर्क को पलटने जितना बड़ा नहीं है
  अगर ounce के अंतर को न माना जाए, तो official answer भी naïve answer जितना ही गलत हो जाता है
असल में कठिन होगा, लेकिन मैं जो experiment करना चाहूंगा वह है 1905 से पहले की सभी digitized सामग्री — यानी papers, letters, books, broadcasts, lectures वगैरह — पर training कराकर mass-energy equivalence पूछना
अगर पक्का जवाब मिल जाए, तो pattern recognition बुद्धिमत्ता का एक रूप है या नहीं, इस पर बहस खत्म हो सकती है
- जैसे ही आप सोच लेते हैं कि mass और energy equivalent हो सकते हैं, dimensional analysis से formula के विकल्प बहुत कम रह जाते हैं
  E=mc^2 में दिलचस्प बात formula खुद नहीं, बल्कि यह दावा है कि mass, energy का एक रूप है, और universe के बारे में आसपास की observations हैं
  1905 की असली insight सही सवाल पूछने और यह कल्पना करने में ज़्यादा थी कि equivalence principle सच में लागू हो सकता है
  गणित का बड़ा हिस्सा 1905 से पहले ही मौजूद था और AI training data में जा सकता है: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- Adam Brown वाले podcast में मैंने मिलता-जुलता idea सुना था
  अगर Einstein से पहले की किताबों और papers से ही AI special relativity derive कर सके, तो यह artificial reasoning की प्रगति में अगले game-changer स्तर के milestone तक पहुंचने जैसा होगा
- patent disputes का फैसला भी इसी तरह करना चाहिए
  अगर LLM पता लगा सकता है, तो उसे novelty न मानें
- मुझे यह भी संदेह है कि 1905 से पहले का data इतना पर्याप्त है कि model भरोसेमंद तरीके से “hello world” कह सके
  अच्छे LLM के लिए ज़रूरी terabyte-scale training data शायद मौजूद नहीं होगा, और बात gigabytes तक ही सीमित रहेगी
वास्तविक tasks में LLM performance Asian-style exams से पहले रट्टा मारने वाले छात्र जैसी बहुत लगती है
पूरी तरह उगल देने की क्षमता है, लेकिन अर्थ की अवधारणा नहीं है
- o3 ने पहली बार देखे गए FrontierMath problems में 25% सही किए
  जब जवाब सीधे dataset में हो तो यह बेहतर करता है, यह सही है, लेकिन held-out problems की novelty के मामले में यह पहले ही average human से आगे निकल चुका है
- JEE Advanced को देख लें
- आखिरकार यह इस बात का एक और सबूत है कि हमने इंसानी मूर्खता को पूरी तरह reproduce करने में सफलता पा ली है
input को बहुत थोड़ा सा बदलने पर model जैसे अपेक्षित सवाल पर वापस लौट जाता है और गलत हो जाता है
थोड़ा ज़्यादा बदलें, और “पहले known facts में तोड़ो, relevant background knowledge लाओ, फिर कई angles से evaluate करके conclusion निकालो। सबसे obvious first conclusion सीधे मत लिखो” जैसी general-purpose prompt technique डालें, तो जवाब काफ़ी बेहतर होगा
यह “LLM memorization के बिना ऐसे सवाल भी न हल कर पाने वाला बेवकूफ reasoner है” से ज़्यादा “expected pattern में फंसाकर धोखा देने पर LLM खराब immediate answer देता है” जैसा लगता है
LLM memorization करते हैं, यह सही है, लेकिन इसके दो पहलू हैं
अगर memorized problem से बहुत ज़्यादा मिलता-जुलता बना दें, तो recognition डगमगा सकती है, जैसे इंसान चेहरे जैसी दिखने वाली चीज़ पर instinctively react करता है और फिर दोबारा evaluate करता है
दिलचस्प है, लेकिन कुछ बातें स्पष्ट करनी चाहिए
पहला, o1 बदले हुए Putnam problems पर भी 40% से ऊपर जाता है, जो ज़्यादातर गणित majors के लिए भी हासिल करना मुश्किल प्रदर्शन है
दूसरा, o3 ने Epoch AI dataset के 25% problems हल किए
एक दिलचस्प लेख भी था जिसने सवाल उठाया कि वे problems वास्तव में कितने कठिन हैं, लेकिन फिर भी यह बेहद impressive है
निष्पक्ष निष्कर्ष शायद यह है कि reasoning models बहुत कठिन गणित और competitive programming problems अब भी अच्छी तरह हल करते हैं, लेकिन उन problems पर ज़्यादा मजबूत हैं जिन्हें वे पहले देख चुके हैं
- इस thread के comments paper की सामग्री से पूरी तरह कटे हुए हैं, और title भी गुस्सा भड़काने जैसा है तथा paper की सामग्री को reflect नहीं करता
  ऐसे problems के एक बड़े हिस्से को हल कर पाना अपने-आप में काफी हैरान करने वाली उपलब्धि है, भले ही वे कभी-कभी मामूली बदलावों से धोखा खा जाएँ
  “धोखाधड़ी” या “झूठ” जैसे शब्द उछालना wishful thinking या reality से बचने जैसा है
मुझे आश्चर्य है कि क्या यह open secret है कि models को अभी random benchmarks के लिए hardcode किया जा रहा है
chatbot से Putnam problem पूछना अपने-आप में अजीब लगता है
- क्योंकि लोग इन models से लगातार गणित problems पूछते हैं, और अगर वे सही जवाब देते हैं तो इसे इस बात के proof की तरह quote करते हैं कि वे सच में mathematical reasoning कर सकते हैं
  यह तय करना मुश्किल है कि model क्या जानता है, इसलिए यह अलग करना भी मुश्किल है कि वह कब खास तौर पर train की गई content को बस जस-का-तस उगल रहा है
- यह hardcoding नहीं है; मुझे लगता है कि वे problems किसी न किसी रूप में training data में होने की संभावना ज्यादा है
- वे ऐसे exams भी pass कर रहे हैं जिन्हें design के हिसाब से hardcode नहीं किया जा सकता
  अभी भी हर तरह की खामियाँ और consistency issues हैं, लेकिन सिर्फ इसलिए नाराज़ होना मूर्खता है कि किसी ने उसे 2+2 का जवाब train कराया है और वह “2+2=4” कहता है
- यह काम GSM-Symbolic paper को Putnam पर लागू करने जैसा है: https://arxiv.org/html/2410.05229v1
  आगे से LLM performance को perturbed benchmarks पर भी साथ में report करना चाहिए
ये बेहद प्रभावी pattern matchers हैं
pattern बदल दें तो काम नहीं करते
मुझे याद है कि किसी ने, शायद @tszzl(roon) ने X पर कहा था कि o1 या o3 भी अभी तक traditional तरीके से train किए गए हैं, और उनमें AlphaGo जैसी test-time compute या Monte Carlo tree search नहीं है
अगर यह सच है, तो वे अब भी training data के आधार पर अगला शब्द predict कर रहे हैं, और छोटी variations में भी training से निकले सबसे plausible path को follow करने की संभावना ज्यादा है
हालांकि अगर test-time compute अभी ठीक से explore नहीं हुई है, तो performance improvement की गुंजाइश लंबे समय तक बनी रहेगी
और अनुमान लगाना इसलिए भी मुश्किल है क्योंकि हमें नहीं पता कि हम जो पूछते हैं उसमें से कितना हिस्सा training data में मौजूद है
मिलते-जुलते tasks में भी कुछ पर यह अच्छा कर सकता है और कुछ पर fail हो सकता है
- हाल में मैंने OpenAI researchers के दो interviews देखे, जिनमें बताया गया कि o-series की breakthrough, GPT series के विपरीत, test-time compute पर focus करके उसे ज्यादा “सोचने” के लिए design करने में थी, और खास तौर पर pattern matching से बचने की कोशिश थी
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 और Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- मुझे लगता है कि वे scalable test-time compute का उपयोग कर रहे हैं
  o3 announcement में high compute और low compute के accuracy figures अलग-अलग disclose किए गए थे, और उसी model में test-time compute के बिना ऐसा करना मुश्किल लगता है
  200-dollar subscription भी शायद answer देने के लिए मजबूर करने से पहले test-time compute को अधिक देर तक चलाने देती है
  लेकिन अगर test-time compute न होने वाली बात सच है, तो Hugging Face के 1B/3B model experiments को देखते हुए results improve करने की गुंजाइश बहुत बड़ी है
- OpenAI ने सार्वजनिक रूप से कहा है कि o1 और o3 test-time compute का उपयोग करते हैं, और log-scale graph भी जारी किया है जिसमें compute exponentially बढ़ने पर performance linearly बेहतर होती है
  https://openai.com/index/learning-to-reason-with-llms/
  पक्का यही है कि model या system chain of thought करता है, लेकिन exponential factor और reasoning performance improvement की जड़ संभवतः कई reasoning chains पर tree search करने वाला tree of thoughts है
  roon की identity OpenAI के अंदर अच्छी तरह ज्ञात होगी और वह employee है, इसलिए Twitter पर implementation details leak करने की उम्मीद करना मुश्किल है
यह workshop submission ठीक है, और problem restatement वाला हिस्सा न भी हो तो benchmark की कुछ value है
लेकिन थोड़े से problems को restate करने वाला हिस्सा कभी-कभी खराब wording (fig 3) या अनावश्यक convention-breaking (fig 4; 2D point के लिए आम तौर पर P और coordinates x,y इस्तेमाल होते हैं) की वजह से इंसानों के लिए भी वास्तव में अधिक confusing हो जाता है
अगर latest या training के बाद की तारीख वाले problems पर noise increase के साथ restatement effect दिखाया गया होता, तो इस confusion के कुछ हिस्से अलग करने में मदद मिलती
यह भी उत्सुकता है कि उसी benchmark पर o3 कितना बेहतर होगा
और इस submission का exact title “Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning” है
paper में modified questions के कई examples हैं
o1-preview से o1 तक काफी बड़ा jump था, इसलिए मैंने कुछ samples o1 और o1-pro में डाले, और current o1 family उन modified problems के सही answers देती है
latest best performance तेजी से बदलती है
- paper कहता है कि कई बार LLM सही answer दे भी दे, तो भी वह justification के बिना बड़े jumps लेता है, या illogical steps से गुजरने के बाद सही solution तक पहुँचता है
  जिज्ञासा है कि क्या आपने वह हिस्सा भी check किया
- LLM समर्थक सच में थका देते हैं
  न तो आपने कोई rigorous evaluation किया, और वह set October से public है, इसलिए उसे training data में आसानी से add किया जा सकता था
o3 ने FrontierMath में 25% सही किए, इस तथ्य को नज़रअंदाज़ करते हुए बहुत ज़्यादा नकारात्मक comments हैं
यह सच में अविश्वसनीय रूप से शानदार result है
बेशक, अगर problem का answer training data में सीधे मौजूद हो तो LLM बेहतर करता है
लेकिन इसका मतलब यह नहीं कि answer training data में न होने पर वह नहीं कर सकता
- EpochAI को model grading के लिए questions OpenAI को भेजने पड़ते हैं, और answer key नहीं भेजी जाती
  इस benchmark में रातों-रात 2% से 25% तक jump होना काफ़ी दिलचस्प घटना है
- FrontierMath में अच्छा किया, यह सही है, लेकिन इस thread का विषय वह नहीं है
  इसलिए वह बात ज़्यादा relevant नहीं है

Putnam प्रश्नों में हल्का बदलाव करने पर O1-preview की सटीकता 30% घटी

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियां