• OpenAI के नए language model o3 ने कठिन गणित benchmark FrontierMath में 25% स्कोर किया, जिससे यह आकलन फिर बदल गया कि क्या गणित AI undergraduate स्तर से आगे जा सकता है
  • FrontierMath, Epoch AI द्वारा बनाया गया एक private dataset है, जिसमें “theorem prove करें” की बजाय automatically verifiable numerical answers मांगने वाली सैकड़ों कठिन गणितीय समस्याएँ शामिल हैं
  • सार्वजनिक किए गए 5 samples research mathematicians के लिए भी आसान नहीं थे, और Tao ने इन्हें “बेहद चुनौतीपूर्ण” बताया, लेकिन Borcherds के अनुसार numerical answer निकालना original proof के समान नहीं है
  • Epoch AI के Elliot Glazer ने बताया कि समस्याओं में से 25% “IMO/undergraduate style problems” हैं, इसलिए o3 का 25% स्कोर वास्तव में किस कठिनाई स्तर तक पहुँचा है, यह private dataset की प्रकृति के कारण सत्यापित करना मुश्किल है
  • गणितज्ञों के लिए अधिक महत्वपूर्ण लक्ष्य “यह संख्या खोजो” से ज्यादा theorem को सही ढंग से prove करना और उसे मनुष्यों के समझने लायक समझाना है; language models और Lean-based approaches की सीमाएँ अलग-अलग हैं

o3 और FrontierMath ने baseline को हिला दिया

  • o3 OpenAI का नया language model है, और इसने FrontierMath में 25% स्कोर किया
  • ChatGPT के बाद public language models तेज़ी से बेहतर हो रहे हैं, और गणितीय समस्याएँ हल करने की उनकी क्षमता भी इसी trend में आंकी जा रही है
  • FrontierMath, Epoch AI द्वारा बनाया गया private गणितीय problem dataset है; paper abstract में कहा गया है कि इसमें कठिन गणितीय समस्याओं की “सैकड़ों” संख्या है
  • dataset public कर देने पर language model समस्याएँ और answers सीख सकते हैं, इसलिए problem count जैसी basic जानकारी भी सावधानी से handle की जा रही है
    • समस्याएँ और answers public हो जाएँ तो model पहले से देखे गए answers को reproduce कर सकता है
    • इसी वजह से private benchmark की वास्तविक कठिनाई और representativeness को बाहर से verify करना कठिन है

FrontierMath समस्याओं का format और कठिनाई

  • FrontierMath problems “इस theorem को prove करें” नहीं, बल्कि “यह संख्या खोजें” format के ज्यादा करीब हैं
  • समस्या का answer स्पष्ट और computable होना चाहिए, और automatic verification संभव होना चाहिए
  • public किए गए 5 sample problems के सभी answers positive integers हैं
    • example answers में 9811 और 367707 हैं
    • बाकी तीन answers और बड़े हैं, ताकि random guessing से सही करना कठिन हो
  • public samples research mathematicians के लिए भी non-trivial हैं
    • लेखक ने सभी 5 problems के statements समझे
    • तीसरी problem को अपेक्षाकृत जल्दी solve किया जा सकता था, और पाँचवीं problem के लिए Weil conjectures for curves का उपयोग करने वाली standard technique से solution का तरीका पता था, लेकिन 13-digit answer calculate नहीं किया
    • पहली और दूसरी problems को solve न कर पाने लायक माना, और चौथी problem पर प्रयास करने से progress हो सकती थी ऐसा लगा, लेकिन कोशिश किए बिना solution पढ़ लिया
  • सामान्य रूप से कोई तेज़ undergraduate mathematics student भी इनमें से एक भी problem solve करने में कठिनाई महसूस कर सकता है
    • पहली problem के लिए analytic number theory में PhD-level या उससे ऊपर की जरूरत हो सकती है, ऐसा माना गया

Numerical-answer benchmarks के फायदे और सीमाएँ

  • FrontierMath द्वारा numerical-answer problems इस्तेमाल करने की मुख्य वजह grading cost है
  • “theorem prove करें” प्रकार के सैकड़ों answers evaluate करने के लिए human experts की जरूरत होती है
    • 2024 के मानदंडों से इस स्तर की grading मशीन को सौंपना कठिन माना गया
  • दूसरी ओर, numerical answers की list को computer बहुत तेज़ी से compare कर सकता है
  • Borcherds के अनुसार research mathematicians अपना अधिकतर समय numbers नहीं, बल्कि proofs और ideas खोजने में लगाते हैं
  • फिर भी FrontierMath, mathematical AI के क्षेत्र में valuable है
    • कठिन datasets की भारी कमी है
    • ऐसे datasets बनाना बहुत कठिन या महँगा है
    • Frieder आदि का हालिया लेख mathematical AI datasets की सीमाओं को और गहराई से देखता है

o3 का 25% क्यों चौंकाने वाला था

  • मौजूदा धारणा में mathematical AI undergraduate या pre-undergraduate level के करीब था
  • AI, प्रतिभाशाली high-school students द्वारा हल की जाने वाली Olympiad-style problems में बहुत मजबूत हो रहा है
  • एक साल के भीतर AI undergraduate mathematics exam पास कर लेगा, यह स्पष्ट माना गया
    • undergraduate exams में अक्सर ऐसी standard problems शामिल होती हैं जिन्हें course को मूल रूप से समझने वाला student पास कर सके
    • machines ऐसी problems आसानी से सही कर सकती हैं
  • लेकिन standard ideas को reuse करने से आगे बढ़कर advanced undergraduate/early PhD-level के innovative ideas तक पहुँचना एक बड़ी छलांग माना गया
  • हालिया Putnam exam पर ChatGPT के answers उम्मीद से कम रहे
    • मशीन ने उचित answer शायद केवल B4 में दिया
    • बाकी अधिकांश answers को 10 में से 1–2 points के स्तर का माना गया
  • इन्हीं वजहों से FrontierMath को कई वर्षों तक लगभग uncrackable माना गया था

Private dataset से बची अनिश्चितता

  • Epoch AI के Elliot Glazer ने Reddit पर बताया कि FrontierMath problems में से 25% IMO/undergraduate style problems हैं
  • यह बात public किए गए 5 problems से अच्छी तरह मेल खाती नहीं दिखती
    • public samples में सबसे आसान problem में भी Weil conjectures for curves का उपयोग करने वाला तरीका था
    • या finite field पर degree 10^12 वाले cubic polynomial को factor करने वाली कष्टदायक brute-force approach की जरूरत हो सकती थी
  • यह जानकारी वास्तविक private dataset की कठिनाई और public 5 problems representative sample हैं या नहीं, इस पर सवाल छोड़ती है
  • dataset private है, इसलिए इस सवाल को आसानी से verify करना कठिन है
  • अगर 25% problems undergraduate-level हैं, तो o3 का 25% score कम चौंकाने वाला हो सकता है
  • अपेक्षित बड़ा breakthrough वह समय होगा जब AI “qual level” के रूप में बताए गए अगले 50% problems पर meaningful performance दिखाएगा

“Theorem prove करें” अभी भी अलग समस्या है

  • research mathematics में महत्वपूर्ण सवाल आमतौर पर “इस theorem को prove करें” होता है
  • भले ही numerical-finding problems में superhuman performance देने वाली machine बन जाए, कई research mathematics areas में उसकी applicability सीमित हो सकती है
  • 2024 की सबसे बड़ी success story के रूप में DeepMind का AlphaProof माना गया
    • AlphaProof ने 2024 IMO की 6 problems में से 4 solve कीं
    • problems “theorem prove करें” या “number खोजें और prove करें कि वह सही है” types की थीं
    • उनमें से 3 problems पूरी तरह formalized Lean proofs के रूप में output हुईं
  • Lean एक interactive theorem prover है, और mathlib एक mathematical library है जिसमें IMO problems solve करने के लिए जरूरी कई techniques और उससे भी अधिक शामिल हैं
  • DeepMind system के answers humans ने check किए और “full marks” answers के रूप में verify हुए
  • हालांकि IMO problems बहुत कठिन हों, solutions केवल school-level techniques का उपयोग करते हैं, इसलिए बात फिर high-school-level problems पर लौट आती है
  • 2025 में machines IMO gold-medal-level performance दिखाएँगी, ऐसा अनुमान है

मशीन के answer को grade कौन करेगा

  • जुलाई 2025 IMO में human students के साथ machines के भी भाग लेने की स्थिति की कल्पना की जा सकती है
  • machine systems दो प्रकार के हो सकते हैं
    • Lean, Rocq, Isabelle जैसी computer proof checker languages में answers submit करने वाले systems
    • human language में answers submit करने वाले language models
  • proof checker language में submitted answers के लिए केवल यह check करना होता है कि problem statement का translation सही है या नहीं
    • उसके बाद proof compile हो जाए तो practically पता चल जाता है कि यह “full marks” answer है
  • natural-language answers submit करने वाले language models अलग हैं
    • answer plausibly सही दिखे, फिर भी human grader को सावधानी से पढ़कर evaluate करना होगा
    • full-marks answer होने की कोई guarantee नहीं है
  • language models logical reasoning में expert humans की तुलना में कम-से-कम एक order of magnitude कम accurate माने गए
  • चिंता है कि Riemann hypothesis पर language model का “proof” 10 pages की सही mathematics के बीच ambiguous या inaccurate claims मिला सकता है
  • theorem provers, इसके उलट, कम-से-कम एक order of magnitude अधिक accurate माने गए
    • जब Lean ने human mathematics literature के arguments accept नहीं किए, लेखक द्वारा देखे गए मामलों में human side गलत था

बचा हुआ लक्ष्य: सही proof और human understanding

  • mathematicians केवल “theorem prove करें” नहीं चाहते, बल्कि accurate proof और humans के समझने लायक explanation चाहते हैं
  • language model approach में “accuracy” बड़ी चिंता बनी हुई है
  • theorem prover approach में “humans के समझने लायक तरीका” चिंता का विषय है
  • अभी बहुत काम बाकी है
  • progress की गति तेज़ है, लेकिन undergraduate barrier कब पार होगा, यह कोई नहीं जानता

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.