5 पॉइंट द्वारा GN⁺ 2025-07-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI द्वारा विकसित एक प्रयोगात्मक reasoning LLM ने 2025 International Mathematical Olympiad (IMO) में स्वर्ण-पदक स्तर का स्कोर हासिल किया
  • आधिकारिक IMO नियमों के अनुसार समस्या-समाधान और natural language proof लेखन किया गया, और 3 मानव evaluators की सर्वसम्मत grading में 42 में से 35 अंक (6 में से 5 प्रश्न हल) प्राप्त हुए
  • IMO के प्रश्न अत्यधिक कठिन creative thinking और multi-step proofs की मांग करते हैं, और इसने साबित किया कि LLM अब पारंपरिक RL तरीकों की सीमाओं से आगे बढ़कर मानव-स्तर के logical proofs बना सकते हैं
  • किसी विशेष task-केंद्रित approach के बजाय general-purpose reinforcement learning और test-time compute scaling के जरिए यह उपलब्धि हासिल की गई, जो इसे खास बनाती है
  • यह मॉडल जल्द आने वाले GPT-5 से अलग एक research version है, और शीर्ष-स्तरीय गणितीय प्रदर्शन को सार्वजनिक करने की योजना कुछ महीनों बाद है

OpenAI LLM के IMO 2025 प्रदर्शन का सार

  • OpenAI के Alexander Wei (@alexwei_) ने घोषणा की कि नवीनतम प्रयोगात्मक reasoning language model ने 2025 IMO में स्वर्ण-पदक मानक का प्रदर्शन दर्ज किया
    • IMO दुनिया भर के सबसे प्रतिभाशाली युवा गणित छात्रों की एक अत्यंत कठिन प्रतियोगिता है, जो जटिल logical reasoning और गहरी conceptual understanding मांगने वाले प्रश्नों के लिए प्रसिद्ध है
  • मूल्यांकन मानव प्रतिभागियों के समान तरीके से किया गया: 4.5 घंटे की 2 परीक्षाएं, आधिकारिक प्रश्नपत्र, बिना बाहरी tools, और natural language proofs के साथ
  • प्रत्येक प्रश्न को 3 पूर्व IMO medalists ने स्वतंत्र रूप से जांचा, और सर्वसम्मति के बाद अंतिम अंक तय किए गए

उपलब्धि का महत्व और कठिनाई का नया स्तर

  • IMO के प्रश्न मौजूदा benchmarks (GSM8K, MATH, AIME) की तुलना में कहीं अधिक लंबा thinking time, creativity और complex argumentation मांगते हैं
  • इस मॉडल ने 5 प्रश्न (P1~P5) पूरी तरह हल किए, जबकि P6 जमा नहीं किया, और 35/42 अंक हासिल कर वास्तविक IMO स्वर्ण-पदक मानक पूरा किया
  • कई पन्नों लंबे logical proofs तैयार करने की क्षमता, मौजूदा reinforcement learning (RL) की सीमाओं से आगे जाने को दिखाती है

शोध दृष्टिकोण और AI प्रगति का संदर्भ

  • केवल किसी खास problem-solving मॉडल के बजाय, general-purpose RL और compute scaling आधारित approach से उच्च प्रदर्शन हासिल किया गया
  • पारंपरिक RL में मिलने वाले स्पष्ट reward structure के बिना भी जटिल creative outputs उत्पन्न करने में सफलता मिली
  • यह एक प्रयोगात्मक मॉडल है और जल्द आने वाले GPT-5 से अलग है; इस स्तर की गणितीय क्षमता को आम जनता के लिए कुछ महीनों तक जारी नहीं किया जाएगा

आगे की दिशा और कम्युनिटी उल्लेख

  • AI की गणितीय क्षमता की प्रगति की रफ्तार उम्मीद से काफी आगे निकल गई है (2021 में MATH benchmark पर 30% जैसे अनुमान की तुलना में अब IMO स्वर्ण-पदक स्तर)
  • Alexander ने 2025 IMO के सभी प्रतिभागियों को बधाई दी और यह भी रेखांकित किया कि टीम में कई पूर्व IMO प्रतिभागी हैं
  • मॉडल के 2025 IMO प्रश्नों के समाधान भी बाद में साझा किए जाएंगे, हालांकि उनकी शैली अभी प्रयोगात्मक है

1 टिप्पणियां

 
GN⁺ 2025-07-20
Hacker News राय
  • Noam Brown: अगर आप किसी cutting-edge lab में काम करते हैं, तो आमतौर पर कुछ महीने पहले नई क्षमताएँ पहले से देखने का अनुभव हो जाता है, लेकिन इस बार का नतीजा हाल ही में विकसित तकनीकों का इस्तेमाल करने वाली सचमुच नई उपलब्धि थी, और OpenAI के अंदर के शोधकर्ताओं के लिए भी चौंकाने वाला था, आज ही सब लोग देख पा रहे हैं कि cutting edge अभी कहाँ तक पहुँच चुका है
    साथ ही, इस उपलब्धि को एक छोटे से टीम ने आगे बढ़ाया, और Alex Wei ने एक ऐसे research idea को वास्तविक नतीजे में बदला जिस पर बहुत कम लोग भरोसा करते थे, OpenAI और AI community के लंबे समय के research और engineering ने भी बड़ी भूमिका निभाई
    लिंक: https://x.com/polynoamial/status/1946478258968531288

    • बस उम्मीद है कि वह नई तकनीक test data पर training करना न हो /मज़ाक है
  • दिलचस्प बात यह है कि IMO solutions काफ़ी सीमित vocabulary इस्तेमाल करते हैं
    लिंक: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “जब कम शब्द ज़्यादा असरदार हों, तो बात को लंबा खींचने की ज़रूरत नहीं”
    और ध्यान देने वाली बात यह है कि Alex Wei खुद भी IOI gold medalist हैं

    • एक तरह से यह मज़ेदार है कि यह वैसा ही दिखता है जैसा असली प्रतिभागी हल करते समय अपने नोट्स में लिखता है, गैर-ज़रूरी बातों को कम करने से सूचना का शोर घटता है और ध्यान लगाने में मदद मिलती है, खासकर क्योंकि LLM एक बार में एक token बनाता है और उसके पास context length की सीमा होती है, तो अगर वह सिर्फ़ अर्थपूर्ण token इस्तेमाल करे, तो शायद उससे और लंबी तथा सुसंगत सोच की धारा बन सके
    • यह मज़ेदार है कि वह IOI (Informatics Olympiad) का gold medalist है, जबकि यहाँ चर्चा IMO (Mathematics Olympiad) की हो रही है
    • Terence Tao ने भी हाल की एक podcast में भविष्यवाणी की थी कि इस साल LLM gold medal लेगा
    • Transformer में token का जो भी अर्थ हो, हर token generate करने में बराबर समय लगता है, text से दोहराव या गैर-ज़रूरी हिस्से काट देने पर speed काफ़ी बढ़ जाती है
    • “see the world” कहने पर मैं पूछना चाहूँगा कि मतलब “दुनिया को देखो” है या “seaworld” जैसा कोई उच्चारण वाला मज़ाक
  • जो लोग इसे हाई-स्कूल स्तर कहकर हल्के में ले रहे हैं, उन्हें IMO के सवाल एक बार खुद हल करके देखने चाहिए, इस साल के सवाल समेत सब सार्वजनिक हैं
    लिंक: https://www.imo-official.org/problems.aspx
    मेरा सिर घूम रहा है

    • इसी से जुड़ा हुआ, ऐसे वीडियो भी हैं जो दिखाते हैं कि इन सवालों पर असल में कैसे सोचा और हल किया जाता है
    • मुझे ऐसे IMO problem-solving YouTube वीडियो देखना पसंद है, ऊपर से तो सरल लगते हैं लेकिन किसी trick जैसे होते हैं
      उदाहरण के लिए, मैंने x+y=1, xy=1 जैसे सवाल देखे हैं, लेकिन असल हल में सिर्फ़ वही बुनियादी algebra इस्तेमाल होती है जो हम जानते हैं (factorization, quadratic formula वगैरह), और उसकी व्याख्या भी सुंदर होती है
      ऐसा लगता है कि अगर लंबे समय तक सोचें तो जवाब मिल सकता है, लेकिन मेरे अनुभव में ऐसा बिल्कुल नहीं है
      लिंक: https://www.youtube.com/watch?v=csS4BjQuhCc
    • सोच रहा हूँ कि ऐसे IMO सवाल leetcode के hard level सवालों से तुलना करें तो कैसे होंगे
    • मुझे अभी पता चला कि IMO problems कई भाषाई versions में भी होते हैं
      लगता है लगभग 50 भाषाएँ हैं, और इतने ज़्यादा versions हों तो problem leak जैसी security बनाए रखना काफ़ी कठिन हो सकता है
  • यह कि ये सवाल हाई-स्कूल स्तर के हैं, सिर्फ़ background knowledge के हिसाब से है, कठिनाई के हिसाब से ये बहुत मुश्किल हैं
    जो professional mathematicians IMO background से नहीं हैं, उनके लिए भी ऐसा प्रदर्शन करना आसान नहीं होगा
    इसका मतलब यह नहीं कि AI गणित में इंसानों से बेहतर हो गया है, क्योंकि mathematicians का ध्यान गणित की frontier को आगे बढ़ाने पर होता है
    कहा जा रहा है कि सही जवाब training data में नहीं थे
    और यह भी दावा है कि यह मॉडल सिर्फ़ IMO questions के लिए specialized नहीं था

    • मुझे data science करते समय की बात याद आती है, validation set leakage रोकना सोच से कहीं ज़्यादा कठिन होता है
      आप training process को बार-बार tune करते हैं, और validation set पर performance बढ़े तो उसी हिसाब से architecture और data को फिर चुनते हैं
      ऐसे में बिना इरादे के भी validation set की जानकारी धीरे-धीरे model में रिसने लगती है
      अगर validation set ही अलग चुनें, तो पूरी तरह अलग model बन सकता है
    • मुझे शक है कि यह सच में IMO-specialized model नहीं है, Twitter thread में इसे “general reasoning” कहा गया था, लेकिन अगर सच में olympiad math problems पर RL (reinforcement learning) नहीं किया गया, तो मैं OpenAI की आधिकारिक बात ज़रूर सुनना चाहूँगा
    • “यह IMO-specialized model नहीं है” इस दावे का आधार क्या है, यह जानने की जिज्ञासा है
    • “सही जवाब training data में नहीं हैं”, “यह IMO-specialized model नहीं है” — इन बातों के समर्थन में क्या आधार या सबूत हैं, यह जानना चाहता हूँ
    • जितना देख रहा हूँ, उतना ही लगभग पक्का लगता है कि यह IMO-specialized model है
      जवाब देने का तरीका भी बिल्कुल वैसा ही महसूस होता है
      उदाहरण: https://xcancel.com/alexwei_/status/1946477742855532918
      असल जवाब का screenshot: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      यह AlphaProof style में natural language और Lean जैसे system के बीच आना-जाना करता हुआ लगता है
      OpenAI शायद इस तरह की implementation details साझा नहीं करेगा
  • thread में कहा गया: “मॉडल ने P1~P5 हल कर लिए, लेकिन P6 का जवाब नहीं दे पाया”
    सबसे कठिन सवाल (P6) इंसानों के लिए भी लगभग असंभव जैसा था, यहाँ तक कि चीन की टीम ने भी 42 में से सिर्फ़ 21 अंक लिए, और ज़्यादातर दूसरे देशों में कोई भी उसे हल नहीं कर पाया

    • IMO में पहले दिन P1, P2, P3 और दूसरे दिन P4, P5, P6 दिए जाते हैं
      आम तौर पर कठिनाई क्रम P1, P4, P2, P5, P3, P6 रखने का इरादा होता है, जहाँ P1 सबसे आसान और P6 सबसे कठिन होता है
      हालाँकि असलियत में कभी-कभी यह क्रम अलग भी हो सकता है
    • लगता है कनाडा टीम में किसी ने P6 हल किया था, लेकिन कुल मिलाकर ऐसे लोग बहुत कम थे
    • यह कि मशीन उन्हीं सवालों पर अटकती है जो इंसानों को भी मुश्किल लगते हैं, खासकर P6, इस बात का संकेत हो सकता है कि कहीं इंसानी दखल तो नहीं था
      सिर्फ़ मशीनरी संयोग मान लें, तब भी वह गलत जवाब भी दे सकती थी, तो क्या सिर्फ़ सही जवाब ही चुने गए, यानी क्या सिर्फ़ successful outputs को चुना गया — यह सवाल उठता है
  • Google ने भी इस बार IMO में हिस्सा लिया और gold award पाया
    लिंक: https://x.com/natolambert/status/1946569475396120653
    OAI ने पहले घोषणा कर दी, तो लगता है Google भी जल्द आधिकारिक घोषणा करेगा

    • Noam Brown की यह बात कि “OpenAI के अंदर के शोधकर्ता भी इस नतीजे से चौंक गए” देखकर, अगर कई labs ने एक साथ ऐसा result पाया है, तो यह और भी ज़्यादा चौंकाने वाली बात है
      Twitter पर कहा गया था कि Google ने Lean इस्तेमाल किया, जबकि OpenAI ने बिना tools सिर्फ़ LLM का उपयोग किया
      तरीका कोई भी हो, result खुद ज़्यादा महत्वपूर्ण है, लेकिन specific techniques की सीमाएँ और उनकी प्रगति भी दिलचस्प संदर्भ हैं
    • Google का AlphaProof पिछले साल silver लाया था और उसने neural+symbolic approach इस्तेमाल की थी
      OpenAI का gold सिर्फ़ pure LLM से संभव हुआ, यही बात अलग है
      Google जब आधिकारिक घोषणा करेगा, तब पता चलेगा कि उसने कौन-सा approach अपनाया
      LLM approach का फ़ायदा यह है that यह सिर्फ़ mathematical proofs ही नहीं, बल्कि कई तरह की reasoning problems तक generalize हो सकता है
  • Noam Brown:
    यह IMO-specialized model नहीं है, बल्कि नई experimental general-purpose techniques वाला reasoning LLM है
    इसकी सोचने की प्रक्रिया o1, o3 से कहीं ज़्यादा efficient है, और test-time efficiency को आगे भी और बढ़ाया जा सकता है
    हाल में AI की प्रगति तेज़ रही है, और उम्मीद है कि आगे भी जारी रहेगी
    खासतौर पर, उनका मानना है कि AI अब उस मोड़ के क़रीब है जहाँ वह scientific discovery में गंभीर योगदान देना शुरू कर सकता है
    मुझे हाल तक लगता था कि प्रगति धीमी पड़ रही है, लेकिन कई दावों में — कि यह specialized model नहीं है और efficiency अभी और बढ़ सकती है — वास्तविक प्रगति काफ़ी स्पष्ट दिखती है
    लिंक: https://x.com/polynoamial/status/1946478249187377206

    • मुझे लगता है कि “exam questions हल करने वाला model” और “scientific discovery में योगदान देने वाला AI” के बीच काफ़ी बड़ा अंतर है
    • सुनने में सपना जैसा लगता है, लेकिन जैसे bar exam जैसी परीक्षाओं के लिए models को fine-tune किया जाता है, वैसे ही ऐसे models भी अक्सर पुराने exam papers पर पहले से train किए गए होते हैं
    • यह जानने की उत्सुकता है कि fine-tuning के दौरान tool use (automated proof tools वगैरह) भी साथ में इस्तेमाल हुआ था या नहीं
    • “o1, o3 से सोच ज़्यादा efficient है” वाली बात में,
      “अगर प्रतिद्वंद्वी (fixed) response strategy अपनाता है तो वह कभी नहीं हारती। उसके जीतने के लिए (यानी प्रतिद्वंद्वी के हारने के लिए) Q_{even-1}>even होना चाहिए, यानी कोई a_j> sqrt2 होना चाहिए, लेकिन पहले से a_j<=c< sqrt2 है। इसलिए वह कभी हार नहीं सकता” वगैरह
      कम शब्दों में efficiency को maximize करने का रवैया दिखता है
      लिंक: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • अब जब डेटा की कमी वाले “peak data” बिंदु की बात होती है, तो यह सोचने की जिज्ञासा होती है कि efficiency improvement का अगला साफ़ रास्ता क्या है
  • यह सचमुच प्रभावशाली उपलब्धि है, लेकिन यह कैसे किया गया होगा यह जानने की जिज्ञासा है
    Wei ने जो “test-time compute को scale up” करने की बात कही, उससे लगता है कि बहुत पैसा झोंका गया होगा
    अगर हज़ारों या दसियों हज़ार parallel runs चलाकर सिर्फ़ सबसे अच्छा result चुना गया, तो वह निराशाजनक होगा
    अगर यह सच में ठोस उपलब्धि है, तो किस tool का इस्तेमाल हुआ और कैसे हुआ, यह पारदर्शी ढंग से बताना चाहिए
    जिन समस्याओं की verification कठिन होती है, उनमें performance बढ़ाने की कई techniques शायद यहाँ शामिल रही होंगी

    • 10000 parallel runs भी इसे इतना कम दिलचस्प नहीं बनातीं
      बल्कि इसका मतलब यह होगा कि सिस्टम सही और कठोर उत्तरों में फर्क पहचान सकता है, और यह इंसानों से बहुत अलग नहीं है, जो कभी-कभार सही हल निकाल ही लेते हैं
    • Twitter thread के मुताबिक कोई अलग tool नहीं दिया गया था
    • मुझे सच में लगता है कि OpenAI ने हज़ारों या दसियों हज़ार parallel runs चलाए होंगे और फिर results चुने होंगे
      शुरुआती o3 ARC benchmark में भी तरीका कुछ ऐसा ही था
      संभव है कि कई agents ने मिलकर काम किया हो, इसलिए context length (token limit) को भी पार किया जा सका हो

अब AI वैसे भी ज़्यादातर math problems में 99.99% इंसानों से आगे निकल चुका है, तो 99.999% को हरा देना बहुत चौंकाने वाली बात नहीं लगती

  • अगर OpenAI ने 10000 runs किए और इंसान ने हाथ से result चुना, तो उसका मतलब काफ़ी बदल जाता है
    लेकिन अगर LLM ने खुद verify करके अपनाया, तो यह उस प्रक्रिया जैसा है जिसमें इंसान कठिन सवालों पर कई बार कोशिश करके हल तक पहुँचता है
    फ़र्क बस इतना है कि AI के पास ज़्यादा compute है, इसलिए वह parallel कोशिश कर सकता है, जबकि इंसान क्रमिक रूप से ही कोशिश कर सकता है

  • यह competition (IMO) इतना top-tier है कि programmer community में भी बहुत से लोग शायद ठीक से नहीं जानते कि यह है क्या
    सरल हिसाब से देखें तो अमेरिका में camp selection तक पहुँचने वाले लोग (gold medal की संभावना वाले) लगभग 20 होते हैं, और अगर उसी generation के कुल हाई-स्कूल छात्रों की संख्या 2 करोड़ मानें, तो यह लगभग “दस लाख में एक” talent है

    • मेरा इरादा इस competition की कठिनाई को कम करके दिखाने का नहीं है
      मैं भी एक elite high school से पढ़ा हूँ, लेकिन IMO के बारे में मैंने कॉलेज जाकर प्रतिभागियों से मिलने से पहले नहीं सुना था
      असल में, इस competition के बारे में जानने और इसमें हिस्सा लेने वाले छात्र कुल छात्र संख्या से बहुत कम होते हैं
      काबिलियत अलग बात है, लेकिन बहुत से छात्रों को अगर सही मौके और जानकारी मिलती, तो शायद वे भी अच्छा कर सकते थे
  • मैंने हाल ही में LLM की IMO 2025 evaluation पर एक रिपोर्ट देखी, जिसमें o3 high bronze level तक भी नहीं पहुँच पाया
    लिंक: https://matharena.ai/imo/
    Terry Tao की राय का भी इंतज़ार है, लेकिन मुझे लगता है कि इसी तरह की प्रगति AI का सचमुच सकारात्मक उपयोग है
    अर्थव्यवस्था तैयार हुए बिना अंधाधुंध innovation की बजाय, काश इसका उपयोग scientific progress को तेज़ करने में ज़्यादा हो