- OpenAI द्वारा विकसित एक प्रयोगात्मक reasoning LLM ने 2025 International Mathematical Olympiad (IMO) में स्वर्ण-पदक स्तर का स्कोर हासिल किया
- आधिकारिक IMO नियमों के अनुसार समस्या-समाधान और natural language proof लेखन किया गया, और 3 मानव evaluators की सर्वसम्मत grading में 42 में से 35 अंक (6 में से 5 प्रश्न हल) प्राप्त हुए
- IMO के प्रश्न अत्यधिक कठिन creative thinking और multi-step proofs की मांग करते हैं, और इसने साबित किया कि LLM अब पारंपरिक RL तरीकों की सीमाओं से आगे बढ़कर मानव-स्तर के logical proofs बना सकते हैं
- किसी विशेष task-केंद्रित approach के बजाय general-purpose reinforcement learning और test-time compute scaling के जरिए यह उपलब्धि हासिल की गई, जो इसे खास बनाती है
- यह मॉडल जल्द आने वाले GPT-5 से अलग एक research version है, और शीर्ष-स्तरीय गणितीय प्रदर्शन को सार्वजनिक करने की योजना कुछ महीनों बाद है
OpenAI LLM के IMO 2025 प्रदर्शन का सार
- OpenAI के Alexander Wei (@alexwei_) ने घोषणा की कि नवीनतम प्रयोगात्मक reasoning language model ने 2025 IMO में स्वर्ण-पदक मानक का प्रदर्शन दर्ज किया
- IMO दुनिया भर के सबसे प्रतिभाशाली युवा गणित छात्रों की एक अत्यंत कठिन प्रतियोगिता है, जो जटिल logical reasoning और गहरी conceptual understanding मांगने वाले प्रश्नों के लिए प्रसिद्ध है
- मूल्यांकन मानव प्रतिभागियों के समान तरीके से किया गया: 4.5 घंटे की 2 परीक्षाएं, आधिकारिक प्रश्नपत्र, बिना बाहरी tools, और natural language proofs के साथ
- प्रत्येक प्रश्न को 3 पूर्व IMO medalists ने स्वतंत्र रूप से जांचा, और सर्वसम्मति के बाद अंतिम अंक तय किए गए
उपलब्धि का महत्व और कठिनाई का नया स्तर
- IMO के प्रश्न मौजूदा benchmarks (GSM8K, MATH, AIME) की तुलना में कहीं अधिक लंबा thinking time, creativity और complex argumentation मांगते हैं
- इस मॉडल ने 5 प्रश्न (P1~P5) पूरी तरह हल किए, जबकि P6 जमा नहीं किया, और 35/42 अंक हासिल कर वास्तविक IMO स्वर्ण-पदक मानक पूरा किया
- कई पन्नों लंबे logical proofs तैयार करने की क्षमता, मौजूदा reinforcement learning (RL) की सीमाओं से आगे जाने को दिखाती है
शोध दृष्टिकोण और AI प्रगति का संदर्भ
- केवल किसी खास problem-solving मॉडल के बजाय, general-purpose RL और compute scaling आधारित approach से उच्च प्रदर्शन हासिल किया गया
- पारंपरिक RL में मिलने वाले स्पष्ट reward structure के बिना भी जटिल creative outputs उत्पन्न करने में सफलता मिली
- यह एक प्रयोगात्मक मॉडल है और जल्द आने वाले GPT-5 से अलग है; इस स्तर की गणितीय क्षमता को आम जनता के लिए कुछ महीनों तक जारी नहीं किया जाएगा
आगे की दिशा और कम्युनिटी उल्लेख
- AI की गणितीय क्षमता की प्रगति की रफ्तार उम्मीद से काफी आगे निकल गई है (2021 में MATH benchmark पर 30% जैसे अनुमान की तुलना में अब IMO स्वर्ण-पदक स्तर)
- Alexander ने 2025 IMO के सभी प्रतिभागियों को बधाई दी और यह भी रेखांकित किया कि टीम में कई पूर्व IMO प्रतिभागी हैं
- मॉडल के 2025 IMO प्रश्नों के समाधान भी बाद में साझा किए जाएंगे, हालांकि उनकी शैली अभी प्रयोगात्मक है
1 टिप्पणियां
Hacker News राय
Noam Brown: अगर आप किसी cutting-edge lab में काम करते हैं, तो आमतौर पर कुछ महीने पहले नई क्षमताएँ पहले से देखने का अनुभव हो जाता है, लेकिन इस बार का नतीजा हाल ही में विकसित तकनीकों का इस्तेमाल करने वाली सचमुच नई उपलब्धि थी, और OpenAI के अंदर के शोधकर्ताओं के लिए भी चौंकाने वाला था, आज ही सब लोग देख पा रहे हैं कि cutting edge अभी कहाँ तक पहुँच चुका है
साथ ही, इस उपलब्धि को एक छोटे से टीम ने आगे बढ़ाया, और Alex Wei ने एक ऐसे research idea को वास्तविक नतीजे में बदला जिस पर बहुत कम लोग भरोसा करते थे, OpenAI और AI community के लंबे समय के research और engineering ने भी बड़ी भूमिका निभाई
लिंक: https://x.com/polynoamial/status/1946478258968531288
दिलचस्प बात यह है कि IMO solutions काफ़ी सीमित vocabulary इस्तेमाल करते हैं
लिंक: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “जब कम शब्द ज़्यादा असरदार हों, तो बात को लंबा खींचने की ज़रूरत नहीं”
और ध्यान देने वाली बात यह है कि Alex Wei खुद भी IOI gold medalist हैं
जो लोग इसे हाई-स्कूल स्तर कहकर हल्के में ले रहे हैं, उन्हें IMO के सवाल एक बार खुद हल करके देखने चाहिए, इस साल के सवाल समेत सब सार्वजनिक हैं
लिंक: https://www.imo-official.org/problems.aspx
मेरा सिर घूम रहा है
उदाहरण के लिए, मैंने x+y=1, xy=1 जैसे सवाल देखे हैं, लेकिन असल हल में सिर्फ़ वही बुनियादी algebra इस्तेमाल होती है जो हम जानते हैं (factorization, quadratic formula वगैरह), और उसकी व्याख्या भी सुंदर होती है
ऐसा लगता है कि अगर लंबे समय तक सोचें तो जवाब मिल सकता है, लेकिन मेरे अनुभव में ऐसा बिल्कुल नहीं है
लिंक: https://www.youtube.com/watch?v=csS4BjQuhCc
लगता है लगभग 50 भाषाएँ हैं, और इतने ज़्यादा versions हों तो problem leak जैसी security बनाए रखना काफ़ी कठिन हो सकता है
यह कि ये सवाल हाई-स्कूल स्तर के हैं, सिर्फ़ background knowledge के हिसाब से है, कठिनाई के हिसाब से ये बहुत मुश्किल हैं
जो professional mathematicians IMO background से नहीं हैं, उनके लिए भी ऐसा प्रदर्शन करना आसान नहीं होगा
इसका मतलब यह नहीं कि AI गणित में इंसानों से बेहतर हो गया है, क्योंकि mathematicians का ध्यान गणित की frontier को आगे बढ़ाने पर होता है
कहा जा रहा है कि सही जवाब training data में नहीं थे
और यह भी दावा है कि यह मॉडल सिर्फ़ IMO questions के लिए specialized नहीं था
आप training process को बार-बार tune करते हैं, और validation set पर performance बढ़े तो उसी हिसाब से architecture और data को फिर चुनते हैं
ऐसे में बिना इरादे के भी validation set की जानकारी धीरे-धीरे model में रिसने लगती है
अगर validation set ही अलग चुनें, तो पूरी तरह अलग model बन सकता है
जवाब देने का तरीका भी बिल्कुल वैसा ही महसूस होता है
उदाहरण: https://xcancel.com/alexwei_/status/1946477742855532918
असल जवाब का screenshot: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
यह AlphaProof style में natural language और Lean जैसे system के बीच आना-जाना करता हुआ लगता है
OpenAI शायद इस तरह की implementation details साझा नहीं करेगा
thread में कहा गया: “मॉडल ने P1~P5 हल कर लिए, लेकिन P6 का जवाब नहीं दे पाया”
सबसे कठिन सवाल (P6) इंसानों के लिए भी लगभग असंभव जैसा था, यहाँ तक कि चीन की टीम ने भी 42 में से सिर्फ़ 21 अंक लिए, और ज़्यादातर दूसरे देशों में कोई भी उसे हल नहीं कर पाया
आम तौर पर कठिनाई क्रम P1, P4, P2, P5, P3, P6 रखने का इरादा होता है, जहाँ P1 सबसे आसान और P6 सबसे कठिन होता है
हालाँकि असलियत में कभी-कभी यह क्रम अलग भी हो सकता है
सिर्फ़ मशीनरी संयोग मान लें, तब भी वह गलत जवाब भी दे सकती थी, तो क्या सिर्फ़ सही जवाब ही चुने गए, यानी क्या सिर्फ़ successful outputs को चुना गया — यह सवाल उठता है
Google ने भी इस बार IMO में हिस्सा लिया और gold award पाया
लिंक: https://x.com/natolambert/status/1946569475396120653
OAI ने पहले घोषणा कर दी, तो लगता है Google भी जल्द आधिकारिक घोषणा करेगा
Twitter पर कहा गया था कि Google ने Lean इस्तेमाल किया, जबकि OpenAI ने बिना tools सिर्फ़ LLM का उपयोग किया
तरीका कोई भी हो, result खुद ज़्यादा महत्वपूर्ण है, लेकिन specific techniques की सीमाएँ और उनकी प्रगति भी दिलचस्प संदर्भ हैं
OpenAI का gold सिर्फ़ pure LLM से संभव हुआ, यही बात अलग है
Google जब आधिकारिक घोषणा करेगा, तब पता चलेगा कि उसने कौन-सा approach अपनाया
LLM approach का फ़ायदा यह है that यह सिर्फ़ mathematical proofs ही नहीं, बल्कि कई तरह की reasoning problems तक generalize हो सकता है
Noam Brown:
यह IMO-specialized model नहीं है, बल्कि नई experimental general-purpose techniques वाला reasoning LLM है
इसकी सोचने की प्रक्रिया o1, o3 से कहीं ज़्यादा efficient है, और test-time efficiency को आगे भी और बढ़ाया जा सकता है
हाल में AI की प्रगति तेज़ रही है, और उम्मीद है कि आगे भी जारी रहेगी
खासतौर पर, उनका मानना है कि AI अब उस मोड़ के क़रीब है जहाँ वह scientific discovery में गंभीर योगदान देना शुरू कर सकता है
मुझे हाल तक लगता था कि प्रगति धीमी पड़ रही है, लेकिन कई दावों में — कि यह specialized model नहीं है और efficiency अभी और बढ़ सकती है — वास्तविक प्रगति काफ़ी स्पष्ट दिखती है
लिंक: https://x.com/polynoamial/status/1946478249187377206
“अगर प्रतिद्वंद्वी (fixed) response strategy अपनाता है तो वह कभी नहीं हारती। उसके जीतने के लिए (यानी प्रतिद्वंद्वी के हारने के लिए) Q_{even-1}>even होना चाहिए, यानी कोई a_j> sqrt2 होना चाहिए, लेकिन पहले से a_j<=c< sqrt2 है। इसलिए वह कभी हार नहीं सकता” वगैरह
कम शब्दों में efficiency को maximize करने का रवैया दिखता है
लिंक: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
यह सचमुच प्रभावशाली उपलब्धि है, लेकिन यह कैसे किया गया होगा यह जानने की जिज्ञासा है
Wei ने जो “test-time compute को scale up” करने की बात कही, उससे लगता है कि बहुत पैसा झोंका गया होगा
अगर हज़ारों या दसियों हज़ार parallel runs चलाकर सिर्फ़ सबसे अच्छा result चुना गया, तो वह निराशाजनक होगा
अगर यह सच में ठोस उपलब्धि है, तो किस tool का इस्तेमाल हुआ और कैसे हुआ, यह पारदर्शी ढंग से बताना चाहिए
जिन समस्याओं की verification कठिन होती है, उनमें performance बढ़ाने की कई techniques शायद यहाँ शामिल रही होंगी
बल्कि इसका मतलब यह होगा कि सिस्टम सही और कठोर उत्तरों में फर्क पहचान सकता है, और यह इंसानों से बहुत अलग नहीं है, जो कभी-कभार सही हल निकाल ही लेते हैं
शुरुआती o3 ARC benchmark में भी तरीका कुछ ऐसा ही था
संभव है कि कई agents ने मिलकर काम किया हो, इसलिए context length (token limit) को भी पार किया जा सका हो
अब AI वैसे भी ज़्यादातर math problems में 99.99% इंसानों से आगे निकल चुका है, तो 99.999% को हरा देना बहुत चौंकाने वाली बात नहीं लगती
अगर OpenAI ने 10000 runs किए और इंसान ने हाथ से result चुना, तो उसका मतलब काफ़ी बदल जाता है
लेकिन अगर LLM ने खुद verify करके अपनाया, तो यह उस प्रक्रिया जैसा है जिसमें इंसान कठिन सवालों पर कई बार कोशिश करके हल तक पहुँचता है
फ़र्क बस इतना है कि AI के पास ज़्यादा compute है, इसलिए वह parallel कोशिश कर सकता है, जबकि इंसान क्रमिक रूप से ही कोशिश कर सकता है
यह competition (IMO) इतना top-tier है कि programmer community में भी बहुत से लोग शायद ठीक से नहीं जानते कि यह है क्या
सरल हिसाब से देखें तो अमेरिका में camp selection तक पहुँचने वाले लोग (gold medal की संभावना वाले) लगभग 20 होते हैं, और अगर उसी generation के कुल हाई-स्कूल छात्रों की संख्या 2 करोड़ मानें, तो यह लगभग “दस लाख में एक” talent है
मैं भी एक elite high school से पढ़ा हूँ, लेकिन IMO के बारे में मैंने कॉलेज जाकर प्रतिभागियों से मिलने से पहले नहीं सुना था
असल में, इस competition के बारे में जानने और इसमें हिस्सा लेने वाले छात्र कुल छात्र संख्या से बहुत कम होते हैं
काबिलियत अलग बात है, लेकिन बहुत से छात्रों को अगर सही मौके और जानकारी मिलती, तो शायद वे भी अच्छा कर सकते थे
मैंने हाल ही में LLM की IMO 2025 evaluation पर एक रिपोर्ट देखी, जिसमें o3 high bronze level तक भी नहीं पहुँच पाया
लिंक: https://matharena.ai/imo/
Terry Tao की राय का भी इंतज़ार है, लेकिन मुझे लगता है कि इसी तरह की प्रगति AI का सचमुच सकारात्मक उपयोग है
अर्थव्यवस्था तैयार हुए बिना अंधाधुंध innovation की बजाय, काश इसका उपयोग scientific progress को तेज़ करने में ज़्यादा हो
लिंक: https://mathstodon.xyz/@tao/114881419368778558