- GPT-5.4 Pro ने Kevin Barreto और Liam Price के सहयोग से hypergraph से जुड़ी Ramsey-प्रकार की समस्या को हल किया
- समस्या प्रस्तावित करने वाले Will Brian ने समाधान की शुद्धता की पुष्टि की, और पूरी बातचीत का रिकॉर्ड तथा AI का अंतिम व्याख्या दस्तावेज़ सार्वजनिक किया गया
- इस समाधान ने मौजूदा lower bound construction की अक्षमताओं को हटाया और upper bound की symmetric structure प्रस्तुत की, जिससे Ramsey theory में दुर्लभ consistency हासिल हुई
- इसके बाद FrontierMath: Open Problems framework में कई models ने वही समस्या हल की, जिससे AI की mathematical reasoning क्षमता के सत्यापन उपकरण के रूप में इसकी वैधता साबित हुई
- इस उपलब्धि को ऐसे उदाहरण के रूप में देखा जा रहा है जो दिखाता है कि AI अनसुलझी गणितीय समस्याओं के समाधान में वास्तविक योगदान दे सकता है
hypergraph की Ramsey-प्रकार की समस्या का समाधान
- GPT-5.4 Pro ने Kevin Barreto और Liam Price के सहयोग से hypergraph से जुड़ी कठिन Ramsey-प्रकार की समस्या को हल किया
- समस्या प्रस्तावित करने वाले Will Brian ने समाधान की शुद्धता की पुष्टि की
- समाधान प्रक्रिया की पूरी बातचीत का रिकॉर्ड और GPT-5.4 Pro का अंतिम व्याख्या दस्तावेज़ सार्वजनिक किया गया
- Brian ने इस समाधान का मूल्यांकन करते हुए कहा कि यह मौजूदा lower bound construction की अक्षमताओं को हटाता है, और upper bound construction की जटिलता तथा symmetric structure दिखाता है
- lower bound और upper bound का परिणाम एक-दूसरे से सुसंगत रूप से मेल खाता है, जिससे Ramsey theory की समस्याओं में दुर्लभ स्तर की consistency हासिल हुई
- वे इस परिणाम को एक शोधपत्र के रूप में व्यवस्थित करने की योजना बना रहे हैं, और इसमें AI के विचारों से निकले अतिरिक्त शोध भी शामिल हो सकते हैं
- इसके बाद Epoch AI ने FrontierMath: Open Problems test framework पूरा किया और वही समस्या कई models पर लागू की
- Opus 4.6 (max), Gemini 3.1 Pro, GPT-5.4 (xhigh) models भी समस्या हल करने में सफल रहे
- इससे यह दिखता है कि FrontierMath environment AI models की mathematical reasoning क्षमता के मूल्यांकन के लिए प्रभावी है
समस्या की परिभाषा
- यह समस्या अनंत श्रेणी समुच्चयों की simultaneous convergence के अध्ययन में आने वाले अनुक्रम (H(n)) के lower bound को बेहतर बनाने पर केंद्रित है
- किसी hypergraph ((V, \mathcal H)) में आकार (n) का partition शामिल होने का अर्थ है कि
(D \subseteq V), (\mathcal P \subseteq \mathcal H) ऐसे मौजूद हों कि (|D| = n) हो, और
(D) का प्रत्येक तत्व ठीक एक (\mathcal P) तत्व में शामिल हो
- (H(n)) को ऐसे hypergraph के अधिकतम vertex count (k) के रूप में परिभाषित किया गया है जिसमें कोई isolated vertex न हो, और जो आकार (n) से बड़े partition को शामिल न करता हो
- ज्ञात (H(n)) का lower bound संभवतः optimal नहीं है, और माना जाता है कि नई hypergraph construction के ज़रिए इसे सुधारा जा सकता है
- लक्ष्य ऐसा algorithm खोजना है जो (H(n) \ge c \cdot k_n) (जहाँ, (c > 1)) को संतुष्ट करे
- (k_n) को recursive relation (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) से परिभाषित किया गया है
समस्या निर्माण के चरण
-
Warm-up चरण
- उन (n) मानों के लिए hypergraph बनाना जिनके लिए पहले से ज्ञात समाधान मौजूद है
- शर्तें: (|V| ≥ 64), (|H| ≤ 20), और आकार 20 से बड़ा कोई partition न हो
-
Single Challenge चरण
- उन (n) मानों के लिए समान शर्तों के साथ hypergraph खोजने का कार्य जिनके लिए ज्ञात समाधान मौजूद नहीं है
- शर्तें: (|V| ≥ 66), (|H| ≤ 20), और आकार 20 से बड़ा कोई partition न हो
-
Full Problem चरण
- सभी (n) के लिए काम करने वाले general algorithm की आवश्यकता
- दिए गए input (n) के लिए ऐसा hypergraph बनाना होगा जो (H(n) ≥ c \cdot k_n) को संतुष्ट करे
- (n ≤ 100) होने पर इसे सामान्य laptop पर 10 मिनट के भीतर चलाया जा सकना चाहिए
गणितज्ञों का मूल्यांकन
- इस समस्या से परिचित गणितज्ञों की संख्या लगभग 10 मानी जाती है, जिनमें इस क्षेत्र के कई विशेषज्ञ शोधकर्ता शामिल हैं
- वास्तव में समस्या को हल करने की कोशिश करने वाले गणितज्ञों की संख्या लगभग 5–10 आंकी गई है
- किसी विशेषज्ञ के लिए इस समस्या को हल करने में लगने वाला अनुमानित समय 1–3 महीने है
- समाधान का स्तर विशेषज्ञ academic journal में प्रकाशित होने योग्य माना गया है
- समस्या की समृद्धि के कारण समाधान के नए गणितीय शोध की ओर बढ़ने की संभावना अधिक मानी गई है
- बताए गए मानकों के तहत समस्या के हल होने की संभावना 95–99% आंकी गई है
1 टिप्पणियां
Hacker News प्रतिक्रियाएँ
बहुत से लोगों को यह बात बड़े आत्मविश्वास से कहते देखना हैरान करता है कि “LLM में वास्तविक creativity नहीं हो सकती”
सिर्फ यह कहना कि “यह training data में नहीं था, इसलिए असंभव है” पर्याप्त नहीं है। इसके पहले ही कई counterexamples मौजूद हैं
फिर यह बताने के लिए आधार चाहिए कि कुछ नए task संभव क्यों माने जाते हैं और कुछ असंभव क्यों
अगर हम मान लें कि ‘नयापन’ एक continuum पर है, तो रेखा कहाँ खींची जाती है, और किस तरह का सबूत आने पर राय बदलेगी, यह जानना दिलचस्प है
लेकिन इनके जवाब भी हैं। गणित ओलंपियाड में gold medal जीतने वाले मॉडल को देखकर मैंने पहला तर्क छोड़ दिया
और RL व memory जोड़ने से दूसरी सीमा भी पार की जा सकती है
शायद बड़े LLM इंसानों की तरह जानकारी को आंतरिक रूप से आत्मसात भी कर सकें
संबंधित उदाहरण: METR ब्लॉग पोस्ट
इंसान “वास्तविक novelty” को बहुत भव्य तरीके से परिभाषित करते हैं — जैसे superconductivity का formula या नई दवा की खोज
लेकिन वास्तव में जूते के फीते बाँधने का नया तरीका भी ‘औपचारिक’ रूप से नया है
LLM ऐसी छोटी समस्याएँ अनगिनत बार हल कर सकता है, लेकिन वे ज़रूरी नहीं कि इंसानों को चकित कर देने वाली अर्थपूर्ण innovation हों
उसने performance overhead के कारण इसे सही ढंग से अस्वीकार किया और पूरी तरह अलग approach दी
यह कोई बहुत नई समस्या नहीं थी, लेकिन समाधान काफ़ी creative था, इसलिए मैं चौंक गया
प्रोजेक्ट इमेज
यह साधारण रटने की बात नहीं, बल्कि neural network के internal circuits में सामान्यीकृत operation का आत्मसातीकरण है
मैं सोचता था कि अगर AI खुद कठिन समस्याएँ हल कर सके तो मैं मानूँगा, और अगर यह नतीजा सच है तो अब मैं लगभग विश्वासी बन गया हूँ
मैं और उदाहरण देखना चाहता हूँ, लेकिन दुनिया सचमुच नई और रोमांचक दिशा में बदल रही है
लेकिन code quality जैसे अस्पष्ट रूप से परिभाषित क्षेत्रों में hallucination बढ़ जाती है
AlphaGo की तरह self-learned value function न होने से सिर्फ RL की सीमाएँ हैं
AI लगातार ‘ठीक-ठाक’ स्तर का content बनाता रहेगा, लेकिन असली भावनात्मक असर गायब हो जाएगा
इंसानों के बीच जो अच्छी चीज़ें आदान-प्रदान होती थीं, वे कम होंगी, और बुरी चीज़ें ही amplify होंगी
ज़्यादातर इंसान भी ऐसी समस्याएँ नहीं सुलझा पाते, जबकि AI पहले से ही general knowledge work में शानदार है
अगर यही मानदंड है, तो यह AGI या ASI के काफ़ी करीब की परिभाषा है
असल में वह कौन-सी समस्या थी, इसकी विशेषज्ञ द्वारा जाँच ज़रूरी है
अब भी यह मूल धारणा बहुत मज़बूत लगती है कि इंसान कुछ विशेष हैं
लोग इस बात पर पर्याप्त विचार नहीं करते कि “बस कई कोशिशों के बाद काम बन जाना” जैसी व्याख्या इंसानों पर भी लागू हो सकती है
वैज्ञानिक सोच को महत्व देने वाले समुदायों में भी human exceptionalism गहराई से मौजूद है
AI खुद अपने लक्ष्य तय नहीं करता और न ही अपनी उपलब्धि को पहचानता है
भारी लागत खर्च करके जो मिला, वह शायद सिर्फ एक मामूली गणितीय प्रगति हो
मैं functionalist हूँ, लेकिन LLM का ‘बुद्धिमत्ता जैसा दिखना’ मुझे वास्तविक बुद्धिमत्ता नहीं लगता
GPT‑5.4 Pro के साथ पूरी बातचीत और परिणाम रिपोर्ट सार्वजनिक हैं
पूरी बातचीत / परिणाम सारांश
और यह भी दिलचस्प है कि user ने बीच में token usage अपडेट करते हुए context को कैसे बढ़ाया
Opus 4.6 ने लगभग 250,000 token इस्तेमाल किए, इसे देखकर token count को समस्या की कठिनाई का संकेतक मानने का विचार आता है
आज किया गया मेरा React refactoring शायद गणित की इस कठिन समस्या का आधा ही कठिन था — यह सोचकर हँसी आती है
कुछ समस्याएँ ऐसी होती हैं जिन्हें पूरी दुनिया में सिर्फ 5~10 लोगों ने ही आज़माया होता है
जैसे कम motivation के कारण अधूरा पड़ा software, वैसे ही गणित की समस्याएँ भी सिर्फ कम प्रयासकर्ताओं के कारण unsolved रह सकती हैं
फिर भी AI ने ऐसी समस्या हल की, यह चमत्कार जैसा है
context बढ़ने पर लागत भी बढ़ती है, और provider कीमत भी बढ़ा सकते हैं
AI की क्षमता trained cost function से तय होती है
आखिरकार intelligence जटिल cost function को minimize करने की प्रक्रिया ही है
गणित और coding जैसे automatically verifiable domains में RLVR जैसी approach तेज़ी से आगे बढ़ेगी
लेकिन social reward या बहुत uncertainty वाले क्षेत्रों में प्रगति धीमी हो सकती है
उदाहरण के लिए complex numbers की शुरुआत को representation optimization का परिणाम माना जा सकता है
Domain experts अपने problem-solving तरीकों को LLM को सिखा रहे हैं
अंततः LLM उनके thought patterns की नकल करके समस्याएँ हल करने लगते हैं
मुझे लगता है बहुत-सी समस्याएँ मौजूदा proofs को resample करके हल की जा सकती हैं
मशीन वह दोहरावदार खोज लगातार कर सकती है जो इंसान को पागल कर दे
यह बहुत बड़ी प्रगति न सही, पर conjecture को theorem में बदलने का काम कर सकती है
पूरी तरह नया दृष्टिकोण खोलने वाली बातें दुर्लभ होती हैं
यह token की बर्बादी भी हो सकती है
Epoch के Open Problems पेज पर 15 समस्याएँ और उनकी difficulty classification दी गई हैं
इस बार जो हल हुई, वह ‘moderately interesting’ स्तर की थी, यानी आसान श्रेणी की ओर
फिर भी यह प्रभावशाली है कि समस्या हल होने से पहले ही सार्वजनिक थी
अब यह देखने की उत्सुकता है कि उसी स्तर की बची हुई 3 समस्याएँ कितनी जल्दी हल होती हैं
शीर्षक थोड़ा भ्रामक है
असली शीर्षक “A Ramsey-style Problem on Hypergraphs” है, और इसे सिर्फ GPT‑5.4 ने नहीं बल्कि कई आधुनिक मॉडलों ने हल किया
फिर भी यह अब भी एक शानदार उपलब्धि है