2 पॉइंट द्वारा GN⁺ 2026-03-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-5.4 Pro ने Kevin Barreto और Liam Price के सहयोग से hypergraph से जुड़ी Ramsey-प्रकार की समस्या को हल किया
  • समस्या प्रस्तावित करने वाले Will Brian ने समाधान की शुद्धता की पुष्टि की, और पूरी बातचीत का रिकॉर्ड तथा AI का अंतिम व्याख्या दस्तावेज़ सार्वजनिक किया गया
  • इस समाधान ने मौजूदा lower bound construction की अक्षमताओं को हटाया और upper bound की symmetric structure प्रस्तुत की, जिससे Ramsey theory में दुर्लभ consistency हासिल हुई
  • इसके बाद FrontierMath: Open Problems framework में कई models ने वही समस्या हल की, जिससे AI की mathematical reasoning क्षमता के सत्यापन उपकरण के रूप में इसकी वैधता साबित हुई
  • इस उपलब्धि को ऐसे उदाहरण के रूप में देखा जा रहा है जो दिखाता है कि AI अनसुलझी गणितीय समस्याओं के समाधान में वास्तविक योगदान दे सकता है

hypergraph की Ramsey-प्रकार की समस्या का समाधान

  • GPT-5.4 Pro ने Kevin Barreto और Liam Price के सहयोग से hypergraph से जुड़ी कठिन Ramsey-प्रकार की समस्या को हल किया
    • समस्या प्रस्तावित करने वाले Will Brian ने समाधान की शुद्धता की पुष्टि की
    • समाधान प्रक्रिया की पूरी बातचीत का रिकॉर्ड और GPT-5.4 Pro का अंतिम व्याख्या दस्तावेज़ सार्वजनिक किया गया
  • Brian ने इस समाधान का मूल्यांकन करते हुए कहा कि यह मौजूदा lower bound construction की अक्षमताओं को हटाता है, और upper bound construction की जटिलता तथा symmetric structure दिखाता है
    • lower bound और upper bound का परिणाम एक-दूसरे से सुसंगत रूप से मेल खाता है, जिससे Ramsey theory की समस्याओं में दुर्लभ स्तर की consistency हासिल हुई
    • वे इस परिणाम को एक शोधपत्र के रूप में व्यवस्थित करने की योजना बना रहे हैं, और इसमें AI के विचारों से निकले अतिरिक्त शोध भी शामिल हो सकते हैं
  • इसके बाद Epoch AI ने FrontierMath: Open Problems test framework पूरा किया और वही समस्या कई models पर लागू की
    • Opus 4.6 (max), Gemini 3.1 Pro, GPT-5.4 (xhigh) models भी समस्या हल करने में सफल रहे
    • इससे यह दिखता है कि FrontierMath environment AI models की mathematical reasoning क्षमता के मूल्यांकन के लिए प्रभावी है

समस्या की परिभाषा

  • यह समस्या अनंत श्रेणी समुच्चयों की simultaneous convergence के अध्ययन में आने वाले अनुक्रम (H(n)) के lower bound को बेहतर बनाने पर केंद्रित है
    • किसी hypergraph ((V, \mathcal H)) में आकार (n) का partition शामिल होने का अर्थ है कि (D \subseteq V), (\mathcal P \subseteq \mathcal H) ऐसे मौजूद हों कि (|D| = n) हो, और (D) का प्रत्येक तत्व ठीक एक (\mathcal P) तत्व में शामिल हो
    • (H(n)) को ऐसे hypergraph के अधिकतम vertex count (k) के रूप में परिभाषित किया गया है जिसमें कोई isolated vertex न हो, और जो आकार (n) से बड़े partition को शामिल न करता हो
  • ज्ञात (H(n)) का lower bound संभवतः optimal नहीं है, और माना जाता है कि नई hypergraph construction के ज़रिए इसे सुधारा जा सकता है
    • लक्ष्य ऐसा algorithm खोजना है जो (H(n) \ge c \cdot k_n) (जहाँ, (c > 1)) को संतुष्ट करे
    • (k_n) को recursive relation (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) से परिभाषित किया गया है

समस्या निर्माण के चरण

  • Warm-up चरण

    • उन (n) मानों के लिए hypergraph बनाना जिनके लिए पहले से ज्ञात समाधान मौजूद है
    • शर्तें: (|V| ≥ 64), (|H| ≤ 20), और आकार 20 से बड़ा कोई partition न हो
  • Single Challenge चरण

    • उन (n) मानों के लिए समान शर्तों के साथ hypergraph खोजने का कार्य जिनके लिए ज्ञात समाधान मौजूद नहीं है
    • शर्तें: (|V| ≥ 66), (|H| ≤ 20), और आकार 20 से बड़ा कोई partition न हो
  • Full Problem चरण

    • सभी (n) के लिए काम करने वाले general algorithm की आवश्यकता
    • दिए गए input (n) के लिए ऐसा hypergraph बनाना होगा जो (H(n) ≥ c \cdot k_n) को संतुष्ट करे
    • (n ≤ 100) होने पर इसे सामान्य laptop पर 10 मिनट के भीतर चलाया जा सकना चाहिए

गणितज्ञों का मूल्यांकन

  • इस समस्या से परिचित गणितज्ञों की संख्या लगभग 10 मानी जाती है, जिनमें इस क्षेत्र के कई विशेषज्ञ शोधकर्ता शामिल हैं
  • वास्तव में समस्या को हल करने की कोशिश करने वाले गणितज्ञों की संख्या लगभग 5–10 आंकी गई है
  • किसी विशेषज्ञ के लिए इस समस्या को हल करने में लगने वाला अनुमानित समय 1–3 महीने है
  • समाधान का स्तर विशेषज्ञ academic journal में प्रकाशित होने योग्य माना गया है
  • समस्या की समृद्धि के कारण समाधान के नए गणितीय शोध की ओर बढ़ने की संभावना अधिक मानी गई है
  • बताए गए मानकों के तहत समस्या के हल होने की संभावना 95–99% आंकी गई है

1 टिप्पणियां

 
GN⁺ 2026-03-25
Hacker News प्रतिक्रियाएँ
  • बहुत से लोगों को यह बात बड़े आत्मविश्वास से कहते देखना हैरान करता है कि “LLM में वास्तविक creativity नहीं हो सकती”
    सिर्फ यह कहना कि “यह training data में नहीं था, इसलिए असंभव है” पर्याप्त नहीं है। इसके पहले ही कई counterexamples मौजूद हैं
    फिर यह बताने के लिए आधार चाहिए कि कुछ नए task संभव क्यों माने जाते हैं और कुछ असंभव क्यों
    अगर हम मान लें कि ‘नयापन’ एक continuum पर है, तो रेखा कहाँ खींची जाती है, और किस तरह का सबूत आने पर राय बदलेगी, यह जानना दिलचस्प है

    • अगर मैं खुद इस सवाल का जवाब देने की कोशिश करूँ, तो LLM की मूलभूत सीमाओं के पक्ष में कुछ तार्किक तर्क हैं
      1. यह human data पर train होता है, इसलिए human limitations की नकल करता है
      2. यह अनुभव से नहीं सीखता
        लेकिन इनके जवाब भी हैं। गणित ओलंपियाड में gold medal जीतने वाले मॉडल को देखकर मैंने पहला तर्क छोड़ दिया
        और RL व memory जोड़ने से दूसरी सीमा भी पार की जा सकती है
        शायद बड़े LLM इंसानों की तरह जानकारी को आंतरिक रूप से आत्मसात भी कर सकें
        संबंधित उदाहरण: METR ब्लॉग पोस्ट
    • LLM मूल रूप से कुछ भी generate कर सकता है। बस वह अपने बनाए हुए को समझ नहीं पाता
      इंसान “वास्तविक novelty” को बहुत भव्य तरीके से परिभाषित करते हैं — जैसे superconductivity का formula या नई दवा की खोज
      लेकिन वास्तव में जूते के फीते बाँधने का नया तरीका भी ‘औपचारिक’ रूप से नया है
      LLM ऐसी छोटी समस्याएँ अनगिनत बार हल कर सकता है, लेकिन वे ज़रूरी नहीं कि इंसानों को चकित कर देने वाली अर्थपूर्ण innovation हों
    • मैं macOS पर एक utility बना रहा था जो app window के आर-पार ‘देख’ सके, और Claude Code ने ScreenCaptureKit का इस्तेमाल न करने का सुझाव दिया
      उसने performance overhead के कारण इसे सही ढंग से अस्वीकार किया और पूरी तरह अलग approach दी
      यह कोई बहुत नई समस्या नहीं थी, लेकिन समाधान काफ़ी creative था, इसलिए मैं चौंक गया
      प्रोजेक्ट इमेज
    • LLM नए multiplication problem हल कर पाते हैं क्योंकि training के दौरान उन्होंने multiplication के असंख्य उदाहरण देखकर compressed abstract strategy सीखी होती है
      यह साधारण रटने की बात नहीं, बल्कि neural network के internal circuits में सामान्यीकृत operation का आत्मसातीकरण है
    • ज़्यादातर inventions तीन मौजूदा विचारों के interpolation का परिणाम होती हैं। ऐसे system यह काम बहुत अच्छी तरह करते हैं
  • मैं सोचता था कि अगर AI खुद कठिन समस्याएँ हल कर सके तो मैं मानूँगा, और अगर यह नतीजा सच है तो अब मैं लगभग विश्वासी बन गया हूँ
    मैं और उदाहरण देखना चाहता हूँ, लेकिन दुनिया सचमुच नई और रोमांचक दिशा में बदल रही है

    • गणित और coding प्रतियोगिता के सवालों में नियम स्पष्ट होते हैं और verification आसान होता है, इसलिए learning आसान होती है
      लेकिन code quality जैसे अस्पष्ट रूप से परिभाषित क्षेत्रों में hallucination बढ़ जाती है
      AlphaGo की तरह self-learned value function न होने से सिर्फ RL की सीमाएँ हैं
    • “नई और रोमांचक दुनिया” कहने से ज़्यादा, अब शायद अंतहीन reheating का युग आने वाला है
      AI लगातार ‘ठीक-ठाक’ स्तर का content बनाता रहेगा, लेकिन असली भावनात्मक असर गायब हो जाएगा
      इंसानों के बीच जो अच्छी चीज़ें आदान-प्रदान होती थीं, वे कम होंगी, और बुरी चीज़ें ही amplify होंगी
    • LLM सिर्फ एक remixer है। यह सिर्फ अतीत में मौजूद अक्षर-क्रमों की भविष्यवाणी करता है, पूरी तरह नए pattern खुद नहीं बनाता
    • यह समझ नहीं आता कि ‘कठिन समस्या हल करना’ AI का मानदंड क्यों माना जाए
      ज़्यादातर इंसान भी ऐसी समस्याएँ नहीं सुलझा पाते, जबकि AI पहले से ही general knowledge work में शानदार है
      अगर यही मानदंड है, तो यह AGI या ASI के काफ़ी करीब की परिभाषा है
    • कुछ मशहूर VC ने कहा कि DeepSeek ने introductory electromagnetism level की समस्या हल की और उसे “super-genius model” कहा, लेकिन यह बढ़ा-चढ़ाकर कहा गया लगता है
      असल में वह कौन-सी समस्या थी, इसकी विशेषज्ञ द्वारा जाँच ज़रूरी है
  • अब भी यह मूल धारणा बहुत मज़बूत लगती है कि इंसान कुछ विशेष हैं
    लोग इस बात पर पर्याप्त विचार नहीं करते कि “बस कई कोशिशों के बाद काम बन जाना” जैसी व्याख्या इंसानों पर भी लागू हो सकती है
    वैज्ञानिक सोच को महत्व देने वाले समुदायों में भी human exceptionalism गहराई से मौजूद है

    • इंसानों में सिर्फ 20 watt पर अनुभव के बिना तर्क करने की क्षमता है। यह निश्चित ही खास बात है
    • इस उपलब्धि का अर्थ भी आखिरकार इसलिए है क्योंकि समस्या इंसानों ने बनाई और AI के साथ मिलकर सत्यापित की
      AI खुद अपने लक्ष्य तय नहीं करता और न ही अपनी उपलब्धि को पहचानता है
      भारी लागत खर्च करके जो मिला, वह शायद सिर्फ एक मामूली गणितीय प्रगति हो
    • इंसान विशेष हैं, यह सिर्फ विश्वास नहीं बल्कि neuroscience और cognitive science का एक प्रायोगिक तथ्य है
      मैं functionalist हूँ, लेकिन LLM का ‘बुद्धिमत्ता जैसा दिखना’ मुझे वास्तविक बुद्धिमत्ता नहीं लगता
    • इंसानी विशिष्टता को समझने के लिए Orchestrated Objective Reduction सिद्धांत देखना उपयोगी हो सकता है
    • बात यह नहीं कि इंसान विशेष हैं, बल्कि यह कि statistical models ढाँचे के बाहर की सोच लगभग नहीं कर पाते
  • GPT‑5.4 Pro के साथ पूरी बातचीत और परिणाम रिपोर्ट सार्वजनिक हैं
    पूरी बातचीत / परिणाम सारांश

    • दिए गए solution template फ़ाइल की वास्तविक सामग्री क्या थी, यह जानने की जिज्ञासा है
      और यह भी दिलचस्प है कि user ने बीच में token usage अपडेट करते हुए context को कैसे बढ़ाया
  • Opus 4.6 ने लगभग 250,000 token इस्तेमाल किए, इसे देखकर token count को समस्या की कठिनाई का संकेतक मानने का विचार आता है
    आज किया गया मेरा React refactoring शायद गणित की इस कठिन समस्या का आधा ही कठिन था — यह सोचकर हँसी आती है

    • मज़ाक जैसा लगता है, लेकिन गणित मूल रूप से बहुत बंद क्षेत्र है, इसलिए शायद सच में ऐसा हो सकता है
      कुछ समस्याएँ ऐसी होती हैं जिन्हें पूरी दुनिया में सिर्फ 5~10 लोगों ने ही आज़माया होता है
      जैसे कम motivation के कारण अधूरा पड़ा software, वैसे ही गणित की समस्याएँ भी सिर्फ कम प्रयासकर्ताओं के कारण unsolved रह सकती हैं
      फिर भी AI ने ऐसी समस्या हल की, यह चमत्कार जैसा है
    • Context management महत्वपूर्ण है। token की बर्बादी performance गिरने का कारण बनती है
      context बढ़ने पर लागत भी बढ़ती है, और provider कीमत भी बढ़ा सकते हैं
    • Opus 4.6 और GPT‑5.4 Pro के output की तुलना में, पहले वाले ने ज्यादा विविध verification attempts और thought process दिखाया, जो दिलचस्प था
    • गणित में एक variable पर एक token लगता है, लेकिन software में readability के कारण बहुत अधिक token खर्च होते हैं
    • token count complexity का संकेतक नहीं है। data-centric problems साधारण thinking-type problems की तुलना में बहुत अधिक token खाती हैं
  • AI की क्षमता trained cost function से तय होती है
    आखिरकार intelligence जटिल cost function को minimize करने की प्रक्रिया ही है
    गणित और coding जैसे automatically verifiable domains में RLVR जैसी approach तेज़ी से आगे बढ़ेगी
    लेकिन social reward या बहुत uncertainty वाले क्षेत्रों में प्रगति धीमी हो सकती है

    • इसका एक जवाब यह है कि “कुछ समस्याएँ cost function में व्यक्त ही नहीं की जा सकतीं”
      उदाहरण के लिए complex numbers की शुरुआत को representation optimization का परिणाम माना जा सकता है
  • Domain experts अपने problem-solving तरीकों को LLM को सिखा रहे हैं
    अंततः LLM उनके thought patterns की नकल करके समस्याएँ हल करने लगते हैं

  • मुझे लगता है बहुत-सी समस्याएँ मौजूदा proofs को resample करके हल की जा सकती हैं
    मशीन वह दोहरावदार खोज लगातार कर सकती है जो इंसान को पागल कर दे
    यह बहुत बड़ी प्रगति न सही, पर conjecture को theorem में बदलने का काम कर सकती है

    • सवाल यह है कि क्या वह proof अर्थपूर्ण है। ज़्यादातर मामलों में वह मौजूदा paradigm के भीतर की पुनरावृत्ति ही होगी
      पूरी तरह नया दृष्टिकोण खोलने वाली बातें दुर्लभ होती हैं
      यह token की बर्बादी भी हो सकती है
    • मुझे लगता है हर discovery combinatorial synthesis का परिणाम होती है। पूर्ण शून्य से कुछ आना लगभग नहीं होता
    • तब यह जानने की उत्सुकता है कि ‘वास्तविक novelty’ को मापने के लिए benchmark design कैसा होना चाहिए
  • Epoch के Open Problems पेज पर 15 समस्याएँ और उनकी difficulty classification दी गई हैं
    इस बार जो हल हुई, वह ‘moderately interesting’ स्तर की थी, यानी आसान श्रेणी की ओर
    फिर भी यह प्रभावशाली है कि समस्या हल होने से पहले ही सार्वजनिक थी
    अब यह देखने की उत्सुकता है कि उसी स्तर की बची हुई 3 समस्याएँ कितनी जल्दी हल होती हैं

    • किसी भी कठिन समस्या को LLM द्वारा हल किया जाना अपने आप में science fiction स्तर की घटना लगता है
  • शीर्षक थोड़ा भ्रामक है
    असली शीर्षक “A Ramsey-style Problem on Hypergraphs” है, और इसे सिर्फ GPT‑5.4 ने नहीं बल्कि कई आधुनिक मॉडलों ने हल किया
    फिर भी यह अब भी एक शानदार उपलब्धि है