1 पॉइंट द्वारा GN⁺ 2025-10-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI शोधकर्ता द्वारा GPT-5 के Erdős समस्या समाधान का जो दावा किया गया, उसे समुदाय और उद्योग के लोगों की आलोचना के बाद तुरंत वापस ले लिया गया
  • इस दावे की भाषा से ऐसा अर्थ निकल रहा था कि AI ने दशकों से अनसुलझी मानी जाने वाली गणितीय पहेली का वास्तविक प्रमाण स्वयं खोज निकाला
  • वास्तविकता में GPT-5 सिर्फ पहले से मौजूद शोध को फिर से दिखाने तक ही सीमित था, और किसी वास्तविक अनसुलझी समस्या का नया हल प्रस्तुत नहीं किया
  • इस घटना ने OpenAI की विश्वसनीयता पर सवाल और बिना पुष्टि वाले AI दावों को बढ़ा-चढ़ाकर पेश करने के प्रति उद्योग की चिंता बढ़ाई
  • वास्तव में GPT-5 की ताकत शोध-पत्र खोजने और साहित्य को व्यवस्थित करने वाले सहायक के रूप में दिखी

घटना का सारांश

  • हाल ही में OpenAI शोधकर्ता ने X(पूर्व नाम Twitter) पर दावा किया कि GPT-5 ने "10 अनसुलझे Erdős समस्याओं के समाधान" और 11 अतिरिक्त समस्याओं में प्रगति जैसी क्रांतिकारी उपलब्धि हासिल की
  • इस दावे को इस रूप में समझा गया कि GPT-5 ने कठिन सांख्यिकीय/संख्या सिद्धांत संबंधी गणितीय समस्याओं के गणितीय प्रमाण स्वतंत्र रूप से निकाले
  • कई अन्य OpenAI शोधकर्ताओं ने भी इसी तरह की पोस्ट डालकर संकेत दिया कि यह AI नवीन वैज्ञानिक खोज कर सकता है

समुदाय द्वारा सत्यापन और विवाद

  • Erdosproblems.com साइट चलाने वाले गणितज्ञ Thomas Bloom ने तुरंत ही इसका खंडन किया और बताया कि साइट पर open के रूप में दिखाए गए प्रश्न वास्तव में अनसुलझे नहीं थे
    • ये प्रश्न केवल इतने थे कि Bloom को स्वयं उत्तर नहीं पता थे, या उन्होंने पहले के शोध की जाँच नहीं की थी
    • GPT-5 ने पहले से मौजूद शोध परिणाम खोजे थे, कोई नया गणितीय समाधान खोजा नहीं था
  • यह सच सामने आने पर OpenAI शोधकर्ताओं ने पोस्ट हटाई या सामग्री बदल दी
  • समुदाय और प्रमुख व्यक्तियों, जैसे DeepMind CEO Demis Hassabis ने इसे "शर्मनाक" कहा, जबकि Meta AI के Yann LeCun ने यह इंगित किया कि OpenAI अपनी ही प्रचारबाज़ी में फँस गया
  • शोध टीमों ने गलती स्वीकार की और GPT-5 की वास्तविक भूमिका को फिर से समझाया

उद्योग में भरोसा संकट और आलोचना

  • इस घटना से यह राय मजबूत हुई कि OpenAI की विश्वसनीयता और तथ्य-जाँच प्रक्रिया में खामियाँ उजागर हुईं
    • खासकर, AI उद्योग में बढ़े हुए दावों और संबंधित शेयर उत्साह के मेल से बिना सत्यापन वाली उपलब्धियाँ प्रकाशित होने का डर बढ़ा
  • सवाल उठा कि शीर्ष शोधकर्ता बिना सत्यापन के इतने नाटकीय दावे सार्वजनिक क्यों कर रहे थे, और संगठन के अंदरूनी स्वास्थ्य पर भी प्रश्नचिह्न लगा

वास्तविक परिणाम और गणित में AI की भूमिका

  • व्यावहारिक रूप से GPT-5 ने कठिन और शब्दावली में विविध गणितीय समस्याओं के लिए संबंधित शोध-पत्र और अध्ययन सामग्री खोजने वाले सहायक के रूप में अपनी उपयोगिता दिखाई
  • गणितज्ञ Terence Tao का मानना है कि AI को 'सबसे नए अनसुलझे समस्याओं का समाधान' कहने से अधिक, इसे विशाल साहित्य खोज और दोहराई जाने वाली खोज प्रक्रियाओं को तेज करने वाला माना जाना चाहिए
    • कुछ स्वतंत्र प्रगति उदाहरण मौजूद हैं, लेकिन अभी के लिए इसकी ताकत शोध-पत्र खोजने और क्रमबद्ध करने में ज्यादा दिखती है
  • आगे गणित क्षेत्र में Generative AI गति बढ़ाने और स्वचालन में योगदान दे सकता है
    • लेकिन विशेषज्ञ सत्यापन, वर्गीकरण और परिणामों के एकीकरण की अब भी अहम जरूरत रहेगी

निष्कर्ष

  • यह घटना Generative AI की वास्तविक सीमाओं, औद्योगिक संभावनाओं और AI शोध परिणामों को बढ़ा-चढ़ाकर बताने के जोखिम को उजागर करने वाला एक प्रतिनिधि उदाहरण है
  • नतीजतन GPT-5 को किसी अनसुलझे गणितीय समस्या का क्रांतिकारी ब्रेकथ्रू नहीं, बल्कि शोध डेटा को व्यवस्थित करने में मदद करने वाला सहायक टूल मानना अधिक उपयुक्त है

1 टिप्पणियां

 
GN⁺ 2025-10-20
Hacker News राय
  • OpenAI टीम के साथ निष्पक्ष रहने के लिए अगर संदर्भ देखें, तो मुझे लगता है कि स्थिति इतनी दुर्भावनापूर्ण नहीं थी
    हटाए गए ट्वीट में लिखा था कि "GPT-5 ने 10 (पहले अनसुलझी मानी जाने वाली) Erdös समस्याएँ हल कर दीं, और 11 और पर भी प्रगति हुई, दशकों से अनसुलझी समस्याएँ"
    अगर यह ट्वीट अकेले पोस्ट किया गया होता, तो मैं मानता कि यह भ्रामक था, लेकिन वास्तव में यह एक quote tweet था
    पहला quoted मूल पोस्ट (https://x.com/MarkSellke/status/1979226538059931886) कहता है कि "इसे और आगे बढ़ाया जा रहा है"
    और इस ट्वीट में quoted दूसरा मूल पोस्ट (https://x.com/SebastienBubeck/status/1977181716457701775) कहता है कि GPT-5 literature search में इतना अच्छा था कि उसने "असल में 20 साल पहले हल की गई समस्या खोज निकाली, और Erdos समस्या #339 को, जिसे अभी भी open problem के रूप में वर्गीकृत किया गया था, 'solve' कर दिया"
    अगर इस थ्रेड को क्रम से पढ़ें

    • SebastienBubeck: "GPT-5 literature search में बहुत अच्छा है, इसलिए उसने पहले से हल मौजूद होने के बावजूद उस समस्या को ऐसे 'solve' किया जिसे लोग अभी भी open समझ रहे थे"

    • MarkSellke: "अब इसने 10 और किए"

    • kevinweil: "देखो, हमने क्या शानदार उपलब्धि हासिल की है!"
      आखिरकार यह quote tweet फ़ॉर्मेट की समस्या लगती है, जहाँ kevinweil ने कई स्तरों के quote के कारण शुरुआती बिंदु ही मिस कर दिया—कि यह वास्तव में पहले से मौजूद समाधान ढूँढ़ने की बात थी—और पाठक के लिए यह गलत समझना लगभग तय था
      इस तरह की गलती काफ़ी समझ में आने वाली लगती है, और मुझे विवाद थोड़ा ज़्यादा बढ़ा हुआ लगता है

    • इस बात पर कि Weil ने अपने quote tweet के संदर्भ पर पर्याप्त ध्यान नहीं दिया, खुद Weil ने सीधे स्वीकार किया है कि उन्होंने Sellke की पोस्ट को गलत समझ लिया था (https://x.com/kevinweil/status/1979270343941591525 पर देखा जा सकता है)
      Sellke ने कहा था "open problem के रूप में वर्गीकृत", जबकि Weil ने कहा "पहले अनसुलझी समस्याएँ"

    • पहले व्यक्ति ने कहा कि "20 साल पहले ही हल हो चुकी चीज़ को खोजकर समस्या 'हल' की गई", जबकि दूसरे व्यक्ति ने कहा कि "पहले अनसुलझी 10 Erdös समस्याएँ हल कर दी गईं"
      मुझे लगता है कि "पहले अनसुलझी" वाली अभिव्यक्ति वास्तविक संदर्भ से मेल नहीं खाती

    • मुझे जिज्ञासा है कि कहीं मैं ही इसे गलत तो नहीं समझ रहा
      यह कुछ महीनों पहले DeepMind द्वारा प्रकाशित उस पेपर जैसा लगता है जिसमें कहा गया था कि वह “matrix multiplication को SOTA से बेहतर करता है”
      तब कहा गया था कि Gemini ने नई optimization technique खोजी, लेकिन घोषणा के तुरंत बाद गणितज्ञों ने बता दिया कि यह तरीका 30-40 साल पुराने literature में पहले से मौजूद था, और यह भी बहुत संभव था कि वह Gemini के training data में रहा हो

    • इस दावे के बारे में कि "GPT-5 literature search में बहुत अच्छा है, और उसने पहले से हल वाली समस्या 'solve' की"
      मुझे यह survivor bias लगता है
      वास्तव में GPT-5 अपेक्षाकृत आसान search में भी अक्सर विफल हो जाता है
      search result सही है या नहीं, यह पर्याप्त रूप से जानना या खुद verification करना ज़रूरी होता है
      यह कुछ वैसा है जैसे पासा 1000 बार फेंककर हर बार double six आने की पोस्ट करके शेखी बघारना
      उससे मैं दुनिया का सबसे अच्छा dice thrower नहीं बन जाता

  • erdosproblems.com चलाने वाले गणितज्ञ Thomas Bloom की तत्काल आपत्ति का उल्लेख
    उन्होंने ज़ोर दिया कि इसका अर्थ "unsolved problem" नहीं, बल्कि "मुझे इसका उत्तर नहीं पता (open)" है
    मुझे लगता है कि किसी गणितज्ञ का 'open' को इस तरह परिभाषित करना अजीब है
    जैसे मैं किसी ऐसी textbook exercise को, जिसका उत्तर मुझे न पता हो, 'open question' नहीं कहूँगा

  • इस दावे का खंडन कि "GPT-5 literature review के सहायक टूल के रूप में उपयोगी है"
    मुझे तो लगता है कि यह बस बहुत भरोसेमंद दिखने वाला लेकिन नकली output बनाता है
    जो लोग उसके नतीजों से संतुष्ट हो जाते हैं, उनकी ज़िंदगी शायद मेरी तुलना में बहुत आसान होगी
    मैं engineering mathematics papers वगैरह खोजने के लिए घंटों library में खंगालने के बाद, आख़िरी उपाय के रूप में chatbot से उम्मीद बाँधता हूँ
    लेकिन अंत में result अजीब निकलता है, फिर बहुत देर दोबारा verification करना पड़ता है, और बस यह निराशा बचती है कि "यह सच में संभव हो ही नहीं सकता था"
    और मुझे लगता है कि यह अनुभव सिर्फ़ मेरा नहीं है

    • अगर मैं literature research के लिए deep search बार-बार करूँ, तो GPT लगभग 50% संभावना से बिना आधार वाले (hallucinated) source बना देता है
      high-level review में hallucination लगभग 5% तक होती है
      असली 50% sources में से आधे पहले से परिचित papers होते हैं, और बाकी आधे अपरिचित
      सचमुच अच्छी बात यह है कि कभी-कभी यह ऐसे papers खोज देता है जिन्हें ढूँढ़ना मुश्किल था (Google Scholar वगैरह से भी नहीं मिलते)
      खासकर दूसरे क्षेत्रों के संबंधित शोध, या कम उद्धृत abstract papers जैसे बहुत विविध sources मिल जाते हैं
      कुल result का 75% बेकार या hallucinated होने पर भी, बाकी 25% इतना अधिक मूल्य देता है कि व्यवहार में यह बहुत उपयोगी हो जाता है

    • यह कहना कि 'यह बिल्कुल उपयोगी नहीं है', शायद अतिशयोक्ति होगी
      GPT 500,000 शब्द कुछ ही मिनटों में search कर सकता है, और summary, detailed answer, और हर claim के साथ evidence भी दे सकता है
      बेशक summary पर अंधविश्वास नहीं करना चाहिए, और महत्वपूर्ण जानकारी को source पर क्लिक करके ज़रूर verify करना चाहिए
      फिर भी यह अब भी बहुत शानदार search tool और productivity booster है

    • मुझे इसका नाम याद नहीं, लेकिन एक सिद्धांत है
      लोग जब किसी ऐसे विषय पर अख़बार का लेख पढ़ते हैं जिसे वे अच्छी तरह जानते हैं, तो उन्हें उसमें सारी खामियाँ दिखती हैं और वे सोचते हैं, "यह लेख छपा कैसे?"
      लेकिन जिन विषयों के बारे में वे नहीं जानते, उन पर वही लोग लेख को बिना आलोचना के मान लेते हैं
      मुझे लगता है ChatGPT के बारे में भी वैसा ही अंधविश्वास बन जाता है

    • सच कहूँ तो GPT-5 जैसे chatbot को search/literature review के लिए ज़बरदस्ती इस्तेमाल करने के बजाय, शायद एक बहुत ताकतवर semantic search engine का उपयोग करना बेहतर होता
      chatbot से summary या answer बनवाने पर hallucination हमेशा साथ आती है
      जबकि LLM embedding-आधारित document search में result खुद hallucinated होने का जोखिम नहीं होता, और यह Google/Bing जैसी मौजूदा search से भी बेहतर तरीके से papers ढूँढ़ सकता है
      हो सकता है ऐसी service पहले से मौजूद हो और बस मुझे ही पता न हो, इसलिए यह बात ध्यान में रखनी चाहिए

    • अगर किसी की literature review tool में रुचि हो, तो मैं वह open platform साझा कर रहा हूँ जो मैंने अपने graduate school के दोस्तों के लिए बनाया था
      यह hierarchical mixture model का उपयोग करके large-scale search और citation network को व्यवस्थित करता है
      उपयोग उदाहरण: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all

  • उसी हफ़्ते जब DeepMind ने वास्तव में AI का उपयोग कर cancer treatment में breakthrough जैसा कुछ दिखाया, OpenAI का यह मुद्दा सामने आना तुलना में काफ़ी बुरा प्रभाव छोड़ता है
    मुझे अपने पुराने बॉस की बात याद आती है: "ऐसा व्यक्ति मत बनो जिसकी वजह से नई policy बनानी पड़े"
    लगता है OpenAI को अब अपनी communication policy बदलनी चाहिए

  • OpenAI के कर्मचारियों को शायद अपने models की वास्तविक क्षमता का काफ़ी अच्छा अंदाज़ा होगा, लेकिन भले ऐसा न भी हो, इंटरनेट पर किए गए किसी भी दावे के प्रति हमेशा सावधान रहना ही सही है
    मुझे लगता है कि इसी संस्कृति ने आज के AI hype माहौल को जन्म दिया है

    • एक मशहूर कहावत याद आती है: “किसी को कुछ समझाना मुश्किल होता है, जब उसकी तनख़्वाह इस बात पर निर्भर करती हो कि वह उसे न समझे”
  • इस घटना से जो बात सामने आई, वह यह दुखद सच है कि OpenAI अनसुलझी गणितीय समस्याओं में गंभीर निवेश नहीं कर रहा

    • मुझे लगता है यह तार्किक छलाँग है
      OpenAI जैसे बड़े संगठन में अलग-अलग research division की टीमें कई दिशाओं में प्रयोग कर रही होंगी, यह मानना ज़्यादा स्वाभाविक है

    • जिस क्षण OpenAI ने ads और adult content की ओर business pivot किया, उसी समय मुझे लगा कि उसने ‘jump the shark’ कर दिया
      बाज़ार ने अभी तक इस सच्चाई को reflect नहीं किया है

    • सिर्फ़ एक कर्मचारी ने गलत घोषणा कर दी, इससे मैं पूरे संगठन का आकलन नहीं करूँगा

  • यह अजीब नहीं होगा अगर OpenAI के कर्मचारियों से इसी तरह के (marketing wording वाले) ऐलान करने को कहा जाता हो
    यह पहली बार नहीं है; पहले भी ऐसे उदाहरण रहे हैं जहाँ दावा किया गया कि GPT-5 ने कुछ ‘solve’ किया (https://x.com/SebastienBubeck/status/1970875019803910478 देखें)
    धीरे-धीरे ऐसे कई उदाहरण सामने आ रहे हैं जहाँ GPT-5 मामूली अनसुलझी गणितीय समस्याएँ—अक्सर ऐसी जिन्हें कोई PhD student एक-दो दिन में हल कर सकता है—वास्तव में हल कर पाता है
    अभी तक लोग उसके impact को पूरी तरह ग्रहण नहीं कर पाए हैं

  • "जो चीज़ आप खुद बना रहे हों, उस पर खुद ही ज़रूरत से ज़्यादा भरोसा मत करो" — इस सलाह की कमी महसूस होती है

  • Yann LeCun का "Hoisted by their own GPTards" वाला वाक्य असरदार लगा

    • Yann निस्संदेह बुद्धिमान हैं और इस क्षेत्र की जड़ों तक समझ रखते हैं, लेकिन मुझे लगता है कि इन दिनों उनमें कुछ नकारात्मक प्रवृत्ति भी है और उनके सार्वजनिक बयान भी जल्दी गलत साबित हो जाते हैं
      पहले एक बार युवा शोधकर्ताओं के साथ एक प्रस्तुति में उन्होंने दो मज़बूत दावे किए थे

      1. LLM गणित की समस्याएँ हल नहीं कर सकते: वे सिर्फ़ आवाज़/भाषा की नकल करते हैं, लेकिन verify होने वाली समस्या पर टिक नहीं पाते
      2. LLM plan नहीं बना सकते
        लेकिन एक साल के भीतर अब AI tool use, IMO medals, और agent-based planning जैसी चीज़ें ठीक-ठाक करने लगा है
        उनका एक और दावा था कि LLM में बातचीत लंबी होने पर errors जमा होते जाते हैं और अंततः वे बेतुके नतीजों तक पहुँचते हैं, लेकिन हाल के long-context और RL के संयोजन से यह भी काफ़ी हद तक पार किया जा चुका है
        चाहे कोई कितना भी प्रतिभाशाली क्यों न हो, मुझे लगता है कि किसी एक व्यक्ति की राय को कुछ फ़िल्टर के साथ ही लेना चाहिए
    • शायद मैं ही संदर्भ मिस कर रहा हूँ, लेकिन Yann का 'retard' से बना शब्द इस्तेमाल करना अप्रत्याशित लगा
      सामान्यतः ऐसी भाषा Elon Musk जैसे किसी व्यक्ति से अपेक्षित लगती है
      जानना चाहूँगा कि उसका संदर्भ क्या था

  • सैकड़ों अरब डॉलर वाले circular financing scandal के बाद, AI उद्योग या कृत्रिम hype के बारे में अब कुछ भी पढ़कर मुझे सचमुच आश्चर्य नहीं होता