1 पॉइंट द्वारा GN⁺ 1 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • unit distance problem 1946 का Erdős द्वारा पूछा गया सवाल है, जो समतल में n बिंदुओं के बीच दूरी 1 वाले बिंदु-युग्मों की अधिकतम संख्या पूछता है, और एक पुराना केंद्रीय conjecture अब गलत साबित हो गया है
  • OpenAI के general-purpose reasoning model ने यह मान्यता तोड़ी कि square lattice परिवार लगभग सर्वश्रेष्ठ है, और अनंत उदाहरणों का एक परिवार बनाकर polynomial स्तर का सुधार पेश किया
  • नया construction अनंत रूप से कई n के लिए n^{1+δ} से अधिक unit-distance बिंदु-युग्म बनाता है, और Will Sawin के सुधार से दिखता है कि δ = 0.014 संभव है
  • यह proof Gaussian integers से आगे बढ़कर infinite class field tower और Golod–Shafarevich theory जैसे algebraic number theory tools को geometry समस्या पर लागू करता है
  • यह परिणाम दिखाता है कि AI पुराने open problems में मौलिक गणितीय खोज में योगदान दे सकता है, जबकि समस्या-चयन और व्याख्या में मानव विशेषज्ञता और भी महत्वपूर्ण हो जाती है

unit distance problem में बड़ी प्रगति

  • unit distance problem एक combinatorial geometry समस्या है, जो पूछती है कि समतल में रखे n बिंदुओं के बीच ठीक दूरी 1 वाले बिंदु-युग्मों की अधिकतम संख्या कितनी हो सकती है
  • इसे Paul Erdős ने 1946 में उठाया था, और Brass, Moser, Pach की 2005 की किताब Research Problems in Discrete Geometry ने इसे “संभवतः combinatorial geometry की सबसे प्रसिद्ध और समझाने में सबसे आसान समस्या” कहा
  • Princeton के combinatorialist Noga Alon ने इसे Erdős की खास पसंदीदा समस्याओं में से एक बताया, और Erdős ने इसके समाधान पर इनाम भी रखा था
  • लंबे समय तक यह माना जाता रहा कि square lattice परिवार का construction unit-distance बिंदु-युग्मों की संख्या को लगभग अधिकतम बनाता है
  • OpenAI के एक internal model ने इस पुराने conjecture का खंडन करने वाले अनंत उदाहरणों का परिवार बनाया और polynomial स्तर का सुधार दिया
  • इस proof की समीक्षा बाहरी गणितज्ञों के एक समूह ने की, और उन्होंने तर्क, पृष्ठभूमि और परिणाम के महत्व पर एक companion paper भी लिखा
  • proof का मूल पाठ unit-distance-proof.pdf, companion paper unit-distance-remarks.pdf, और मॉडल की chain of thought का संक्षिप्त संस्करण unit-distance-cot.pdf में देखा जा सकता है

AI ने यह रास्ता कैसे खोजा

  • यह proof किसी math-only trained system, proof-strategy search scaffolding, या unit distance problem के लिए खास बने system से नहीं, बल्कि एक general-purpose reasoning model से आया
  • frontier research में advanced models योगदान दे सकते हैं या नहीं, इसे परखने के व्यापक प्रयास के हिस्से के रूप में Erdős problems के संग्रह पर evaluation हुआ, और इसी समस्या में एक open problem को हल करने वाला proof उत्पन्न हुआ
  • गणित reasoning क्षमता की परीक्षा के लिए एक स्पष्ट क्षेत्र है, क्योंकि समस्याएँ सटीक होती हैं, candidate proofs को verify किया जा सकता है, और लंबे तर्कों को शुरुआत से अंत तक सुसंगत रहना पड़ता है
  • यह proof ऊपर से elementary दिखने वाली geometry समस्या पर algebraic number theory के अप्रत्याशित और परिष्कृत विचार लागू करता है
  • Tim Gowers ने companion paper में इस परिणाम को “AI mathematics का milestone” कहा
  • number theorist Arul Shankar के अनुसार, यह दिखाता है कि मौजूदा AI models मानव गणितज्ञों के assistant से आगे बढ़कर मौलिक और sophisticated ideas दे सकते हैं और उन्हें अंत तक ले जा सकते हैं

unit distance problem की गणितीय सामग्री

  • u(n) को समतल में n बिंदुओं के बीच संभव unit-distance बिंदु-युग्मों की अधिकतम संख्या के रूप में परिभाषित किया जाता है
  • एक सरल construction में n बिंदुओं को एक सीधी रेखा पर रखकर n−1 बिंदु-युग्म बनाए जा सकते हैं, जबकि square lattice लगभग 2n बिंदु-युग्म बनाता है
  • पहले का सर्वश्रेष्ठ construction rescaled square lattice से आता था, और किसी स्थिरांक C के लिए n^{1 + C / log log(n)} unit-distance बिंदु-युग्म बनाता है
  • चूँकि log log(n) n के बढ़ने पर बढ़ता है, exponent का अतिरिक्त पद 0 की ओर जाता है, इसलिए इस construction की वृद्धि रैखिक से बस थोड़ी तेज रहती है
  • दशकों तक व्यापक रूप से माना गया कि यही दर लगभग सर्वश्रेष्ठ है, और Erdős ने तकनीकी रूप से n^{1+o(1)} upper bound conjecture किया था
  • नया परिणाम इस conjecture को गलत साबित करता है: अनंत रूप से कई n के लिए कोई स्थिर exponent δ > 0 मौजूद है, और n बिंदुओं के ऐसे configurations मिलते हैं जिनमें कम-से-कम n^{1+δ} unit-distance बिंदु-युग्म होते हैं
  • मूल AI proof ने δ का explicit मान नहीं दिया था, लेकिन Princeton के गणित प्रोफेसर Will Sawin के बाद के सुधार से दिखा कि δ = 0.014 लिया जा सकता है

यह इतना चौंकाने वाला क्यों है

  • 1946 में Erdős के मूल construction के बाद से ज्ञात सर्वश्रेष्ठ lower bound में मूलतः लगभग कोई बदलाव नहीं आया था
  • ज्ञात सर्वश्रेष्ठ upper bound O(n^{4/3}) Spencer, Szemerédi, Trotter के 1984 के काम से आया, और बाद में Székely, Katz और Silier, Pach, Raz, Solymosi आदि के सुधारों तथा संबंधित संरचनाओं के अध्ययन के बावजूद मूलतः बना रहा
  • Matoušek और Alon-Bucić-Sauermann ने समतल में non-Euclidean distances के संदर्भ में इस समस्या का अध्ययन किया, और ऐसे परिणाम दिए कि “अधिकांश” non-Euclidean distances किसी अर्थ में Erdős conjecture का समर्थन करते हैं
  • यह खास तौर पर आश्चर्यजनक है कि नए construction की मुख्य सामग्री algebraic number theory से आई, जो geometry और distance से दूर का क्षेत्र लगता है
  • algebraic number theory वह क्षेत्र है जो algebraic number fields नामक पूर्णांकों के विस्तारों में factorization जैसी अवधारणाओं का अध्ययन करता है

algebraic number theory से आई नई तकनीकें

  • नया proof परिचित geometric ideas से शुरू होता है, लेकिन फिर एक अप्रत्याशित दिशा में फैलता है
  • Erdős की मूल lower bound को a + bi रूप के Gaussian integers के माध्यम से समझा जा सकता है
  • यहाँ a और b पूर्णांक हैं, और i, −1 का वर्गमूल है
  • Gaussian integers सामान्य पूर्णांकों का विस्तार हैं, और इनमें पूर्णांकों जैसी विशेषताएँ होती हैं, जैसे primes में unique factorization
  • ऐसे पूर्णांकों या rational numbers के विस्तारों को algebraic number fields कहा जाता है
  • नया तर्क Gaussian integers की जगह algebraic number theory के अधिक जटिल generalizations का उपयोग करता है, जहाँ अधिक समृद्ध symmetries ज्यादा unit-length differences बनाने देती हैं
  • सटीक तर्क infinite class field tower और Golod–Shafarevich theory जैसे tools का उपयोग करके यह दिखाता है कि आवश्यक number fields वास्तव में मौजूद हैं
  • ये ideas algebraic number theorists के बीच पहले से अच्छी तरह ज्ञात थे, लेकिन Euclidean plane की geometry समस्या पर उनका प्रभाव पड़ना एक बड़े आश्चर्य के रूप में देखा गया

गणित के लिए इसका अर्थ

  • यह AI और गणित की अंतःक्रिया में एक महत्वपूर्ण क्षण है, क्योंकि किसी AI system ने सक्रिय शोध क्षेत्र के केंद्र में मौजूद एक पुराने open problem को स्वायत्त रूप से हल किया
  • बाहरी गणितज्ञों के companion work ने मूल समाधान से तुरंत स्पष्ट न होने वाली एक अधिक समृद्ध तस्वीर प्रस्तुत की
  • Thomas Bloom ने companion paper में लिखा कि AI-generated proof का महत्व आँकते समय वे यह पूछते हैं कि क्या proof ने समस्या के बारे में कुछ नया सिखाया, और क्या उसने discrete geometry की समझ को बेहतर बनाया
  • Bloom के अनुसार, यह परिणाम दिखाता है कि number-theoretic constructions ऐसे सवालों पर अपेक्षा से कहीं अधिक कह सकते हैं, और आवश्यक number theory बहुत गहरी हो सकती है
  • Bloom का मानना है कि आने वाले महीनों में कई algebraic number theorists discrete geometry की अन्य open problems को गंभीरता से देखेंगे
  • algebraic number theory और discrete geometry के बीच यह अप्रत्याशित संबंध सिर्फ एक खास conjecture को हल नहीं करता, बल्कि संबंधित समस्याओं की आगे की खोज के लिए एक पुल बनता है
  • यह परिणाम दिखाता है कि AI सिर्फ उत्तर देने में नहीं, बल्कि गणितीय खोज में भी योगदान दे सकता है, जिसका अर्थ बाद में मानव समझ के जरिए और अधिक स्पष्ट व समृद्ध होता है

यह क्यों महत्वपूर्ण है

  • बेहतर mathematical reasoning, AI को एक अधिक शक्तिशाली research partner बना सकती है
  • यह कठिन thought processes को लगातार बनाए रख सकती है, दूर-दराज़ ज्ञान क्षेत्रों के बीच ideas जोड़ सकती है, और ऐसे promising paths सामने ला सकती है जिन्हें experts ने प्राथमिकता न दी हो
  • यह researchers को उन समस्याओं में प्रगति करने में मदद कर सकती है जो बहुत जटिल हैं या जिन पर काम करना समय-साध्य है
  • ऐसी क्षमता गणित से आगे बढ़कर biology, physics, materials science, engineering और medicine में भी उपयोगी है
  • यदि AI जटिल तर्कों को सुसंगत रख सके, दूरस्थ ज्ञान क्षेत्रों को जोड़ सके, और expert review पार करने वाले परिणाम बना सके, तो यह अधिक automated research systems की लंबी राह का हिस्सा बनती है
  • यह संकेत मिलता है कि AI शोध के creative हिस्से में, खासकर AI research itself में, बहुत गंभीर भूमिका निभाने लगेगी
  • ऐसी प्रगति अत्यंत बुद्धिमान systems के alignment, AI development के अगले चरण, और human-AI collaboration के भविष्य को समझने की तात्कालिकता बढ़ाती है
  • वह भविष्य अब भी मानव निर्णय पर निर्भर है
  • विशेषज्ञता कम महत्वपूर्ण नहीं हो रही, बल्कि और अधिक मूल्यवान बन रही है
  • AI खोजने, सुझाव देने और सत्यापित करने में मदद कर सकती है, लेकिन महत्वपूर्ण समस्याएँ चुनना, परिणामों की व्याख्या करना, और आगे किन प्रश्नों का पीछा करना है यह तय करना मनुष्यों का काम रहेगा

1 टिप्पणियां

 
GN⁺ 1 시간 전
Hacker News की राय
  • इस HN थ्रेड ने मुझे उदास कर दिया, और मैं अब भी सोच रहा हूँ कि ऐसा क्यों हुआ
    OpenAI की प्रेस रिलीज़ जैसी प्रशंसा को हटाकर देखें, तो गणितीय शोध में LLM की भूमिका को लेकर कई दिलचस्प और सूक्ष्म सवाल हैं
    नतीजों के साथ शामिल गणितज्ञों की टिप्पणियाँ, खासकर Tim Gowers की बात, ज़रूर पढ़ने लायक है
    लेकिन कमेंट सेक्शन 2023 से दोहराए जा रहे LLM विवाद, प्रतिवाद और गुस्से भरे पुनः-प्रतिवाद का युद्धक्षेत्र बन गया
    3 साल पहले खींची गई मोर्चाबंदी पर वही लड़ाई बार-बार दोहराना दुखद नहीं है क्या, और क्या 2 साल बाद भी हम यही कर रहे होंगे, यह सोचता हूँ

    • 2 साल बाद भी यहाँ और हर इंटरनेट फ़ोरम में यही चलता रहेगा
      Nietzsche की एक मशहूर पंक्ति मन में बसा लें तो जीवन बेहतर हो सकता है: “मैं कुरूपता के ख़िलाफ़ युद्ध नहीं करना चाहता। मैं आरोप नहीं लगाना चाहता। मैं आरोप लगाने वालों पर भी आरोप नहीं लगाना चाहता। नज़र फेर लेना ही मेरा एकमात्र निषेध होना चाहिए”
    • लोग अपनी रोज़ी-रोटी को लेकर चिंतित हैं, इसलिए यह स्वाभाविक प्रतिक्रिया है
    • यह समझ में आता है। मानव बुद्धि और AI को zero-sum competition की तरह आंकना आम बात है, क्योंकि नियोक्ता भी आम तौर पर इसे ऐसे ही समझते हैं और language model providers भी इसी तरह इसका प्रचार करते हैं
      AI जितना अपनी क्षमता साबित करता है, उतना ही यह उन सबके लिए असहज दिशा में झुकता है जिनकी नौकरी की सुरक्षा बहुत मज़बूत नहीं है
      लोगों को यह मानने में समय लगेगा कि AI के पास मानव बुद्धि से काफ़ी अलग क्षमताओं का एक सेट है और वह काफ़ी अच्छी तरह पूरक भी है
      बड़े पैमाने पर मानव बुद्धि को पछाड़ देने की इसकी संभावना कम है, और जो कंपनियाँ इस पर दाँव लगा रही हैं वे पीछे रह जाएँगी
    • जैसे ही एक पक्ष पत्थर फेंकना शुरू करता है, लेख का असली विषय महत्वहीन हो जाता है, और लड़ाई इस पर आ जाती है कि लेख अच्छा है या कूड़ा
      मैं इस तरह के विषय पर सचमुच चर्चा करना चाहता हूँ, लेकिन जब हर कोई मानता है कि सिर्फ़ उसकी अपनी वास्तविकता असली है और विरोधी वास्तविकता नकली, तो चीज़ें बस और भड़कती जाती हैं
      मुझे एहसास होता है कि मैं HN पर आकर सिर्फ़ गुस्सा कर रहा हूँ, तो मैं लंबा ब्रेक ले लेता हूँ
      समझ नहीं आता कि हम अपने साथ ऐसा क्यों करते हैं, जबकि मूल रूप से मेरा मानना है कि हम ज़्यादातर एक ही चीज़ चाहते हैं
    • 2 साल बाद ऐसा नहीं होगा। तब तक मेरी साइड जीत चुकी होगी
  • जो लोग कहते हैं कि “LLM सिर्फ़ training data का interpolation करते हैं”: Ayer और शुरुआती Wittgenstein, भले ही अलग तरीक़े से, यह मानते थे कि गणितीय सत्य दुनिया के बारे में कोई नया तथ्य रिपोर्ट नहीं करता
    यह विचार कि proof सिर्फ़ वही खोलकर दिखाता है जो axioms, definitions, symbols और rules में पहले से ही निहित है, गहराई से दिलचस्प है, और फिर भी इससे गणितज्ञों को खोज का श्रेय देने में कोई दिक्कत नहीं होती
    इसलिए या तो मौजूदा सामग्री का पुनर्संयोजन कोई अयोग्यता नहीं है, या फिर काफ़ी सारे Fields Medal लौटाने पड़ेंगे

    • मेरा ख़याल है कि ज़्यादातर सक्षम वयस्क समझते हैं कि Fields Medal और लगभग हर सालाना “award” दोनों ही recombinational innovation और “नई dimension की सोच” वाली innovation, दोनों के लिए दिए जाते हैं
      इंसान भी हर क्षेत्र में हर साल नई dimension की innovation नहीं लाते
      कोई कह सकता है कि LLM “सिर्फ़” recombination करते हैं, लेकिन मुझे अब भी शक है कि algebra, geometry और trigonometry के pre-Newton/Leibniz साहित्य पर पूरी तरह प्रशिक्षित LLM calculus बना सकता है या नहीं
      फिर भी, इस तरह की innovation वही क्षेत्र है जिसमें LLM अच्छे हैं, और इसका यह मतलब नहीं कि इंसानों को recombinational innovation में अच्छा होने की ज़रूरत ख़त्म हो गई
      नए विचारों का synthesis करने में अब भी ऐसा बहुत कुछ दिखता है जो इंसान कर सकते हैं और LLM नहीं
    • आप मानव ज्ञान के हर टुकड़े को एक विशाल high-dimensional knowledge space में discrete points की तरह कल्पना कर सकते हैं
      अगर उन सभी points के चारों ओर एक बड़ा convex hull खींचें, तो LLM उसके अंदर प्रशिक्षित हैं, इसलिए वे मौजूदा points के बीच interpolation करके नए लेकिन अब भी hull के अंदर के points तक पहुँच सकते हैं
      क्या LLM hull के बाहर के points तक पहुँच सकते हैं, यह विवाद का विषय है
      hull के अंदर नए points तक पहुँचना ही अपने आप में बेहद उपयोगी है
      कई नई खोजें और proofs, शायद ज़्यादातर उपयोगी नई खोजें और proofs, ऐसे ही points हैं जिन तक हम पहले से मौजूद चीज़ों को शुरुआती बिंदु बनाकर पहुँच सकते हैं
      ऐसी बहुत-सी चीज़ें हैं जो अब तक सिर्फ़ इसलिए खोजी नहीं गईं क्योंकि किसी ने समय और मेहनत नहीं लगाई, और LLM इसे बहुत तेज़ कर सकते हैं
      दूसरी ओर ऐसे points भी हैं जो मौजूदा points से extrapolation या interpolation से नहीं पहुँचे जा सकते और जहाँ सचमुच नई छलाँग चाहिए
      Newtonian physics से general relativity तक की छलाँग इसका एक संभावित उदाहरण है
      Demis Hassabis ने कभी कहा था कि 1915 से पहले तक का ही physics ज्ञान सीखे हुए AI को Mercury की कक्षा दिखाकर यह देखना कि क्या वह स्वतंत्र रूप से general relativity तक पहुँचता है, AGI का एक मूल्यांकन हो सकता है
      मुझे शक है कि मौजूदा LLM ऐसी छलाँग लगा सकते हैं, और ज़्यादातर इंसान भी नहीं लगा सकते
      Einstein को हम जीनियस इसलिए कहते हैं कि उसने अकेले general relativity तक छलाँग लगाई, और इंसानों में कभी-कभी ऐसे लोग आते हैं इसका existence proof हमारे पास है, लेकिन AI के मामले में अभी देखना बाक़ी है
    • ज़्यादातर खोजें वास्तव में axioms से निहित होती हैं, लेकिन कभी-कभी ऐसे क्षण आते हैं जिन्हें बेहतर शब्द न होने पर नया गणित रचा गया कहा जा सकता है
      Descartes, Newton, Leibniz, Gauss, Euler, Ramanujan, Galois जैसे लोग गणित को science से ज़्यादा art की तरह बरतते थे
      उदाहरण के लिए, कई लोग मानते हैं कि Riemann Hypothesis को हल करने के लिए शायद किसी नए तरह के गणित की ज़रूरत होगी, और मुझे नहीं लगता कि LLM उसे अचानक invent कर देंगे
    • मैं उम्मीद करता हूँ कि LLM क्षमता को एक मनमाने 1-dimensional पैमाने पर नापने का दौर लगभग ख़त्म हो, जिसके एक छोर पर “human नहीं” और दूसरे पर “human से परे” लिखा है
      यह अर्थहीन है और प्रासंगिक भी कम
      जब Deep Blue ने Kasparov को हराया था तब सब कुछ नहीं बदल गया था, और जानवर तथा मशीनें हमेशा कुछ dimensions में इंसानों से “बेहतर” रही हैं
      शुरुआत से ही कोई एकल पैमाना है ही नहीं, और अगर हो भी तो वह 1-dimensional या linear नहीं होगा, और हर किसी का पैमाना और उसके छोर समय के साथ बदलते रहते हैं
      इसका मतलब यह भी नहीं कि AI supremacists को जीत दे दी जाए
      LLM बेहद उपयोगी tools हैं और नाटकीय रूप से बेहतर होते रहेंगे, लेकिन वे हर उस dimension में इंसानों से आगे नहीं निकलेंगे जिसे कुछ लोग मूलभूत मानते हैं
      ऐसा कोई पल नहीं आएगा जब AI quantified metrics की किसी सूची में एक रेखा पार कर ले और उसे सार्वभौमिक रूप से इंसानों से श्रेष्ठ मान लिया जाए
      क्योंकि “महत्वपूर्ण क्या है” यह खुद ही subjective है
    • मानव की गणितीय खोज की गति पर आपकी बात अच्छी है, लेकिन Ayer बकवास थे, और बाद के Wittgenstein ने शुरुआती Wittgenstein का खंडन किया था
      “यह पहले से ही निहित है” वाला दावा सही होने के लिए गणित को एक बंद तंत्र होना चाहिए, लेकिन यह पहले ही सिद्ध हो चुका है कि ऐसा नहीं है
      गणित से गणित के बाहर निकला जा सकता है, इसलिए Zermelo-Fraenkel समेत कई axiomatic tent pegs की ज़रूरत पड़ी
      जिसे हम वस्तुनिष्ठ रूप से “गणित” कह सकते हैं उसकी विशालता को हम वास्तव में ठीक से नहीं समझते, और यह भी संभव है कि जिसे हम गणित के रूप में पहचानते हैं वह किसी बड़े गणित का सिर्फ़ एक हिस्सा हो, या बहुत ग़लत हो
      यह नहीं पता कि वह बड़ा गणित वही बंद-तंत्र वाले गुण रखता है या नहीं
  • जो लोग coding में LLM का बहुत इस्तेमाल करते हैं, उनके लिए यह इतनी चौंकाने वाली बात नहीं है; यह बस समय की बात थी
    गणितज्ञ गणितीय tools को नए तरीक़ों से बनाते और लागू करते हैं और इसी से नई खोजें होती हैं
    इसमें intuition का पीछा करना और connections तलाशना, यानी बहुत भारी मात्रा में iteration शामिल होता है
    LLM को “discovery” का क्या मतलब है इसकी समझ नहीं होती, इसलिए यह कहना मुश्किल है कि वे सचमुच खोज करते हैं, लेकिन वे किसी संकीर्ण लक्ष्य की ओर हर गणितीय tool को Monte Carlo-style तरीके से आज़मा सकते हैं, यह देख सकते हैं कि क्या काम करता है, और फिर उसके ऊपर build कर सकते हैं या improvements जोड़ सकते हैं
    लेख पढ़ने पर यही लगता है कि इस बार की खोज बिल्कुल इसी तरह हुई, और LLM ने “चौंकाने वाले connections” का इस्तेमाल कर अपेक्षित परिणाम से आगे पहुँच गया
    लेकिन इंसान द्वारा तय किए गए लक्ष्य, AI द्वारा अपनाए गए नए रास्ते के मूल्य को पहचानने वाली इंसानी समझ, और concepts की खोज को संभव बनाने वाली इंसानों द्वारा बनाई गई गणितीय भाषा के बिना इस नतीजे का कोई अर्थ नहीं है

    • “मानव इरादे और समझ के बिना इसका अर्थ नहीं” — क्या यह anthropocentrism नहीं है?
      समझ सिर्फ़ इंसान करें तभी वह वैध क्यों मानी जाए?
      ज्ञान सिर्फ़ इंसानों के लिए ही क्यों हो?
      अगर किसी दूसरी species ने gravity और quantum mechanics के बीच का विरोधाभास सुलझा दिया, तो क्या जब तक वह हमें समझाए और हम समझ न लें तब तक उसका कोई अर्थ नहीं होगा?
    • इस विषय पर एक गणितज्ञ का हाल का लंबा और दिलचस्प निबंध है: https://davidbessis.substack.com/p/the-fall-of-the-theorem-e...
    • यह सिर्फ़ आश्चर्यजनक नहीं, बल्कि हमेशा से अपेक्षित था। programs और proofs में कोई फ़र्क नहीं; दोनों एक ही चीज़ हैं
  • दिलचस्प बात यह है कि यह proof, या अधिक सटीक रूप से refutation, Erdős के मूल conjecture का एक counterexample ढूँढकर किया गया
    linked PDF में एक गणितज्ञ की प्रतिक्रिया की तरह, मुझे भी यह असली conjecture के सत्य होने का proof देने की तुलना में कुछ कम दिलचस्प लगता है
    conjecture के सही होने का proof देने के लिए ज़्यादा theory construction की ज़रूरत होती
    आपको यह समझाना पड़ता कि वह conjecture क्यों सही है, और वह भी किसी बड़े सिद्धांत के आधार पर, जबकि counterexample में मॉडल को बस किसी अधिक उन्नत खोज के ज़रिए सही construction ढूँढना होता है
    बेशक यह खोज सरल नहीं है और प्रभावशाली है, और counterexample से संबंध साबित करने तक पहुँचने में भी बहुत-से चरण लगे
    फिर भी, यह मुझे नए और गहरे गणित के विकास से ज़्यादा मौजूदा विचारों को जोड़ने जैसा लगता है
    मैं इस विशाल उपलब्धि को कमतर नहीं आँक रहा; मुझे सच में लगता है कि हम कहीं पहुँच रहे हैं
    यह सिर्फ़ intuition है, लेकिन मुझे लगता है कि मॉडल उस मुकाम से बहुत दूर नहीं हैं जहाँ वे ऐसे अधिक जटिल conjectures के लिए theory construct कर सकें जिनके proof के लिए नया गणित विकसित करना ज़रूरी हो; यह बस उन्हें लंबे समय-क्षेत्र पर काम करने देने की समस्या है

    • proof search और refutation search कभी-कभी बहुत अलग नहीं होते
      ज़्यादातर मामलों में आप समस्या को सरल बनाने के लिए सीमाओं को थोड़ा-थोड़ा काटते जाते हैं
      उदाहरण के लिए, अगर आपको यह साबित करना है कि कुछ असंभव है, तो पहले आप दिखा सकते हैं कि सिर्फ़ 5 families ही संभव हैं, और फिर उनमें से 4 के असंभव होने का proof दे सकते हैं
      तब समस्या का 80% हल हो गया, और counterexample ढूँढने की स्थिति में search space भी 80% कम हो गया
      counterexample में आप अनुमान और छलाँगें आज़मा सकते हैं और अगर वे सही निकलें तो ठीक है, लेकिन proof में ऐसा नहीं कर सकते
      दूसरी ओर, counterexample मिल जाने के बाद जिन dead ends को छोड़ा गया था, वे आम तौर पर छिप जाते हैं
    • सिर्फ़ ज़्यादा समय देने से LLM इंसानी शैली का वह गणित नहीं करने लगेंगे जिसमें complex numbers या सामान्य संख्याएँ शून्य से रची गईं
      training data में मौजूद चीज़ों को कितनी भी देर तक जोड़ते रहने से भी नहीं
  • जैसा मैंने पहले भी कहा है, AI McDonald's चलाने से पहले Fields Medal जीत लेगा
    कठिन हिस्सा गणित के लिए chessboard, यानी Lean जैसे environment, बनाना था; अब मामला pattern recognition और computation का है
    LLM तो बस शुरुआत हैं, और जल्द ही Stockfish जैसे अधिक specialized math AI आ जाएँगे

    • लेकिन यह Lean से verified नहीं है
      यह पूरी तरह natural language input और output से बना है, और कई मायनों में मुझे यह उलटा बिंदु दिखाने वाला काफ़ी दिलचस्प प्रदर्शन लगता है
      verification तब आती है जब आप proof checking तक कंप्यूटर को सौंपना चाहते हैं
      अभी इस proof को इस क्षेत्र के गणितज्ञों के एक समूह ने हाथ से verify किया है
    • McDonald's चलाने वाली बात में hamburger franchise में इस्तेमाल किए गए काल्पनिक “Manna” management system [0] की dystopian vibe है
      उसमें बहुत-सा “reverse centaur” automation था
      Manna के पास हर पल किए जाने वाले कामों की सूची रहती थी, और जैसे ही काउंटर पर order आता, वह कर्मचारियों को वह meal तैयार करने का निर्देश देता
      bathroom साफ़ करना, फ़र्श पोछना, table पोंछना, sidewalk बुहारना, buns thaw करना, inventory rotate करना, windows साफ़ करना जैसी सैकड़ों चीज़ों को track करके कर्मचारियों को एक-एक करके assign करता
      shift ख़त्म होने पर Manna हमेशा कहता, “आज का काम पूरा हुआ। मदद के लिए धन्यवाद,” और आप headset उतारकर charging cradle पर रख देते
      6 से 8 घंटे तक सिर के भीतर की आवाज़ आपको बहुत बारीकी से बताती रहती थी कि क्या करना है, इसलिए headset उतारने के बाद शुरुआती कुछ मिनट हमेशा उलझन भरे होते थे, और restaurant से बाहर जाने के लिए आपको जैसे अपना दिमाग़ फिर से चालू करना पड़ता था
      [0] https://en.wikipedia.org/wiki/Manna_(novel)
    • मैं सहमत नहीं हूँ। AI McDonald's चलाने से पहले Fields Medal-स्तर का काम कर सकता है, लेकिन मेरा मानना है कि वह इन दोनों में से किसी भी चीज़ से पहले McDonald's को अच्छी तरह चला सकेगा
      Fields Medal तो उसके काफ़ी बाद आएगा
    • proof Lean में नहीं लिखा गया था; यह अंग्रेज़ी में लिखा गया था
      यह परखने के लिए कि इसमें बकवास नहीं है, इंसानी विशेषज्ञों द्वारा सत्यापन ज़रूरी है
    • गणित के लिए “chessboard” 40 साल से भी ज़्यादा समय से मौजूद हैं
      Lean यहाँ कोई ख़ास अनोखी चीज़ नहीं है, यह बस भीड़-मानसिकता जैसा लगता है
      और यह भी पता नहीं कि Lean training ने इस ख़ास मॉडल को कितना मदद की
  • इस proof ने algebraic number theory की अप्रत्याशित और परिष्कृत ideas को एक elementary geometry सवाल पर लागू किया
    इन उपलब्धियों के बारे में जितना पढ़ता हूँ, उतना महसूस होता है कि मॉडल की ताक़त का बड़ा हिस्सा इस बात से आता है कि उसके पास लगभग हर संभव क्षेत्र का prior knowledge है और उसे नए domain में transfer करने में कोई दिक्कत नहीं होती
    इन tools की संभावित सुंदरता इस बात में है कि वे आज के विज्ञान में इंसानों के सामने मौजूद अत्यधिक hyper-specialization की बाधा को तोड़ने में मदद कर सकते हैं
    hyper-specialization एक ओर महत्वपूर्ण है, लेकिन दूसरी ओर यह लोगों के लिए उपलब्ध tools और inspiration को सीमित भी करती है

    • बिल्कुल सही बात है, और बहुत अच्छे से समझाया गया है
      जितना अधिक हम hyper-specialized होते जाते हैं, LLM अलग-अलग horizons को जोड़ने के लिए उतने ही मूल्यवान tool बनते जाते हैं
    • मुझे लगता है कि मानव ज्ञान की समग्रता किसी तरह की collective intelligence है
      पहले उस तक पहुँचने की लागत बहुत अधिक थी, लेकिन अब ऐसा नहीं रहा
      कमाल की बात यह है कि जब कोई collective intelligence में कुछ योगदान देता है, तो वह तुरंत किसी और की किसी भी समस्या पर लागू हो सकता है जिस पर वे काम कर रहे हों
    • मैं हमेशा गणित में LLM की भूमिका को लेकर संदेह में रहा हूँ, लेकिन यह तर्क मैंने पहली बार देखा है और यह काफ़ी persuasive लगा
      शायद LLM उस क्षेत्र के बारे में अधिक horizontal understanding विकसित करने में मदद कर सकते हैं
    • सही है। लोग शायद अपनी सीमित दृष्टि के कारण गहराई पर ज़्यादा ध्यान देते हैं और चौड़ाई पर कम
      यह एक general-purpose model है, इसलिए इसमें physics, biology, history वगैरह में भी PhD-स्तर से ऊपर का ज्ञान है
      मुझे नहीं लगता कि हम अभी ठीक से समझ पाए हैं कि इतने सारे क्षेत्रों का ज्ञान आत्मसात किए हुए एक अकेला “mind” कितना कुछ कर सकता है
  • दिलचस्प है कि जब OpenAI ने कहा था कि मॉडल में “PhD-स्तर की बुद्धि” होगी तो सब हँसे थे, और अब मानक क्या यह नया गणित बना सकता है पर खिसक गया है
    मानो PhD-स्तर नहीं, बल्कि Leibniz, Euler, Galois-स्तर की माँग हो

    • फिर भी coding तो यह Stack Overflow पूरा रट चुके junior developer की तरह ही करता है
  • ब्लॉग पोस्ट में लिंक की गई इस काम की summarized chain of thought 125 पेज की है
    यह Anthropic के Mythos से जिस चीज़ का संकेत मिलता था, उससे काफ़ी मिलता-जुलता, लगभग बेतुने पैमाने का reasoning scale है

    • जिन लोगों को जिज्ञासा हो, उनके लिए लिंक यहाँ है: https://cdn.openai.com/pdf/1625eff6-5ac1-40d8-b1db-5d5cf925d...
    • आज मैंने SQL model में missing 3 rows ठीक करने और एक PR खोलने के लिए LOTR की दो किताबों जितना text generate कर दिया, तो +1
  • मैं सोच रहा हूँ कि Erdős की problem हल होने की ही बात क्यों सुनाई देती है
    गणित में अनगिनत unsolved problems होंगी, लेकिन r/singularity और r/accelerate पर ChatGPT की “math breakthroughs” की सारी बातें बस Erdős problems ही क्यों हैं

    • Erdős problems उन गणितीय समस्याओं का काफ़ी बड़ा हिस्सा हैं जिन्हें स्पष्ट रूप से पेश किया गया था लेकिन हल नहीं किया गया
      वे इतनी प्रसिद्ध हैं कि लोग उनमें रुचि लें, और साथ ही इतनी आकर्षक नहीं कि लोग उन पर अपार मेहनत झोंकते रहें
      किसी और द्वारा पहले से उठाई गई समस्या को हल करना गणितीय शोध में एक niche activity है
      ज़्यादा आम यह है कि आप किसी दिलचस्प वस्तु का अध्ययन करें, उसे अपने tools से हल हो सकने वाले रूप में ढालें, और फिर समाधान खोजने की कोशिश करें
      आदर्श स्थिति में problem setting और solution दोनों अपने आप में दिलचस्प बन जाते हैं
    • Erdős problems को बयान करना आसान है, इसलिए वे AI math के पहले साल के लिए शानदार benchmark हैं
    • मेरी जानकारी में ऐसा इसलिए भी है क्योंकि उनके आसपास community और databases मौजूद हैं
    • सिर्फ़ Erdős problems ही नहीं हैं: https://news.ycombinator.com/item?id=48213189
    • Erdős एक महान गणितज्ञ थे, इसलिए ये प्रसिद्ध हैं
      कुछ वैसा ही जैसे एक सदी पहले Hilbert problems थे
  • यह निश्चित रूप से प्रभावशाली है
    लेकिन अगर हमें यह न पता हो कि इस मॉडल को किस पर train किया गया था, तो यह आँकना बहुत मुश्किल है कि यह किस हद तक “अपने बल पर” वहाँ पहुँचा
    पूरे AI उद्योग ने कई क्षेत्रों के विशेषज्ञों को बहुत पैसा देकर भारी मात्रा में नया training data बनवाया है
    ऐसा नया training data जो कहीं और नहीं मिलता, और कंपनियाँ उसे अपने पास जमा करके रखती हैं; उसमें वास्तव में मौलिक ideas भी हो सकते हैं
    यह संभव नहीं लगता कि किसी ने इस समस्या को हल करके बस training data में डाल दिया हो, लेकिन ईमानदारी से कहूँ तो OpenAI के बारे में मैं यह भी पूरे यक़ीन से नहीं कह सकता कि उन्होंने ऐसा बिल्कुल नहीं किया होगा
    इससे भी ज़्यादा दिलचस्प संभावना यह है कि उन्होंने ऐसा training data पहले से बना लिया हो जो इस proof के ज़्यादातर या सारे ऐसे मुख्य propositions को छूता हो जिन्हें “original” माना जा रहा है
    बेशक, हमें पता नहीं
    लेकिन जब तक ऐसी चीज़ें ग़ैर-गोपनीय तरीक़े से नहीं बनेंगी, यह सवाल हमेशा बना रहेगा

    • यह काफ़ी conspiracy theory जैसी व्याख्या लगती है