- unit distance problem 1946 का Erdős द्वारा पूछा गया सवाल है, जो समतल में n बिंदुओं के बीच दूरी 1 वाले बिंदु-युग्मों की अधिकतम संख्या पूछता है, और एक पुराना केंद्रीय conjecture अब गलत साबित हो गया है
- OpenAI के general-purpose reasoning model ने यह मान्यता तोड़ी कि square lattice परिवार लगभग सर्वश्रेष्ठ है, और अनंत उदाहरणों का एक परिवार बनाकर polynomial स्तर का सुधार पेश किया
- नया construction अनंत रूप से कई n के लिए
n^{1+δ} से अधिक unit-distance बिंदु-युग्म बनाता है, और Will Sawin के सुधार से दिखता है कि δ = 0.014 संभव है
- यह proof Gaussian integers से आगे बढ़कर infinite class field tower और Golod–Shafarevich theory जैसे algebraic number theory tools को geometry समस्या पर लागू करता है
- यह परिणाम दिखाता है कि AI पुराने open problems में मौलिक गणितीय खोज में योगदान दे सकता है, जबकि समस्या-चयन और व्याख्या में मानव विशेषज्ञता और भी महत्वपूर्ण हो जाती है
unit distance problem में बड़ी प्रगति
- unit distance problem एक combinatorial geometry समस्या है, जो पूछती है कि समतल में रखे n बिंदुओं के बीच ठीक दूरी 1 वाले बिंदु-युग्मों की अधिकतम संख्या कितनी हो सकती है
- इसे Paul Erdős ने 1946 में उठाया था, और Brass, Moser, Pach की 2005 की किताब Research Problems in Discrete Geometry ने इसे “संभवतः combinatorial geometry की सबसे प्रसिद्ध और समझाने में सबसे आसान समस्या” कहा
- Princeton के combinatorialist Noga Alon ने इसे Erdős की खास पसंदीदा समस्याओं में से एक बताया, और Erdős ने इसके समाधान पर इनाम भी रखा था
- लंबे समय तक यह माना जाता रहा कि square lattice परिवार का construction unit-distance बिंदु-युग्मों की संख्या को लगभग अधिकतम बनाता है
- OpenAI के एक internal model ने इस पुराने conjecture का खंडन करने वाले अनंत उदाहरणों का परिवार बनाया और polynomial स्तर का सुधार दिया
- इस proof की समीक्षा बाहरी गणितज्ञों के एक समूह ने की, और उन्होंने तर्क, पृष्ठभूमि और परिणाम के महत्व पर एक companion paper भी लिखा
- proof का मूल पाठ unit-distance-proof.pdf, companion paper unit-distance-remarks.pdf, और मॉडल की chain of thought का संक्षिप्त संस्करण unit-distance-cot.pdf में देखा जा सकता है
AI ने यह रास्ता कैसे खोजा
- यह proof किसी math-only trained system, proof-strategy search scaffolding, या unit distance problem के लिए खास बने system से नहीं, बल्कि एक general-purpose reasoning model से आया
- frontier research में advanced models योगदान दे सकते हैं या नहीं, इसे परखने के व्यापक प्रयास के हिस्से के रूप में Erdős problems के संग्रह पर evaluation हुआ, और इसी समस्या में एक open problem को हल करने वाला proof उत्पन्न हुआ
- गणित reasoning क्षमता की परीक्षा के लिए एक स्पष्ट क्षेत्र है, क्योंकि समस्याएँ सटीक होती हैं, candidate proofs को verify किया जा सकता है, और लंबे तर्कों को शुरुआत से अंत तक सुसंगत रहना पड़ता है
- यह proof ऊपर से elementary दिखने वाली geometry समस्या पर algebraic number theory के अप्रत्याशित और परिष्कृत विचार लागू करता है
- Tim Gowers ने companion paper में इस परिणाम को “AI mathematics का milestone” कहा
- number theorist Arul Shankar के अनुसार, यह दिखाता है कि मौजूदा AI models मानव गणितज्ञों के assistant से आगे बढ़कर मौलिक और sophisticated ideas दे सकते हैं और उन्हें अंत तक ले जा सकते हैं
unit distance problem की गणितीय सामग्री
- u(n) को समतल में n बिंदुओं के बीच संभव unit-distance बिंदु-युग्मों की अधिकतम संख्या के रूप में परिभाषित किया जाता है
- एक सरल construction में n बिंदुओं को एक सीधी रेखा पर रखकर n−1 बिंदु-युग्म बनाए जा सकते हैं, जबकि square lattice लगभग 2n बिंदु-युग्म बनाता है
- पहले का सर्वश्रेष्ठ construction rescaled square lattice से आता था, और किसी स्थिरांक C के लिए
n^{1 + C / log log(n)} unit-distance बिंदु-युग्म बनाता है
- चूँकि
log log(n) n के बढ़ने पर बढ़ता है, exponent का अतिरिक्त पद 0 की ओर जाता है, इसलिए इस construction की वृद्धि रैखिक से बस थोड़ी तेज रहती है
- दशकों तक व्यापक रूप से माना गया कि यही दर लगभग सर्वश्रेष्ठ है, और Erdős ने तकनीकी रूप से
n^{1+o(1)} upper bound conjecture किया था
- नया परिणाम इस conjecture को गलत साबित करता है: अनंत रूप से कई n के लिए कोई स्थिर exponent
δ > 0 मौजूद है, और n बिंदुओं के ऐसे configurations मिलते हैं जिनमें कम-से-कम n^{1+δ} unit-distance बिंदु-युग्म होते हैं
- मूल AI proof ने δ का explicit मान नहीं दिया था, लेकिन Princeton के गणित प्रोफेसर Will Sawin के बाद के सुधार से दिखा कि
δ = 0.014 लिया जा सकता है
यह इतना चौंकाने वाला क्यों है
- 1946 में Erdős के मूल construction के बाद से ज्ञात सर्वश्रेष्ठ lower bound में मूलतः लगभग कोई बदलाव नहीं आया था
- ज्ञात सर्वश्रेष्ठ upper bound
O(n^{4/3}) Spencer, Szemerédi, Trotter के 1984 के काम से आया, और बाद में Székely, Katz और Silier, Pach, Raz, Solymosi आदि के सुधारों तथा संबंधित संरचनाओं के अध्ययन के बावजूद मूलतः बना रहा
- Matoušek और Alon-Bucić-Sauermann ने समतल में non-Euclidean distances के संदर्भ में इस समस्या का अध्ययन किया, और ऐसे परिणाम दिए कि “अधिकांश” non-Euclidean distances किसी अर्थ में Erdős conjecture का समर्थन करते हैं
- यह खास तौर पर आश्चर्यजनक है कि नए construction की मुख्य सामग्री algebraic number theory से आई, जो geometry और distance से दूर का क्षेत्र लगता है
- algebraic number theory वह क्षेत्र है जो algebraic number fields नामक पूर्णांकों के विस्तारों में factorization जैसी अवधारणाओं का अध्ययन करता है
algebraic number theory से आई नई तकनीकें
- नया proof परिचित geometric ideas से शुरू होता है, लेकिन फिर एक अप्रत्याशित दिशा में फैलता है
- Erdős की मूल lower bound को
a + bi रूप के Gaussian integers के माध्यम से समझा जा सकता है
- यहाँ a और b पूर्णांक हैं, और i, −1 का वर्गमूल है
- Gaussian integers सामान्य पूर्णांकों का विस्तार हैं, और इनमें पूर्णांकों जैसी विशेषताएँ होती हैं, जैसे primes में unique factorization
- ऐसे पूर्णांकों या rational numbers के विस्तारों को algebraic number fields कहा जाता है
- नया तर्क Gaussian integers की जगह algebraic number theory के अधिक जटिल generalizations का उपयोग करता है, जहाँ अधिक समृद्ध symmetries ज्यादा unit-length differences बनाने देती हैं
- सटीक तर्क infinite class field tower और Golod–Shafarevich theory जैसे tools का उपयोग करके यह दिखाता है कि आवश्यक number fields वास्तव में मौजूद हैं
- ये ideas algebraic number theorists के बीच पहले से अच्छी तरह ज्ञात थे, लेकिन Euclidean plane की geometry समस्या पर उनका प्रभाव पड़ना एक बड़े आश्चर्य के रूप में देखा गया
गणित के लिए इसका अर्थ
- यह AI और गणित की अंतःक्रिया में एक महत्वपूर्ण क्षण है, क्योंकि किसी AI system ने सक्रिय शोध क्षेत्र के केंद्र में मौजूद एक पुराने open problem को स्वायत्त रूप से हल किया
- बाहरी गणितज्ञों के companion work ने मूल समाधान से तुरंत स्पष्ट न होने वाली एक अधिक समृद्ध तस्वीर प्रस्तुत की
- Thomas Bloom ने companion paper में लिखा कि AI-generated proof का महत्व आँकते समय वे यह पूछते हैं कि क्या proof ने समस्या के बारे में कुछ नया सिखाया, और क्या उसने discrete geometry की समझ को बेहतर बनाया
- Bloom के अनुसार, यह परिणाम दिखाता है कि number-theoretic constructions ऐसे सवालों पर अपेक्षा से कहीं अधिक कह सकते हैं, और आवश्यक number theory बहुत गहरी हो सकती है
- Bloom का मानना है कि आने वाले महीनों में कई algebraic number theorists discrete geometry की अन्य open problems को गंभीरता से देखेंगे
- algebraic number theory और discrete geometry के बीच यह अप्रत्याशित संबंध सिर्फ एक खास conjecture को हल नहीं करता, बल्कि संबंधित समस्याओं की आगे की खोज के लिए एक पुल बनता है
- यह परिणाम दिखाता है कि AI सिर्फ उत्तर देने में नहीं, बल्कि गणितीय खोज में भी योगदान दे सकता है, जिसका अर्थ बाद में मानव समझ के जरिए और अधिक स्पष्ट व समृद्ध होता है
यह क्यों महत्वपूर्ण है
- बेहतर mathematical reasoning, AI को एक अधिक शक्तिशाली research partner बना सकती है
- यह कठिन thought processes को लगातार बनाए रख सकती है, दूर-दराज़ ज्ञान क्षेत्रों के बीच ideas जोड़ सकती है, और ऐसे promising paths सामने ला सकती है जिन्हें experts ने प्राथमिकता न दी हो
- यह researchers को उन समस्याओं में प्रगति करने में मदद कर सकती है जो बहुत जटिल हैं या जिन पर काम करना समय-साध्य है
- ऐसी क्षमता गणित से आगे बढ़कर biology, physics, materials science, engineering और medicine में भी उपयोगी है
- यदि AI जटिल तर्कों को सुसंगत रख सके, दूरस्थ ज्ञान क्षेत्रों को जोड़ सके, और expert review पार करने वाले परिणाम बना सके, तो यह अधिक automated research systems की लंबी राह का हिस्सा बनती है
- यह संकेत मिलता है कि AI शोध के creative हिस्से में, खासकर AI research itself में, बहुत गंभीर भूमिका निभाने लगेगी
- ऐसी प्रगति अत्यंत बुद्धिमान systems के alignment, AI development के अगले चरण, और human-AI collaboration के भविष्य को समझने की तात्कालिकता बढ़ाती है
- वह भविष्य अब भी मानव निर्णय पर निर्भर है
- विशेषज्ञता कम महत्वपूर्ण नहीं हो रही, बल्कि और अधिक मूल्यवान बन रही है
- AI खोजने, सुझाव देने और सत्यापित करने में मदद कर सकती है, लेकिन महत्वपूर्ण समस्याएँ चुनना, परिणामों की व्याख्या करना, और आगे किन प्रश्नों का पीछा करना है यह तय करना मनुष्यों का काम रहेगा
1 टिप्पणियां
Hacker News की राय
इस HN थ्रेड ने मुझे उदास कर दिया, और मैं अब भी सोच रहा हूँ कि ऐसा क्यों हुआ
OpenAI की प्रेस रिलीज़ जैसी प्रशंसा को हटाकर देखें, तो गणितीय शोध में LLM की भूमिका को लेकर कई दिलचस्प और सूक्ष्म सवाल हैं
नतीजों के साथ शामिल गणितज्ञों की टिप्पणियाँ, खासकर Tim Gowers की बात, ज़रूर पढ़ने लायक है
लेकिन कमेंट सेक्शन 2023 से दोहराए जा रहे LLM विवाद, प्रतिवाद और गुस्से भरे पुनः-प्रतिवाद का युद्धक्षेत्र बन गया
3 साल पहले खींची गई मोर्चाबंदी पर वही लड़ाई बार-बार दोहराना दुखद नहीं है क्या, और क्या 2 साल बाद भी हम यही कर रहे होंगे, यह सोचता हूँ
Nietzsche की एक मशहूर पंक्ति मन में बसा लें तो जीवन बेहतर हो सकता है: “मैं कुरूपता के ख़िलाफ़ युद्ध नहीं करना चाहता। मैं आरोप नहीं लगाना चाहता। मैं आरोप लगाने वालों पर भी आरोप नहीं लगाना चाहता। नज़र फेर लेना ही मेरा एकमात्र निषेध होना चाहिए”
AI जितना अपनी क्षमता साबित करता है, उतना ही यह उन सबके लिए असहज दिशा में झुकता है जिनकी नौकरी की सुरक्षा बहुत मज़बूत नहीं है
लोगों को यह मानने में समय लगेगा कि AI के पास मानव बुद्धि से काफ़ी अलग क्षमताओं का एक सेट है और वह काफ़ी अच्छी तरह पूरक भी है
बड़े पैमाने पर मानव बुद्धि को पछाड़ देने की इसकी संभावना कम है, और जो कंपनियाँ इस पर दाँव लगा रही हैं वे पीछे रह जाएँगी
मैं इस तरह के विषय पर सचमुच चर्चा करना चाहता हूँ, लेकिन जब हर कोई मानता है कि सिर्फ़ उसकी अपनी वास्तविकता असली है और विरोधी वास्तविकता नकली, तो चीज़ें बस और भड़कती जाती हैं
मुझे एहसास होता है कि मैं HN पर आकर सिर्फ़ गुस्सा कर रहा हूँ, तो मैं लंबा ब्रेक ले लेता हूँ
समझ नहीं आता कि हम अपने साथ ऐसा क्यों करते हैं, जबकि मूल रूप से मेरा मानना है कि हम ज़्यादातर एक ही चीज़ चाहते हैं
जो लोग कहते हैं कि “LLM सिर्फ़ training data का interpolation करते हैं”: Ayer और शुरुआती Wittgenstein, भले ही अलग तरीक़े से, यह मानते थे कि गणितीय सत्य दुनिया के बारे में कोई नया तथ्य रिपोर्ट नहीं करता
यह विचार कि proof सिर्फ़ वही खोलकर दिखाता है जो axioms, definitions, symbols और rules में पहले से ही निहित है, गहराई से दिलचस्प है, और फिर भी इससे गणितज्ञों को खोज का श्रेय देने में कोई दिक्कत नहीं होती
इसलिए या तो मौजूदा सामग्री का पुनर्संयोजन कोई अयोग्यता नहीं है, या फिर काफ़ी सारे Fields Medal लौटाने पड़ेंगे
इंसान भी हर क्षेत्र में हर साल नई dimension की innovation नहीं लाते
कोई कह सकता है कि LLM “सिर्फ़” recombination करते हैं, लेकिन मुझे अब भी शक है कि algebra, geometry और trigonometry के pre-Newton/Leibniz साहित्य पर पूरी तरह प्रशिक्षित LLM calculus बना सकता है या नहीं
फिर भी, इस तरह की innovation वही क्षेत्र है जिसमें LLM अच्छे हैं, और इसका यह मतलब नहीं कि इंसानों को recombinational innovation में अच्छा होने की ज़रूरत ख़त्म हो गई
नए विचारों का synthesis करने में अब भी ऐसा बहुत कुछ दिखता है जो इंसान कर सकते हैं और LLM नहीं
अगर उन सभी points के चारों ओर एक बड़ा convex hull खींचें, तो LLM उसके अंदर प्रशिक्षित हैं, इसलिए वे मौजूदा points के बीच interpolation करके नए लेकिन अब भी hull के अंदर के points तक पहुँच सकते हैं
क्या LLM hull के बाहर के points तक पहुँच सकते हैं, यह विवाद का विषय है
hull के अंदर नए points तक पहुँचना ही अपने आप में बेहद उपयोगी है
कई नई खोजें और proofs, शायद ज़्यादातर उपयोगी नई खोजें और proofs, ऐसे ही points हैं जिन तक हम पहले से मौजूद चीज़ों को शुरुआती बिंदु बनाकर पहुँच सकते हैं
ऐसी बहुत-सी चीज़ें हैं जो अब तक सिर्फ़ इसलिए खोजी नहीं गईं क्योंकि किसी ने समय और मेहनत नहीं लगाई, और LLM इसे बहुत तेज़ कर सकते हैं
दूसरी ओर ऐसे points भी हैं जो मौजूदा points से extrapolation या interpolation से नहीं पहुँचे जा सकते और जहाँ सचमुच नई छलाँग चाहिए
Newtonian physics से general relativity तक की छलाँग इसका एक संभावित उदाहरण है
Demis Hassabis ने कभी कहा था कि 1915 से पहले तक का ही physics ज्ञान सीखे हुए AI को Mercury की कक्षा दिखाकर यह देखना कि क्या वह स्वतंत्र रूप से general relativity तक पहुँचता है, AGI का एक मूल्यांकन हो सकता है
मुझे शक है कि मौजूदा LLM ऐसी छलाँग लगा सकते हैं, और ज़्यादातर इंसान भी नहीं लगा सकते
Einstein को हम जीनियस इसलिए कहते हैं कि उसने अकेले general relativity तक छलाँग लगाई, और इंसानों में कभी-कभी ऐसे लोग आते हैं इसका existence proof हमारे पास है, लेकिन AI के मामले में अभी देखना बाक़ी है
Descartes, Newton, Leibniz, Gauss, Euler, Ramanujan, Galois जैसे लोग गणित को science से ज़्यादा art की तरह बरतते थे
उदाहरण के लिए, कई लोग मानते हैं कि Riemann Hypothesis को हल करने के लिए शायद किसी नए तरह के गणित की ज़रूरत होगी, और मुझे नहीं लगता कि LLM उसे अचानक invent कर देंगे
यह अर्थहीन है और प्रासंगिक भी कम
जब Deep Blue ने Kasparov को हराया था तब सब कुछ नहीं बदल गया था, और जानवर तथा मशीनें हमेशा कुछ dimensions में इंसानों से “बेहतर” रही हैं
शुरुआत से ही कोई एकल पैमाना है ही नहीं, और अगर हो भी तो वह 1-dimensional या linear नहीं होगा, और हर किसी का पैमाना और उसके छोर समय के साथ बदलते रहते हैं
इसका मतलब यह भी नहीं कि AI supremacists को जीत दे दी जाए
LLM बेहद उपयोगी tools हैं और नाटकीय रूप से बेहतर होते रहेंगे, लेकिन वे हर उस dimension में इंसानों से आगे नहीं निकलेंगे जिसे कुछ लोग मूलभूत मानते हैं
ऐसा कोई पल नहीं आएगा जब AI quantified metrics की किसी सूची में एक रेखा पार कर ले और उसे सार्वभौमिक रूप से इंसानों से श्रेष्ठ मान लिया जाए
क्योंकि “महत्वपूर्ण क्या है” यह खुद ही subjective है
“यह पहले से ही निहित है” वाला दावा सही होने के लिए गणित को एक बंद तंत्र होना चाहिए, लेकिन यह पहले ही सिद्ध हो चुका है कि ऐसा नहीं है
गणित से गणित के बाहर निकला जा सकता है, इसलिए Zermelo-Fraenkel समेत कई axiomatic tent pegs की ज़रूरत पड़ी
जिसे हम वस्तुनिष्ठ रूप से “गणित” कह सकते हैं उसकी विशालता को हम वास्तव में ठीक से नहीं समझते, और यह भी संभव है कि जिसे हम गणित के रूप में पहचानते हैं वह किसी बड़े गणित का सिर्फ़ एक हिस्सा हो, या बहुत ग़लत हो
यह नहीं पता कि वह बड़ा गणित वही बंद-तंत्र वाले गुण रखता है या नहीं
जो लोग coding में LLM का बहुत इस्तेमाल करते हैं, उनके लिए यह इतनी चौंकाने वाली बात नहीं है; यह बस समय की बात थी
गणितज्ञ गणितीय tools को नए तरीक़ों से बनाते और लागू करते हैं और इसी से नई खोजें होती हैं
इसमें intuition का पीछा करना और connections तलाशना, यानी बहुत भारी मात्रा में iteration शामिल होता है
LLM को “discovery” का क्या मतलब है इसकी समझ नहीं होती, इसलिए यह कहना मुश्किल है कि वे सचमुच खोज करते हैं, लेकिन वे किसी संकीर्ण लक्ष्य की ओर हर गणितीय tool को Monte Carlo-style तरीके से आज़मा सकते हैं, यह देख सकते हैं कि क्या काम करता है, और फिर उसके ऊपर build कर सकते हैं या improvements जोड़ सकते हैं
लेख पढ़ने पर यही लगता है कि इस बार की खोज बिल्कुल इसी तरह हुई, और LLM ने “चौंकाने वाले connections” का इस्तेमाल कर अपेक्षित परिणाम से आगे पहुँच गया
लेकिन इंसान द्वारा तय किए गए लक्ष्य, AI द्वारा अपनाए गए नए रास्ते के मूल्य को पहचानने वाली इंसानी समझ, और concepts की खोज को संभव बनाने वाली इंसानों द्वारा बनाई गई गणितीय भाषा के बिना इस नतीजे का कोई अर्थ नहीं है
समझ सिर्फ़ इंसान करें तभी वह वैध क्यों मानी जाए?
ज्ञान सिर्फ़ इंसानों के लिए ही क्यों हो?
अगर किसी दूसरी species ने gravity और quantum mechanics के बीच का विरोधाभास सुलझा दिया, तो क्या जब तक वह हमें समझाए और हम समझ न लें तब तक उसका कोई अर्थ नहीं होगा?
दिलचस्प बात यह है कि यह proof, या अधिक सटीक रूप से refutation, Erdős के मूल conjecture का एक counterexample ढूँढकर किया गया
linked PDF में एक गणितज्ञ की प्रतिक्रिया की तरह, मुझे भी यह असली conjecture के सत्य होने का proof देने की तुलना में कुछ कम दिलचस्प लगता है
conjecture के सही होने का proof देने के लिए ज़्यादा theory construction की ज़रूरत होती
आपको यह समझाना पड़ता कि वह conjecture क्यों सही है, और वह भी किसी बड़े सिद्धांत के आधार पर, जबकि counterexample में मॉडल को बस किसी अधिक उन्नत खोज के ज़रिए सही construction ढूँढना होता है
बेशक यह खोज सरल नहीं है और प्रभावशाली है, और counterexample से संबंध साबित करने तक पहुँचने में भी बहुत-से चरण लगे
फिर भी, यह मुझे नए और गहरे गणित के विकास से ज़्यादा मौजूदा विचारों को जोड़ने जैसा लगता है
मैं इस विशाल उपलब्धि को कमतर नहीं आँक रहा; मुझे सच में लगता है कि हम कहीं पहुँच रहे हैं
यह सिर्फ़ intuition है, लेकिन मुझे लगता है कि मॉडल उस मुकाम से बहुत दूर नहीं हैं जहाँ वे ऐसे अधिक जटिल conjectures के लिए theory construct कर सकें जिनके proof के लिए नया गणित विकसित करना ज़रूरी हो; यह बस उन्हें लंबे समय-क्षेत्र पर काम करने देने की समस्या है
ज़्यादातर मामलों में आप समस्या को सरल बनाने के लिए सीमाओं को थोड़ा-थोड़ा काटते जाते हैं
उदाहरण के लिए, अगर आपको यह साबित करना है कि कुछ असंभव है, तो पहले आप दिखा सकते हैं कि सिर्फ़ 5 families ही संभव हैं, और फिर उनमें से 4 के असंभव होने का proof दे सकते हैं
तब समस्या का 80% हल हो गया, और counterexample ढूँढने की स्थिति में search space भी 80% कम हो गया
counterexample में आप अनुमान और छलाँगें आज़मा सकते हैं और अगर वे सही निकलें तो ठीक है, लेकिन proof में ऐसा नहीं कर सकते
दूसरी ओर, counterexample मिल जाने के बाद जिन dead ends को छोड़ा गया था, वे आम तौर पर छिप जाते हैं
training data में मौजूद चीज़ों को कितनी भी देर तक जोड़ते रहने से भी नहीं
जैसा मैंने पहले भी कहा है, AI McDonald's चलाने से पहले Fields Medal जीत लेगा
कठिन हिस्सा गणित के लिए chessboard, यानी Lean जैसे environment, बनाना था; अब मामला pattern recognition और computation का है
LLM तो बस शुरुआत हैं, और जल्द ही Stockfish जैसे अधिक specialized math AI आ जाएँगे
यह पूरी तरह natural language input और output से बना है, और कई मायनों में मुझे यह उलटा बिंदु दिखाने वाला काफ़ी दिलचस्प प्रदर्शन लगता है
verification तब आती है जब आप proof checking तक कंप्यूटर को सौंपना चाहते हैं
अभी इस proof को इस क्षेत्र के गणितज्ञों के एक समूह ने हाथ से verify किया है
उसमें बहुत-सा “reverse centaur” automation था
Manna के पास हर पल किए जाने वाले कामों की सूची रहती थी, और जैसे ही काउंटर पर order आता, वह कर्मचारियों को वह meal तैयार करने का निर्देश देता
bathroom साफ़ करना, फ़र्श पोछना, table पोंछना, sidewalk बुहारना, buns thaw करना, inventory rotate करना, windows साफ़ करना जैसी सैकड़ों चीज़ों को track करके कर्मचारियों को एक-एक करके assign करता
shift ख़त्म होने पर Manna हमेशा कहता, “आज का काम पूरा हुआ। मदद के लिए धन्यवाद,” और आप headset उतारकर charging cradle पर रख देते
6 से 8 घंटे तक सिर के भीतर की आवाज़ आपको बहुत बारीकी से बताती रहती थी कि क्या करना है, इसलिए headset उतारने के बाद शुरुआती कुछ मिनट हमेशा उलझन भरे होते थे, और restaurant से बाहर जाने के लिए आपको जैसे अपना दिमाग़ फिर से चालू करना पड़ता था
[0] https://en.wikipedia.org/wiki/Manna_(novel)
Fields Medal तो उसके काफ़ी बाद आएगा
यह परखने के लिए कि इसमें बकवास नहीं है, इंसानी विशेषज्ञों द्वारा सत्यापन ज़रूरी है
Lean यहाँ कोई ख़ास अनोखी चीज़ नहीं है, यह बस भीड़-मानसिकता जैसा लगता है
और यह भी पता नहीं कि Lean training ने इस ख़ास मॉडल को कितना मदद की
इस proof ने algebraic number theory की अप्रत्याशित और परिष्कृत ideas को एक elementary geometry सवाल पर लागू किया
इन उपलब्धियों के बारे में जितना पढ़ता हूँ, उतना महसूस होता है कि मॉडल की ताक़त का बड़ा हिस्सा इस बात से आता है कि उसके पास लगभग हर संभव क्षेत्र का prior knowledge है और उसे नए domain में transfer करने में कोई दिक्कत नहीं होती
इन tools की संभावित सुंदरता इस बात में है कि वे आज के विज्ञान में इंसानों के सामने मौजूद अत्यधिक hyper-specialization की बाधा को तोड़ने में मदद कर सकते हैं
hyper-specialization एक ओर महत्वपूर्ण है, लेकिन दूसरी ओर यह लोगों के लिए उपलब्ध tools और inspiration को सीमित भी करती है
जितना अधिक हम hyper-specialized होते जाते हैं, LLM अलग-अलग horizons को जोड़ने के लिए उतने ही मूल्यवान tool बनते जाते हैं
पहले उस तक पहुँचने की लागत बहुत अधिक थी, लेकिन अब ऐसा नहीं रहा
कमाल की बात यह है कि जब कोई collective intelligence में कुछ योगदान देता है, तो वह तुरंत किसी और की किसी भी समस्या पर लागू हो सकता है जिस पर वे काम कर रहे हों
शायद LLM उस क्षेत्र के बारे में अधिक horizontal understanding विकसित करने में मदद कर सकते हैं
यह एक general-purpose model है, इसलिए इसमें physics, biology, history वगैरह में भी PhD-स्तर से ऊपर का ज्ञान है
मुझे नहीं लगता कि हम अभी ठीक से समझ पाए हैं कि इतने सारे क्षेत्रों का ज्ञान आत्मसात किए हुए एक अकेला “mind” कितना कुछ कर सकता है
दिलचस्प है कि जब OpenAI ने कहा था कि मॉडल में “PhD-स्तर की बुद्धि” होगी तो सब हँसे थे, और अब मानक क्या यह नया गणित बना सकता है पर खिसक गया है
मानो PhD-स्तर नहीं, बल्कि Leibniz, Euler, Galois-स्तर की माँग हो
ब्लॉग पोस्ट में लिंक की गई इस काम की summarized chain of thought 125 पेज की है
यह Anthropic के Mythos से जिस चीज़ का संकेत मिलता था, उससे काफ़ी मिलता-जुलता, लगभग बेतुने पैमाने का reasoning scale है
मैं सोच रहा हूँ कि Erdős की problem हल होने की ही बात क्यों सुनाई देती है
गणित में अनगिनत unsolved problems होंगी, लेकिन r/singularity और r/accelerate पर ChatGPT की “math breakthroughs” की सारी बातें बस Erdős problems ही क्यों हैं
वे इतनी प्रसिद्ध हैं कि लोग उनमें रुचि लें, और साथ ही इतनी आकर्षक नहीं कि लोग उन पर अपार मेहनत झोंकते रहें
किसी और द्वारा पहले से उठाई गई समस्या को हल करना गणितीय शोध में एक niche activity है
ज़्यादा आम यह है कि आप किसी दिलचस्प वस्तु का अध्ययन करें, उसे अपने tools से हल हो सकने वाले रूप में ढालें, और फिर समाधान खोजने की कोशिश करें
आदर्श स्थिति में problem setting और solution दोनों अपने आप में दिलचस्प बन जाते हैं
कुछ वैसा ही जैसे एक सदी पहले Hilbert problems थे
यह निश्चित रूप से प्रभावशाली है
लेकिन अगर हमें यह न पता हो कि इस मॉडल को किस पर train किया गया था, तो यह आँकना बहुत मुश्किल है कि यह किस हद तक “अपने बल पर” वहाँ पहुँचा
पूरे AI उद्योग ने कई क्षेत्रों के विशेषज्ञों को बहुत पैसा देकर भारी मात्रा में नया training data बनवाया है
ऐसा नया training data जो कहीं और नहीं मिलता, और कंपनियाँ उसे अपने पास जमा करके रखती हैं; उसमें वास्तव में मौलिक ideas भी हो सकते हैं
यह संभव नहीं लगता कि किसी ने इस समस्या को हल करके बस training data में डाल दिया हो, लेकिन ईमानदारी से कहूँ तो OpenAI के बारे में मैं यह भी पूरे यक़ीन से नहीं कह सकता कि उन्होंने ऐसा बिल्कुल नहीं किया होगा
इससे भी ज़्यादा दिलचस्प संभावना यह है कि उन्होंने ऐसा training data पहले से बना लिया हो जो इस proof के ज़्यादातर या सारे ऐसे मुख्य propositions को छूता हो जिन्हें “original” माना जा रहा है
बेशक, हमें पता नहीं
लेकिन जब तक ऐसी चीज़ें ग़ैर-गोपनीय तरीक़े से नहीं बनेंगी, यह सवाल हमेशा बना रहेगा