Terence Tao का o1 विश्लेषण

(mathstodon.xyz)

2 पॉइंट द्वारा GN⁺ 2024-09-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

गणितज्ञ Terence Tao ने OpenAI के नए GPT-श्रृंखला मॉडल o1 को शोध-स्तरीय गणितीय कार्यों पर परखा और आकलन किया कि यह पिछले मॉडलों से अधिक सक्षम है, लेकिन अत्याधुनिक शोध समस्याओं के लिए अभी भी अपर्याप्त है
अस्पष्ट गणितीय प्रश्नों में इसने संबंधित प्रमेय Cramer’s theorem को ढूँढकर संतोषजनक उत्तर दिया, जो पिछले GPT के भ्रमपूर्ण उत्तरों की तुलना में स्पष्ट सुधार था
कठिन complex analysis समस्या में यह केवल तब सही समाधान तक पहुँचा जब बहुत से hints और मार्गदर्शन दिए गए, जिससे पता चलता है कि मुख्य विचार उत्पन्न करने की क्षमता अभी भी कमजोर है
Lean formalization प्रयोग में समस्या को तोड़ने का इसका तरीका उचित था, लेकिन Lean और Mathlib की जानकारी पुरानी होने के कारण code errors और library calls की विश्वसनीयता से जुड़ी समस्याएँ बनी रहीं
Tao का मानना है कि AI पहले उबाऊ और सत्यापन योग्य उप-कार्य भर सकता है, और formal proof assistants के साथ जुड़ने पर गणितीय शोध की उत्पादकता को काफी बढ़ा सकता है

GPT-o1 का समग्र मूल्यांकन

OpenAI का नया GPT-श्रृंखला मॉडल GPT-o1 LLM execution से पहले एक प्रारंभिक reasoning चरण चलाता है
Tao के पास जो मॉडल था वह prototype version था, और उन्होंने बाद की प्रतिक्रिया में बताया कि उन्होंने मुख्य रूप से उस मॉडल का परीक्षण किया जिसे अब preview version कहा जाता है
कुल मिलाकर यह पिछले iterations की तुलना में अधिक सक्षम है, लेकिन सबसे उन्नत शोध-स्तरीय गणितीय कार्यों में अभी भी संघर्ष करता है

प्रयोग 1: अस्पष्ट गणितीय प्रश्न और Cramer’s theorem

पहला प्रयोग पहले किए गए एक पुराने प्रयोग की पुनरावृत्ति था
प्रश्न एक अस्पष्ट रूप से व्यक्त गणितीय सवाल था, जिसे हल करने के लिए literature में उपयुक्त प्रमेय Cramer’s theorem को खोजना ज़रूरी था
पहले के GPT ने कुछ संबंधित अवधारणाओं का उल्लेख तो किया था, लेकिन विवरण लगभग भ्रमपूर्ण और निरर्थक थे
नए मॉडल ने Cramer’s theorem की पहचान की और Tao के अनुसार पूरी तरह संतोषजनक उत्तर दिया

प्रयोग 2: कठिन complex analysis समस्या

दूसरा प्रयोग एक कठिन complex analysis समस्या पर था, जिसमें Tao ने पहले GPT-4 से proof writing में सहायता माँगी थी
परिणाम पिछले मॉडल से बेहतर थे, लेकिन अपेक्षाओं से कम रहे
- बहुत सारे hints और मार्गदर्शन देने पर यह सही और अच्छी तरह लिखा हुआ समाधान दे सका
- यह अपने आप मुख्य conceptual idea उत्पन्न नहीं कर सका
- इसमें गैर-तुच्छ गलतियाँ भी हुईं
Tao ने इस अनुभव की तुलना “पूरी तरह अक्षम नहीं, लेकिन एक साधारण graduate student के स्थिर simulation” को मार्गदर्शन देने से की
चूँकि पिछले मॉडल “वास्तव में अक्षम graduate student के स्थिर simulation” के अधिक निकट थे, इसलिए यह मॉडल सुधार दर्शाता है
उनका मानना है कि यदि प्रदर्शन में एक-दो और सुधार हों और इसे computer algebra packages तथा proof assistants जैसे tools के साथ जोड़ा जाए, तो यह “सक्षम graduate student के स्थिर simulation” के स्तर तक पहुँच सकता है
उस स्तर पर यह शोध-स्तर के कार्यों में भी काफी उपयोगी हो सकता है

प्रयोग 3: Lean formalization कार्य

तीसरे प्रयोग में नए मॉडल से Lean में prime number theorem के एक रूप को दूसरे रूप से व्युत्पन्न करने की प्रक्रिया शुरू कराई गई
आवश्यकता स्वयं proof की नहीं थी, बल्कि समस्या को छोटे सहायक lemmas में बाँटना और उन propositions को formalize करना था
परिणाम आशाजनक थे
- मॉडल ने कार्य को अच्छी तरह समझा
- इसने समस्या का प्रारंभिक विभाजन उचित तरीके से किया
सीमाएँ भी स्पष्ट थीं
- training data में नवीनतम Lean और mathematical libraries की जानकारी की कमी थी
- code में कई गलतियाँ थीं
Tao का मानना है कि यदि इस स्तर के मॉडल को Lean और Mathlib के लिए विशेष रूप से fine-tune किया जाए और IDE में integrate किया जाए, तो यह formalization projects में बहुत उपयोगी हो सकता है

semantic search और creative strategy generation पर प्रयोग

Tao ने 2010 में “multiplicative integral” के सही शब्द को न ढूँढ पाने पर MathOverflow पर प्रश्न पूछा था, और उन्हें मानव विशेषज्ञों से संतोषजनक उत्तर मिला था
जब वही प्रश्न o1 से पूछा गया, तो उसने एकदम सही उत्तर दिया
हालाँकि संभव है कि संबंधित MathOverflow पोस्ट मॉडल के training data में शामिल रही हो, इसलिए इसे semantic search क्षमता का सटीक मूल्यांकन नहीं माना जा सकता
फिर भी कुछ semantic search queries में यह उच्च-गुणवत्ता वाले उत्तर देने के मामले में question-answer sites के बराबर दिखाई देता है
एक अन्य प्रयोग में Tao ने अपने हालिया blog post का प्रारंभिक भाग दिया और Erdos समस्या की मौजूदा आंशिक प्रगति को पूर्ण समाधान में बदलने के लिए गायब तत्व खोजने को कहा
यह परिणाम कुछ निराशाजनक था
- मॉडल ने वही रणनीति सुझाई जो blog post में पहले से दोबारा लिखे गए हालिया शोध की रणनीति थी
- यह उस रणनीति का कोई रचनात्मक रूपांतर नहीं दे सका
Tao का मानना है कि LLM tools में यादृच्छिक रूप से creative strategies उत्पन्न करने की थोड़ी क्षमता है, लेकिन यह पहलू अभी भी कमजोर है

graduate student उपमा पर स्पष्टीकरण

Tao ने बाद में स्पष्ट किया कि AI tools की क्षमता का आकलन करते समय उन्होंने अनजाने में यह गलत और संभावित रूप से हानिकारक प्रभाव छोड़ा कि मानव graduate students को स्थिर और एक-आयामी “क्षमता” स्तरों में वर्गीकृत किया जा सकता है
उनके अनुसार, मौजूदा शोध परियोजनाओं में योगदान देने की क्षमता graduate training के कई पहलुओं में से केवल एक है, और अपेक्षाकृत छोटा हिस्सा है
creativity, independence, curiosity, explanation skills, intuition, expertise, work ethic, organization, और social skills जैसे गुणों में उत्कृष्ट छात्र, केवल सौंपे गए तकनीकी कार्यों में दक्ष छात्रों की तुलना में अधिक सफल और प्रभावशाली गणितज्ञ बन सकते हैं
मानव छात्र अध्ययन के दौरान सीखते और विकसित होते हैं, और जिन क्षेत्रों में वे शुरुआत में संघर्ष करते हैं उनमें कुछ वर्षों बाद दक्ष हो सकते हैं
इसके विपरीत, आधुनिक AI tools उत्तरों में कुछ feedback शामिल कर सकते हैं, लेकिन कोई व्यक्तिगत model वास्तविक दीर्घकालिक विकास नहीं करता, इसलिए उन्हें स्थिर performance metrics से आँकना अधिक उचित है
Tao ने मानव छात्रों का fixed mindset के साथ मूल्यांकन करने वाले ढाँचे को अनुचित मानते हुए खेद व्यक्त किया

शोध सहायक tool के रूप में उपयोगिता और cost ratio

Tao का benchmark यह था कि कोई tool विशेषज्ञ गणितज्ञ द्वारा संचालित जटिल गणितीय शोध परियोजना में sub-tasks में कितनी मदद कर सकता है
एक सक्षम graduate student परियोजना में ढलने और उसकी निगरानी पर लगने वाले शुद्ध प्रयास से अधिक मूल्यवान योगदान दे सकता है
मौजूदा tools में अभी उपयोगी output पाने के लिए जितना प्रयास prompt करने और verify करने में लगता है, वह अक्सर उनके लाभ से अधिक है
- Tao ने वर्तमान ratio को लगभग 2x~5x बताया
उनका मानना है कि कुछ वर्षों में इस ratio के 1x से नीचे गिरने की संभावना से इनकार नहीं किया जा सकता
यदि ratio 1x से नीचे जाता है, तो इससे इस क्षेत्र में tools का व्यापक अपनाव शुरू हो सकता है
कुछ खास sub-tasks में यह ratio पहले ही 1 से कम हो सकता है
- semantic search
  - data format conversion
  - गणितीय शोध अन्वेषण में मदद करने वाला numerical computation code generation

Lean और Mathlib में क्या कमी है

Tao के प्रयोगों में formalization tool के रूप में उपयोगी बनने के लिए सबसे बड़ी कमी यह थी कि outputs को नवीनतम Lean और Mathlib से कैसे जोड़ा जाए
Lean और Mathlib हर महीने विकसित होते रहते हैं
Tao के अनुसार मॉडल शायद Lean और Mathlib के एक साल से अधिक पुराने कई versions पर trained था, और ये versions एक-दूसरे के साथ 100% compatible नहीं थे
परिणामस्वरूप मॉडल द्वारा बनाया गया syntax और library calls भरोसेमंद नहीं हैं
फिर भी, जो व्यक्ति Lean और Mathlib की वर्तमान स्थिति जानता हो, वह अधिकांश छोटी गलतियों को manually ठीक करने लायक निकटता पा सकता है

सत्यापन योग्य automation और formal proof assistants

Tao के मन में मुख्य use case यह है कि गणितज्ञ उन समस्याओं को तेजी से हल कर सकें जिन्हें सिद्धांततः वे बहुत अधिक manual effort से हल कर सकते हैं
इसमें AI पहले उबाऊ चरणों को भरता है और फिर विशेषज्ञ मानव output की समीक्षा करता है
इस स्थिति में, भले ही AI वास्तविक मौलिक सोच न दिखाए, फिर भी यह उत्पादकता को काफी बढ़ा सकता है
उनका मानना है कि इससे आज की तुलना में कहीं बड़े शोध प्रोजेक्ट भी संभव हो सकते हैं
यदि ऐसे tools को formal proof assistants के साथ integrate किया जाए, तो उन कार्यों की संगति का उच्च-विश्वसनीयता के साथ स्वचालित मूल्यांकन किया जा सकता है जिनमें गणितीय propositions के proofs देने होते हैं
Tao का मानना है कि ऐसे कार्य शोध-स्तर के कार्यों का एक महत्वपूर्ण हिस्सा बनाते हैं

गणितीय शोध के लिए AI tool ecosystem का दृष्टिकोण

Tao को उम्मीद है कि विभिन्न शोध कार्यों को संभालने वाला एक AI tool ecosystem उभरेगा
इसमें literature search, proof formalization, और छोटे sub-problem solving जैसे कार्य शामिल होंगे
अभी बहुत बड़े सामान्य-उद्देश्य वाले proprietary LLMs सबसे अधिक ध्यान खींच रहे हैं, लेकिन भविष्य में अतिरिक्त सुधार या application-specific fine-tuning के लिए data और compute की सीमांत लागत बहुत महँगी हो सकती है
शोध समुदाय द्वारा विशेष जरूरतों के अनुसार विकसित किए गए हल्के और open source models तथा datasets भी महत्वपूर्ण भूमिका निभा सकते हैं
Tao का मानना है कि general-purpose models अधिक संकीर्ण tools के समन्वय के लिए user-friendly interface की भूमिका निभा सकते हैं

1 टिप्पणियां

GN⁺ 2024-09-15

Hacker News की राय

अगर GPT को Python की तरह Lean proof assistant के लिए ज़्यादा ट्यून किया जाए, तो research-level mathematics में इसकी उपयोगिता बढ़ सकती है
मैं OR से जुड़े क्षेत्र में काम करता हूँ, और ChatGPT 4o ने OR literature को इतना absorb कर लिया है कि वह कई “problem forms” के लिए काफ़ी काम की Mixed-Integer Programming (MIP) formulation दे सकता है
उदाहरण के लिए, अगर “scores के हिसाब से i items को n buckets में डालना है, लेकिन हर bucket को sequentially भरना है” जैसी logical problem दें, तो यह वाकई इस्तेमाल लायक mathematical formulation निकाल देता है, और आम तौर पर थोड़ा-सा सुधार ही चाहिए होता है
यह कमजोर formulations के बारे में भी warning दे देता है जहाँ logic टूट सकता है, इसलिए pitfalls से बचने में बहुत उपयोगी है
बेशक, अगर आप MIP optimization नहीं समझते तो इसे इस तरह अच्छे से इस्तेमाल करना मुश्किल है, और GPT को step-by-step reason करने देने के लिए problem को छोटे हिस्सों में तोड़ना पड़ता है, लेकिन जिन्हें यह करना आता है उनके लिए $20/month पूरी तरह वसूल है
HN पर जब लोग paid/good LLMs, यानी Sonnet 3.5 और GPT-4o को बेकार बताते हैं, तो आम तौर पर लगता है कि उन्हें LLM की strengths का फायदा उठाने वाली usage नहीं आती, या hype की वजह से one-shot magic की उम्मीद रखते हैं, या सच में उनका domain इससे match नहीं करता
जो लोग LLM की strengths का उपयोग करना और errors verify करना जानते हैं, उनके लिए यह काम में काफ़ी leverage देता है
- उपयोगिता से पूरी तरह सहमत हूँ
  HN और पूरा internet LLM को “बेकार” बताने वाली reflexive आलोचना और chatter का समुद्र बन गया है, लेकिन असल में मैंने कई हफ्तों से code की एक भी line खुद नहीं लिखी
  मैं जो चाहता हूँ उसे paragraphs में specify करता हूँ, pitfalls के आसपास guidance पाता हूँ, और simple iterative loop से working code मिल जाता है
  यह पूरी तरह एक सीखी हुई skill है, और models, खासकर उनके आसपास के tools, ज़रूरी baseline तक पहुँच चुके हैं
  बस धैर्य से सीखकर इनके साथ काम करना सीख लें, तो दुनिया कहीं ज़्यादा productive हो जाती है
  Edit: https://aider.chat/ + paid 3.5 Sonnet
- मैं भी OR-adjacent काम करता हूँ, लेकिन 4o से MIP formulation पाने में मेरी किस्मत कहीं ज़्यादा खराब रही
  यह plausible answers और हाथ न आने वाली mathematical explanations देता है, लेकिन equations काम नहीं करतीं और reasoning भी आपस में fit नहीं बैठती
  ऐसा लगता है जैसे किसी math class में proof अजीब हो और मुझे लगे कि शायद मैं ही बेवकूफ हूँ, फिर पता चले कि professor असल में भागा हुआ dementia patient था और शुरुआत से ही बकवास कर रहा था
  कल ही मैंने o1 से maximum flow के ज़रिए यह देखने को कहा कि क्या s से t तक v से होकर जाने वाला simple path मौजूद है, लेकिन उसका बहुत convincing दिखने वाला algorithm मूल रूप से टूटा हुआ था
  मेरे solution ने उस failed attempt से कुछ techniques लीं, लेकिन कई बार hints देने के बाद भी वह working answer नहीं ढूँढ पाया, लगातार सिर्फ s→t flow ही ढूँढता रहा और यह नहीं समझा कि v→{s,t} key है
  उस reasoning को verify करना भी mentally बहुत थकाने वाला है
  subtly गलत answer को साफ़ तौर पर गलत answer की तुलना में detect करना और penalty देना मुश्किल होता है, इसलिए शक होने लगता है कि RLHF ने reasoning को धुंधला बनाने वाली दिशा चुन ली है
- मैं अभी MIP course पढ़ा रहा हूँ, इसलिए students को देने वाले कुछ questions 4o से पूछे
  x!=y कैसे करें, knapsack problem कैसे करें जैसे basic building blocks तो यह दे सकता था, लेकिन textbook memorization से थोड़ा भी ज़्यादा interesting सवाल पूछने पर लगता है कोई भी model सही नहीं था
  curious हूँ कि आप बेहतर answers कैसे पा रहे हैं
  शायद इसलिए भी कि जैसे ही मुझे answer गलत दिखता है, मैं उसे छोड़कर खुद लिख देता हूँ
  सच में, अभी-अभी मैंने पूछा कि x,y जब {1..9} range के integer variables हों तो x!=y को formulate करके explain करो; constraints सही थे लेकिन explanation गलत थी
- मैं भी OR काम करता हूँ, और MILP optimization में मेरा अनुभव बिल्कुल उल्टा रहा
  research results भी ऐसे ही हैं: इस साल की शुरुआत में आई एक बड़ी survey paper में बताया गया कि LLMs textbook problems पर तो आम तौर पर सही रहते हैं, लेकिन complexity और novelty बढ़ने पर लगातार कम useful होते जाते हैं
  नतीजे best case में भी stereotyped होते हैं, और detailed work में जाने पर उलटे misleading subtle traps बन जाते हैं
  LLM से पूछकर देखें कि कोई specific constraint क्या करता है, या उससे भी बुरा, proprietary CPLEX syntactic sugar के mathematical model को explain करने को कहें—वह math, syntax और explanation, सब hallucinate कर देगा
- reflexive LLM-bashing का अच्छा जवाब है: “क्या यह बात खुद stochastic parrot जैसी नहीं लगती?”
  HN के कुछ लोग तो बोलने वाले कुत्ते ने C code लिखा हो तो भी उसे इसलिए dismiss कर देंगे कि उसमें buffer overflow bug है
2019 में वापस जाकर सोचिए कि आप कोई लेख पढ़ रहे हैं जिसमें Alexa जैसी चीज़ों से interact करने का experience “एक average लेकिन पूरी तरह incompetent नहीं graduate student को सलाह देने जैसा लगभग था” कहा गया हो
5 साल में आया फर्क हैरान करने वाला है
- लगता है AI जिस job को सबसे पहले बड़े पैमाने पर घटाएगा, वह programming है
  खासकर बहुत अच्छे लेकिन remote काम करने वाले individual contributors जोखिम में दिखते हैं, और इस forum में साफ़ conflict of interest है
- अहम बात शायद यह है कि ज़्यादातर लोग “average लेकिन पूरी तरह incompetent नहीं graduate student” level की intelligence तक भी नहीं पहुँचते
  एक average science graduate student, खासकर वह जो छोड़े बिना graduate हो जाता है, हममें से ज़्यादातर की तुलना में बहुत impressive व्यक्ति होता है
  “हम” लोगों के लिए ऐसी level की intelligence को पूरे दिन assistant की तरह इस्तेमाल कर पाना, अगर token cost afford हो सके, तो life का बहुत बड़ा upgrade है
- 1950 में वापस जाकर यह पढ़ने का दृश्य भी सोचिए कि future bots के साथ math homework solve करने वाली chat है
- इसलिए मुझे लगता है कि AI era hype नहीं, बल्कि बहुत real है
  Jensen ने कहा था कि AI iPhone era तक पहुँच गया है
  अगले 5–10 साल में लोग जो भी definition लगाएँ, AGI या ASI नहीं आएगा, लेकिन मैं AI को अक्सर assisted intelligence या augmented intelligence कहना पसंद करता हूँ
  यह मौजूदा computers और smartphones की sales को कम से कम 5–10 साल, या 3–4 replacement cycles तक push करने लायक value देगा
- Terry एक genius हैं जो LLM से ऐसी value निकाल सकते हैं
  average व्यक्ति अभी ऐसा नहीं कर पाता
  वे model को prompt अच्छी तरह नहीं दे पाते, और शुरुआत से ही life की problems text-based नहीं होतीं
o1 मॉडल सचमुच चौंकाने वाला है
तेज़ vector similarity प्रोजेक्ट में पहले से ही काफ़ी optimized Rust code में इसने उल्लेखनीय speed-up दिलाया, जिसकी पुष्टि सावधानीपूर्वक benchmarks और correctness checks से हुई
इतना ही नहीं, इसने Jensen-Shannon divergence पर आधारित statistical dependency के एक नए measure को फिर से सोचने और conceptualize करने में मदद की, और वह बहुत अच्छी तरह काम करता है
इसने normalized mutual information का बेहद तेज़ implementation भी बना दिया; यह वह हिस्सा था जिसे मैं मूल library में डालना चाहता था, लेकिन 15,000 dimensions से ऊपर जैसे बड़े vectors के लिए पर्याप्त तेज़ तरीका नहीं मिल पा रहा था
इसने शुरुआत से ही compile हो जाने वाला perfect Rust code तो नहीं दिया, लेकिन VS Code की compiler warnings paste करने पर इसने एक और कोशिश की और सारे bugs ठीक कर दिए
इसके उलट GPT-4o में Rust type errors, lifetime/borrow errors वगैरह ठीक कराने में अक्सर दर्जनों बार लग जाते थे, और Claude 3.5 Sonnet अजीब तरह से Rust के मामले में बस बेवकूफ़-सा था
performance optimization और अपेक्षाकृत bug-free code ही नहीं, बल्कि creative problem solving, core math और algorithms की विशाल जानकारी व latest research results का synthesis, और मैं क्या हासिल करना चाहता हूँ यह समझकर सच में करके दिखाने की क्षमता—ये सब मिलकर इसे सचमुच game changer जैसा महसूस कराते हैं
code file changes का diff यहाँ है: https://github.com/Dicklesworthstone/fast_vector_similarity/...
- किसी इंसान को सालाना 5 लाख डॉलर देकर hire करने की बड़ी वजह यह है कि उसे उन विशाल existing systems के साथ काम कराना होता है जिन्हें LLM अभी नहीं समझते
  फिर भी छोटी libraries को optimize करना और fast functions implement करना किसी भी programmer के toolbox में बड़ा सुधार है
- अब तुलना और संदर्भ के लिए एक रकम का आंकड़ा मिल गया है
o1 के साथ मेरा अनुभव बहुत अलग रहा, और मेरे मानकों से इसे “अच्छे undergraduate” के स्तर का भी नहीं कहूँगा
उदाहरण के लिए, यहाँ मैंने काफी सरल सवाल पूछा था और यह पूरी तरह उलझ गया
https://moorier.com/math-chat-1.png
https://moorier.com/math-chat-2.png
https://moorier.com/math-chat-3.png
पूरी बातचीत यहाँ होनी चाहिए: https://chatgpt.com/share/66e5d2dd-0b08-8011-89c8-f6895f3217...
- यह सिर्फ़ anecdotal है, लेकिन मेरे लिए O1, 4o और Claude 3.5 Sonnet से खराब था
  ऊपर से यह धीमा भी है और ज़्यादा बोलता भी है
- अगर LLM को geometry पर train कराने के बारे में सोचें, तो source material की बहुत-सी जानकारी शायद text के साथ मौजूद diagrams में होती है
  यह model multimodal नहीं है, इसलिए हो सकता है कि attached diagrams से इसे बिल्कुल training न मिली हो
  अच्छा होगा अगर लोग geometry problem sets और analysis problem sets जांचकर अंतर की तुलना करें
- समझ नहीं आता इसे customer support agent की तरह बोलने के लिए क्यों बनाया गया
  यहाँ ideal experience छोटा और concise जवाब है, न कि लंबा-चौड़ा और चापलूसी भरा जवाब
- उत्सुक हूँ कि truncated icosidodecahedron के volume calculation में गलती क्या थी, यह पता चला या नहीं
मेरे लिए नई बात यह थी कि “अनुभव किसी सामान्य लेकिन पूरी तरह अयोग्य नहीं graduate student को सलाह देने जैसा था” इतनी सारी fields में लागू होता है
LLM से चीज़ों को व्यवस्थित करने और समझने में मुझे बड़ा मूल्य मिला
जिन क्षेत्रों को मैं बहुत अच्छी तरह जानता हूँ, वहाँ यह ढेर सारे छोटे-mote chores निपटाकर मदद करता है
जैसा Terence ने तीसरे experiment में बताया, problem को तोड़ दें तो छोटे blanks भरने का काम यह काफी solid तरीके से करता है
हालांकि conceptual understanding चाहिए, और कुछ prompt engineering भी लगती है
अनजान क्षेत्रों में जाते समय prompts को layer by layer build करना पड़ता है
अगर जवाब पहले से known है, तो छोटे और specific हिस्सों से खोदते हुए बाहर की तरफ फैलना बेहतर है; और बाहर से अंदर आते समय भी specific और focused शुरुआत करना अच्छा रहता है
मैंने इसे ऐसे बहुत complex topics की conceptual layers में घुसने के लिए इस्तेमाल किया जिन्हें मैं बिल्कुल नहीं जानता था, और फिर YouTube experts, research papers और trusted sources से concepts verify किए—यह एक कमाल का tool है
- मेरा अनुभव भी यही है
  मैं LLM को ऐसे intern या junior की तरह treat करता हूँ जो वह legwork कर देता है जिसे खुद करने की मेरे पास bandwidth नहीं है
  supervision और मदद करनी पड़ती है, और उसकी गलतियाँ check करनी पड़ती हैं, लेकिन अंत में useful results मिल जाते हैं
  attitude के लिहाज़ से, जिसने interns को supervise या juniors को mentor किया है, उसके लिए LLM—खासकर paid models—से value निकालना आसान लगता है
  इसके उलट, career की शुरुआत में मेरी तरह, कोई experienced lone individual contributor जो लोगों से value निकालना नहीं जानता, शायद इसे उतनी अच्छी तरह इस्तेमाल न कर पाए
“Terence Tao जैसी रचनात्मक गणितीय छलांग लगाने में सक्षम होना चाहिए” — यह AI के लिए काफ़ी ऊँचा मानक लगता है
यह कुछ वैसा ही है जैसे programming interview में interviewer अपनी team द्वारा महीनों में हल की गई समस्या समझाए, और फिर अगर आप Google के बिना 40 मिनट में whiteboard पर उसका समाधान नहीं लिख पाएँ तो वह निराश हो जाए
- Terence Tao जैसे लोगों के साथ काम करने के अनुभव से, मैं उस स्तर के आसपास भी नहीं हूँ, लेकिन वे किसी भी तरह की creativity खोजते हैं
  वे कुछ भी स्वीकार कर लेते हैं; ज़रूरी नहीं कि वह “उनके स्तर” का हो
  उन्होंने जो लिखा है उसे पढ़कर और अपने अनुभव से मिलाकर देखें तो मुझे ऐसा वर्णन सटीक नहीं लगता
  इस साल की शुरुआत में IMO में उनके व्याख्यान में भी यह बात थी: वे कुछ interactions से प्रभावित हुए थे, लेकिन उन्हें अब भी लगता था कि किसी तरह की रचनात्मक चिंगारी गायब है
- इतना ऊँचा मानक मान लेने की ज़रूरत नहीं है
  उन्होंने असल में जो कहा वह खास था: “यहाँ नतीजे थोड़े निराशाजनक थे... मूलतः model ने वही strategy सुझाई जो समस्या पर हालिया काम में पहले ही पहचानी जा चुकी थी, और वही जिसे मैंने अपने blog post में फिर से लिखा था, लेकिन उस strategy का कोई रचनात्मक variation नहीं दिया”
  मुख्य बात यह है कि वह blog post खुद ChatGPT input का हिस्सा था
  इसके अलावा, उन्होंने साफ़ कहा है कि वे भविष्य में इसके और उपयोगी होने की उम्मीद करते हैं, लेकिन अभी AI/ChatGPT का इस्तेमाल सिर्फ़ references की formatting ठीक करने और सरल “Hello World” style code लिखने में करते हैं
  ऑनलाइन कई दावे हैं कि वे research में हमेशा ChatGPT इस्तेमाल करते हैं, लेकिन coding से आगे की बात सच नहीं लगती
  हालांकि “Terence Tao की research में मदद कर पाना” सचमुच ऊँचा मानक है
- यह सिर्फ़ Terence Tao को देखकर कही बात नहीं है
  ChatGPT से tutorial code से ज़्यादा जटिल program लिखवाएँ या basic blog post लिखवाएँ, तो उसमें creativity की कमी होती है और code design भी ख़राब होता है
- मेरा भी सबसे पहला ख़याल बिल्कुल यही था
  अगर आज जीवित लोगों में सबसे ऊँचे IQ वाला माना जा सकने वाला व्यक्ति इस बात से प्रभावित तो है, पर पूरी तरह संतुष्ट नहीं कि computer Nobel-स्तर का गणितीय reasoning नहीं दे पा रहा, तो यह अपने आप में बहुत बड़ा संकेत है
  तो फिर mathematics PhD के first-year student को क्या सोचना चाहिए?
  Tao ने पहले की post में शायद इस बात को परोक्ष रूप से छुआ था, जहाँ उन्होंने लगभग कहा था कि “o1 graduate student जैसा ही है”
यह दिलचस्प है कि इंसान भी chain-of-thought style reasoning से फायदा उठा सकते हैं
सच तो यह है कि mathematics पढ़ने वाले हर छात्र से अगर संबंधित definitions और जानकारी इस्तेमाल करने से पहले सब याद करने को कहा जाए, तो उनकी क्षमता बहुत बढ़ जाएगी
वास्तविकता में शिक्षक और mathematicians भी ऐसा नहीं करते, क्योंकि recall में मेहनत लगती है और हम समस्या हल करने के लिए जितनी ज़रूरत हो उससे ज़्यादा मेहनत नहीं करना चाहते
अगर recall fail हो जाए तो जानकारी खोजनी पड़ती है, जिसमें और मेहनत लगती है; इसलिए व्यवहार में बस “intuition से धक्का देने” का मजबूत प्रोत्साहन बनता है
AI के पास मेहनत बर्बाद होने को लेकर भावनात्मक बाधा नहीं होती, इसलिए वह अपनी innate ability से ज़्यादा बेहतर reasoner बन जाता है
- exam में solution process दिखाना एक तरह से “chain-of-thought” reasoning जैसा है, लेकिन थोड़ा अलग
  दोनों process को step-by-step तोड़ने पर मजबूर करते हैं, जिससे logic बना रहता है और महत्वपूर्ण steps छूटते नहीं
  लेकिन solution process दिखाना सही procedure साबित करने जैसा है, जबकि “chain-of-thought” reasoning आगे बढ़ते हुए संबंधित definitions और concepts याद कराती है, जिससे गहरी समझ सुनिश्चित होती है
  दोनों का उद्देश्य intuition से धक्का देने से बचना है, लेकिन “chain-of-thought” उस recall aspect में ज़्यादा गहराई तक जाती है जिसे इंसान आसानी से टाल देते हैं
- यह नज़रिया सचमुच अच्छा है
  मैंने इतने सारे सबूत देखे हैं कि chain-of-thought LLMs की मदद करता है, फिर भी मैंने इसे अपने ऊपर ज़्यादा इस्तेमाल करने के बारे में नहीं सोचा
  बेशक कुछ हद तक पहले से करता हूँ, लेकिन आम तौर पर LLM जितना बिल्कुल नहीं
  शायद इसी वजह से writing को अक्सर सोचने का शानदार तरीका कहा जाता है
  writing कम मेहनत में लंबी thought chain संभव बनाती है
- मुझे लगता था कि अटके हुए math problems हल करते समय हर कोई ऐसा ही करता है
  मेरा मतलब school mathematics नहीं, बल्कि university-level mathematics से है
  पढ़ाते समय भी मैं हमेशा definitions पर लौटने को कहता था
  मैं mathematical research में बहुत अच्छा नहीं था और PhD व postdoc के बाद छोड़ दिया, लेकिन अनुभव से research एक तरफ़ समस्या पर गहराई से सोचना, क्या हो रहा है उसे पकड़ना और किसी तरह उसे तोड़ना है; साथ ही उस समस्या से संबंधित अपनी सारी जानकारी खंगालना और मिलती-जुलती समस्याएँ खोजकर देखना कि वहाँ से ideas चुराए जा सकते हैं या नहीं
स्वतंत्र curiosity hobby के रूप में मैं जल्द ही फिर से mathematics पढ़ाई पर लौटने की सोच रहा हूँ, इसलिए बहुत उत्साहित हूँ
इस बार LLM के सहारे पढ़ सकूँगा, इसलिए यह बहुत मज़ेदार होगा
संयोग से Terence Tao की तरह मैं भी textbook देखते हुए बेहतर समझने के लिए LLM से complex analysis के सवाल पूछता रहा हूँ
open-ended mathematical questions को समझने और उपयोगी, relevant लेकिन दूर के conceptual connections जल्दी ढूँढ निकालने की क्षमता हैरान करने वाली है
Fields Medal विजेता Professor Tao स्वाभाविक रूप से मौजूदा mathematics LLMs को “पूरी तरह अक्षम नहीं, ऐसे graduate student” जैसा मानकर नीचे देखते हैं, लेकिन मेरी मौजूदा क्षमता के स्तर पर इसका मतलब है कि वह मेरे लिए ऊपर देखने लायक चीज़ है
6 महीने पहले का एक प्रभावशाली उदाहरण: मैंने पूछा था कि Klein bottle जैसे non-orientable manifolds पर भी complex analysis कर सकें, इसके लिए कौन-सी definitions ढीली की जा सकती हैं; यह ऐसी समस्या थी जिस पर मैं लंबे समय से सोच रहा था, और LLM ने तुरंत समझ लिया कि Cauchy-Riemann equations globally inconsistent हो जाती हैं
एक अर्थ में, CR की arbitrary sign convention manifold पर orientation define करती है, और manifold orientation पलटना i को -i से बदलने जैसा है
अब मैं यह इसलिए समझता हूँ क्योंकि LLM ने इसे ऐसे देखने का सुझाव दिया
बेशक यह LLM की original thinking नहीं है; यह शायद कहीं किसी बेहद specialized graduate textbook में लिखा हुआ mathematics होगा
लेकिन मेरे लिए यह मायने नहीं रखता
ऐसे सवाल, जिनमें लगभग पता ही नहीं होता कि कहाँ से शुरू करें, LLM या PhD-level domain expert के बिना जवाब देना बिल्कुल असंभव है
इस तरह की semantic-level search को accessible बनाने वाला कोई और tool नहीं है, और मैं सावधानी से सोच रहा हूँ कि इस बहुत powerful लेकिन unfamiliar tool का सबसे अच्छा इस्तेमाल कैसे किया जाए
- धरती पर लगभग हर textbook के लिए एक तरह का semantic full-text search engine इस्तेमाल करने जैसा महसूस होना superpower जैसा है
  अगर यह उस exact textbook reference तक भी पहुँचा दे जहाँ जवाब मिला, तो और अच्छा होगा
- आपको कैसे पता चलेगा कि वह जवाब सही है या नहीं?
- यह भी सवाल है कि ऐसी performance को measure कैसे किया जाए
  benchmarks exploit हो जाते हैं या training में शामिल हो जाते हैं, और इस तरह की queries के लिए chatbot arena में पर्याप्त signal होने की संभावना भी नहीं है
  कुछ महीनों बाद शायद average user प्रमुख models के बीच performance difference पहचान नहीं पाएगा
Terence Tao से पूरी तरह सहमत हूँ
यह असली प्रगति है
मैं हमेशा मानता आया हूँ कि अगर LLM के पास reasoning की नकल करना सीखने के लिए सही data हो, तो performance बेहतर हो सकती है
लेकिन यह अब भी pattern matching ही है, और मुझे संदेह है कि यह तरीका सचमुच की generalization बनाने में बहुत प्रभावी होगा
इसलिए जब o1 आम तौर पर उपलब्ध होगा, तो reinforcement learning चरण में model ने जो “reasoning program” या “reasoning pattern” सीखे हैं, उनसे आगे जाने वाली पर्याप्त नई या जटिल problems में लगातार hallucination और गलत reasoning देखने की संभावना ज्यादा है
https://www.lycee.ai/blog/openai-o1-release-agi-reasoning
मेरे लिए o1 model कभी अच्छा तो कभी खराब साबित हुआ
एक तरफ, जिन भी दिनों मैंने आज़माया, इसने NYT Connections game[0] हल किया[1], जबकि Claude Sonnet 3.5 सहित दूसरे models ऐसा नहीं कर पाए
दूसरी तरफ, GPT-4o की तरह यह महत्वपूर्ण details छोड़ देता है और hallucinate करता है
सही जवाब तक पहुँचने के लिए अक्सर इसका हाथ पकड़कर सुधारना पड़ता है, इसलिए कभी-कभी लगता है कि सीधे खुद कर लेना आसान होता
इस बार जवाब का इंतज़ार करने में 20–60 सेकंड लगते हैं, इसलिए अनुभव और खराब है
शायद o1 जिन क्षेत्रों में बेहतरीन है, वे ऐसी चीज़ें हैं जिनकी मुझे खास जरूरत नहीं
मैं traditional STEM में नहीं, बल्कि software engineering में हूँ, और o1 अभी इतना ज्यादा बेहतर नहीं है कि latency को justify कर सके
एक क्षेत्र जिसे मैंने अभी explore नहीं किया है, वह है implementation plan या architecture बदलाव की plan बनाने में इसका इस्तेमाल
इसमें यह शायद बेहतर हो, लेकिन सही problem देकर देखनी होगी
[0] https://www.nytimes.com/games/connections
[1] https://chatgpt.com/share/66e40d64-6f70-8004-9fe5-83dd3653a5...

Terence Tao का o1 विश्लेषण

GPT-o1 का समग्र मूल्यांकन

प्रयोग 1: अस्पष्ट गणितीय प्रश्न और Cramer’s theorem

प्रयोग 2: कठिन complex analysis समस्या

प्रयोग 3: Lean formalization कार्य

semantic search और creative strategy generation पर प्रयोग

graduate student उपमा पर स्पष्टीकरण

शोध सहायक tool के रूप में उपयोगिता और cost ratio

semantic search

Lean और Mathlib में क्या कमी है

सत्यापन योग्य automation और formal proof assistants

गणितीय शोध के लिए AI tool ecosystem का दृष्टिकोण

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय