AI के ‘सोचने’ के पक्ष में तर्क

(newyorker.com)

40 पॉइंट द्वारा GN⁺ 2025-11-05 | 7 टिप्पणियां | WhatsApp पर शेयर करें

Large language models (LLMs) के बारे में यह चर्चा फैल रही है कि वे सिर्फ शब्दों की भविष्यवाणी से आगे बढ़कर वास्तव में समझ और सोच के रूप दिखाते हैं
न्यूरोसाइंटिस्ट Doris Tsao का आकलन है कि machine learning ने पिछले 100 वर्षों की neuroscience की तुलना में बुद्धिमत्ता के सार के बारे में अधिक उजागर किया है
Deep learning और neural network architecture मानव मस्तिष्क के काम करने के सिद्धांत की नकल करते हैं, और इसे ‘समझ = compression’ की अवधारणा से समझाया जाता है
Douglas Hofstadter और Pentti Kanerva का शोध LLMs की ‘seeing as’ संज्ञानात्मक संरचना से जुड़ता है
मनुष्यों जैसी learning efficiency, अनुभव और consciousness की कमी जैसी AI की सीमाएँ और नैतिक जोखिम अब भी प्रमुख चुनौती बने हुए हैं

AI प्रदर्शन का ध्रुवीकरण

Anthropic के CEO Dario Amodei ने भविष्यवाणी की है कि 2027 तक biology, mathematics, engineering और writing के क्षेत्रों में Nobel Prize विजेताओं से भी अधिक बुद्धिमान AI सामने आ सकता है
- उन्होंने data center के भीतर "प्रतिभाओं के देश" की तरह लाखों model copies के अपने-अपने शोध करने की कल्पना पेश की
OpenAI के Sam Altman का दावा है कि उद्योग "digital superintelligence" बनाने के ठीक पहले है, और 2030 का दशक पहले से बिल्कुल अलग युग होगा
अभी ज्यादातर लोग रोजमर्रा में जिन AI tools का उपयोग करते हैं, वे पुराने Microsoft Office के Clippy की तरह सीमित हैं
- Zoom AI सिर्फ "मीटिंग के लिए icebreaker क्या हो?" जैसे साधारण सुझाव देता है
- Siri, reminder set करने के अलावा, बहुत सीमित है
- Gmail का AI ऐसी Turkey trip की कहानी गढ़ देता है, जहाँ उपयोगकर्ता कभी गया ही नहीं
AI की जल्दबाज़ी और असमान rollout ने यह धुंध बनाई है कि यह सिर्फ hype है, लेकिन वास्तव में उल्लेखनीय प्रगति हुई है

प्रोग्रामिंग में AI की क्रांति

शुरुआत में लगा कि AI का असली intelligence या understanding से कोई लेना-देना नहीं है, लेकिन programmer के रूप में काम करते हुए AI का उपयोग करने पर यह दृष्टिकोण बदल गया
code लिखना AI के सबसे अच्छे कामों में है, क्योंकि इसकी संरचना गद्य से अधिक स्पष्ट होती है और इसे अपने-आप verify किया जा सकता है
पहले जानकारी खोजने की जगह AI का सहारा लिया गया, फिर धीरे-धीरे छोटे और स्वतंत्र काम उसे सौंपे गए, और आखिरकार जीवन भर सीखे गए वास्तविक काम भी AI को दिए जाने लगे
- AI models हजारों lines के code की जटिल बारीकियाँ कुछ ही सेकंड में समझ लेते हैं
- वे सूक्ष्म bugs ढूँढते हैं और जटिल नई features का समन्वय करते हैं
AI tools का बेहतर उपयोग सीखने वाली तेज़ी से बढ़ती टीम में स्थानांतरण किया गया
AI agents छुट्टियों की booking या tax filing में भले असफल हों, लेकिन सहकर्मी अधिकांश code AI से लिखते हैं और कभी-कभी कई coding agents एक साथ चलाते हैं
प्रभावी उपयोग सीखने के बाद अब जो काम पहले एक महीना लेता था, वह एक शाम में पूरा हो जाता है
- iOS app बनाना न जानते हुए भी दो iOS apps बनाए गए

बड़े language models की ताकत और कमजोरियाँ

जैसे मेरे बॉस कहते थे कि "interview का मकसद कमजोरियों की अनुपस्थिति नहीं, बल्कि ताकतों की खोज होना चाहिए", वैसे ही LLMs में भी कई कमजोरियाँ हैं
- वे विश्वसनीय लगने वाली झूठी जानकारी गढ़ते हैं, यानी hallucination
- उपयोगकर्ता के गलत होने पर भी आज्ञाकारी बने रहते हैं
- साधारण puzzles में भी फँस जाते हैं
पहले धाराप्रवाहता, लचीलापन और बातचीत की सामग्री को पकड़ने की क्षमता को holy grail जैसी ताकतें माना जाता था
- जब इन ताकतों का प्रत्यक्ष अनुभव होता है, तो सवाल उठता है: "समझ का भ्रम कितना प्रभावशाली होना चाहिए, कि उसे भ्रम कहना मुश्किल हो जाए?"
Max का उदाहरण: playground sprinkler की मरम्मत
- लाल चेहरे वाले बच्चों के सामने utility shed में पाइपों और valves की जटिल भूलभुलैया मिली
- ChatGPT-4o में तस्वीर और समस्या का विवरण डाला गया
- AI ने इसे irrigation system का backflow prevention system बताया और नीचे वाले पीले ball valve को घुमाने का सुझाव दिया
- पानी निकलते ही playground में खुशी की आवाज़ें गूँज उठीं

neuroscience और AI का संगम

UC Berkeley की neuroscience professor Doris Tsao: "machine learning की प्रगति ने पिछले 100 वर्षों में neuroscience ने जो खोजा, उससे अधिक हमें intelligence के सार के बारे में सिखाया है"
- वह उस शोध के लिए प्रसिद्ध हैं जिसमें बंदर चेहरे कैसे पहचानते हैं, इसे decode किया गया
- यह अनुमान लगाया गया कि बंदर किसी विशेष चेहरे को देखते समय कौन-से neurons fire करेंगे
- सिर्फ firing neurons के pattern से चेहरा render करना भी संभव हुआ
- यह सब AI models के भीतर चेहरों को represent किए जाने के तरीके के अध्ययन पर आधारित था
Tsao का सवाल: "ChatGPT से मिली सबसे गहरी insight क्या है?"
- उनका अपना जवाब: "मुझे लगता है यह सोच को मूलतः रहस्यहीन बना देता है"

deep learning का इतिहास और विकास

1980 के दशक में cognitive psychologists और computer scientists की एक टीम (David Rumelhart, Geoffrey Hinton, James McClelland) ने machines में thinking simulate करने की कोशिश की
- UC San Diego में एक research group बनाया गया
मस्तिष्क को एक विशाल network के रूप में देखा गया, जिसमें neurons patterns में fire करते हैं और दूसरे neurons के समूहों को सक्रिय करते हैं
- patterns का यही नृत्य सोच है
- neurons के बीच connection strength में बदलाव के जरिए learning होती है
artificial neural networks बनाए गए और prediction accuracy बढ़ाने के लिए gradient descent algorithm लागू किया गया
- इसकी तुलना पहाड़ की चोटी से घाटी की ओर उतरते एक hiker से की गई: हर कदम पर ढलान की ओर बढ़ो, तो अंततः पहुँच जाओगे
दूसरे AI researchers इस बात को लेकर संशय में थे कि neural networks वास्तविक कामों के लिए पर्याप्त परिष्कृत नहीं हैं, लेकिन जैसे-जैसे networks बड़े हुए, उन्होंने वे समस्याएँ हल करनी शुरू कर दीं जो पहले असंभव मानी जाती थीं
- handwritten digits को अलग करना और images में चेहरों की पहचान जैसी समस्याएँ, जिन पर कभी पूरे research papers लिखे जाते थे, deep learning algorithms ने हल कर दीं
deep learning ने speech recognition, translation, image captions, board games, यहाँ तक कि protein folding prediction जैसी समस्याओं को भी जीत लिया

next-token prediction और learning mechanism

आज के प्रमुख AI models इंटरनेट के बड़े हिस्से पर train होते हैं और next-token prediction तकनीक का उपयोग करते हैं
model आगे आने वाली सामग्री का अनुमान लगाता है और फिर वास्तव में सामने आए content से उसकी तुलना करते हुए सीखता है
- गलत अनुमान neurons के बीच connection strengths में बदलाव लाते हैं (gradient descent)
आखिरकार model text prediction में इतना कुशल हो जाता है कि वह मानो ज्ञान रखता हो और समझता हो, ऐसा दिखने लगता है
सोचने वाली बात यह है: जो लोग मस्तिष्क के काम करने का रहस्य खोज रहे थे, उन्होंने models को मस्तिष्क के आकार तक बड़ा किया, और वे ऐसे काम करने लगे जिनके लिए मस्तिष्क जैसी intelligence चाहिए
- क्या उन्होंने वही चीज़ खोज ली जिसकी तलाश थी?

AI skepticism के खिलाफ तर्क

Ted Chiang ने 2023 के New Yorker लेख "ChatGPT Is a Blurry JPEG of the Web" में skeptical तर्क पेश किया
- ChatGPT सिर्फ पूरे इंटरनेट को program में डालकर उसे अपूर्ण रूप में उलटा बहा देने जैसा है
- कॉपी की कॉपी की तरह धुँधला, लेकिन इतना सक्षम कि intelligent दिखकर धोखा दे सके
linguist Emily M. Bender और sociologist Alex Hanna की किताब "The AI Con" भी ऐसा ही तर्क देती है
- Bender ने LLMs को "stochastic parrots" कहा
The Atlantic के Tyler Austin Harper: "large language models किसी भी चीज़ को समझते नहीं, समझ नहीं सकते, और समझेंगे भी नहीं"
- models लिखते समय "सोच" नहीं रहे होते, बल्कि statistically informed guesses लगा रहे होते हैं
इन तकनीकी बहसों के साथ नैतिक बहसें भी उठीं
- AI सत्ता में बैठे लोगों को और अमीर बनाता है, climate change को तेज़ करने लायक ऊर्जा खपत करता है, और workers को अलग-थलग करता है
- Harper का निष्कर्ष: "AI industry की नींव धोखाधड़ी पर टिकी है"

neuroscientists द्वारा पुनर्मूल्यांकन

Harvard के cognitive scientist Samuel J. Gershman: "'stochastic parrots' वाला तर्क किसी बिंदु पर खत्म होना चाहिए"
- "सिर्फ सबसे हठी skeptics ही यह नकार सकते हैं कि ये systems वह काम कर रहे हैं, जिसके बारे में हममें से ज्यादातर ने नहीं सोचा था कि यह संभव होगा"
Princeton के cognitive neuroscientist Jonathan Cohen, AI की सीमाओं पर ज़ोर देते हुए भी, यह तर्क देते हैं कि LLMs मानव मस्तिष्क के सबसे बड़े और महत्वपूर्ण हिस्से को प्रतिबिंबित करते हैं
- "पहले approximation के रूप में, neocortex एक deep learning mechanism है"
- मनुष्यों में दूसरे जानवरों की तुलना में शरीर के अनुपात के हिसाब से कहीं बड़ा neocortex होता है
- जिन प्रजातियों का neocortex सबसे बड़ा है (हाथी, डॉल्फ़िन, गोरिल्ला, चिंपैंज़ी, कुत्ते), वे सबसे बुद्धिमान भी हैं

समझ संपीड़न है, और संपीड़न समझ है

मशीन लर्निंग शोधकर्ता Eric B. Baum की 2003 की किताब "What Is Thought?" का केंद्रीय तर्क
- समझ संपीड़न है, और संपीड़न समझ है
सांख्यिकी में linear regression: ग्राफ़ के बिंदुओं पर "best fit line" खींचना
- अगर डेटा में कोई मूलभूत नियमितता हो (जूते का साइज़ और लंबाई), तो best fit line उसे कुशलता से व्यक्त करती है और नए बिंदुओं का अनुमान लगाती है
neocortex कच्चे अनुभवों के समुद्र (ध्वनि, दृश्य, अन्य संवेदनाएँ) को "best fit line" में आसुत करके पूर्वानुमान के लिए इस्तेमाल करता है
- बच्चा खिलौने का स्वाद कैसा होगा या खाना फ़र्श पर गिरने पर कहाँ जाएगा, इसका अंदाज़ा लगाता है
- अगर पूर्वानुमान ग़लत हो, तो न्यूरॉनों के बीच के कनेक्शन समायोजित होते हैं
- समय के साथ ये कनेक्शन डेटा की नियमितताओं को पकड़ लेते हैं
- दुनिया का एक संपीड़ित मॉडल बनता है

AI मॉडल का संपीड़न और बुद्धिमत्ता

कृत्रिम neural network भी वास्तविक neural network की तरह अनुभव को संपीड़ित करते हैं
शीर्ष open source AI मॉडल DeepSeek
- उपन्यास लिख सकता है, चिकित्सा निदान के सुझाव दे सकता है, और दर्जनों भाषाओं में native speaker की तरह बोल सकता है
- कई टेराबाइट डेटा पर next-token prediction के लिए प्रशिक्षित
- डाउनलोड करने पर इसका आकार मूल का केवल 1/600 होता है
- इंटरनेट का आसुत रूप, जिसे लैपटॉप में फिट होने लायक संपीड़ित किया गया है
Ted Chiang ने शुरुआती ChatGPT को वेब का धुंधला JPEG कहा था, और यह सही है, लेकिन लेखक के अनुसार यही वजह है कि मॉडल और अधिक बुद्धिमान बनता गया
Chiang ने ख़ुद भी कहा: अगर लाखों arithmetic examples वाली टेक्स्ट फ़ाइल को संपीड़ित करना हो, तो zip फ़ाइल नहीं बल्कि calculator program लिखना पड़ेगा
- "सबसे अच्छा संपीड़न टेक्स्ट को समझकर हासिल किया जा सकता है"
- संभव है कि LLM ने यही करना शुरू कर दिया हो

सोच के अलग-अलग प्रकार

यह कल्पना करना कि कोई कंप्यूटर प्रोग्राम सचमुच समझता है और सोचता है, अप्राकृतिक और अरुचिकर लग सकता है
हम आमतौर पर सोच को चेतन प्रक्रिया के रूप में देखते हैं
- Joyce-शैली का आंतरिक एकालाप
- Proust-शैली की दिवास्वप्न जैसी संवेदनात्मक स्मृतियों की धारा
- तर्क: किसी समस्या को चरण-दर-चरण हल करना
AI पर बातचीत में इन अलग-अलग प्रकार की सोच को गड्डमड्ड कर देने से निर्णय सतही हो जाते हैं
- यह तर्क कि ChatGPT Proust-शैली के दिवास्वप्न नहीं देखता, इसलिए वह स्पष्ट रूप से सोचता नहीं है
- यह तर्क कि ChatGPT logic puzzles बेहतर हल कर सकता है, इसलिए वह स्पष्ट रूप से सोचता है
असल में कुछ अधिक सूक्ष्म चल रहा है: लेखक को नहीं लगता कि ChatGPT का कोई आंतरिक जीवन है, लेकिन वह ऐसा लगता है मानो उसे पता हो कि वह क्या कह रहा है

Douglas Hofstadter का cognition सिद्धांत

Indiana University में cognitive science और comparative literature के प्रोफ़ेसर
"cognition is recognition"
1980 में Pulitzer Prize जीतने वाली "Gödel, Escher, Bach: An Eternal Golden Braid" के लिए प्रसिद्ध
दशकों के शोध से विकसित उनका सिद्धांत: "seeing as ही सोच का सार है"
- किसी रंग के पैच को कार के रूप में, किसी दूसरे को keychain के रूप में पहचानना
- किसी भी फ़ॉन्ट या खराब हस्तलिपि में लिखे अक्षर "A" को पहचानना
यही प्रक्रिया अधिक अमूर्त पहचान की भी नींव है
- कोई chess master जब शतरंज की बिसात देखता है, तो वर्षों का अभ्यास उसके देखने के तरीके में सघन हो जाता है: सफ़ेद का bishop कमज़ोर है, endgame शायद draw होगा
- तेज़ भँवर को धारा पार करने के ख़तरे के संकेत के रूप में पहचानना
- किसी बैठक को "नंगे बादशाह" जैसी स्थिति के रूप में पहचानना
- लेखक का 2 साल का बेटा यह पहचान लेना कि देर सुबह की stroller walk शायद croissant मिलने का मौका हो सकती है, और उसकी माँग करना
Hofstadter के लिए यही बुद्धिमत्ता का केंद्र है

Pentti Kanerva का high-dimensional space सिद्धांत

Hofstadter शुरू में AI को कमतर आँकने वालों में से एक थे
- उन्होंने लिखा था कि ज़्यादातर AI शोध का वास्तविक सोच से कोई संबंध नहीं है, और 2000 के दशक में विश्वविद्यालय के दौरान लेखक भी इससे सहमत था
अपवाद के रूप में उनकी रुचि UC San Diego के एक समूह में थी, और वे अपेक्षाकृत कम-ज्ञात Finnish-American cognitive scientist Pentti Kanerva के काम की प्रशंसा करते थे
Kanerva ने high-dimensional space के गणित में कुछ अजीब गुण खोजे
- high-dimensional space में कोई भी दो यादृच्छिक बिंदु एक-दूसरे से बहुत दूर हो सकते हैं
- विरोधाभासी रूप से, हर बिंदु के आसपास पड़ोसियों का एक बड़ा बादल भी होता है, इसलिए अगर आप "काफ़ी क़रीब" पहुँच जाएँ तो उसे आसानी से पा सकते हैं
- यह स्मृति के काम करने के तरीके की याद दिलाता है
अपनी 1988 की किताब "Sparse Distributed Memory" में उन्होंने तर्क दिया कि विचार, संवेदना और स्मरण को high-dimensional space के निर्देशांकों के रूप में व्यक्त किया जा सकता है
- मस्तिष्क ऐसी चीज़ों को संग्रहित करने के लिए आदर्श hardware है
- हर स्मृति का एक तरह का पता होता है, जिसे उन न्यूरॉनों से परिभाषित किया जाता है जो उसे याद करते समय सक्रिय होते हैं
- नया अनुभव न्यूरॉनों के नए समूह को firing कराकर नया address दर्शाता है
- दो address कई मायनों में अलग हो सकते हैं, लेकिन दूसरे मायनों में समान
- एक धारणा या स्मृति पास की दूसरी स्मृतियों को सक्रिय कर सकती है
उदाहरण: सूखी घास की गंध से summer camp की याद आना, Beethoven की 5वीं सिम्फनी के पहले तीन सुरों से चौथे सुर का अनुमान लगना, या कभी न देखी गई chess position से पुराने खेल याद आना

Hofstadter का रुख बदलना

Hofstadter को एहसास हुआ कि Kanerva दरअसल एक "seeing as machine" का वर्णन कर रहे थे
Kanerva की किताब की भूमिका में: "Pentti Kanerva का memory model मेरे लिए एक रहस्योद्घाटन था। यह पहला शोध था जिसने मुझे उस दूरस्थ लक्ष्य की झलक दी कि पूरा मस्तिष्क कैसे काम करता है, इसे समझा जा सकता है"
हर प्रकार की सोच (Joyce-शैली, Proust-शैली, तार्किक) इस बात पर निर्भर करती है कि सही समय पर सही चीज़ मन में आए
- यही वह तरीका है जिससे हम समझते हैं कि हम किस स्थिति में हैं
Kanerva की किताब नज़र से ओझल हो गई, और Hofstadter की अपनी प्रसिद्धि भी फीकी पड़ गई
- वे कभी-कभार सिर्फ़ नए AI systems की आलोचना करते हुए दिखाई देते थे
2018 में Google Translate आदि के बारे में: "understanding शब्द से जो अर्थ व्यक्त होता है, उस दृष्टिकोण में अभी भी उसकी गहरी कमी है"
2023 में GPT-4 के आने पर Hofstadter के रुख बदलने का क्षण आया
- "इन systems के कुछ काम मुझे उलझन में डालते हैं। 10 साल पहले तक मैं इसकी कल्पना भी नहीं कर सकता था"
- सबसे हठी कमतर आँकने वाला भी अब उसे कमतर नहीं आँक सकता
- ऐसा program जो विशेषज्ञ जितना अच्छा अनुवाद कर सकता है, analogy बना सकता है, improvisation कर सकता है, और generalize कर सकता है
- यह कहना मुश्किल है कि वह समझता नहीं है
"यह सोच से बहुत मिलता-जुलता काम करता है। तरीक़ा कुछ अलग है, लेकिन यह कहा जा सकता है कि यह सोचता है"

LLM का high-dimensional vector space

LLM के केंद्र में एक "seeing as machine" मौजूद है
हर शब्द को high-dimensional space में एक coordinate (vector) दर्शाने वाली संख्याओं की श्रृंखला के रूप में व्यक्त किया जाता है
GPT-4 में word vectors के हज़ारों dimensions होते हैं, जो हर दूसरे शब्द के साथ समानता और अंतर की सूक्ष्म छायाओं का वर्णन करते हैं
प्रशिक्षण के दौरान, जब model से prediction error होती है, तो शब्दों के coordinates समायोजित किए जाते हैं
- जो शब्द टेक्स्ट में साथ आते हैं, वे space में एक-दूसरे के और क़रीब चले जाते हैं
इससे उपयोग और अर्थ का आश्चर्यजनक रूप से सघन निरूपण बनता है, और analogy geometry की समस्या बन जाती है
एक क्लासिक उदाहरण: "Paris" के word vector से "France" घटाकर और "Italy" जोड़ने पर सबसे निकट का दूसरा vector "Rome" होता है
LLM इमेज को भी "vectorize" करके उसके content, mood, यहाँ तक कि चेहरे के भाव भी encode कर सकता है
- इतना विवरण कि उसे किसी विशेष style में दोबारा चित्रित किया जा सके या एक पैराग्राफ़ लिखा जा सके
जब Max ने playground sprinkler में मदद माँगी, तब model सिर्फ़ टेक्स्ट उगल नहीं रहा था
- plumbing की तस्वीर Max के prompt के साथ ऐसे vector में संपीड़ित हुई जो सबसे महत्वपूर्ण विशेषताओं को पकड़ता है
- यह vector पास के शब्दों और concepts को बुलाने वाले address की तरह काम करता है
- विचार बारी-बारी से दूसरे विचारों को सक्रिय करते हैं और model स्थिति की समझ बनाता है
- उन्हीं विचारों को "ध्यान में रखते हुए" वह जवाब लिखता है

Anthropic के आंतरिक अन्वेषण पर शोध

लेखक ने Anthropic के शोधकर्ता Trenton Bricken का इंटरव्यू पढ़ा
- सहकर्मियों के साथ मिलकर Claude (Anthropic की AI model series) के अंदरूनी हिस्सों की पड़ताल की
- इस शोध की peer review नहीं हुई है और न ही यह किसी वैज्ञानिक journal में प्रकाशित हुआ है
टीम ने artificial neuron ensemble या "features" की पहचान की, जो Claude के किसी खास बात को कहने की कोशिश करने पर सक्रिय हो जाते हैं
features किसी concept के volume knob की तरह काम करते हैं
- उसे बढ़ाने पर model उसी के बारे में बात करता रहता है
- thought-control experiment: Golden Gate Bridge को दर्शाने वाले feature को बढ़ाने पर, chocolate cake recipe पूछने पर उसने "1/4 कप सूखा कोहरा" और "1 कप गुनगुना समुद्री पानी" जैसी सामग्री सुझाई
Bricken ने Google की Transformer architecture का उल्लेख किया
- यह neural network बनाने की वह recipe है जो प्रमुख AI models की बुनियाद है
- ChatGPT में "T" का मतलब "Transformer" है
Bricken का दावा: Transformer architecture के केंद्र की गणित दशकों पहले Pentti Kanerva द्वारा "Sparse Distributed Memory" में प्रस्तावित model के बहुत करीब है

न्यूरोसाइंस और AI का पारस्परिक प्रभाव

क्या AI और मानव मस्तिष्क के बीच समानताओं पर हमें हैरान होना चाहिए?
- LLM ऐसे artificial neural networks हैं जिनके विकास में psychologists और neuroscientists ने मदद की
इससे भी ज़्यादा हैरानी की बात: जब models ने एक साधारण काम, यानी शब्दों का अनुमान लगाना, सीखा तो वे मस्तिष्क जैसे तरीके से व्यवहार करने लगे
आजकल neuroscience और AI के क्षेत्र आपस में उलझते जा रहे हैं
- मस्तिष्क विशेषज्ञ AI को एक तरह के model organism की तरह इस्तेमाल कर रहे हैं
MIT की neuroscientist Evelina Fedorenko, LLM का इस्तेमाल यह समझने के लिए कर रही हैं कि मस्तिष्क भाषा को कैसे process करता है
- "मैंने कभी नहीं सोचा था कि मैं जीवन भर इस तरह की चीज़ों पर सोच पाऊँगी। मुझे नहीं लगा था कि हमारे पास इतना अच्छा model होगा।"
अक्सर कहा जाता है कि AI एक black box है, लेकिन शायद उल्टा सच हो सकता है
- वैज्ञानिक individual artificial neurons की activity की जाँच कर सकते हैं और उसे बदल भी सकते हैं
Princeton के neuroscientist Kenneth Norman: "मानव बुद्धि के किसी सिद्धांत को लागू करने वाला एक working system होना cognitive neuroscience का सपना है"
- उन्होंने hippocampus (दिमाग का वह हिस्सा जो episodic memory को store करता है) का computer model बनाया, लेकिन पहले यह इतना सरल था कि उसमें सिर्फ़ बहुत मोटे तौर पर मानव मन जैसी चीज़ें ही डाली जा सकती थीं
- "अब हम memory model को वही exact stimuli दे सकते हैं जो हम इंसानों को देते हैं"

Wright brothers की उपमा

Wright brothers ने शुरुआती airplane बनाने की कोशिशों के दौरान पक्षियों का अध्ययन किया
- उन्होंने पाया कि पक्षी हवा की दिशा की ओर उड़ान भरते हैं (जबकि कोई तर्कसंगत व्यक्ति मान सकता था कि वह हवा को पीठ के पीछे रखना चाहेगा)
- वे संतुलन के लिए पंखों के सिरे मोड़ते थे
इन खोजों ने शुरुआती glider design को प्रभावित किया
बाद में उन्होंने 6 फुट लंबी wind tunnel बनाई ताकि पूरी तरह नियंत्रित परिस्थितियों में artificial wings के set का परीक्षण किया जा सके
अगली glider flight कहीं ज़्यादा सफल रही
अजीब बात यह है कि काम करने वाली उड़ने वाली मशीन बनाने के बाद ही वे समझ पाए कि पक्षी वास्तव में यह कैसे करते हैं

विचार पर ही wind tunnel experiment

AI वैज्ञानिकों को सोचने की प्रक्रिया को ही wind tunnel में रखने की सुविधा देता है
Anthropic के शोधकर्ताओं का paper "On the Biology of a Large Language Model" (एक उकसाऊ शीर्षक)
- इसमें Claude को queries का जवाब देते हुए देखकर "circuits" का वर्णन किया गया है, यानी features की ऐसी श्रृंखला जो मिलकर जटिल गणनाएँ करती है
- सही memory को recall करना thought की दिशा में एक कदम है
- circuit के भीतर memories को जोड़ना और manipulate करना एक और कदम है
LLMs पर एक पुरानी आलोचना यह रही है कि वे response को एक-एक token करके बनाते हैं, इसलिए वे plan या reason नहीं कर सकते
जब Claude से कविता में तुक मिलाने वाला अगला stanza पूरा करने को कहा गया, तो circuit ने नई पंक्ति के आख़िरी शब्द पर पहले विचार किया ताकि rhyme सुनिश्चित हो सके
- फिर उसने पीछे की ओर काम करते हुए पूरी पंक्ति लिखी
Anthropic के शोधकर्ता इसे इस बात का सबूत मानते हैं कि model सचमुच planning में भाग लेता है
अगर आप थोड़ा उदार नज़रिए से देखें, तो ऐसा लग सकता है कि पहली बार मन की आंतरिक कार्यप्रणाली नज़र में आ रही है

मध्यम स्तर के संशय की ज़रूरत

Princeton के neuroscientist Norman: "मुझे चिंता इस बात की है कि लोग 'इस पर बहुत संदेह करना चाहिए' से पूरी तरह अपनी रक्षा-दीवारें गिरा देने तक पहुँच गए हैं"
- "अभी भी बहुत सी चीज़ें हैं जिन्हें सुलझाया जाना बाकी है"
लेखक मानता है कि Norman जिन लोगों की बात कर रहे हैं, वह उनमें से एक है (शायद Sparse Distributed Memory और Anthropic model के मेल से वह बहुत आसानी से प्रभावित हो गया)
पिछले 1-2 वर्षों में लेखक ने Geoffrey Hinton की इस बात पर भरोसा करना शुरू किया: "deep learning सब कुछ कर सकेगा" (Hinton को हाल ही में AI research के लिए Nobel Prize मिला)
लेकिन बड़े models हमेशा बेहतर models नहीं होते
- model size के मुकाबले performance दिखाने वाली curve सपाट पड़ने लगी है
- ऐसा high-quality data ढूँढ़ना मुश्किल होता जा रहा है जिसे models ने अभी तक absorb न किया हो, और computing power लगातार महँगी हो रही है
जब GPT-5 अगस्त में जारी हुआ, तो वह सिर्फ़ incremental improvement साबित हुआ
- इतनी बड़ी निराशा कि वह AI investment bubble को फोड़ने का खतरा बन गई
मौजूदा समय एक तरह के मध्यम संशय की माँग करता है
- यानी आज के AI models को गंभीरता से लेना, लेकिन यह न मानना कि अब कोई कठिन समस्या बची ही नहीं है

ऐसे models डिज़ाइन करना जो इंसानों जितनी दक्षता से सीखें

सबसे महत्वपूर्ण समस्या: ऐसे models कैसे बनाए जाएँ जो इंसानों जितनी दक्षता से सीखें
अनुमान है कि GPT-4 training के दौरान trillions of words के संपर्क में आया
- जबकि एक बच्चा धाराप्रवाह बनने के लिए सिर्फ़ millions में काम चला लेता है
cognitive scientists का कहना है कि नवजात शिशु के मस्तिष्क में कुछ खास inductive biases होते हैं, जो learning को तेज़ करते हैं
- बेशक मस्तिष्क खुद लाखों साल के evolution का नतीजा है (जो अपने आप में एक तरह का training data है)
मानव शिशु यह अपेक्षा लेकर आते हैं कि दुनिया वस्तुओं से बनी है और दूसरे प्राणियों के पास beliefs और intentions होते हैं
- जब माँ "banana" कहती है, तो बच्चा उस शब्द को उसके सिरे या छिलके से नहीं, बल्कि उस पूरे पीले object से जोड़ता है जिसे वह देख रही है
छोटे बच्चे छोटे-छोटे experiments करते हैं: क्या इसे खाया जा सकता है? इसे कितनी दूर फेंका जा सकता है?
वे desire, curiosity और frustration जैसी भावनाओं से प्रेरित होते हैं
बच्चे हमेशा अपनी मौजूदा क्षमता से थोड़ा आगे की चीज़ करने की कोशिश करते हैं
learning के efficient होने का कारण यह है कि वह embodied, adaptive, intentional और persistent होती है
दुनिया को सचमुच समझने के लिए शायद उसमें भाग लेना ज़रूरी हो

AI का बेहद सीमित अनुभव

AI का अनुभव इतना सीमित है कि उसे वास्तव में "अनुभव" कहना भी मुश्किल है
large language models को पहले से ही बेहद परिष्कृत data पर train किया जाता है
UC Berkeley के neuroscientist Tsao: "यह काम इसलिए करता है क्योंकि यह language पर piggybacking कर रहा है"
- भाषा पहले से चबाकर तैयार किया गया अनुभव जैसी है
- दूसरे तरह के data में meaning density कम होती है
Harvard के cognitive scientist Gershman: "ऐसा क्यों है कि video data पर reasoning के मामले में वैसी क्रांति नहीं आई?"
- हमारे पास जो vision models हैं, वे physics के बारे में common-sense reasoning में अब भी संघर्ष करते हैं
DeepMind के हालिया models ऐसे video बना सकते हैं जिनमें paint सही तरह mix होता है और maze हल हो जाता है
- लेकिन वे ऐसे दृश्य भी दिखाते हैं जिनमें काँच टूटने के बजाय उछलता है, और रस्सी physics को नज़रअंदाज़ करते हुए गाँठ में चूर-चूर हो जाती है
Microsoft Research की cognitive neuroscientist Ida Momennejad ने एक experiment किया, जिसमें LLM को किसी building का virtual tour देकर उससे रास्तों और shortcuts के बारे में सवाल पूछे गए
- यह इंसानों के लिए आसान spatial reasoning है
- सबसे बुनियादी setup को छोड़कर AI असफल हो गया या ऐसे रास्ते hallucinate करने लगा जो मौजूद ही नहीं थे
- "क्या वह सच में planning करता है? ज़्यादा नहीं"

AI industry की अविचारित दौड़

न्यूरोसाइंटिस्टों के साथ बातचीत में लेखक को यह चिंता महसूस हुई कि AI उद्योग कुछ हद तक बिना पर्याप्त विचार के तेज़ी से भाग रहा है
Princeton के cognitive scientist Brenden M. Lake: अगर लक्ष्य मानव मन जितना सक्षम कृत्रिम मन बनाना है, तो "हम systems को सही तरीके से train नहीं कर रहे हैं"
AI का training पूरा होने के बाद neural network का "brain" freeze हो जाता है
- अगर आप model को उसके बारे में कुछ तथ्य बताते हैं, तो वह neurons को दोबारा connect नहीं करता
- इसके बजाय एक भद्दा विकल्प इस्तेमाल किया जाता है: थोड़ा-सा text लिखकर रख देना ("user के छोटे बच्चे हैं और वह French सीख रहा/रही है")
- और फिर दूसरी instructions देने से पहले इसे ध्यान में रखना
मानव मस्तिष्क लगातार खुद को update करता रहता है
उसके एक तरीके पर एक सुंदर सिद्धांत है: सोते समय episodic memory से चुने गए snapshots को neocortex को train करने के लिए replay किया जाता है
- उच्च-आयामी thought space replay की गई स्मृतियों से आकार लेती है
- और हम दुनिया को देखने के थोड़े नए तरीके के साथ जागते हैं

AI कम्युनिटी की समस्या

AI कम्युनिटी तेज़ रफ़्तार प्रगति में इतनी डूबी हुई है और आर्थिक रूप से इतनी निवेशित है कि वह कभी-कभी ऐसे दिखावा करती है मानो प्रगति अपरिहार्य है और करने लायक कोई विज्ञान बचा ही नहीं है
विज्ञान में कभी-कभी ठहराव आ जाने का असुविधाजनक गुण होता है
Silicon Valley AI कंपनियों को "labs" कहती है और कुछ कर्मचारियों को "researchers", लेकिन बुनियादी रूप से यह जो काम करे वही करने वाली engineering culture है
Cohen: "मुझे यह देखकर बहुत आश्चर्य होता है कि machine learning community उससे पहले के इतिहास और cognitive science को देखने या उसका सम्मान करने की कितनी कम परवाह करती है"

मस्तिष्क से बुनियादी अंतर

आज के AI models दशकों पहले मस्तिष्क के बारे में हुई खोजों की वजह से सफल हुए हैं, लेकिन वे अब भी मस्तिष्क से गहराई से अलग हैं
कौन-से अंतर गौण हैं और कौन-से बुनियादी?
- हर neuroscientist समूह की अपनी theory है
- और इन theories को अब उन तरीकों से test किया जा सकता है जो पहले संभव नहीं थे
लेकिन कोई भी आसान जवाब की उम्मीद नहीं कर रहा
जिन समस्याओं से AI models लगातार जूझते हैं, उनका समाधान "यह सावधानी से पहचान कर कि models हमारी इच्छा के मुताबिक पर्याप्त बुद्धिमानी से किन तरीकों से व्यवहार नहीं करते, और फिर उन्हें ठीक करके" किया जाता है
- "यह अब भी loop के भीतर human-scientist process है"

Human Genome Project से तुलना

1990 के दशक में अरबों डॉलर Human Genome Project में झोंक दिए गए
- यह मानकर कि DNA sequencing चिकित्सा की सबसे कठिन समस्याओं—cancer, genetic diseases, यहाँ तक कि aging—को हल कर सकती है
वह डींग और आत्मविश्वास का दौर था
- cloned sheep Dolly और "Jurassic Park" का युग
- biotechnology हावी थी और commentators यह सोच रहे थे कि क्या मनुष्यों को ईश्वर जैसी भूमिका निभानी चाहिए
जैवविज्ञानियों ने जल्दी ही पाया कि वास्तविकता कहीं अधिक जटिल है
- वे cancer का इलाज नहीं कर पाए, न Alzheimer’s या autism के कारण खोज पाए
- उन्होंने सीखा कि DNA जीवन की कहानी का सिर्फ एक हिस्सा बताता है
वास्तव में यह तर्क दिया जा सकता है कि biology एक तरह के gene craze की चपेट में आ गई थी
- क्योंकि DNA का अध्ययन और समझने के साधन मौजूद थे, इसलिए उसी पर दीवानगी सवार हो गई
फिर भी कोई यह दावा नहीं करेगा कि 1953 में Francis Crick का Cambridge के एक pub में जाकर "हमने जीवन का रहस्य खोज लिया है" कहना गलत था
- उन्होंने और उनके साथियों ने जीवन को demystify करने के लिए लगभग किसी भी और व्यक्ति से अधिक काम किया
- उनकी खोज के बाद के दशक विज्ञान के इतिहास के सबसे उत्पादक और रोमांचक दौरों में से एक रहे
- DNA एक household term बन गया, और हर high school student double helix के बारे में सीखता है

AI युग की संभावनाएँ और चिंताएँ

AI में भी हम फिर से डींग और आत्मविश्वास के एक क्षण में हैं
Sam Altman अमेरिका में AI data centers के नए cluster, Stargate, के निर्माण के लिए आधा ट्रिलियन डॉलर जुटाने की बात कर रहे हैं
लोग superintelligence की race पर ऐसी गंभीरता और तात्कालिकता के साथ चर्चा कर रहे हैं जो निराधार, यहाँ तक कि हास्यास्पद भी लग सकती है
लेखक का संदेह: Amodei और Altman जैसे लोग मसीहाई घोषणाएँ इसलिए करते हैं क्योंकि वे मानते हैं कि intelligence की बुनियादी तस्वीर सुलझ चुकी है
- बाकी सब सिर्फ details हैं

न्यूरोसाइंटिस्टों की मिली-जुली प्रतिक्रिया

कुछ न्यूरोसाइंटिस्ट भी मानते हैं कि एक महत्वपूर्ण threshold पार हो चुकी है
Princeton के Uri Hasson: "मुझे सच में लगता है कि neural networks cognition का सही model हो सकते हैं"
- यह बात उन्हें जितना उत्साहित करती है, उतना ही गुस्सा भी दिलाती है
Hasson: "मेरी चिंता ज़्यादातर लोगों से उलटी है"
- "मेरी चिंता यह नहीं है कि ये models हमारे जैसे हैं। मेरी चिंता यह है कि हम इन models जैसे हैं"
अगर साधारण training techniques किसी program को मनुष्यों जैसा व्यवहार करने लायक बना सकती हैं, तो हो सकता है इंसान उतने खास न हों जितना हम सोचते थे
इसका यह मतलब भी हो सकता है कि AI सिर्फ ज्ञान में ही नहीं, बल्कि निर्णय-क्षमता, मौलिकता और चालाकी में भी हमसे आगे निकल सकता है, और नतीजतन सत्ता में भी
Hasson: "इन दिनों मुझे इस बात की चिंता होती है कि कहीं हम यह समझने में सफल न हो जाएँ कि मस्तिष्क कैसे काम करता है"
- "हो सकता है इस सवाल का पीछा करना मानवता की बहुत बड़ी गलती रही हो"
उन्होंने AI researchers की तुलना 1930 के दशक के nuclear scientists से की
- "यह इन लोगों की ज़िंदगी का सबसे रोमांचक समय है। साथ ही वे जानते हैं कि जिस चीज़ पर वे काम कर रहे हैं उसके मानवता के लिए गंभीर निहितार्थ हैं। लेकिन सीखने की जिज्ञासा के कारण वे रुक नहीं सकते"

Hofstadter की जटिल भावनाएँ

लेखक की पसंदीदा Hofstadter किताब: "Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought"
- जिसने लेखक को कॉलेज के दिनों में रोमांचित कर दिया था
- इसका आधार था: "सोचना क्या है?" जैसे सवाल सिर्फ दार्शनिक नहीं हैं, बल्कि उनका वास्तविक उत्तर है
- 1995 में इसके प्रकाशित होने के समय Hofstadter और उनका research group सिर्फ यह संकेत दे सकते थे कि वह उत्तर क्या हो सकता है
लेखक को यह सोचकर जिज्ञासा थी कि क्या Hofstadter इस बात से उत्साहित होंगे कि AI researchers शायद वह हासिल कर चुके हैं जिसकी उन्हें लालसा थी—यानी विचार की नींव का एक यांत्रिक स्पष्टीकरण
लेकिन बातचीत में Hofstadter गहराई से निराश और भयभीत लगे
मौजूदा AI research "मेरे कई विचारों की पुष्टि करती है, लेकिन यह मानव होने की सुंदरता छीन लेती है"
"जब मैं बहुत छोटा था, मैं creativity की नींव, creativity के mechanism को जानना चाहता था। वही मेरे लिए holy grail था। लेकिन अब मैं चाहता हूँ कि यह एक रहस्य ही बना रहे"
सोच का रहस्य शायद किसी की अपेक्षा से अधिक सरल हो सकता है
- शायद ऐसा कुछ, जिसे एक high school student या यहाँ तक कि कोई machine भी समझ सके

7 टिप्पणियां

bobcat 2025-11-07

Machine learning के भी कई क्षेत्र हैं, लेकिन अजीब तरह से ऐसी evangelist-शैली की प्रतिक्रियाएँ सिर्फ LLM पक्ष में ही दिखाई देती हैं। यह बेहद दिलचस्प है.
ज़्यादा से ज़्यादा उदारता से देखें तो भी मौजूदा स्थिति Chinese room तर्क पर अटकती है, और Altman जैसे लोगों को AGI की bluffing करते हुए बहुत ज़्यादा देखते आए हैं, इसलिए ऐसा और भी लगता है.

savvykang 2025-11-08

बस अभी यही लेटेस्ट ट्रेंड है।

conanoc 2025-11-06

यह वह क्षेत्र है जिसमें मेरी सबसे ज़्यादा रुचि है, इसलिए यह दिलचस्प लग रहा है.

समझ को समझाने वाले हिस्से में vector embedding का उल्लेख किया गया है, और इस बारे में मेरी भी यही राय है। समझ असल में समानता है, और इस समानता को vector similarity के रूप में लागू किया जा सकता है। हम किसी नए विषय को केवल इस आधार पर "समझ" सकते हैं कि वह उन चीज़ों से कितना मिलता-जुलता है जिन्हें हम पहले से जानते हैं।

सोच समझ पर आधारित होती है, लेकिन उसका स्वभाव अलग है। सोच "दिमाग़ से की जाने वाली क्रिया" के क़रीब है, और LLM का next token generation भी एक प्रकार की "क्रिया" माना जा सकता है, इसलिए यह कहा जा सकता है कि LLM भी सोचता है। सवाल यह नहीं है कि LLM सोच सकता है या नहीं, बल्कि यह है कि क्या वह "इंसान जितना अच्छा" सोच सकता है, और फिलहाल इसमें अभी बहुत कमी है।

ndrgrd 2025-11-06

कोडिंग एजेंट्स में अब तक कोई भी संतोषजनक नहीं लगा... ज़्यादातर काम खुद ही करना पड़ता है, और auto-complete या snippet स्तर से आगे का काम कहो तो वे असफल हो जाते हैं。
मुख्य लेख के उदाहरण में क्या इस्तेमाल किया जा रहा है, यह जानने की जिज्ञासा है।