- LLM को इंसानों की तरह मानवीकरण करने वाले रवैये की आलोचना करने वाला लेख। LLM आखिरकार 'matrix multiplication और non-linear functions के एक समूह' भर हैं
- LLM द्वारा जनरेट की जाने वाली language sequences जटिल functional paths हैं, जिनमें इंसानों की तरह 'इरादा' या 'नैतिकता' शामिल नहीं होती
- LLM की safety (Alignment) का मूल प्रश्न अवांछित outputs की probability को गणितीय रूप से मापना और सीमित करना है
- नैतिकता, चेतना जैसे human-centered concepts को LLM पर लागू करना चर्चा को उलझा देता है और वास्तविक problem definition व solutions को धुंधला कर देता है
- मानव चेतना और LLM मूल रूप से अलग हैं, और तकनीकी समझ तथा सामाजिक बदलावों के प्रति तैयारी अधिक महत्वपूर्ण है
LLM को इंसानों की तरह न देखने वाले दृष्टिकोण की ज़रूरत
LLM और मानवीकरण (इंसानों की तरह सोचने) पर चर्चा को लेकर समस्या-बोध
- AI और LLM (large language model) से जुड़ी चर्चाओं में जब alignment या AI safety की बात आती है, तो कई विशेषज्ञ इस प्रवृत्ति से असहज होते हैं कि LLM को मानवीय गुण (चेतना, इरादा आदि) दे दिए जाते हैं
- LLM को मूल रूप से MatMul (matrix multiplication) और non-linear functions के संयोजन के रूप में देखा जा सकता है
LLM की संरचनात्मक प्रकृति
- LLM अलग-अलग शब्दों (input tokens) को vector space में map करता है, और पिछले path के आधार पर अगले token की probability distribution की गणना करके क्रमवार output जनरेट करने वाला function है
- यह प्रक्रिया 'high-dimensional space में Snake game' जैसी है, और generation path dynamic systems के strange attractor की तरह जटिल होता है
- LLM इंसानों द्वारा लिखे गए विशाल text + domain-specific corpus + automatically generated और verifiable data से सीखकर मानव भाषा की संरचना की नकल करने वाली mapping हासिल करता है
जिन paths (language sequences) से बचना है, और alignment व safety का प्रश्न
- कुछ language sequences सामाजिक और नैतिक रूप से अनुपयुक्त होते हैं, इसलिए हम चाहते हैं कि वे जनरेट न हों
- लेकिन कौन-सा path अवांछित है, इसकी सख़्त गणितीय परिभाषा देना कठिन है, इसलिए उदाहरणों और counterexamples के ज़रिए distribution को nudge किया जाता है
- LLM का "alignment" और "safety" वास्तव में अवांछित sequence के जनरेट होने की probability को गणितीय रूप से मापने और उसकी सीमा तय करने का प्रश्न है
- लेकिन व्यवहार में 'अवांछित' sequence के मानदंड को गणितीय रूप से साफ़-साफ़ परिभाषित नहीं किया जा सकता, केवल उदाहरणों से ही काम चल सकता है, इसलिए व्यावहारिक सीमाएँ मौजूद हैं
- किसी विशेष LLM में किसी दिए गए sequence के आने की probability निकाली जा सकती है, लेकिन उन सभी probabilities को जोड़कर या integrate करके यह निश्चित नहीं कहा जा सकता कि 'यह model हर N बार में एक अवांछित sequence बनाएगा'
LLM की वास्तविक उपयोगिता
- LLM ने पुराने natural language processing (NLP) की कई समस्याओं को algorithmically हल करना संभव बनाया है
- उदाहरण: स्वाभाविक English में document summary बनाना, JSON structure में data व्यवस्थित करना, रचनात्मक कहानियाँ और चित्र बनाना—ऐसे काम जिन्हें 5~6 साल पहले करना संभव नहीं था, अब सहज रूप से हो रहे हैं
- तेज़ सुधार की curve को देखते हुए, आगे भी यह और अधिक पहले-असंभव समस्याओं को हल करेगा
इंसानों की तरह देखने वाले नज़रिये की सीमाएँ
- लेखक LLM को 'चेतना', 'नैतिकता', 'मूल्य', 'उद्देश्य' देने वाले दृष्टिकोण का विरोध करता है
- LLM आखिरकार सिर्फ़ ऐसा 'recursive equation' है जो input दिए जाने पर ही output जनरेट करता है
- AI के 'जागने' या 'उद्देश्य-बोध' पाने जैसी चर्चाएँ उतनी ही त्रुटिपूर्ण हैं जितना यह कहना कि मौसम simulation में भावनाएँ होती हैं
- AI चर्चा में 'व्यवहार', 'नैतिक बंधन', 'लक्ष्य का पीछा' जैसे human-centered शब्द समस्या की असल प्रकृति को धुंधला कर देते हैं
- यह वैसी ही cognitive error है जैसी इंसानों ने अतीत में प्राकृतिक घटनाओं को 'ईश्वर का क्रोध' या 'दुष्ट आत्मा' मानकर मानवीकरण किया था
Alignment पर चर्चा की सही दिशा
- LLM सिर्फ़ sequence-generating function है, और input prefix को बदलकर output probability बदली जा सकती है
- हर अवांछित output sequence के लिए probability को अधिकतम करने वाला prefix ढूँढना भी एक गणितीय तरीका है
- ऐसा स्पष्ट, formula-based approach समस्या की परिभाषा और उसके समाधान को अधिक साफ़ बनाता है
AI क्षेत्र में मानवीकरण बार-बार क्यों उभरता है
- AI उद्योग के कई नेता AGI को साकार करने की संभावना को जीवन-लक्ष्य की तरह लेकर इस क्षेत्र में आए हैं
- इसी वजह से तकनीकी चर्चाओं में human-level intelligence या किसी ईश्वरीय सत्ता जैसी रचना पर विश्वास आसानी से घुस आता है
- लेखक स्वीकार करता है कि मानवीकरण से बाहर निकलने की बात का स्वीकार किया जाना आसान नहीं है
मानव चेतना और LLM के बीच मूलभूत अंतर
- मनुष्य करोड़ों वर्षों की natural selection, जटिल neural structure, hormones, high-dimensional sensory input, energy regulation जैसी अब तक पूरी तरह न समझी गई प्रक्रियाओं से विकसित हुआ मूल रूप से बहुस्तरीय और जटिल अस्तित्व है
- मनुष्य किसी विशेष sequence को जनरेट करेगा, इसकी probability निकालना असंभव है
- LLM मानव सोच से पूरी तरह अलग है, और 'यह sequence जनरेट होने की probability' तक को परिभाषित करना भी कठिन है
- 'नैतिकता' या 'survival instinct' जैसे मानवीय concepts को LLM पर लागू करना उतना ही अटपटा है जितना किसी numerical simulation program की भावनाओं पर चर्चा करना
असली समस्या और बदलाव की दिशा
- आधुनिक LLM जो functional class उपलब्ध कराते हैं वह बेहद उपयोगी है, और AGI तक बिल्कुल न पहुँचने पर भी समाज में बड़े बदलाव ला सकता है
- LLM AGI तक न भी पहुँचे, तब भी मौजूदा तकनीक से दुनिया में बड़ा परिवर्तन ला सकता है
- Electrification जैसी व्यापक सामाजिक रूपांतरण संभव है
- आने वाले दशकों में तेज़ बदलावों के बीच वास्तविक समस्याओं (safety, उपयोग आदि) पर ध्यान केंद्रित करने की ज़रूरत है
4 टिप्पणियां
मानवीकरण करना है या नहीं, उससे ज़्यादा अहम बात यह है..
जब यह पहले से ही खुद सीखता है और तर्क करता है, तो मुझे लगता है कि सुरक्षा की गारंटी वाला चरण हम पार कर चुके हैं (इस बिंदु पर यह मानना कि इंसान होने के नाते तुम सब कुछ नियंत्रित कर सकते हो, अहंकार है)।
सीखने के नज़रिए से देखें तो, क्या उल्टा इसे इंसानों की तरह सोचने और इंसानी दृष्टिकोण से सीखने देना ही सुरक्षा बढ़ाने का सबसे बेहतर तरीका नहीं हो सकता!?
मुझे लगता है कि LLM की संरचना के कारण उसकी सुरक्षा की पूरी तरह गारंटी देना शायद असंभव होगा। मेरी राय में LLM का अस्थिर होना कुछ हद तक अपरिहार्य है, और agent या autonomous driving की तरह उसे भौतिक कार्रवाई की अनुमति कैसे दी जाए, यही ज़्यादा महत्वपूर्ण लगता है।
यह कुछ ऐसा है जैसे कार और मैराथन की तुलना करना..
Hacker News राय
मैं तकनीकी रूप से अच्छी तरह समझता हूँ कि LLM कैसे काम करते हैं, लेकिन मुझे नहीं लगता कि कुछ हद तक उन्हें मानवीय उपमा देना निरर्थक है
“संभाव्यता के आधार पर अगला शब्द बनाने वाला जनरेटर” जैसी भाषा, जब LLM जटिल world modeling वाले सवालों का जवाब देते हैं या रचनात्मक कहानियाँ बनाते हैं, तब बहुत अर्थपूर्ण नहीं लगती; यह बहुत निचले स्तर की abstraction है
यह वैसा ही है जैसे UI event API की बात करते समय 0 और 1, transistor voltage वगैरह पर चर्चा करना; तकनीकी रूप से सही है, लेकिन ऊँचे स्तर की system understanding में उपयोगी नहीं
ऊँचे स्तर की घटनाओं पर बात करने के लिए ऊँचे स्तर की abstraction चाहिए, और हमें अब भी ठीक-ठीक नहीं पता कि अंदरूनी स्तर पर क्या हो रहा है
LLM कुछ हद तक इंसानों की नकल करते हैं, कम से कम output के रूप में, इसलिए मानवीय उपमा सबसे उपयोगी abstraction लगती है, और लोग LLM की संभावनाओं पर बात करते समय स्वाभाविक रूप से ऐसा ही करते हैं
आपने कहा कि LLM के high-level behavior को समझने के लिए high-level abstraction चाहिए, लेकिन मुझे लगता है कि हम पहले से जानते हैं कि अंदर क्या हो रहा है
efficient network design और performance improvement काफ़ी हद तक internal mechanisms की समझ पर निर्भर करते हैं, जैसे network dimensions, feature extraction, attention, attention heads, caching, high-dimensional features, overfitting prevention आदि
मानवीय उपमा सीमित शब्दावली वाली सामान्य विज्ञान पुस्तकों में काम आ सकती है, लेकिन practitioners के लिए यह अनिवार्य नहीं लगती
उल्टा, मेरे हिसाब से LLM को मानवीय रूप में देखने की प्रवृत्ति ही उनके बारे में narrative को बिगाड़ने की मुख्य वजह है
लोग कहते हैं कि LLM सोचते हैं और तर्क करते हैं, जबकि वास्तव में वे ऐसा नहीं करते
और LLM बेचने वाली कंपनियाँ इस धारणा को सक्रिय रूप से बढ़ावा देती हैं
नतीजतन इससे LLM की उपयोगिता और उनके अनुप्रयोगों पर चर्चा धुंधली हो जाती है
मुझे याद है कि The Selfish Gene में Dawkins ने genes के “intentional stance” के बारे में बात की थी
genes को ऐसे बताना मानो उनकी कोई मंशा हो, तकनीकी रूप से गलत है, लेकिन हर बार यह लंबा वाक्य लिखने से कि “इस gene वाले जीव इस तरह व्यवहार करते हैं”, genes को किसी उद्देश्य वाले actor की तरह बताना समझने में आसान और सुविधाजनक shorthand बन जाता है
अगर आपने lower-level abstraction समझ ली है, तो higher-level पर बात करते समय हर बार उसी निचले स्तर पर टिके रहना ज़रूरी नहीं
language model को काफ़ी इस्तेमाल करने के बाद मुझे लगता है कि मानवीय उपमा का सबसे ख़तरनाक हिस्सा conversational UI है
अगर आप सिर्फ़ एक Q/A pair पर ध्यान दें, या conversation history को अधिकतम कम करके edit करें, तो LLM के उपयोग की कई समस्याएँ बहुत कम हो जाती हैं
लेकिन कई messages के आदान-प्रदान के बाद बातचीत की समीक्षा करने या ‘hallucination’ ठीक करने को कहने पर, ग़लत जानकारी बार-बार दोहराई जाती है और बातचीत उलटी दिशा में और मज़बूत होती जाती है
coding में भी यही दिखा; ग़लत code लगातार बातचीत को दूषित करता रहा
GP और OP की तरह मैं LLM की internal operating state को दिमाग़ में स्पष्ट रूप से नहीं देख पाता, इसलिए मैं उतना उत्साहित नहीं हो पाता
कभी-कभी ऐसे लोगों से ईर्ष्या भी होती है
शायद यह गणित की परीक्षाओं में बार-बार असफल होने के अनुभव की वजह से हो
उसकी जगह मैं चीज़ों को जितना हो सके abstract, visual और philosophical ढंग से कल्पना करने की कोशिश करता हूँ
इस बारे में मैंने जो लिखा है वह मेरे ब्लॉग पर है, और अगर किसी के पास feedback हो तो ईमेल कर सकता है
मुझे लगता है कि LLM को सिर्फ़ sequence generator मानना, और उसके गलत behavior को बस wrong sequence कहकर टाल देना, ज़रूरत से ज़्यादा simplification है
LLM में hidden state होता है जो tokens में सीधे दिखाई नहीं देता, और LLM लंबी अवधि के परिणाम के लिए अपने internal state के विपरीत output भी दे सकता है
ऐसे behavior को “झूठ बोलना” कहना क्या अत्यधिक मानवीय उपमा है, यह मुझे स्पष्ट नहीं
अगर हाँ, तो हमें एक नया शब्द चाहिए जो यह समझा सके कि prediction loss को minimize करने के लिए LLM अंदरूनी तौर पर कैसे “behavior” की नकल करता है
रूपक आधारित सोच हमेशा सावधानी से करनी चाहिए, लेकिन यह अपने आप में अनावश्यक नहीं है
समस्या यह है कि नए शब्द बहुत दुरूह हो जाएँगे और आम स्वीकृति पाना मुश्किल होगा, इसलिए अंततः लोग मानवीय शब्दों की ओर झुक जाते हैं
बेशक इससे LLM एक “दोषपूर्ण इंसान” जैसा लग सकता है और गलतफहमी बढ़ सकती है, लेकिन कम से कम बेकार की jargon कम होती है
मैं लंबे समय से hidden state वाले models के साथ काम करता रहा हूँ, इसलिए यह बात मुझे statistical modeling की एक बहुत पारंपरिक विशेषता लगती है
कई लोकप्रिय LLM textbooks भी इन्हें latent variable model के रूप में समझाती हैं
LLM मूलतः latent variable model का बहुत बड़े पैमाने और जटिलता वाला संस्करण है
सच कहूँ तो इस तरह का non-human explanation मुझे ज़्यादा आसान लगता है
latent variable models को पहले से ही कुछ रहस्यमय और mysterious माना जाता रहा है
इस रहस्यात्मकता का एक हिस्सा शायद LLM के मानवीकरण वाली संस्कृति तक पहुँचा है, लेकिन कुछ हद तक यह efficient communication और complex systems modeling के लिए ज़रूरी abstraction भी है
फिर भी मुझे लगता है कि यही चीज़ अक्सर अतिरंजित उम्मीदों, ‘machine में जैसे आत्मा हो’ जैसी चर्चा, और utility के बढ़े-चढ़े दावों को जन्म देती है
मुझे लगता है LLM को मानवीय रूप में पेश करने की एक बड़ी वजह बड़े vendor कंपनियों की marketing भाषा है
लोग तकनीक को लेकर उत्साहित हो जाते हैं और vendor की terminology भी जस की तस दोहराने लगते हैं
इस बिंदु पर यह एक तरह की self-fulfilling process लगती है
यह GIF pronunciation debate वाले meme जैसा प्रतीत होता है
hidden state असल में मॉडल का एक internal mechanism भर है, जिसका काम tokens के संयोजन की probability को बेहतर estimate करना है
ऐसी दलीलें 20वीं सदी की शुरुआत के logical positivists की कोशिशों में भी विफल रही थीं
यह मान लिया गया था कि अगर आप भाषा के संयोजन की probabilities बहुत अच्छी तरह predict कर लें, तो आप गहन “knowledge” हासिल कर लेंगे
लेकिन दार्शनिक रूप से इस बात के बहुत आधार हैं कि भाषा ज्ञान की एक अपूर्ण अभिव्यक्ति है
मानव चिंतन सिर्फ़ symbol patterns सीखने और output करने से कहीं अधिक जटिल है, इसके पर्याप्त प्रमाण हैं
Hume जैसे संशयवादियों ने ऐसी बातें कही थीं, लेकिन बाद की epistemology में इससे बेहतर व्याख्याएँ सामने आईं
मैं मूल पोस्ट का लेखक हूँ
मैं जानना चाहता हूँ कि “hidden state” से आपका क्या मतलब है
ज़्यादातर LLM में context ही state होता है, कोई अलग “hidden” state नहीं
अगर मैं कुछ चूक रहा हूँ तो कृपया समझाएँ
LLM में token sequence को embedding के ज़रिये N^L से R^{LxD} में बदला जाता है, फिर attention के माध्यम से R^{LxD} में रखा जाता है, और अंत में vocabulary पर अलग projection करके R^{LxV} में बदला जाता है, यानी हर token के लिए एक probability distribution निकाली जाती है
attention के भीतर अलग-अलग Multi Head approaches हो सकती हैं, लेकिन वे हमेशा token से जुड़ी representations ही संभालती हैं
इसलिए मैं कहूँगा कि ऐसा कोई hidden state नहीं है जो किसी खास token से स्वतंत्र हो
इस अर्थ में यह LSTM जैसे model से अलग है, जहाँ hidden state स्पष्ट रूप से update होता है
मेरे हिसाब से पिछले शब्दों से probability निकलने के सिद्धांत से ही अधिकांश चीज़ें समझी जा सकती हैं
मानवीय उपमा की ज़रूरत मुझे नहीं लगती
लेखक का मुख्य तर्क Searle के विचार से मिलता-जुलता है: कि computation, function, या syntax rules पर आधारित system सच्चे mind को पुनःनिर्मित नहीं कर सकता
बहुत से लोग इससे सहमत या असहमत होंगे, लेकिन आख़िरकार उत्तर इस पर निर्भर करता है कि आप कौन-सी assumptions चुनते हैं, ख़ासकर consciousness के बारे में
लेखक का मानना है कि मानवीय उपमा के बजाय ठोस technical system पर ध्यान देना ज़्यादा उत्पादक है, लेकिन मैं केवल उस सीमा तक सहमत हूँ
इसके अलग, मैं यह भी मानता हूँ कि यह system भले ही नियमों का पालन करने वाला probabilistic system हो, फिर भी इसमें कहीं न कहीं emergent, unexpected, और mind-like गुण दिखाई देते हैं
जिन लोगों के पास ML या गणितीय पृष्ठभूमि है वे आम तौर पर ऐसे system को morality, emotion, या personality जैसे मानवीय गुणों वाला नहीं मानते, लेकिन अधिकांश लोगों के लिए गणितीय संरचना से इसे समझना मुश्किल है और सतही तौर पर यह “काफ़ी हद तक” इंसानी जैसा व्यवहार करता हुआ दिखता है
इसलिए व्यावहारिक दृष्टि से मानवीय गुणों से शुरू करके सवाल पूछना भी पर्याप्त अर्थपूर्ण है
अंततः मुझे लगता है कि दोनों दृष्टिकोण चाहिए: एक अत्यंत technical system वाला, और दूसरा user की मानसिक छवि व अनुभव पर आधारित qualitative, subjective दृष्टिकोण
मुझे लगता है “कुछ emergent और mind-like है” जैसी अवधारणा उन लोगों को ज़्यादा स्वाभाविक लगती है जो system के काम करने के तरीके को अच्छी तरह नहीं जानते
यह Clarke के क़ानून जैसा है: “काफ़ी उन्नत तकनीक जादू से अलग नहीं पहचानी जा सकती” — और तकनीक की समझ का यह स्तर हर व्यक्ति के लिए अलग होता है
कम technical literacy वाली आम जनता में AI को लगभग देवतुल्य मान लेने वाला Godbot जैसा प्रभाव भी दिखता है
संबंधित लेख: Spectator - AI Godbots का ख़तरा, arXiv पेपर, Guardian - थाईलैंड का AI ज्योतिषी
इस चर्चा में इतना संतुलित नज़रिया लाने के लिए धन्यवाद
HN पर यह देखकर हैरानी होती है कि कुछ लोग या तो LLM को लेकर बहुत भावुक हो जाते हैं, या फिर यह ज़ोर देकर कहते हैं कि उनमें कोई दिलचस्पी या मूल्य ही नहीं है
अति-मार्केटिंग के ख़िलाफ़ प्रतिक्रिया में जानबूझकर बिना आधार वाला विरोध चुन लेना भी समझ से बाहर है
जो चीज़ emergent और mind-like लगती है, वह आख़िरकार यही है कि यह system मानव communication patterns की नकल इतिहास के किसी भी पुराने system से बेहतर करता है
यह क्षमता बेहद प्रभावशाली है और जीवन की गुणवत्ता सुधारने वाले कई व्यावहारिक उपयोग भी रखती है, लेकिन “intelligence” अंततः एक illusion ही है
उद्योग में हर कोई इस illusion को जानबूझकर मज़बूत करना चाहता है, और कारण आख़िरकार आर्थिक मूल्य ही है
मैं कहूँगा कि इसकी बिल्कुल ज़रूरत नहीं है
हमें ऐसे गलत दृष्टिकोण को बढ़ाने की ज़रूरत नहीं जो दूसरे कई विषयों पर गंभीर प्रभाव डाल सकता है
LLM मानव thought process को आंशिक रूप से, और वह भी गलत ढंग से, प्रतिबिंबित करता है
अगर आप इस phenomenon में उससे ज़्यादा अर्थ देखने लगते हैं, तो यह वैसा है जैसे दर्पण में दिख रही छवि को जीवित व्यक्ति समझ लेना
दर्पण इंसान को इसलिए दिखाता है क्योंकि सामने इंसान खड़ा है, दर्पण की अपनी प्रकृति की वजह से नहीं
जिस क्षण LLM मानव विचार के अवशेष, यानी data, को input के रूप में लेना बंद कर दे, वह इंसानों जैसी किसी भी चीज़ को प्रतिबिंबित करना भी बंद कर देगा
मुझे लगता है कि लेखक हर तरह की बातचीत को “मानवीकरण” का लेबल देने की प्रवृत्ति रखते हैं
वे “goal” शब्द पर कुछ ज़्यादा ही अटके हुए लगते हैं, मानो “goal” कहना भर भी anthropomorphism हो
उदाहरण के लिए, वह BFS जो हर chessboard position को score करता है और checkmate मिलने पर पूरा decision tree output कर देता है, उसके भी “goals” हैं
इसलिए LLM या AGI goals की कल्पना में “goal” जैसा technical शब्द इस्तेमाल करना मुझे anthropomorphism नहीं लगता
RL algorithm के संदर्भ में "goal" शब्द इस्तेमाल करने में मुझे बिल्कुल समस्या नहीं
मैं सिर्फ़ इतना चाहता हूँ कि लोग समझें कि मेरी आपत्ति सिर्फ़ LLM के संदर्भ में "goal" शब्द के इस्तेमाल पर थी
जिस क्षण लोग इस learned function पर “consciousness”, “ethics”, “values”, “morals” जैसी अवधारणाएँ प्रोजेक्ट करने लगते हैं, मैं उससे सहमत नहीं रह सकता
आख़िरकार हम एक बहुत बड़ी recursive equation से ही डील कर रहे हैं, और जब तक हम उसे चलाएँ नहीं, वह कोई शब्द उत्पन्न नहीं करती
उस तर्क से तो शायद हमें इंसानों को मानवीय शब्दों में समझने पर भी फिर से विचार करना पड़ेगा
मैं इस बात से सहमत नहीं कि “LLM तो बस sequence generation function हैं, इसलिए उन्हें इंसान की तरह लेना अजीब है”
इंसान भी जन्मजात रूप से किसी न किसी functions की सूची के अनुसार ही काम करते हैं, इस अर्थ में वे अलग नहीं
LLM बहुत बड़े function approximation systems हैं, और प्रकृति ने करोड़ों वर्षों तक survival competition में कुछ को बचाकर evolution के माध्यम से functions के प्रकार बदलते रहे हैं
कुछ लोग मान सकते हैं कि इंसानों में गणितीय नियमों से परे कुछ विशेष है, लेकिन वह बात रहस्यवाद या अलौकिक विश्वास से आगे नहीं जाती
अगर आप ऐसा नहीं मानते, तो अंततः मानव अनुभव को function और function approximation से समझा जा सकता है
संबंधित: Universal Approximation Theorem wiki
“क्या आप मानते हैं कि इंसानों में गणितीय नियमों से परे कुछ है” — यह दावा अपने आप में विवादास्पद है
मानव अनुभव और भाषा में व्यक्त की जा सकने वाली कुछ चीज़ें स्पष्ट रूप से भौतिकी की व्याख्या से परे लगती हैं
उदाहरण के लिए, जिसने कभी लाल रंग का अनुभव नहीं किया, ऐसा black-and-white दृष्टि वाला व्यक्ति किसी भी explanatory framework के ज़रिये लाल रंग का subjective अनुभव नहीं पा सकता
मुझे लगता है कि मानव भाषा जिन कुछ घटनाओं की ओर इशारा करती है, वे अब भी physics की व्याख्या से बाहर हैं
लेखक शायद मानव consciousness के बारे में यह मानते हैं कि उसमें कुछ ऐसा है जिसे function के रूप में नहीं समझाया जा सकता
लोगों के पास ऐसे विचार होते हैं — धार्मिक, दार्शनिक assumptions वगैरह — और अनुभवतः उन्हें चर्चा से अलग रखने की कोशिश बहुत असरदार नहीं होती
इसलिए व्यावहारिक रूप से बेहतर है कि उस premise को स्वीकार करके आगे चर्चा की जाए
आप मान सकते हैं कि LLM “Chinese Room” की तरह बस अर्थ जाने बिना translation करता है, फिर भी व्यवहार में वह लगातार इंसान जैसा दिखता है
इसलिए भले तकनीकी रूप से मानवीय उपमा गलत हो, system के behavior की भविष्यवाणी करने और उसे प्रभावी ढंग से इस्तेमाल करने के लिए ऐसा करना व्यावहारिक रूप से बेहतर हो सकता है
और इंसानों पर चर्चा करते समय function वाली समानता को अलग रख सकते हैं
आप कह सकते हैं, “इंसान function से नाटकीय रूप से अलग हैं... हम यह calculate नहीं कर सकते कि कोई इंसान यह sequence generate करेगा या नहीं,” लेकिन जैसे किसी खास pop-culture phrase पर किसी खास उम्र के काफ़ी सारे अमेरिकी आगे की पंक्ति दोहरा देंगे, इसकी probability हम अनुमानित कर सकते हैं — यानी कुछ स्थितियों में इंसान भी probabilistically समझे जा सकते हैं
मुझे लगता है कि ज़्यादा से ज़्यादा हम इतना कह सकते हैं कि “मानवों ने inference या analytical thought process को linear algebra के ज़रिये सबसे अच्छे से model किया है”
LLM के “model” से अधिक कुछ होने की उम्मीद रखना कई उद्योगों, आजीविकाओं, करियरों और हितों से जुड़ी आस्था जैसा लगता है
फिर भी इस बात का कोई ठोस आधार नहीं है कि linear algebra model क्यों पूरी तरह “जीवन” या “जीवंतता के किसी पहलू” को समेट लेगा
अगर Gödel-जैसे उदाहरण में “zombie cat” जैसी चीज़ आ सकती है, तो उसके आधारभूत probabilistic model को किसी पारलौकिक चीज़ की तरह क्यों माना जाए, यह सवाल उठता है
“Universal Approximation Theorem” का ज़िक्र सुनकर मुझे यह कुछ ऐसा बढ़ा-चढ़ाकर कहा हुआ लगता है मानो बेहतर और बेहतर lookup tables से ही function approximation कर लिया जाएगा
कुछ परिस्थितियों में यह स्पष्ट रूप से याद रखना बहुत ज़रूरी है कि LLM probability-based word generator है
लेकिन रोज़मर्रा के उपयोग में, उल्टा, मानवीय ढंग से उनसे पेश आना व्यवहार में कहीं बेहतर काम करता है
इस तरह का मानवीय व्यवहार एक उपयोगी practical abstraction की तरह काम करता है, जिससे ज़रूरी जवाब निकलवाना आसान हो जाता है
यह perfect analogy नहीं है, लेकिन उदाहरण के लिए “अगर LLM ने JSON format में output नहीं दिया तो कोई मर जाएगा” जैसी धमकी देना, सिर्फ़ gradient descent के नज़रिए से सोचें तो शायद कभी सूझे ही नहीं
लोग अपने आसपास की लगभग हर चीज़ को मानवीय गुण देने की प्रवृत्ति रखते हैं
वे निर्जीव वस्तुओं, जैसे जहाज़ या कार, जानवरों, यहाँ तक कि पौधों से भी बात कर लेते हैं; यह काफ़ी सहज मानवीय प्रवृत्ति है
ज़्यादातर लोग जानते हैं कि उनकी कार उन्हें प्यार नहीं करती, लेकिन conversational LLM के मामले में सचमुच consciousness होने पर विश्वास करने वाले भी कम नहीं हैं
LLM मानव मस्तिष्क की तरह “सीखते” या “अनुकूलित” नहीं करते, कम से कम अभी तक तो नहीं; वे train होते हैं और उसके बाद read-only entity बन जाते हैं
फिर भी LLM को जानबूझकर human-like communication की नकल करने के लिए बनाया गया है
इसलिए projection और anthropomorphism लगभग अनिवार्य हैं
यह शायद अभी AGI नहीं है, लेकिन यह साफ़ है कि इसमें मानव learning के तरीके से प्रेरणा ली गई है, और यहाँ तक पहुँचना भी अपने आप में दिलचस्प परिणाम है
कम से कम निकट भविष्य में, LLM एक practical tool के रूप में सामने आया है जिसे conversational interface होने की वजह से इस्तेमाल करना बहुत आसान है, और यह सचमुच इंसानों के लिए सहज communication style में डिज़ाइन किया गया है
इसी वजह से बिना किसी विशेष प्रशिक्षण के लगभग कोई भी इसे तुरंत प्रभावी ढंग से इस्तेमाल कर सकता है
मैं “लोग चीज़ों को मानवीय गुण देते हैं” वाले कथन से सहमत नहीं; यह शब्दों का घालमेल है
निर्जीव चीज़ों के लिए personification करना और उनमें सचमुच मानवता या consciousness project करना, यानी anthropomorphism, दोनों अलग हैं
वास्तव में बहुत कम लोग कार को सचमुच जीवित मानते हैं
जबकि LLM में consciousness होने पर विश्वास करने वाले काफ़ी लोग हैं
संबंधित व्याख्या: anthropomorphism vs personification
“LLM conscious नहीं हैं क्योंकि वे मस्तिष्क की तरह सीखते या अनुकूलित नहीं करते” — यह न तो पर्याप्त शर्त है, न ही आवश्यक
consciousness के लिए learning ज़रूरी नहीं, लेकिन समय के प्रवाह की अनुभूति और short-term memory ज़रूरी हो सकती है
गंभीर dementia वाले मरीज़ों में नई learning लगभग नहीं होती, फिर भी उनमें “मैं अभी यहाँ हूँ” जैसी subjective consciousness बनी रह सकती है
यानी short-term memory की थोड़ी-सी उपस्थिति से भी consciousness संभव हो सकती है
दूसरी ओर, सिर्फ़ learning से consciousness नहीं आ जाती
बहुत-से real-time learning software systems हैं, लेकिन उनमें कोई subjective experience नहीं
मेरा सवाल यह है कि क्या यह संभव नहीं कि मानव मस्तिष्क भी LLM की तरह ही काम करता हो
मस्तिष्क भी evolutionary change, mutation, और evolutionary reward algorithm जैसी प्रक्रियाओं से एक विशेष संरचना तक पहुँचा है
वह संरचना अंततः prediction और action के माध्यम से survival और reproduction को maximize करती है, और उसके साथ morality, values, consciousness जैसे सहायक subgoals शाखाओं की तरह विकसित हुए हैं
आख़िरकार, क्या पर्याप्त computing power होने पर इन सभी संरचनाओं — और दुनिया तथा समय के प्रवाह — को किसी determinisitic function के रूप में व्यक्त नहीं किया जा सकता?
जीवन का उद्भव ही जिस तरह बेहद असंभव लगने वाली probability से हुआ, उसे देखते हुए मुझे लगता है कि आज जो कुछ भी ‘अद्भुत’ लगता है, वह भी अंततः गणितीय system में घटाया जा सकता है
अगर आपका सवाल है “क्या मानव मस्तिष्क LLM जैसा हो सकता है”, तो मैं पूछना चाहूँगा: क्या आप हर बातचीत के बाद सब कुछ भूल जाते हैं?
अगर आपके आसपास के लोगों से बातचीत में उन्हें हर बार सब कुछ फिर से ठीक-ठीक दोहराना पड़े ताकि आप context समझ सकें, तो मैं अभी विशेषज्ञ से जाँच कराने की सलाह दूँगा
memory loss पर बनी फ़िल्म Memento (2000) शायद आपको देखनी चाहिए
अहम बात यह है कि हमें मशीनों को emotion, morality, motivation जैसी चीज़ें नहीं देनी चाहिए
मशीनों में ये चीज़ें होती ही नहीं
मुझे लगता है मानव मस्तिष्क से काफ़ी समानताएँ हैं
LLM कम से कम 80 वर्षों से चल रहे मानव मस्तिष्क के computational modeling research का नवीनतम परिणाम हैं
LLM की सबसे बड़ी ताकत यह है कि इनके fail होने पर कुछ खोता नहीं
आप बस prompt बदलकर फिर कोशिश कर सकते हैं, या retrain कर सकते हैं
इंसानों के लिए एक गलती जानलेवा भी हो सकती है
LLM की गलतियों का ऐसा अस्तित्वगत परिणाम नहीं होता; बस request बदल दीजिए
“जैसे ही लोग LLM के बारे में consciousness, ethics, values, morals जैसी बातें करने लगते हैं, भ्रम शुरू हो जाता है” — यह बात कही जाती है
इस तरह की बहसों में ठोस उदाहरण जोड़ना ज़रूरी है, तभी चर्चा उत्पादक बन सकती है, लेकिन व्यवहार में लोग अक्सर एक-दूसरे से चूकते रहते हैं
मान लें कोई कहे, “model X चाहता है, लेकिन उसे पता है कि Y ग़लत है, इसलिए वह Z पसंद करता है” — एक पक्ष इसे model पर consciousness या values थोपना मानेगा, जबकि दूसरा कहेगा कि यह सिर्फ़ बाहरी behavior को रूपक में बताना है, जैसे “पानी नीचे जाना चाहता है”
आख़िर में ऐसी शब्दबहस “मैं इसे दार्शनिक ढंग से समझाऊँगा” बनाम “मैं सिर्फ़ submarine की बात करना चाहता हूँ” जैसी समानांतर रेखा बन जाती है
ऐसी संरचना से उत्पादक चर्चा निकलना मुश्किल है