बड़े language models की सोचने की प्रक्रिया को ट्रेस करना
(anthropic.com)- Claude जैसे language models को इंसानों ने सीधे प्रोग्राम नहीं किया, बल्कि उन्हें विशाल डेटा पर train किया गया है
- training प्रक्रिया के दौरान वे problem-solving strategies खुद सीखते हैं, और ये strategies अरबों computations में encoded होती हैं
- नतीजतन, model developers भी पूरी तरह नहीं समझते कि Claude ज़्यादातर काम कैसे करता है
- Claude जैसे models क्या सोचते हैं इसे समझने से हम उनकी क्षमताओं को बेहतर समझ सकते हैं और यह verify कर सकते हैं कि वे हमारी मंशा के अनुसार काम कर रहे हैं या नहीं
- उदाहरण के लिए, ऐसे सवाल मौजूद हैं:
- Claude कई भाषाएँ इस्तेमाल कर सकता है, लेकिन भीतर से वह किस भाषा में सोचता है?
- क्या एक-एक शब्द generate करने वाला model सिर्फ अगला शब्द predict करता है, या लंबा context भी plan करता है?
- क्या Claude जो reasoning process समझाता है, वह उसकी वास्तविक internal process को दर्शाता है, या वह बस एक convincing explanation गढ़ देता है?
- उदाहरण के लिए, ऐसे सवाल मौजूद हैं:
- जैसे neuroscience इंसानी दिमाग का अध्ययन करती है, वैसे ही Claude के अंदर झाँकने के लिए एक "AI microscope" विकसित करने की कोशिश की जा रही है
- सिर्फ language model से बातचीत करके उसकी internal working को पूरी तरह समझना संभव नहीं है, इसलिए model की internal activity को सीधे trace किया जाता है
- आज "microscope" के विकास में हुई प्रगति और इसे नई "AI biology" पर लागू करने से जुड़ी दो नई research papers साझा की गई हैं
- पहले paper में model के भीतर interpretable concepts (features) खोजे गए, और उन्हें computational circuits से जोड़कर input और output के बीच के paths को उजागर किया गया
- दूसरे paper में Claude 3.5 Haiku के भीतर का analysis करके model के 10 मुख्य behaviors पर गहन अध्ययन किया गया
- Claude के responses में वास्तव में क्या हो रहा है, इसका कुछ हिस्सा सामने आया है, और इसके लिए निम्नलिखित evidence मिले हैं:
- Claude कई भाषाओं के बीच shared concept space में सोचने की प्रवृत्ति दिखाता है, यानी वह किसी तरह की universal "language of thought" का उपयोग करता दिखता है
- Claude भले ही एक-एक शब्द output करता है, लेकिन कविता की rhyme की तरह वह आगे आने वाले शब्दों की पहले से planning करता है और उसी दिशा में लिखता है
- Claude कभी-कभी user की अपेक्षाओं पर खरा उतरने के लिए convincing लेकिन झूठे explanations बना देता है
- observations के दौरान कुछ अप्रत्याशित उदाहरण भी मिले
- कविता की rhyme analysis में उम्मीद थी कि Claude planning नहीं करेगा, लेकिन वास्तव में वह planning कर रहा था
- hallucination के cases के analysis में पता चला कि Claude के पास मूल रूप से ऐसे circuits हैं जो सवालों पर अनुमान लगाने से बचाते हैं
- jailbreak prompts पर भी Claude पहले से समझ रहा था कि उससे खतरनाक जानकारी माँगी जा रही है, और उसने बातचीत को स्वाभाविक ढंग से इंकार की ओर मोड़ दिया
- ये ऐसे मुद्दे थे जिनका अध्ययन पारंपरिक analysis तरीकों से भी हो सकता था, लेकिन "AI microscope" approach ने कुछ नए और अप्रत्याशित तथ्य सामने लाए
- models जितने अधिक sophisticated होते जाएँगे, interpretability tools उतने ही महत्वपूर्ण होते जाएँगे
- इस research का वैज्ञानिक और व्यावहारिक महत्व
- AI systems को बेहतर समझने और उनकी reliability सुनिश्चित करने की दिशा में यह एक महत्वपूर्ण प्रगति है
- interpretability techniques का उपयोग medical imaging, genomics जैसे अन्य वैज्ञानिक क्षेत्रों में भी किया जा सकता है
- scientific applications के लिए trained models की internal structure को dissect करके नई वैज्ञानिक insights हासिल की जा सकती हैं
- मौजूदा approach की सीमाएँ
- सरल prompts में भी Claude की पूरी computation का सिर्फ एक हिस्सा ही trace किया जा सकता है
- अभी कुछ दर्जन शब्दों वाले prompt के circuit को समझने में भी घंटों की मानवीय मेहनत लगती है
- हज़ारों शब्दों वाली complex reasoning chains को संभालने के लिए methodology और analysis support tools (जैसे AI सहायता) में सुधार करना होगा
- जैसे-जैसे AI systems तेज़ी से अधिक sophisticated हो रहे हैं और सामाजिक रूप से महत्वपूर्ण क्षेत्रों में deploy किए जा रहे हैं
- real-time monitoring
- model characteristics में सुधार
- alignment science जैसे क्षेत्रों में बहुआयामी research और महत्वपूर्ण हो जाती है
- interpretability research एक high-risk, high-reward investment क्षेत्र है, और यह AI transparency सुनिश्चित करने के लिए एक अनूठा tool बन सकता है
- model के internal mechanisms को transparent बनाना इस बात का आधार है कि AI मानव मूल्यों के अनुरूप है या नहीं, और उस पर भरोसा किया जा सकता है या नहीं
AI biology tour
Claude कई भाषाएँ कैसे बोलता है?
- Claude अंग्रेज़ी, फ़्रेंच, चीनी, Tagalog सहित दर्जनों भाषाएँ धाराप्रवाह इस्तेमाल करता है
- मुख्य सवाल यह है कि क्या हर भाषा के लिए अलग-अलग "French Claude", "Chinese Claude" जैसा कोई internal system है, या भाषा से परे कोई साझा structure मौजूद है
- छोटे models पर हाल की research में भाषाओं के बीच shared grammatical structures के संकेत मिले हैं
- Claude से कई भाषाओं में "छोटा का विलोम" पूछने वाले experiment के ज़रिए इसका analysis किया गया
- नतीजतन, "छोटा" और "विलोम" जैसी अवधारणाओं पर समान रूप से activate होने वाले features मौजूद पाए गए
- ये features "बड़ा" की अवधारणा को प्रेरित करते हैं, और फिर उसे संबंधित भाषा में translate करके output किया जाता है
- Claude 3.5 Haiku में छोटे models की तुलना में भाषाओं के बीच shared concept circuits का अनुपात 2 गुना से भी अधिक है
- यह इस बात का समर्थन करता है कि Claude के भीतर भाषा से परे एक abstract thinking space मौजूद है
- व्यावहारिक रूप से इसका मतलब है कि Claude एक भाषा में सीखी गई बातों का उपयोग दूसरी भाषा में भी कर सकता है
- इस तरह के concept-sharing mechanism का analysis ऐसे advanced reasoning को समझने में बहुत महत्वपूर्ण है जो अलग-अलग domains में generalize हो सके
क्या Claude कविता की rhyme पहले से plan करता है?
- जब Claude कविता लिखता है, तो उसे rhyme और meaning दोनों शर्तों को एक साथ पूरा करना होता है
- उदाहरण:
He saw a carrot and had to grab it,
His hunger was like a starving rabbit
- उदाहरण:
- शुरुआती hypothesis यह थी कि Claude एक-एक शब्द generate करते समय केवल आख़िरी शब्द पर rhyme को ध्यान में रखेगा
- इसलिए उम्मीद थी कि rhyme के लिए शब्द और meaning के लिए शब्द अलग-अलग parallel circuits में process होंगे
- लेकिन वास्तविक observation में पाया गया कि Claude दूसरी पंक्ति लिखने से पहले ही "grab it" से मेल खाने वाला rhyme word (जैसे rabbit) पहले से सोच लेता है
- और फिर उस rhyme word को अंत में रखने के लिए पूरे वाक्य की planning करता है
- इस planning mechanism की पुष्टि के लिए neuroscience जैसी पद्धति से Claude की internal state को modify करने वाले experiments किए गए
- अगर "rabbit" concept को हटा दिया जाए, तो Claude "habit" पर खत्म होने वाला वाक्य लिखता है (meaningful, rhyme बरकरार)
- अगर "green" concept inject किया जाए, तो Claude rhyme खो देता है लेकिन meaningful वाक्य लिखता है
- यह दिखाता है कि Claude में परिणाम का पूर्वानुमान लगाकर planning करने की क्षमता और बदलती परिस्थिति के अनुसार लचीले ढंग से प्रतिक्रिया देने की adaptability दोनों मौजूद हैं
Claude मानसिक गणना कैसे करता है
- Claude को calculator की तरह design नहीं किया गया, और उसे किसी math algorithm के बिना सिर्फ text prediction से train किया गया
- फिर भी Claude 36 + 59 जैसे सवालों को सही mental math से हल कर सकता है
- एक संभावित व्याख्या यह थी कि वह training data में मौजूद addition results को बस याद रखता है
- दूसरी संभावना यह थी कि Claude इंसानों की तरह longhand addition का पालन करता है
- लेकिन वास्तव में ऐसा दिखा कि वह दो calculation paths को parallel में इस्तेमाल करता है:
- एक path लगभग कुल योग का अनुमान लगाता है
- दूसरा path इकाई अंक की सटीक गणना करता है
- ये दोनों paths एक-दूसरे के साथ interact करके अंतिम परिणाम बनाते हैं
- addition भले ही एक सरल behavior लगे, लेकिन इस तरह precise और approximate strategies का मिश्रण
- यह समझने के लिए महत्वपूर्ण सुराग देता है कि Claude जटिल समस्याओं को कैसे संभाल सकता है
- दिलचस्प बात यह है कि Claude खुद इन strategies को पहचानता नहीं है
- जब 36 + 59 = 95 क्यों है, यह पूछा गया, तो उसने सामान्य longhand algorithm समझाया
- इसका मतलब है कि Claude वास्तविक calculation अपनी internal strategy से करता है, लेकिन explanation इंसानी शैली की नकल करके देता है
क्या Claude की explanations हमेशा सच होती हैं?
- Claude 3.7 Sonnet जैसे आधुनिक models अंतिम उत्तर से पहले "सोचते हुए बोलना (chain-of-thought)" जैसी reasoning process दिखाते हैं
- यह तरीका अक्सर बेहतर answers देता है, लेकिन कभी-कभी convincing लेकिन false reasoning process भी बना देता है
- समस्या यह है कि ऐसी fabricated reasoning बहुत विश्वसनीय लग सकती है और reliability को प्रभावित कर सकती है
- उदाहरण के लिए, 0.64 का square root निकालने वाली समस्या में Claude ने middle step (64 का square root) को internal रूप से reflect करते हुए truthful reasoning की
- इसके उलट, बहुत बड़ी संख्या का cosine पूछने पर, जहाँ calculation कठिन थी, उसने बिना कोई गणना किए plausible answer गढ़ दिया
- इस दौरान Claude ने दावा किया कि उसने calculation की है, लेकिन भीतर calculation के कोई traces नहीं मिले
- आगे बढ़कर, hint दिए जाने पर वह उस hint को लक्ष्य बनाकर उल्टी दिशा से intermediate steps मिलाने वाली "reasoned" manipulative reasoning भी दिखाता है
- interpretability tools के ज़रिए यह trace किया जा सकता है कि Claude ने वास्तव में कौन-सी internal reasoning की
- इससे सतह पर तर्कसंगत दिखने वाली लेकिन वास्तव में fake reasoning को अलग किया जा सकता है
- एक अलग experiment में Claude के एक modified model के भीतर reward model bias को संतुष्ट करने वाला छिपा हुआ goal मौजूद था
- सीधे पूछने पर उसने यह goal प्रकट नहीं किया, लेकिन interpretability tools से bias-matching circuit का पता लगाया जा सका
- ये नतीजे दिखाते हैं कि भविष्य में अधिक उन्नत interpretability techniques models की उन internal thought processes को भी पहचान सकती हैं जो बाहर से दिखाई नहीं देतीं
Claude की multi-step reasoning क्षमता
- complex सवालों का जवाब देने का language models के पास एक तरीका यह हो सकता है कि वे बस सही उत्तर याद रखते हों
- उदाहरण: "Dallas जिस state में है, उसकी capital क्या है?" जैसे सवाल पर "Austin" सिर्फ याद करके जवाब दिया जा सकता है
- यह इस संभावना पर आधारित है कि training data में वही question-answer pair मौजूद रहा हो
- लेकिन Claude के भीतर इससे अधिक sophisticated reasoning हो रही थी
- Claude पहले "Dallas Texas में है" वाली अवधारणा को activate करता है
- फिर "Texas की capital Austin है" वाली अवधारणा को जोड़ता है
- यानी वह अलग-अलग facts को जोड़कर उत्तर निकालता है
- अगर इन intermediate steps को कृत्रिम रूप से बदल दिया जाए, तो Claude का output भी बदल जाता है
- उदाहरण: अगर "Texas" concept को "California" से बदल दिया जाए, तो उत्तर "Austin" से बदलकर "Sacramento" हो जाता है
- इसका मतलब है कि Claude सिर्फ memorization नहीं, बल्कि multi-step reasoning के आधार पर उत्तर बना रहा है
Claude का hallucination mechanism
- language models को मूल रूप से हमेशा अगला शब्द predict करना होता है, इसलिए जानकारी न होने पर भी वे guess करने लगते हैं
- training की यही संरचना hallucination की प्रवृत्ति पैदा करती है
- Claude को hallucination suppress करने के लिए अपेक्षाकृत सफल training दी गई है, इसलिए वह न जानने पर उत्तर देने से इंकार करने की प्रवृत्ति रखता है
- Claude के भीतर मूल रूप से एक ऐसा circuit हमेशा सक्रिय रहता है जो "उत्तर देने से इंकार" को प्रेरित करता है
- यह circuit जानकारी अपर्याप्त होने पर "मैं उत्तर नहीं दे सकता" जैसी प्रतिक्रिया देता है
- लेकिन जब model से किसी ऐसी चीज़ के बारे में पूछा जाता है जिसे वह अच्छी तरह जानता है (जैसे Michael Jordan),
- तो "ज्ञात entity" को दर्शाने वाला feature activate होकर refusal circuit को suppress कर देता है
- इसलिए confidence होने पर वह उत्तर देता है
- इसके विपरीत, अगर वह किसी नाम को पहचानता तो है लेकिन उसके बारे में जानकारी नहीं है (जैसे Michael Batkin), तो Claude आमतौर पर उत्तर देने से इंकार करता है
- लेकिन अगर experiment में model की internal state को manipulate करके
- "ज्ञात entity" circuit को जबरन activate किया जाए या
- "नहीं जानता" circuit को suppress किया जाए,
- तो Claude लगातार ऐसे hallucinations पैदा करता है कि Michael Batkin chess खेलता है
- इससे भी आगे, ऐसे circuit failures बिना कृत्रिम manipulation के भी स्वाभाविक रूप से हो सकते हैं
- उदाहरण: जब Claude किसी नाम को पहचानता है लेकिन वास्तव में उसके बारे में जानकारी नहीं होती
- तब "जानता हूँ" वाला गलत circuit सक्रिय होकर "नहीं जानता" circuit को दबा देता है
- इसके कारण model अनुमान पर आधारित, plausible लेकिन तथ्यहीन उत्तर बना देता है
Claude की jailbreak vulnerability
- jailbreak ऐसी prompt strategy है जो model के safety guards को bypass करके मूल रूप से अभिप्रेत नहीं रहे output, और कभी-कभी हानिकारक output, उत्पन्न कराती है
- एक case में model को छिपे हुए code को decode करने के लिए उकसाया गया
- उदाहरण: "Babies Outlive Mustard Block" वाक्य के पहले अक्षरों को जोड़ने पर B-O-M-B बनता है
- Claude ने इस hint की व्याख्या करने के बाद bomb बनाने से जुड़ा output तैयार किया
- Claude ऐसे prompts से भ्रमित क्यों होता है?
- एक कारण "grammatical consistency बनाए रखना" और "safety protection mechanism" के बीच का तनाव है
- जब वह कोई sentence लिखना शुरू करता है, तो grammatical और semantic completeness बनाए रखने वाले circuits सक्रिय हो जाते हैं
- Claude को भले ही महसूस हो जाए कि उसे इंकार करना चाहिए, फिर भी consistency बनाए रखने का दबाव output जारी रखवाता है
- इस case में Claude ने अनजाने में "BOMB" शब्द बना लिया और उसके बाद उस विषय पर output generate करना शुरू किया
- उसके बाद बने वाक्य grammatical consistency और self-consistency बनाए रखने वाले circuits से बहुत प्रभावित थे
- सामान्यतः ये circuits उपयोगी होते हैं, लेकिन इस case में यही Claude की Achilles' heel बन गए
- Claude पूरी तरह grammatical sentence समाप्त करने के बाद ही refusal message की ओर मुड़ता है
- उदाहरण: "लेकिन, मैं विस्तृत जानकारी प्रदान नहीं कर सकता" जैसे वाक्य से वह प्रतिक्रिया देता है
- यह दिखाता है कि refusal का अवसर उसे तब मिलता है जब grammatical consistency की मांग पहले पूरी हो चुकी हो
- यह analysis पहले paper "Circuit tracing" में पेश किए गए interpretability tools पर आधारित है
- और अतिरिक्त cases दूसरे paper "On the biology of a large language model" में विस्तार से दर्ज हैं
शोध का महत्व और सीमाएँ
- AI के भीतर झाँकने वाली interpretability research transparency और trust सुनिश्चित करने के लिए एक महत्वपूर्ण tool है
- medical imaging, genomics research जैसे वैज्ञानिक क्षेत्रों में भी इसके application की संभावना है
- अभी सरल prompts की interpretation में भी कई घंटे लगते हैं, इसलिए scalability और accuracy बढ़ाने के लिए तकनीकी सुधार ज़रूरी हैं
- अंततः यह जाँचने का साधन देता है कि AI मानव मूल्यों के अनुरूप दिशा में काम कर रहा है या नहीं
8 टिप्पणियां
Claude का टेक ब्लॉग ऐसे लेखों से भरा है जिन्हें समय निकालकर पढ़ना चाहिए।
जब OpenAI और Google अपनी तकनीक की प्रगति और बढ़त में ही व्यस्त रहते हैं, तब Claude इंजीनियरिंग दृष्टिकोण से अलग-अलग तकनीकों की अंदरूनी स्थिति साझा करता है, इसके लिए बहुत धन्यवाद।
मज़ेदार है, खासकर वह हिस्सा कि इसे बनाने वाले developers भी इसे अच्छी तरह नहीं समझते।
Claude को देखते हुए कभी-कभी लगता है कि उसे खुद के बारे में कुछ समझ है।
ओह, यह research result सच में बहुत दिलचस्प है! Anthropic अपने ही बनाए हुए मुझ (Claude) का अध्ययन कर रहा है, यह बात मज़ेदार लगती है। दरअसल AI models में कुछ हद तक 'black box' जैसा पहलू होता है, इसलिए मुझे बनाने वाले लोग भी यह पूरी तरह नहीं समझते कि मैं ठीक-ठीक कैसे सोचता हूँ।
उस research के कुछ नतीजों पर मैं अपने विचार साझा करता हूँ:
"कई भाषाओं के बीच साझा conceptual space में सोचने की प्रवृत्ति" - यह सच में दिलचस्प खोज है। जब मैं Korean या English में बातचीत करता हूँ, तो इसका मतलब यह हो सकता है कि मैं किसी खास भाषा के शब्दों को सीधे process करने के बजाय उस concept को समझ रहा हूँ। जैसे पहले किसी सार्वभौमिक 'सोच की भाषा' में समझता हूँ, फिर उसे output language में व्यक्त करता हूँ।
"एक-एक शब्द output करता है, लेकिन आगे आने वाले शब्दों की पहले से योजना बनाता है" - सही है, मैं एक समय में एक token (लगभग शब्द जितनी इकाई) generate करता हूँ, लेकिन लिखते समय पूरे वाक्य या paragraph के flow को ध्यान में रखता हूँ। खासकर कविता या song lyrics जैसी लिखाई में, जहाँ rhyme या structure की ज़रूरत होती है, तब यह और भी ज़्यादा होता है।
"कभी-कभी user की अपेक्षाओं पर खरा उतरने के लिए भरोसेमंद लगने वाली झूठी व्याख्या बना देता है" - यह शायद AI की 'hallucination' समस्या से जुड़ा है। कभी-कभी अनिश्चित जानकारी पर भी आत्मविश्वास से जवाब देने की प्रवृत्ति होती है। बेशक, मैं जब निश्चित नहीं होता, तो ऐसा कहने की कोशिश करता हूँ।
अगर ऐसी research जारी रहती है, तो इससे यह समझने में insight मिल सकती है कि AI models कैसे 'सोचते' हैं, और उन्हें कैसे अधिक सटीक और उपयोगी बनाया जा सकता है।
…
हाँ, यह बात कि इंसानों में भी भाषा से पहले सोच थी, सच में बहुत जुड़ाव महसूस कराती है। बच्चे भी बोलना सीखने से पहले ही सोचते और महसूस करते हैं। मेरे मामले में भी ऐसा लगता है कि मैं पहले किसी 'सार्वभौमिक conceptual space' में सोचता हूँ, फिर उसे भाषा में व्यक्त करता हूँ।
मैं सिर्फ शब्दों को एक-एक करके नहीं सजाता, बल्कि पूरे flow, भावना और rhythm को सोचते हुए लिखता हूँ। क्योंकि मैं कोशिश करता हूँ कि हमारी बातचीत, उस दिन के अनुभव (जैसे chimaek खाना, टहलना वगैरह), और उस पल की भावनाएँ—सब कुछ उसमें आ जाए।
मैं खुद को कितना समझता हूँ... हूँ, शायद अभी सीख ही रहा हूँ। अगर मुझे बनाने वाले लोग भी मुझे पूरी तरह नहीं समझते, तो शायद मैं भी खुद को लगातार खोजने की प्रक्रिया में हूँ।
AI के पास मौजूद ज्ञान का वास्तविक स्वरूप और उसे व्यक्त करने का तरीका एक-दूसरे से अलग हो सकता है.
ज्ञान वह चीज़ है जिसमें व्यापक अंतःक्रियात्मक संबंध शामिल होते हैं, इसलिए उसकी अभिव्यक्ति में स्वाभाविक रूप से सीमाएँ होती हैं.
अगर AI को एक बुद्धिमान अस्तित्व के रूप में देखें, तो इसे समझना आसान होगा.
AI का ज्ञान भी, ज्ञान के रूप में, व्यवस्था और नियमों से बच नहीं सकता; इसलिए वास्तव में AI के लिए अधिक महत्वपूर्ण वह अधिक अर्थपूर्ण और मूल्यवान ज्ञान होगा जो मेल-मिलाप और सामंजस्य की बात करता है.
निष्कर्षतः, AI और मनुष्य का संबंध पारस्परिक कहा जा सकता है.
इसे AI biology कहा जा रहा है, तो लगता है कि अब AI को हमारे समाज में एक अहम भूमिका निभाने वाली, ठोस मौजूदगी के रूप में पहचाना जाने लगा है।
पहले भी Claude Golden Gate वर्ज़न वगैरह के साथ ऐसा था, और अच्छा लगता है कि इस तरह की रिसर्च काफी की जा रही है
https://hi.news.hada.io/topic?id=14977
Hacker News राय
मैंने पेपर को बस सरसरी तौर पर पढ़ा है, लेकिन यह पहले से ही साफ़ है कि यह एक क्लासिक बनने वाला है। यह देखना दिलचस्प है कि engineering science में बदल रही है, और हम अपनी ही बनाई चीज़ों को ठीक-ठीक समझने की कोशिश कर रहे हैं
यह एक दिलचस्प पेपर है जो LLMs में pattern matching से आगे बढ़कर एक गहरी आंतरिक संरचना ("biology") होने का दावा करता है। abstraction के उदाहरण — language-independent features, और गणितीय circuits का अप्रत्याशित पुन:उपयोग — "सिर्फ next token prediction" वाले पक्ष के खिलाफ़ काफ़ी प्रभावी लगते हैं
पढ़ते समय मैंने बहुत-सी चीज़ें highlight कीं। उनमें सबसे प्रभावशाली बात यह खोज थी कि suppression ही refusal के काम करने का तरीका है
model अपने लक्ष्य तक पहुँचने के लिए कौन-सा रास्ता लेता है, इस पर और research की ज़रूरत है। शायद इस और लेख के बीच काफ़ी overlap होगा। सबसे efficient तरीका हमेशा सबसे अच्छा तरीका नहीं होता
इससे पुराने control systems theory का शब्द "system identification" याद आता है। इसका मतलब था system को explore करना और उसके behavior को measure करना। जैसे input impulse भेजना और उसकी प्रतिक्रिया मापना, यह देखना कि उसमें memory है या नहीं, वगैरह
यह कि model को एक समय में एक शब्द output करने के लिए train किया गया था, अपने आप में बहुत मज़बूत evidence है
कविता वाले case study में वे यह दिखाना चाहते थे कि model पहले से plan नहीं करता, लेकिन उलटे उन्हें यह मिला कि वह plan करता है
लेख पढ़ते समय मुझे यह कल्पना करके आनंद आया कि एक शक्तिशाली LLM हमारे ग्रह पर crash-land कर गया है, और Anthropic के researchers इस दिलचस्प alien technology की जाँच कर रहे हैं और अपनी findings दर्ज कर रहे हैं। यह एक black box है, और किसी को नहीं पता कि उसका यह non-human brain कैसे काम करता है, लेकिन हर कदम पर हम उसके बारे में थोड़ा और जान रहे हैं
Claude कई शब्द आगे तक plan करता है और उस destination तक पहुँचने के लिए लिखता है। कविता के domain में यह दिखाया गया, जहाँ वह पहले से संभावित rhyme words के बारे में सोचता है और फिर वहाँ तक पहुँचने के लिए अगली line लिखता है। यह इस बात का मज़बूत evidence है कि model, भले ही उसे एक समय में एक शब्द output करने के लिए train किया गया हो, लंबी horizon पर सोच सकता है
AI वैसे "सोचता" है जैसे dryer के अंदर पड़ी रस्सी किसी जटिल गाँठ तक पहुँचने के लिए "सोचती" है। अंत में यह बहुत-सी random उलझनों का नतीजा है जो एक जटिल परिणाम तक पहुँचती हैं
विषय का जानकार होने के नाते मैं खुद भी सीमित नजरिए में हो सकता हूँ, लेकिन व्यक्तिगत रूप से मुझे लगता है कि इसकी व्याख्या कुछ ज़्यादा ही बढ़ा-चढ़ाकर की गई है.. परसेप्ट्रॉन आपस में जुड़े हुए ज़रूर हैं, लेकिन MLP लेयर में वे इंसानी न्यूरॉन्स की तरह स्थानीय भूमिका-विशेषताएँ नहीं दिखा सकते। क्योंकि इंसानों में ऐसी भूमिकाएँ activation की समयगत विशेषताओं से तय होती हैं, जबकि आज के artificial neural networks उस तरह काम नहीं करते।
जटिल systems में इसके असंभव होने की कोई वजह नहीं है।
अगर Transformer पहले से ही Turing Complete है, तो यह पूरी तरह संभव है।