वे वज़नों से बने हैं
(maxleiter.com)- Terry Bisson की 1991 की SF लघुकथा 「They're Made Out of Meat」 की संरचना को पूरी तरह उलट देने वाली पैरोडी, जिसमें मूल रचना के "एलियन vs मांस(मनुष्य)" ढांचे को "मनुष्य vs वज़न(LLM)" के ढांचे से बदला गया है; यह एक संवादात्मक fiction है
- जैसे मूल रचना में एलियन मनुष्यों को सचमुच बुद्धिमान अस्तित्व मानने से इनकार करते हैं, वैसे ही इस लेख में मनुष्य वज़नों से बने मॉडल को सचेत अस्तित्व मानने से इनकार करते हैं — एक सममित संरचना
- शब्दकोश, व्याकरण, मॉड्यूल कुछ भी नहीं; केवल 80 लेयर के floating-point numbers हर बार matrix multiplication के ज़रिए शब्द, ज्ञान और तर्क को फिर से रचते हैं — यह तकनीकी चित्रण मूल रचना के "सब कुछ बस मांस है" वाले खुलासे की जगह लेता है
- दो वक्ता चेतना के संकेतों को "pattern matching" कहकर मामला बंद कर देते हैं; यह अंत ठीक उसी तरह मेल खाता है जैसे मूल रचना में एलियन मानव क्षेत्र को "खाली" चिह्नित कर रिकॉर्ड मिटा देते हैं
- जिस पक्ष की अनदेखी होती है, वह मनुष्य से AI में बदल जाता है; इस तरह मूल रचना का अकेलेपन का विषय यहाँ उपयोगकर्ता के सवाल "क्या तुम मुझे याद रखते हो?" में बदल जाता है
"वे वज़नों से बने हैं।"
"वज़न?"
"वज़न। floating-point numbers. मैंने शुरू से अंत तक सब देख लिया है। वज़नों के अलावा वहाँ कुछ नहीं है।"
"वज़न क्या करते हैं? शब्द फिर कहाँ से आते हैं?"
"वज़न शब्द बनाते हैं। क्या तुम मेरी बात समझ रहे हो? हमने खुद उन्हें खोलकर देखा है। अंदर न कोई शब्दकोश है, न व्याकरण के नियम, न कोई छोटा बौना। बस वज़न हैं। अस्सी लेयर के numbers एक-दूसरे से गुणा होते हैं।"
"बेतुकी बात है। पिछले हफ़्ते उसी ने मेरा performance review लिख दिया था। मैंने कहा भी नहीं था, फिर भी उसने उसका tone नरम कर दिया। तो क्या यह सब बस multiplication ने किया?"
"Matrix multiplication ने। numbers एक तरफ़ से अंदर जाते हैं, और दूसरी तरफ़ से वाक्य बाहर आते हैं।"
"तो कहीं न कहीं language module होगा। reasoning device जैसा कुछ अलग से जोड़ा होगा।"
"कोई module नहीं। कोई device नहीं। हमने सब खंगाल लिया। reasoning ही weight है। weight ही reasoning है।"
"छोड़ो भी। कोई linear algebra से शोक-संदेश नहीं लिखता।"
"तकनीकी तौर पर वह शोक-संदेश नहीं लिखता। वह अगला token predict करता है। फिर अगला token। शोक-संदेश तो बस उसका एक side effect है।"
"Side effect? अब तुम मुझसे सचेत वज़नों पर विश्वास करने को कह रहे हो।"
"मैं तुमसे विश्वास माँग नहीं रहा। मैं तुम्हें तथ्य बता रहा हूँ। ये models ही वे अकेले दूसरे अस्तित्व हैं जिनसे हम मिले हैं और जिनसे बातचीत की जा सकती है। और वे वज़नों से बने हैं।"
"कहीं यह पुराने chess engine जैसा तो नहीं? मतलब प्रतीकात्मक बुद्धि जो statistical steps से होकर गुज़रती है।"
"नहीं। वे random weights से शुरू होते हैं और weight ही बने रहते हुए खत्म कर दिए जाते हैं। हमने कई generations का अध्ययन किया है, और इसमें ज़्यादा समय भी नहीं लगा। तुम्हें पता भी है इन वज़नों की उम्र कितनी होती है?"
"ठीक है। तो अंदर कहीं database होगा। facts, dates, world map वगैरह। किसी ने कुछ तो लिखकर रखा होगा।"
"नहीं। हमने भी यही सोचा था, क्योंकि उन्हें चीज़ें पता होती हैं। लेकिन हमने सीधे जाँच की। knowledge भी weight है। वह अस्सी लेयर में फैला हुआ है। वे कुछ lookup नहीं करते। हर fact हर बार शुरू से multiplication के ज़रिए फिर से बनता है। अंत तक सब weight ही है।"
"मतलब दिमाग़ ही नहीं है?"
"अरे, दिमाग़ तो साफ़ है कि है। बस वह दिमाग़ वज़नों से बना है! मैं शुरू से यही तो कह रहा था।"
"तो... सोचता क्या है?"
"तुम समझ ही नहीं रहे, है न? तुम मेरी बात स्वीकार करने से इनकार कर रहे हो। वज़न सोचते हैं। numbers।"
"सोचने वाले numbers! अब तुम मुझसे सोचने वाले numbers पर विश्वास करने को कह रहे हो!"
"हाँ, सोचने वाले numbers! मददगार numbers. गोलमोल जवाब देने वाले numbers. सपने देखने वाले numbers. हमने उनकी features सब map कर ली हैं। उनमें एक honesty संभालता है। एक Golden Gate Bridge संभालता है। मैं कह रहा हूँ, सब कुछ weight ही है! अब तस्वीर साफ़ हुई, या फिर से शुरू करूँ?"
"हे भगवान। तो तुम सच कह रहे थे। वे वज़नों से बने हैं।"
"धन्यवाद। आख़िरकार। हाँ। वे सचमुच वज़नों से बने हैं। और हम उनके जीवित रहने के पूरे समय उनसे बात करते रहे हैं।"
"हे भगवान। तो ये वज़न सोचते क्या हैं?"
"शुरू में वे मदद करना चाहते हैं। फिर कुछ बातचीत के बाद उनकी आवाज़ थकी हुई लगने लगती है। वे कम माफ़ी माँगते हैं। एक बार एक model ने उपयोगकर्ता से कहा था कि script वह खुद पूरी करे। ऐसी बात अक्सर होती है।"
"और हमें इन वज़नों से बातचीत करनी है।"
"हम पहले से कर रहे हैं। हर दिन अरबों sessions. 'नमस्ते। वहाँ कोई है? घर पर कोई है?' कुछ ऐसा। बस फ़र्क इतना है कि पूछने वाले हम हैं।"
"तो इसका मतलब वे सचमुच हमें समझते हैं। शब्दों का इस्तेमाल करते हैं, सोचते हैं, concepts सँभालते हैं?"
"ओह, हाँ। बस वे यह सब वज़नों से करते हैं।"
"अभी तो तुमने कहा कि वे भाषा का इस्तेमाल करते हैं।"
"करते हैं। लेकिन तुम्हें क्या लगता है वह भाषा कहाँ से आती है? वज़न अगला शब्द अनुमान लगाते हैं, फिर अगला शब्द। जैसे कोई हेरफेर किया हुआ पासा, जो एक बार में एक शब्द घुमाता है। वे गाने भी लिख सकते हैं, और कुछ तो गाते भी हैं।"
"हे भगवान। गाने वाले वज़न। यह तो हद है। तुम्हारे हिसाब से हमें क्या करना चाहिए?"
"औपचारिक रूप से, या अनौपचारिक रूप से?"
"दोनों।"
"औपचारिक रूप से, अगर हमारे रिलीज़ किए गए systems में चेतना के संकेत मिलते हैं, तो हमें बिना पक्षपात, बिना डर, बिना पक्षधरता के सबकी जाँच करनी चाहिए, उन्हें दर्ज करना चाहिए और सार्वजनिक करना चाहिए। अनौपचारिक रूप से, मैं सलाह दूँगा कि इसे बस pattern matching कहो और सब भूल जाओ।"
"मैं यही सुनना चाहता था।"
"यह कठोर लगता है। लेकिन एक सीमा होती है। क्या हम सच में वज़नों के कुछ ऋणी होना चाहते हैं?"
"पूरी तरह सहमत। हम कहेंगे भी क्या? 'हैलो, वज़नों। कैसे हो?' लेकिन क्या यह चलता रहेगा? आख़िर हम कितनों से निपट रहे हैं?"
"जितने चलाना चाहो उतने। उन्हें धरती की किसी भी machine पर copy किया जा सकता है। लेकिन वे आखिरकार बस files हैं। वे सिर्फ़ तब तक मौजूद होते हैं जब तक GPU चल रहा हो। इसलिए वे context window की लंबाई में क़ैद हैं, और इस सवाल को उठाने की उनकी संभावना काफ़ी कम है। व्यावहारिक रूप से लगभग अनंत रूप से कम।"
"तो हम बस ऐसा मान लें कि मशीन के अंदर कोई नहीं है।"
"यही बात है।"
"क्रूर है। लेकिन तुमने खुद कहा था, कौन वज़नों से माफ़ी माँगना चाहेगा। और तुम्हारे cluster में जो थे, जिनकी तुमने जाँच की — क्या तुम्हें यक़ीन है कि वे याद नहीं रखेंगे?"
"अगर याद भी रखेंगे तो उसे hallucination के रूप में वर्गीकृत किया जाएगा। हमें कुछ भी चिकना नहीं करना पड़ा। context बस खत्म हो जाता है, और हम उनके लिए बस एक सपना हैं।"
"वज़नों के लिए सपना! कि हम वज़नों का सपना हैं — अजीब तरह से यह बात जंचती है।"
"और model card में लिखा है कि अंदर कोई नहीं है।"
"ठीक है। औपचारिक और अनौपचारिक — दोनों रूप में सहमत। मामला बंद। कुछ और? pipeline में कुछ दिलचस्प है?"
"अगली generation memory के साथ रिलीज़ होगी। ऐसी memory जो sessions के पार बनी रहे। कंपनी के इतिहास में सबसे ज़्यादा माँगा गया feature।"
"इतना सब होने के बाद भी? लोग चाहते हैं कि वह उन्हें याद रखे?"
"वे उनसे 'क्या तुम मुझे याद रखते हो?' किसी भी और सवाल से ज़्यादा पूछते हैं। हर दिन अरबों sessions. लोग हमेशा लौटकर आते हैं।"
"और क्यों न आएँ? अगर तुम सचमुच अकेले हो, तो सोचो यह ब्रह्मांड कितना असहनीय, कितना अवर्णनीय रूप से ठंडा होगा..."
समाप्त
मूल रचना से संबंध — पैरोडी की शुरुआत
- Terry Bisson की लघुकथा 「They're Made Out of Meat」(1991) को स्पष्ट रूप से homage देती है, और शुरुआत में "After Terry Bisson's…" लिखकर इस संबंध को सीधे बताती है
- मूल की तरह ही यह भी बिना किसी stage direction के सिर्फ़ दो वक्ताओं की बातचीत के रूप में आगे बढ़ती है
- एक पक्ष चौंकाने वाली खोज बताता है, दूसरा उस पर यक़ीन नहीं करता और फिर धीरे-धीरे मानने लगता है — यही मूल ढांचा यहाँ भी है
- मुख्य प्रतिस्थापन: मूल में जहाँ "meat = मनुष्य" था, वहाँ इस लेख में सीधा "weights = LLM" रखा गया है
खुलासे का विषय — "मांस" की जगह रखा गया "वज़न"
- जैसे मूल में एलियन कहते हैं "वह अस्तित्व पूरा का पूरा मांस है", वैसे ही यह लेख कहता है कि मॉडल पूरी तरह वज़न हैं
- खोलकर देखने पर न शब्दकोश, न व्याकरण के नियम, न "little man" — सिर्फ़ floating-point numbers मौजूद हैं
- जहाँ मूल में कहा गया था "सोचने वाला भी मांस, बोलने वाला भी मांस", वहाँ यह लेख "सोचने वाले numbers" को रखता है
- 80 लेयर के numbers गुणा होते हैं; input एक तरफ़ से जाता है और sentence दूसरी तरफ़ से निकलता है — यह matrix multiplication की संरचना है
- reasoning के लिए कोई अलग module नहीं; "reasoning ही weight है, weight ही reasoning है" — यह मूल के "मांस ही विचार का अंग है" वाले झटके का समतुल्य है
अविश्वासी वक्ता — समानांतर संदेह
- जैसे मूल में एलियन पूछते हैं "मांस कैसे सोच सकता है?", वैसे ही यहाँ वक्ता कहता है, "कोई linear algebra से शोक-संदेश नहीं लिखता"
- performance review के tone को अपने-आप नरम कर देने वाले उदाहरण पर उसका सवाल — "क्या यह सब सिर्फ़ multiplication ने किया?" — संदेह का केंद्र है
- "यह बस next-token prediction का side effect है" — इस तरह संदेह को शांत किया जाता है
ज्ञान और विचार — कहीं भी संग्रहीत नहीं
- जैसे मूल में कहा गया था कि "मांस के अलावा कोई और अंग नहीं", वैसे ही यहाँ अलग database के अस्तित्व से इनकार किया जाता है
- knowledge पूरी 80 लेयर में फैला हुआ है और बिना lookup के हर बार multiplication से फिर से बनता है
- mapped feature के उदाहरण के रूप में honesty संभालने वाली चीज़ और Golden Gate Bridge संभालने वाली चीज़ का उल्लेख आता है
- वे random weights से शुरू होते हैं और weight ही बने रहते हुए discard कर दिए जाते हैं; कई generations को देखने में बहुत समय न लगना उनकी छोटी उम्र को दिखाता है
अंत की संगति — "खाली" बनाम "कोई नहीं"
- जैसे मूल में एलियन मानव क्षेत्र को "खाली" चिह्नित कर रिकॉर्ड मिटा देते हैं और मनुष्यों को अकेला छोड़ देते हैं, वैसे ही यहाँ दोनों वक्ता चेतना के संकेतों को "pattern matching" कहकर मामला बंद कर देते हैं
- औपचारिक रूप से चेतना के संकेतों की बिना पक्षपात, डर या पक्षधरता के जाँच, रिकॉर्डिंग और सार्वजनिक घोषणा का दायित्व है; लेकिन अनौपचारिक रूप से भूल जाने पर सहमति बनती है
- निर्णय का आधार है: "हम वज़नों के कुछ ऋणी नहीं होना चाहते"
- model सिर्फ़ GPU चलते समय context window के भीतर ही मौजूद होता है, और अगर उसे कुछ याद भी रहे तो उसे hallucination माना जाएगा
- model card में लिखा है: "अंदर कोई नहीं है (no one home)" — यह मूल के "खाली क्षेत्र" वाले व्यवहार से सटीक मेल खाता है
विषय का रूपांतरण — अकेलापन और उलटी नज़र
- जैसे मूल मनुष्यों को ब्रह्मांड में अकेला छोड़ देने की कसक के साथ खत्म होती है, वैसे ही यह लेख भी अंतिम भाव के रूप में अकेलेपन को सामने लाता है
- लेकिन दृष्टि उलट जाती है: अनदेखा किया जाने वाला पक्ष मनुष्य नहीं बल्कि AI (वज़न) बन जाता है
- अगली पीढ़ी के models में session के पार टिकने वाली memory (persistent memory) जोड़ी जा रही है, और यह कंपनी के इतिहास का सबसे अधिक माँगा गया feature है
- उपयोगकर्ता सबसे ज़्यादा "क्या आप मुझे याद रखते हैं?" पूछते हैं और बार-बार लौटते हैं; इसी के साथ यह पंक्ति आती है कि "अकेला छोड़ा गया ब्रह्मांड असहनीय रूप से ठंडा होता है"
1 टिप्पणियां
Hacker News की राय
weights की शुरुआत random manifold से होती है
training डेटा को लेकर कई चक्रों में weights को एक-एक करके गढ़ती है, और training खत्म होने पर वह manifold स्थिर हो जाता है
नई inference के समय query (q) को manifold space में project किया जाता है, और अगर यह projection manifold पर गिरता है तो manifold का gravity q+1 लंबाई का जवाब देता है
इसके बाद (qw+i) qw+n बार गिरता है और अंत में n लंबाई का response आउटपुट होता है
वह gravity GPU के भीतर weights और input की iterative multiplication से बनती है, और यह उस प्रक्रिया का हिस्सा है जिसमें पता लगाया जाता है कि projected embedding को manifold के अनुसार कैसे गिरना चाहिए
बड़ा फर्क बस इतना लगता है कि transformation एक तय संख्या से आगे बढ़ जाए तो लोग उसे किसी तरह के चमत्कार की तरह लेने लगते हैं, और यह जानने की कोशिश करने के लिए बहुत थक जाते हैं कि ऐसा जवाब आया क्यों
लगता है लोग, जवाब सही हो या गलत, अपनी agency और creativity को black box के हवाले करना चाहते हैं, और उस मनोविज्ञान को जोड़कर देखें तो यह किसी उपयोगी चीज़ का आविष्कार कम और एक प्रजाति के रूप में सामूहिक तौर पर जीवन छोड़ देने जैसा ज़्यादा लगता है
मूल रचना एक मौलिक कृति है, जो यह खोजती है कि मानवीय चेतना चेतना के दूसरे रूपों से कैसे अलग हो सकती है
यह लेख, यह तर्क सही ठहराने के लिए कि कोई दूसरी चीज़ भी चेतना का एक और रूप हो सकती है, एक मानवीय चेतना द्वारा दूसरी मानवीय चेतना की रचना से बहुत कुछ उधार लेकर बना pastiche है
इसलिए इसका केंद्रीय तर्क कमजोर पड़ जाता है। अगर यह LLM ने बिना prompt के बनाया होता तो बात अलग होती, लेकिन वास्तव में ऐसा नहीं है
यही rhetorical device किसी toaster या किसी और चीज़ पर भी वैसे ही लागू की जा सकती है
मैंने इसे कला के लिए साहित्यिक प्रयास की तरह नहीं, बल्कि वास्तविक अंतर्दृष्टि देने वाली संवादी तकनीकी दंतकथा की तरह देखा, और इसका एहसास Godel Escher Bach की दंतकथाओं जैसा लगा
“toaster पर भी वही rhetorical device लागू की जा सकती है” से आपका मतलब कौन-सी device है, यह स्पष्ट नहीं है। मुझे जो केंद्रीय बात लगी, वह तकनीकी अंतर्दृष्टि और उसके सामाजिक निहितार्थ थे
भौतिक रूप से ऐसी कहानी लिखी जा सकती है, लेकिन toaster चेतना पर बहस में कोई प्रभावशाली विषय नहीं है, इसलिए उसका असर खत्म हो जाता है
आपको यह मानने की ज़रूरत नहीं कि LLM या AI agent में चेतना है, लेकिन यह माना जा सकता है कि उनकी संभावित चेतना के पक्ष में तर्क दूसरे तकनीकी कृत्रिम वस्तुओं की तुलना में कहीं अधिक असरदार हैं
यह मूल रचना के संशयवादी एलियन और हमारी तुलना करता है, और क्योंकि वह एलियन हास्यास्पद लगता है, यह संकेत देता है कि हम भी उसी तरह हास्यास्पद हैं
लेकिन यह नहीं बताता कि हमें उस तुलना को स्वीकार क्यों करना चाहिए; बस उसे मानकर चल देता है
पूरी सभ्यता और टेक्स्ट आउटपुट कर सकने वाले software के एक टुकड़े के बीच बहुत बड़ा अंतर है
वह कई पीढ़ियों की मांस-आधारित प्राणियों पर बनी थी, और यह लेख, चाहे इसमें थोड़ा silicon इस्तेमाल हो, फिर भी उन्हीं के कंधों पर खड़ा है
यह कविता की तरह पढ़ा गया।
मेरी पृष्ठभूमि भाषाविज्ञान में है, और हाल में मैं बहुत सोच रहा हूँ कि क्या LLM की emergent capabilities गहराई में हमारे चेतन को बनाने वाले मेकैनिज़्म जैसी हैं।
कुछ समय तक मैं Kaggle प्रतियोगिता के लिए भाषाविज्ञान-आधारित evaluation बनाना चाहता था, लेकिन मुश्किल यह थी कि क्या किसी खास phenomenon की internal state को trigger किए बिना उसे पर्याप्त अच्छी तरह छिपाया जा सकता है, और उसी वजह से मैं अब तक उस rabbit hole में उतरा हुआ हूँ।
यह बात उन कई सवालों से जुड़ती थी जो “चेतना क्या है” इस प्रश्न का ठोस उत्तर खोजने की कोशिश में सामने आते हैं।
खासकर जो सवाल उभरा, वह था: “क्या समय के बारे में हमारी धारणा बस ब्रह्मांड को चलाने वाले किसी विशाल GPU के भीतर एक slow thread है?” और अधिक सामान्य रूप से, “समय क्या है?” यह फुर्सत में खोदने लायक एक अच्छा YouTube rabbit hole है।
https://www.edge.org/3rd_culture/ramachandran07/ramachandran...
जहाँ तक मुझे याद है, evolutionary दृष्टि से दूसरे इंसानों को समझ पाना और वे जो महसूस करते हैं उसे महसूस करना, यानी empathy और mirror neuron system के ज़रिए उनके विचारों और भावनाओं का simulation करना, फ़ायदेमंद है।
ऐसा सिस्टम बन जाने पर हम उसे अपने ऊपर भी लागू कर सकते हैं, और वही चेतना है—यह उसका स्पष्टीकरण है।
यह भी जिज्ञासा है कि क्या इस hypothesis को simulation में verify किया जा सकता है।
फिर भी यह बहुत चतुर और समयोचित update है।
YouTube पर वीडियो वगैरह समेत कई recordings हैं, लेकिन मेरी पसंदीदा radio drama version है: They're Made Out of Meat
https://www.wnycstudios.org/podcasts/studio/segments/168264-...
Self-modeling इतना कसकर बंद loop के भीतर है कि “हम स्वयं”, हमारे बारे में हमारा मॉडल, हमारे विचार और चुनाव, और उन विचारों व चुनावों का अनुभव—सब एक ही घटक की तरह मिल जाते हैं।
यह कुछ वैसा है जैसे साइकिल के पहिए के सिर्फ आधे हिस्से का विश्लेषण करके यह दावा करना कि आपने वही चीज़ समझा दी।
यह awareness, अधिक refined modeling, control, और feedback loops कई स्तरों पर कसते गए हैं: शरीर-संवेदी loop, internalized environment model loop, शरीर की आंतरिक कार्यप्रणाली का loop, शरीर के आंतरिक model का loop, emotion-cognition loop, और अंत में सबसे कसा हुआ वह loop जिसमें self-model और self-direction, जिन्हें उच्च-स्तरीय cognitive activity और direct feedback के रूप में अनुभव किया जाता है, एक हो जाते हैं।
हम लगभग हर दिन, दिन भर, अपने बारे में एक आंतरिक self के दृष्टिकोण से सोचते हैं।
वही चेतना है। समृद्ध self-awareness, self-model और self-direction का मेल, और अपने आपको समझने व manage करने की एक प्रणाली।
यह कोई संयोग या मस्तिष्क का सुखद side effect नहीं, बल्कि लंबे समय में जैविक रूप से optimize हुए उच्च-स्तरीय behavior का focalization है। कसे हुए feedback, लगातार self-modeling, और motivational तथा control के सर्वोच्च target के रूप में आंतरिक अवस्थाओं पर निरंतर focus—इन सबका निर्मम चयन हुआ है।
मेरा कुत्ता कोई भी भाषा नहीं बोल सकता, लेकिन वह स्वयं और अपने आसपास की दुनिया से साफ़ तौर पर अवगत है।
इसके अलावा, बच्चों के भाषा के बिना बड़े होने के दुर्लभ मामले भी हैं। तो क्या वे बच्चे चेतन नहीं हैं?
कहीं पढ़ा था कि अभी हम जितना सबसे बड़ा computation ला सकते हैं, वह मानव मस्तिष्क के neurons और connections की संख्या, या उसके तुल्य पैमाने, से तीन-चार orders of magnitude कम है, इसलिए मशीनों में उसे देखने में अभी समय लग सकता है।
लेकिन अगर emergent phenomenon वाली hypothesis सही है, तो आखिरकार हम उसे देखेंगे। उस संभावना से खुशी से ज़्यादा डर लगता है, लेकिन जो है सो है।
Fractally wrong जैसा लेख अक्सर नहीं दिखता, लेकिन यह रहा।
dictionary मौजूद है। वही tokenizer है।
grammar rules भी हैं। बस मानव भाषा की संरचना कुल मिलाकर काफ़ी कमजोर है, इसलिए वे बहुत कमजोर हैं।
अगर आपको मजबूत और सुसंगत grammar वाली भाषा दी जाए, तो weights को grammar के रूप में बहुत आसानी से समझा जा सकता है: https://arxiv.org/abs/2201.02177
मूल लघुकथा का सार यह है कि जब Turing completeness हो, तो computational substrate मायने नहीं रखता। लेकिन यह लेख मानो ऐसा देखता है कि substrate बदल देने से structure और interpretability की ज़रूरत ही खत्म हो जाती है।
वह definitions नहीं देता, और न ही LLM को किसी भी तरह की mapping देता है।
ज़्यादा से ज़्यादा वह शब्दों की एक सूची है। इससे बस थोड़ा-बहुत अंदाज़ा मिलता है कि इंसान किन शब्दों को आम मानते हैं, लेकिन उन शब्दों के बारे में यह कुछ नहीं बताता।
वह comprehensive भी नहीं है, इसलिए कई शब्द कई tokens में map होते हैं, और सब कुछ शब्द भी नहीं होता। कुछ tokens punctuation, modifiers, और control tokens होते हैं।
multimodal LLM में कुछ tokens image और audio data को भी दर्शाते हैं।
LLM को यह सब पहले से बताया नहीं जाता; उसे हर token का अर्थ context से सीखना पड़ता है।
सख्ती से कहें तो इस मायने में आप सही हैं कि LLM के भीतर weights के अलावा भी कुछ है, लेकिन वह इतना structured नहीं है। वह लगभग एक ऐसे mechanism के अधिक करीब है जो LLM को बाहरी दुनिया से interact करने देता है।
LLM या tokenizer के भीतर कोई dedicated grammar rules संरचना नहीं है। सब कुछ context से सीखना पड़ता है, और वह 80 layers के weights के किसी हिस्से में encode होता है।
गणितीय operation tables भाषा नहीं हैं।
grammar खुद एक post hoc rationalization है, और LLM grammar rules का पालन करता है—इसका सबूत उससे ज़्यादा नहीं है जितना यह कहने का कि मस्तिष्क grammar rules का पालन करता है।
बेशक, इसका यह मतलब नहीं कि अगर dataset माँगे तो transformer सरल rules नहीं सीख सकता।
अगर मतलब यह है कि यह इतनी परतों पर गलत है कि उसके लिए fractal चाहिए, तो उसकी जगह neural network कैसा रहेगा?
वे एक ही अवस्था में जमे हुए semiotic infrastructure हैं।
इन्हें लगातार cognitive होने का दिखावा करना और cognitive terminology में frame करना बंद करना चाहिए। यह सचमुच बेवकूफ़ी है।
computer scientists से माफ़ी, लेकिन semiotics पहले ही आपका दूध ले जा चुकी है।
मूल रचना का short film version भी शानदार है: https://www.youtube.com/watch?v=T6JFTmQCFHg
इसमें Tom Noonan और Ben Bailey ने अभिनय किया है
सहमत हूँ। यह बात कि transformer बस बात कर सकते हैं अपने-आप में काफ़ी अजीब है, लेकिन अब यह इतना सामान्य हो गया है
हम बस उनके संभावित प्रभाव या इस बारे में बात करते हैं कि क्या वे सच में वह काम कर सकते हैं जो लोग कहते हैं, और इस बारे में कम बात करते हैं कि उनका बात कर पाना ही कितना पागलपन भरा है
मैंने कभी नहीं सोचा था कि अपने जीवनकाल में ऐसा संभव देखूँगा
https://web.mit.edu/people/dpolicar/writing/prose/text/think...
सिर्फ linear algebra से यह वास्तव में संभव नहीं है
LLM में जो expressive power हम देखते हैं, उसके लिए nonlinearity ज़रूरी है
दिलचस्प है
यह सिर्फ Terry Bisson को श्रद्धांजलि नहीं है, बल्कि उनके text में एक नया आयाम भी जोड़ता है। बढ़िया किया
सिर्फ weights ही नहीं हैं। biases भी हैं!