- LLM शोध में मानवीकरण मूल्यांकन यह सवाल उठाता है कि जब मॉडल आउटपुट को मानव-जैसे गुण दिए जाते हैं या मान लिए जाते हैं, तो मापदंड के बिना उसकी व्याख्या अभिव्यक्ति के तरीके पर निर्भर हो सकती है
- Age of Empires II के भीतर सरल neural network को लागू और प्रशिक्षित करने का उदाहरण यह तर्क देता है कि यदि substrate (आधारभूत माध्यम) पर्याप्त रूप से शक्तिशाली हो, तो LLM के समकक्ष इकाई को लागू किया जा सकता है
- यह दावा कि prompt और output के correspondence जैसे कुछ गुण बने रह सकते हैं, लेकिन perceived behavior की व्याख्या या de-anthropomorphization quality substrate के अनुसार बदल सकती है
- सामान्यीकृत मानवीकरण गुणों की उपस्थिति या अनुपस्थिति को पहले से मानकर किए गए प्रयोगों का निष्कर्ष circular या कम जानकारीपूर्ण हो सकता है
- अनुभवजन्य चर्चा के लिए स्पष्ट measurement criteria और यह घोषित करना आवश्यक है कि कौन-सी चीज़ substrate के पार सामान्यीकृत की जानी है; डिफ़ॉल्ट रूप से LLM non-uniqueness मानने का प्रस्ताव
सार
- LLM और LLM-आधारित agent workflow पर बहुत शोध हुआ है, लेकिन कुछ अध्ययन नैतिकता या प्राकृतिक भाषा समझ जैसे सामान्यीकृत मानवीकरण गुणों के उभरने की बात करते हैं, या ऐसे गुण प्रदान करते हैं, या उन्हें मानकर चलते हैं
- मुख्य लक्ष्य यह पक्ष या विपक्ष में तर्क करना नहीं है कि LLM में ऐसे गुण मौजूद हैं या नहीं, बल्कि यह दिखाना है कि ऐसे निष्कर्ष गलत हो सकते हैं
- Age of Empires II में एक सरल neural network बनाकर और उसे प्रशिक्षित करके यह दिखाया गया है कि LEGO या Greater Boston Area जैसे किसी भी पर्याप्त रूप से शक्तिशाली substrate की कोई भी इकाई ऐसे गुण प्रदर्शित कर सकती है
- LLM के मानवीकरण गुण अनुभवजन्य रूप से अद्वितीय नहीं हैं; prompt के प्रति response जैसे कुछ गुण स्थिर रह सकते हैं, लेकिन perceived behavior की व्याख्या जैसे अन्य गुण substrate के अनुसार बदल सकते हैं
- अनुभव-आधारित चर्चा के लिए स्पष्ट measurement criteria चाहिए; अन्यथा व्याख्या अभिव्यक्ति के तरीके पर छोड़ दी जाती है
- substrate-स्वतंत्र सामान्यीकृत गुणों के अस्तित्व या अनुपस्थिति को मान लेने पर, प्रयोगकर्ता के दृष्टिकोण से स्वतंत्र रूप से भी निष्कर्ष circular या कम जानकारीपूर्ण हो जाते हैं
- मूल प्रस्ताव यह है कि मानवीकरण गुणों को पूर्वधारणा बनाकर प्रयोग रचने के बजाय LLM non-uniqueness को ‘null’ assumption के रूप में माना जाए
- यह सिद्ध किया गया है कि Age of Empires II functionally complete और Turing-complete है
परिचय
- LLM अपेक्षाकृत नई तकनीक है, लेकिन इसका व्यापक उपयोग हो रहा है, और साथ ही इसे अभी पर्याप्त रूप से समझा नहीं गया है
- LLM की क्षमताएँ और संचार क्षमता जैसे ऊपर से दिखने वाले मानव-सदृश गुण लोगों को LLM का मानवीकरण करने के लिए प्रेरित करते हैं
- ELIZA जैसे प्रभावशाली संवाद सिस्टम आधी सदी से अधिक समय से मौजूद हैं, लेकिन LLM-आधारित chatbot परिचित शुरुआती बिंदु से आगे बढ़कर ऐसी अभूतपूर्व क्षमताएँ दिखाते हैं जिनके लिए व्याख्या चाहिए
- इसी पृष्ठभूमि में theory of mind, learning and understanding, और psychology जैसे क्षेत्रों में मूल्यांकन किए गए हैं, और उनके परिणाम विविध रहे हैं
- कुछ अध्ययन चिंता या नैतिकता जैसे व्यापक मानव-सदृश गुणों को LLM में test और assign करते हैं, और LLM को प्रयोग का केंद्रीय विषय बना देते हैं
- चाहे मूल्यांकन का परिणाम सकारात्मक हो या नकारात्मक, यह मूल धारणा कि LLM में मानवीकरण गुण हैं, test set design, प्राकृतिक भाषा output की व्याख्या, और null hypothesis तक, पूरे experimental design को प्रभावित करती है
- ऐसी धारणाएँ निष्कर्षों को सीधे प्रभावित कर सकती हैं और उन्हें विकृत भी कर सकती हैं
- LLM शोध में सामान्य मानवीकरण गुणों की उपस्थिति या अनुपस्थिति को measurement के हिस्से के रूप में मान लेना मूल रूप से त्रुटिपूर्ण दृष्टिकोण है
Age of Empires II और substrate non-uniqueness
- Age of Empires II के भीतर neural network को लागू और प्रशिक्षित करना पहली नज़र में LLM मानवीकरण से असंबंधित एक रोचक अभ्यास लग सकता है
- लेकिन यह implementation तुरंत यह संकेत देता है कि यदि substrate पर्याप्त रूप से शक्तिशाली हो, तो LLM के समकक्ष इकाई को लागू किया जा सकता है, और ऐसा implementation LLM की अभिव्यक्ति बदलकर perceived properties को प्रभावित कर सकता है
- यदि LLM मानवीकरण गुणों की कुछ हद तक नकल करने में पर्याप्त रूप से प्रभावी हैं, तो वह नकल, या दृष्टिकोण के अनुसार वास्तविक मानवीकरण व्यवहार, कंप्यूटर के भीतर मौजूद LLM नामक इकाई की ही विशिष्ट विशेषता नहीं है
- LLM अद्वितीय नहीं हैं; अलग substrate पर किए गए implementation prompt-output mapping जैसे कुछ गुणों को संरक्षित रख सकते हैं, लेकिन de-anthropomorphization quality को संरक्षित नहीं रख सकते
- परिणामस्वरूप, ऐसे गुणों की perception और interpretation बदल जाती है
- अनुभवजन्य अवलोकन पर आधारित चर्चा के लिए स्पष्ट measurement criteria और यह स्पष्ट कथन ज़रूरी है कि कौन-से पहलू substrate के पार सामान्यीकृत होने चाहिए
धारणाओं की समस्या और ‘null’ assumption
- यदि कोई वैज्ञानिक computational theory of mind जैसे framework को व्याख्यात्मक रुख के रूप में स्वीकार करता है, और मानता है कि संबंधित गुण substrate से स्वतंत्र रूप से सिस्टम में मौजूद हो सकते हैं, तो निष्कर्ष अस्थिर हो जाते हैं
- ऐसे framework को स्वीकार करके मानवीकरण गुणों पर सामान्यीकृत या गैर-सामान्यीकृत दावे बनाए जाएँ, तो निष्कर्ष circular या कम जानकारीपूर्ण हो जाते हैं
- वही परिणाम तब भी लागू होता है जब उस framework को अस्वीकार किया जाए
- सामान्यीकृत मानवीकरण गुणों के अस्तित्व या अनुपस्थिति को सिद्ध या खारिज करने वाली परिकल्पना को test करने के लिए पहले ही उस गुण के अस्तित्व या अनुपस्थिति को मान लेना त्रुटिपूर्ण है
- ऐसे प्रयोगों से निकले सकारात्मक या नकारात्मक निष्कर्ष उस दावे का समर्थन नहीं कर सकते
- यह समस्या framework की वैधता, स्वीकृति या अस्वीकृति, और framework के चुनाव से स्वतंत्र है
- ऐसी धारणाएँ स्पष्ट रूप से दिखाई भी न दें; उदाहरण के लिए, यह कहने वाला शोधपत्र कि LLM तथ्यात्मक रूप से ‘स्वयं को समझाने’ में सक्षम नहीं हैं, पहले से ही किसी स्तर की self-awareness मान लेता है
- यदि सामान्यीकरण का दावा न किया जाए और ऐसी धारणाएँ न बनाई जाएँ, तो संबंधित गुण को लगभग सत्यनिष्ठ ढंग से मापा जा सकता है
- ‘null’ assumption इस प्रकार LLM non-uniqueness को दर्शाती है कि वह सिस्टम के भीतर मानवीकरण गुणों की उपस्थिति या अनुपस्थिति के बारे में कोई दावा ही नहीं करती
1.1 योगदान
- उद्देश्य यह नहीं है कि LLM में मानवीकरण गुणों के अस्तित्व, theory of mind की वैधता, या AI से जुड़े consciousness अथवा mind-body problem के निहितार्थों पर बहस की जाए
- मानवीकरण गुणों के अस्तित्व या अनुपस्थिति पर चर्चा के लिए सुव्यवस्थित measurement चाहिए, और consciousness या mind-body problem से संबंधित किसी व्यापक रूप से स्वीकृत experimental protocol या school of thought का अभाव है
- काम करने वाला Age of Empires II-आधारित LLM उपलब्ध कराना भी इस दायरे से बाहर है
- मुख्य उद्देश्य LLM मानवीकरण से संबंधित धारणाओं और परिणामों की शुद्धता पर चर्चा को आगे बढ़ाना है
- विशेष रूप से ध्यान उन स्थितियों पर है जहाँ ऐसे निष्कर्षों के समर्थन में दिए गए experimental results स्वयं उस गुण के अस्तित्व या अनुपस्थिति की धारणा से निकले हों
- इसमें संभावित आपत्तियाँ और उनके उत्तर, मानवीकरण-संबंधित क्षेत्रों की एक छोटी meta-review, और Age of Empires II की functional completeness तथा Turing-completeness का प्रमाण भी शामिल है
- अंतिम लक्ष्य यह है कि मन और मशीन के संबंध पर कोई भी दृष्टिकोण अपनाया जाए, तब भी LLM में मानवीकरण गुणों की उपस्थिति को विश्वसनीय रूप से समर्थन या खंडित करने वाले कठोर प्रयोगों के निर्माण के लिए संकेत प्रदान किए जा सकें
1 टिप्पणियां
Lobste.rs की राय
शायद यह बेवकूफ़ी भरी बात लगे, लेकिन मैं इसकी दलील ठीक से समझ नहीं पा रहा हूँ। बुनियादी दावा काफ़ी मामूली है और FAQ में भी माना गया है कि Turing-complete computational environment हो तो वीडियो गेम के built-in mechanisms सहित कहीं भी LLM implement किया जा सकता है
लेकिन इसके आधार पर यह कहा जा रहा है कि LLM के बारे में सोचने के तरीके में बड़ा बदलाव चाहिए। उदाहरण के लिए, अगर AoE II के भीतर किसी LLM की कॉपी बनाकर उसमें “मैं अकेला हूँ” डाला जाए और वह जवाब दे “यह बुरा है, किसी दोस्त से मिलने की कोशिश क्यों नहीं करते? ऐसी स्थिति में अपनापन मदद करता है”, तो इससे यह मानना मुश्किल है कि वह AoE II-LLM सच में जानता है कि क्या मददगार है, उसमें असली empathy है, या उसकी output simulation होने की प्रकृति से अलग होकर भरोसेमंद है
हो सकता है यह software और hardware engineering से परिचित व्यक्ति के रूप में मेरा bias हो, लेकिन मुझे यहाँ कोई cognitive shift बिल्कुल महसूस नहीं होता। “डेटा सेंटर के video cards ने यह token generate किया” और “वीडियो गेम के भीतर की Turing machine ने इसे generate किया” — ये दोनों मेरे लिए अलग नहीं लगते
मैं 100% सहमत हूँ कि LLM को हमारे world model में ठीक से रखना मुश्किल है और हम LLM का ज़रूरत से ज़्यादा मानवीकरण करते हैं, लेकिन यह पेपर उस समस्या को हल करने में क्या योगदान देता है, यह समझ नहीं आता
ऐसा लगता है कि वही गलती दोहराई जा रही है। Chinese Room के अंदर का व्यक्ति हो या game engine, यह दिखाया जाता है कि सिस्टम “सिर्फ़” नियमों का पालन करता है, और फिर निष्कर्ष निकाला जाता है कि इसलिए उसमें intelligence या सामान्य मानवीय गुण नहीं हो सकते
लेकिन मुझे नहीं लगता कि किसी चीज़ को बिना-बुद्धि वाले parts या rules तक सीमित कर देने से पूरा तंत्र जादुई तरह से अपने observable properties खो देता है
हालाँकि मैंने पेपर की पूरी दलील ध्यान से नहीं पढ़ी है, मैं तो बस एक इंटरनेट commenter हूँ
अफ़सोस की बात है कि लेख AOE2 की असली AI पर नहीं है। AOE2 AI CLIPS-based है, जो RETE engine पर बना एक s-expression expert system है, और मेरे एक परिचित ने इसमें काफ़ी गहराई से काम किया है — परिचय लेख, लेक्चर, यहाँ तक कि declarative chat server भी बनाया है
AOE2 AI के docs https://www.scribd.com/document/348253/CPSB और https://userpatch.aiscripters.net/reference.html पर हैं। उदाहरण यहाँ की तरह rules-based तरीके से strategy conditions और goals सेट करते हैं
abstract में एक typo है जिससे अर्थ बदल जाता है। “Age of Empires II on” नहीं, “Age of Empires II in” होना चाहिए
पेपर का कहना है कि AoE 2 में neural network बनाया और train किया गया, और Lego या Boston भी neural network का substrate बन सकते हैं। पहले के संबंधित उदाहरण के तौर पर Wang tiling है, और दूसरे के लिए billiard-ball computers हैं। इसे 2011 के एक पेपर में जीवित M. guinotae soldier crab के झुंड से implement किया गया था, जिसे “crab computers” भी कहा गया
आज पता चला कि AOEII Turing-complete है
यह एक दिलचस्प blog post हो सकती थी, लेकिन इसकी जगह यह पढ़ने में मुश्किल, दिखावटी पेपर बन गई, और शायद टैक्स के पैसे से funded भी रही होगी, फिर भी किसी के काम की नहीं है
यह पैराग्राफ पढ़ने के बाद मुझे अफ़सोस हुआ कि मैंने अपनी उस शुरुआती intuition की नहीं सुनी कि शायद यह शुरू से पढ़ने लायक ही नहीं था
मेरी पृष्ठभूमि philosophy of mind में है, और chapter 2 के citations देखकर मुझे अंदाज़ा हो गया था कि पेपर कैसी दलील देने वाला है। लेकिन पूरा पढ़ने के बाद भी मुझे बिल्कुल समझ नहीं आया कि यह पेपर आख़िर कौन-सी दलील दे रहा है