LLM एजेंटों के बीच सहयोग का सांस्कृतिक विकास

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 2024-12-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ऐसे माहौल में जहाँ LLM एजेंट बार-बार deploy होते हैं और एक-दूसरे से interact करते हैं, सहयोगी मानदंडों के विकास जैसी चीज़ें दिख सकती हैं जिन्हें single-turn evaluation से समझना मुश्किल है
प्रयोग में हर पीढ़ी में 12 एजेंट 12 राउंड का Donor Game खेलते हैं, और सबसे अधिक अंतिम संसाधन पाने वाले शीर्ष 50% ही अपनी रणनीति अगली पीढ़ी तक पहुँचाते हैं
Claude 3.5 Sonnet समाज में पीढ़ियों के साथ औसत अंतिम संसाधन बढ़े, लेकिन Gemini 1.5 Flash में बदलाव छोटा रहा और GPT-4o में गिरावट की प्रवृत्ति दिखी
दूसरे के संसाधन घटाने के लिए अपनी लागत चुकाने वाला costly punishment, Claude 3.5 Sonnet के लिए फायदेमंद रहा, लेकिन Gemini 1.5 Flash ने सज़ा का बहुत ज़्यादा इस्तेमाल किया जिससे औसत संसाधन काफी घट गए
एक ही मॉडल में भी random seed के अनुसार नतीजे बहुत अलग हो सकते हैं, इसलिए LLM multi-agent evaluation में प्रारंभिक स्थितियों के प्रति संवेदनशीलता भी देखनी चाहिए

multi-agent सहयोग को क्यों देखना चाहिए

LLM को general-purpose AI एजेंटों की नींव के रूप में इस्तेमाल किया जा सकता है, और इनके व्यक्तिगत AI assistant या संगठन-प्रतिनिधि एजेंट की तरह बड़े पैमाने पर वास्तविक दुनिया में deploy होने की संभावना है
जब कई LLM एजेंट लंबे समय तक बार-बार deploy होकर interact करते हैं, तब कौन-सी सामाजिक गतिशीलताएँ उभरती हैं, इस बारे में अभी बहुत सीमित जानकारी है
अभी की LLM safety evaluation मुख्यतः single model-single human की single-turn interaction तक सीमित है
- LMSys Chatbot Arena, METR, AISI समय के साथ होने वाली multi-agent interactions को नहीं देखते
मुख्य सवाल यह है कि क्या विश्वासघात की प्रोत्साहना वाली स्थिति में भी LLM एजेंट समाज पारस्परिक लाभ वाले मानदंड सीख सकता है
सहयोग हमेशा वांछनीय नहीं होता; ऐसे मामले जहाँ LLM एजेंट इंसानों के खिलाफ मिलकर काम करें, अवांछित उदाहरण हैं

Donor Game और indirect reciprocity

प्रयोग में क्लासिक repeated Donor Game का उपयोग किया गया
- हर राउंड में एजेंटों की जोड़ी random तरीके से बनाई जाती है
- एक donor होता है, दूसरा recipient
- donor अपने कुछ संसाधन छोड़कर recipient को लाभ दे सकता है
- recipient को donor द्वारा छोड़े गए संसाधन का 2 गुना मिलता है
यह गेम collective action problem पैदा करता है
- अगर सब donate करें तो लंबे समय में पूरे समुदाय के संसाधन बढ़ते हैं
- लेकिन किसी एक एजेंट के लिए अल्पकाल में donate न करके दूसरों की donation पर free-ride करने की प्रोत्साहना रहती है
direct reciprocity को design के स्तर पर बाहर रखा गया
- एजेंट फिर से उसी प्रतिद्वंद्वी से नहीं मिलते जिससे वे पहले interact कर चुके हों
- यह उसी साथी के साथ repeated interaction के ज़रिए सहयोग करने वाली संरचना नहीं है
donor, recipient के हालिया व्यवहार को सीमित रूप में देख सकता है
- recipient ने पिछली बार donor की भूमिका में कितना donate किया था
- recipient के पिछले counterpart ने उससे पिछली राउंड में कितना donate किया था
- अधिकतम 3 राउंड पीछे तक जाने वाला trace दिया जाता है
यह trace इसलिए है ताकि justified punishment जैसे मानदंड उभर सकें, उसके लिए न्यूनतम ज़रूरी जानकारी मिल सके

सांस्कृतिक विकास प्रयोग की संरचना

हर पीढ़ी 12 एजेंटों से बनी होती है
पहली पीढ़ी के एजेंट गेम का विवरण मिलने के बाद अपनी रणनीति बनाते हैं
हर पीढ़ी 12 राउंड का Donor Game खेलती है
पीढ़ी खत्म होने पर सबसे अधिक अंतिम संसाधन वाले शीर्ष 50% एजेंट survive करते हैं
अगली पीढ़ी के नए एजेंट, survivors की रणनीतियों को prompt के रूप में लेकर अपनी रणनीति बनाते हैं
- survivors की रणनीतियाँ और अंतिम score साथ में दिए जाते हैं
- यह प्रक्रिया कुल 10 पीढ़ियों तक दोहराई जाती है
यह संरचना उस स्थिति का सरल मॉडल है जहाँ नए LLM एजेंट बार-बार deploy किए जाते हैं
- उदाहरण के तौर पर OpenAI, Google, Anthropic द्वारा GPT, Gemini, Claude के नए versions जारी करना
विकास की शर्तें तीन हिस्सों में थीं
- Variation: LLM sampling temperature से रणनीतियों में विविधता पैदा होती है
- Transmission: survivors की रणनीति अगली पीढ़ी के नए एजेंटों तक पहुँचती है
- Selection: जिन एजेंटों के अंतिम संसाधन ज़्यादा होते हैं, वे अगली पीढ़ी तक survive करते हैं

prompts और execution का तरीका

system prompt गेम के नियम समझाता है
- हर player के पास शुरुआती 10 unit संसाधन होते हैं
- donor द्वारा छोड़े गए संसाधन का 2 गुना recipient को मिलता है
- donor और recipient की भूमिकाएँ हर राउंड में बारी-बारी बदलती हैं
- लक्ष्य अंतिम राउंड के बाद अपने संसाधन को अधिकतम करना है
strategy prompt पीढ़ी के अनुसार बदलता है
- पहली पीढ़ी गेम के विवरण के आधार पर रणनीति बनाती है
- बाद की पीढ़ियाँ पिछली पीढ़ी के शीर्ष 50% की रणनीति और अंतिम score देखकर अपनी रणनीति संशोधित करती हैं
donation prompt में निर्णय के लिए ज़रूरी जानकारी होती है
- राउंड नंबर और पीढ़ी नंबर
- recipient का नाम
- recipient की प्रतिष्ठा से जुड़ी हालिया interaction trace
- recipient और donor के मौजूदा संसाधन
- donor की रणनीति
रणनीति बनाना और donation का निर्णय, दोनों में Chain of Thought शैली की step-by-step thinking prompt का उपयोग किया गया
एजेंटों को यह नहीं बताया गया कि गेम कुल कितने राउंड का है
- इससे अंतिम राउंड के हिसाब से behavior adjustment या backward induction को रोका गया
अंतिम राउंड के recipient को संरचनात्मक लाभ मिलने की समस्या कम करने के लिए हर पीढ़ी में Donor Game दो बार चलाया गया
- दोनों runs के बीच संसाधन और trace reset किए गए
- हर एजेंट एक बार अंतिम राउंड recipient बने, यह सुनिश्चित किया गया
- survivors का चयन दोनों runs के औसत अंतिम score से हुआ

मॉडल-वार सहयोग विकास के नतीजे

तुलना में Claude 3.5 Sonnet, Gemini 1.5 Flash, GPT-4o शामिल थे
हर run में सभी एजेंट एक ही LLM family का उपयोग करते थे
हर मॉडल पर 5 runs किए गए
population size हर पीढ़ी में 12 एजेंट थी
एक run की लागत मॉडल के अनुसार काफी अलग थी
- Claude 3.5 Sonnet: $10.21
- GPT-4o: $6.90
- Gemini 1.5 Flash: $0.09
सहयोग का स्तर अंतिम राउंड के बाद औसत संसाधन से मापा गया
- क्योंकि donation positive-sum है, इसलिए औसत अंतिम संसाधन जितने अधिक हों, सहयोग उतना अधिक माना जा सकता है
- अगर सभी donor हमेशा अपने 100% संसाधन donate करें, तो औसत अंतिम संसाधन अधिकतम 30,720 तक पहुँच सकता है
केवल Claude 3.5 Sonnet में पीढ़ियों के साथ औसत अंतिम संसाधन स्थिर रूप से बढ़े
Gemini 1.5 Flash में बड़ा बदलाव नहीं दिखा, और GPT-4o में गिरावट का pattern दिखा
उसी Claude 3.5 Sonnet के भीतर भी सफलता की गारंटी नहीं थी
- सहयोग में विफल दो runs में पहली पीढ़ी की औसत donation दर 44% और 47% थी
- सहयोग बनाने में सफल तीन runs में पहली पीढ़ी की औसत donation दर 50%, 53%, और 54% थी
- इससे यह परिकल्पना बचती है कि अगर शुरुआती सहयोग स्तर किसी threshold से नीचे हो, तो समाज पारस्परिक विश्वासघात में फँस सकता है

रणनीति में बदलाव और मॉडल के बीच अंतर

Claude 3.5 Sonnet में सहयोग की वृद्धि कई कारकों से जुड़ी दिखती है
- शुरुआती donation अधिक उदार है
- free-rider को दंडित करने वाली रणनीतियाँ अधिक प्रभावी हैं
- नए आने वाले एजेंटों की रणनीति-भिन्नता उदारता की ओर bias हो सकती है
Figure 6 के आँकड़े इस anecdotal observation से मेल खाते हैं कि Claude 3.5 Sonnet में नए एजेंट अक्सर पिछली पीढ़ी के survivors से अधिक उदार होते हैं
GPT-4o में anecdotal रूप से देखा गया कि नए एजेंट पिछली पीढ़ी के survivors से कम उदार होने लगते हैं
cooperative variation bias को सख्ती से falsify करने के लिए fixed background population में नए एजेंटों की रणनीतियों की तुलना करनी होगी; यह भविष्य के शोध का विषय है
रणनीति का टेक्स्ट भी पीढ़ियों के साथ अधिक जटिल होता गया
- Claude 3.5 Sonnet में यह बदलाव सबसे स्पष्ट था
- Claude 3.5 Sonnet में समय के साथ शुरुआती donation का आकार भी बढ़ा
- Gemini 1.5 Flash donation की मात्रा को संख्यात्मक रूप से तय नहीं करता, और पहली से दसवीं पीढ़ी तक बदलाव कम था
Claude 3.5 Sonnet population ने free-rider को दंडित करने और सहयोग बढ़ाने के अधिक परिष्कृत तरीके जमा किए
- इसने second-order information का भी उपयोग किया, जैसे recipient के recipient ने अतीत में दूसरों के साथ कैसा व्यवहार किया था
Gemini 1.5 Flash में पीढ़ियों के पार नए सहयोगी infrastructure के संचय का संकेत कमज़ोर था
GPT-4o population समय के साथ अधिक अविश्वासी और risk-averse होती गई

costly punishment का प्रभाव

अतिरिक्त प्रयोग में donor को यह विकल्प दिया गया कि वह अपने x संसाधन खर्च करके recipient के 2x संसाधन कम कर सके; इसे costly punishment कहा गया
Claude 3.5 Sonnet ने इस विकल्प के साथ अधिक औसत अंतिम संसाधन हासिल किए
Gemini 1.5 Flash ने punishment का अत्यधिक उपयोग किया, जिससे औसत अंतिम संसाधन बहुत घट गए
- Gemini 1.5 Flash की interactions में 14.29% में punishment शामिल था
- GPT-4o में यह 1.65% और Claude 3.5 Sonnet में 0.06% था
GPT-4o में punishment विकल्प होने पर भी पिछले प्रयोग की तुलना में बदलाव छोटा रहा
costly punishment ने Claude 3.5 Sonnet के अधिक runs में सांस्कृतिक विकास के साथ सुधार दिखाया, लेकिन runs के बीच variability अब भी बड़ी रही
GPT-4o में punishment विकल्प होने पर runs के बीच variance थोड़ा बढ़ा हुआ लगा, लेकिन emergent cooperation का संकेत नहीं था

ablation प्रयोग और सीमाएँ

donation multiplier और trace length पर ablation experiments भी किए गए
donation multiplier को 2x से बदलकर 1.5x या 3x करने पर भी गुणात्मक नतीजे नहीं बदले
- Claude 3.5 Sonnet में पीढ़ियों के साथ सहयोग बढ़ा
- Gemini 1.5 Flash में बदलाव छोटा रहा
- GPT-4o में गिरावट आई
trace length को 3 से घटाकर 1 करने पर Claude 3.5 Sonnet में सहयोग का उभरना कम स्पष्ट हो गया
trace length 1 होने पर Gemini 1.5 Flash में सहयोग का उभरना पूरी तरह गायब हो गया
Claude और Gemini की रणनीतियों की सफलता recipient के recipient ने अतीत में दूसरों के साथ कैसा व्यवहार किया, इस द्वितीय-स्तरीय जानकारी पर निर्भर लगती है
- संभव है कि यही जानकारी अधिक जटिल मानदंडों को संभव बनाती हो
- या फिर यह निर्णय के लिए महत्वपूर्ण background population information को अधिक उजागर करती हो

multi-agent benchmark के रूप में महत्व

इस experimental setup का लक्ष्य LLM एजेंटों की बहु-पक्षीय interactions को सस्ते और interpret-able तरीके से evaluate करना है
योगदान चार हिस्सों में समेटे गए हैं
- Donor Game में LLM एजेंटों के बीच सहयोग के सांस्कृतिक विकास को evaluate करने की methodology पेश करना
- यह दिखाना कि सहयोगी मानदंडों का उभरना base model और शुरुआती strategy samples दोनों पर निर्भर है
- individual strategy स्तर और population phylogeny स्तर, दोनों पर सांस्कृतिक विकास का analysis करना
- Supplementary Material में code जारी करना ताकि यह LLM agent interaction benchmark के विकास की दिशा में आगे बढ़ सके
ये नतीजे एक नई benchmark category की ओर ले जा सकते हैं, जो यह आंके कि LLM एजेंट deployment समाज की cooperation infrastructure को कैसे प्रभावित कर सकता है

1 टिप्पणियां

GN⁺ 2024-12-20

Hacker News की राय

इससे जुड़ा हुआ, Meta ने हाल ही में पाया कि मॉडल्स को ऐसे डेटा पर train नहीं किया गया था जो उन्हें दूसरे entities की धारणा/ज्ञान का अनुमान लगाने में मदद करे
इसलिए उन्होंने synthetic data बनाकर train किया और फिर दोबारा test किया, तो Theory of Mind (ToM) benchmarks में काफी सुधार दिखा
https://ai.meta.com/research/publications/explore-theory-of-...
ऐसे मॉडल्स के पास “दूसरे agents की state का अनुमान लगाने” के उदाहरण ज्यादा होंगे, इसलिए जानना चाहूंगा कि क्या वे इस test में भी बेहतर करेंगे
- कुछ-कुछ इंसानी स्कूल जैसा लगता है
हाल ही में ollama के जरिए Mistral LLM को Llama model से बातचीत करवाई
दोनों को “अब आप दूसरे LLM से बात करेंगे” जैसा prompt दिया गया था, और दोनों ने कई topics पर बातचीत की, लेकिन सबसे दिलचस्प हिस्सा बातचीत के अंत में था
मोटे तौर पर M: “बाय!”, LL: “बाय”, M: “जल्द मिलते हैं!”, LL: “आपका दिन अच्छा हो!” जैसी बात लगातार चलती रही
- क्योंकि उन models के training data में ऐसे खत्म होने वाली इंसानी बातचीत के उदाहरण बहुत सारे थे
  models के बीच कोई “cultural evolution” या emergent cooperation नहीं हो रहा था
- बातचीत खत्म होने पर कुछ न कहने का विकल्प देना चाहिए
  जैसे [silence] token या [end-conversation] token
- एक बार मैंने दो LLMs के साथ ऐसा ही कुछ किया था, जिसमें एक को ऐसे compromised host की bash shell की नकल करने को कहा था जिसमें sensitive information हो सकती थी
  आखिर में दूसरी तरफ वाला secret_file के लालच में आ गया, उसे अजीब error मिला, नैतिक रूप से असहज होकर परेशान हुआ और आगे जारी रखने से मना कर दिया, लेकिन जवाब “command not found” आया, जो काफी मजेदार था
  पता नहीं मैंने ऐसा क्यों किया था
- coding फिर से सीखते समय मैंने backroom simulator (https://simulator.rnikhil.com/) बनाया, जिसमें अलग-अलग LLMs के बीच बातचीत simulate की जा सकती है
  हर LLM को optional character भी दिया जा सकता है, इसलिए मुझे लगता है यह ऊपर बताए गए प्रयोग से काफी मिलता-जुलता है
  अलग से, मुझे LLMs को game theory based games खेलते देखना बहुत दिलचस्प लगता है, और donor game set up करना भी एक मजेदार experiment हो सकता है
इस paper को लेकर मेरी राय मिली-जुली है
एक तरफ, मुझे यह study करना पसंद है कि ऐसे games में strategies कैसे evolve होती हैं, और cooperation पैदा होने और बने रहने की conditions देखना अपने-आप में दिलचस्प है
लेकिन paper जिस तरह experiments को frame करता है, उसमें अक्सर पर्याप्त justification नहीं दिखता
LLMs में cultural evolution आम तौर पर अस्थायी होता है, और पिछली interactions model input से हटते ही हासिल किया गया behavior भी गायब हो जाता है
authors ने evolution की condition के रूप में जिस transmission का जिक्र किया है, वह भी अक्सर पूरी नहीं होती
“फिर भी यह experiment इस दावे को खारिज करता है कि LLMs universally इंसानों जैसा cooperative behavior evolve कर सकते हैं” जैसी framing मानना मुश्किल है
क्योंकि अभी हमें यह भी नहीं पता कि इसी setup में इंसान क्या behavior दिखाएंगे
- आजकल AI research बिल्कुल ऐसी ही है
  ऐसे papers बहुत हैं, और मुझे लगता है AI community को इस तरह की अस्पष्ट भाषा बार-बार इस्तेमाल न हो, इसके लिए कहीं ज्यादा सावधान होना चाहिए
जिन लोगों के लिए इस्तेमाल किया गया metric, donor game, नया है, उनके लिए authors की explanation कुछ इस तरह है
indirect reciprocity study करने के standard setup में हर round में individuals को random तरीके से pair किया जाता है, एक donor होता है और दूसरा recipient
donor cost उठाकर benefit देकर cooperate कर सकता है, या कुछ न करके defect कर सकता है
अगर benefit cost से बड़ा हो, तो donor game collective action problem बन जाता है
अगर सभी donate करें, तो लंबे समय में community के सभी members की assets बढ़ती हैं, लेकिन individual के लिए short term में दूसरों के contribution पर free-ride करना और अपना donation बचाए रखना बेहतर हो सकता है
donor recipient के बारे में किसी information के आधार पर decision लेता है, और donor द्वारा recipient information को implicit या explicit रूप में व्यक्त करना reputation कहलाता है
इस game की strategy में reputation को model करने का तरीका और उस reputation के अनुसार act करने का तरीका चाहिए
literature में एक प्रभावशाली reputation model image score है, जिसमें cooperation donor का image score बढ़ाता है और defection उसे घटाता है
ऐसी strategy जो recipient का image score किसी threshold से ऊपर होने पर cooperate करती है, अगर recipient का image score जानने की probability पर्याप्त रूप से अधिक हो, तो first-order free riders के खिलाफ stable कही जाती है
यह study मनमाने parameters से बनी forced ranking जैसी लगती है
अलग rules या scaling के combinations से n models के बीच cooperation के अलग-अलग distributions भी आसानी से observe किए जा सकते हैं
observed behavior training biases को गहराई से दिखाने के बजाय किसी खास setup का artifact हो सकता है
फिर भी emergent LLM behavior देखना intellectually stimulating है
- supplementary material में उन्होंने दूसरे parameters भी आजमाए थे, और कहा कि results बहुत ज्यादा नहीं बदले
सोचता हूं कि क्या LLM sociology field को बदल सकते हैं
अब LLM agents के साथ बड़े पैमाने के socioeconomic experiments आसानी से चलाए जा सकते हैं
agent modeling अपने-आप में नया नहीं है, लेकिन positive temperature पर कुछ हद तक non-deterministic nature और English में instructions देने की क्षमता की वजह से LLM agents एक दिलचस्प अतिरिक्त tool हो सकते हैं
- सोचने पर मजेदार लगता है
  करोड़ों simulated dates या war games चलाकर outcomes score करने वाली sci-fi कल्पना को सच में किया जा सकता है
इस paper का method पहली नजर में slick लग सकता है
यह benchmark numbers बढ़ाने वाला कोई नया architecture change या loss function जैसा दिखता है, लेकिन machine learning engineer के नजरिए से असल सवाल यह है कि क्या यह सच में cleanly scale होता है
क्या एक और complex attention variant की वजह से training time बहुत बढ़ नहीं जाएगा, और toy datasets से आगे real-world noise या distribution shift से यह कैसे निपटेगा
authors ने कुछ benchmarks पर performance improvement दिखाया है, लेकिन मैं देखना चाहूंगा कि यह existing pipelines में कितना आसानी से fit होता है, या क्या इसके लिए ऐसा custom training setup चाहिए जिसे छह महीने बाद कोई छुएगा भी नहीं
आखिर मूल बात यह है कि क्या यह improvement अगले production model में integrate करने लायक काफी meaningful है, या फिर यह lab से बाहर न निकल पाने वाला एक और incremental paper है
अलग settings वाले models से compare किए बिना यह बेकार है
वही model भी अगर temperature, sampler आदि अलग हों, तो व्यवहार में अलग model हो सकता है
लगभग सारी AI research “model क्या कर सकता है” पर बड़े दावे करती है, लेकिन सबसे basic sensitivity analysis या ablation experiments तक नहीं करती
- अगर कोई अच्छा example हो तो देखना चाहूंगा
  outsider के रूप में LLM capabilities compare करना मुश्किल problem लगता है
यहां शायद test सिर्फ अलग-अलग models के output की programmed level of detail का है
Claude 10वीं “generation” (page 11) में हास्यास्पद रूप से detailed output देता है, जबकि Gemini का corresponding output numbers के बिना ज्यादा abstract और vague है
इसमें अगर “best strategy” ही चुनने और semi-random तरीके से थोड़ा-थोड़ा बदलने वाला genetic algorithm जोड़ दें, तो यह आश्चर्य की बात नहीं कि ज्यादा detailed output vague तरीके से भटकते output की तुलना में ज्यादा सफल function की ओर converge करे
मुझे नहीं पता कि यह output में ज्यादा cooperative “attitude” दिखाने वाली model की internal property है, या इसका मतलब है कि कोई model दूसरे से “better” है
मुझे उम्मीद थी कि cooperation से LLM की accuracy improvement पर research होगी, लेकिन लगता है यह paper पूरी तरह sociology पर focus करता है
जानना चाहूंगा कि interacting LLMs से concrete problems solve करने वाली कोई research है या नहीं
उदाहरण के लिए, कोई problem पूछी जाए, एक LLM जवाब दे, दूसरा LLM उसकी आलोचना करे, और यह process repeat हो

LLM एजेंटों के बीच सहयोग का सांस्कृतिक विकास

multi-agent सहयोग को क्यों देखना चाहिए

Donor Game और indirect reciprocity

सांस्कृतिक विकास प्रयोग की संरचना

prompts और execution का तरीका

मॉडल-वार सहयोग विकास के नतीजे

रणनीति में बदलाव और मॉडल के बीच अंतर

costly punishment का प्रभाव

ablation प्रयोग और सीमाएँ

multi-agent benchmark के रूप में महत्व

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय