1 पॉइंट द्वारा GN⁺ 2024-12-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें

arXiv की गोपनीयता नीति में बदलाव

  • arXiv की गोपनीयता नीति बदल गई है। arxiv.org का उपयोग जारी रखने पर आप इस नीति से सहमत माने जाएंगे।

सहयोग का सांस्कृतिक विकास

  • शोध पृष्ठभूमि: बड़े भाषा मॉडल (LLM) आम तौर पर सक्षम AI एजेंट बनाने की एक महत्वपूर्ण नींव प्रदान करते हैं। ये एजेंट किसी व्यक्ति या समूह के हितों का प्रतिनिधित्व कर सकते हैं।
  • शोध उद्देश्य: बार-बार तैनात किए जाने वाले कई LLM एजेंटों के बीच अंतःक्रिया की गतिशीलता को समझना। विशेष रूप से, यह जांचना कि क्या एजेंट ऐसे सामाजिक मानदंड सीख सकते हैं जो एक-दूसरे के लिए लाभकारी हों।
  • शोध विधि: LLM एजेंटों के बीच दोहराए जाने वाले Donor game के माध्यम से अप्रत्यक्ष अंतःक्रियाओं का अध्ययन किया गया। इस खेल में एजेंट अपने साथियों के हालिया व्यवहार को देख सकते हैं।
  • शोध परिणाम:
    • Claude 3.5 Sonnet एजेंट ने Gemini 1.5 Flash और GPT-4o की तुलना में अधिक औसत स्कोर दर्ज किया।
    • Claude 3.5 Sonnet अतिरिक्त punishment mechanism का उपयोग करके और अधिक स्कोर हासिल कर सका।
    • शुरुआती स्थितियों पर संवेदनशील निर्भरता दिखाने वाले विविध व्यवहार देखे गए।
  • शोध महत्व: यह शोध एक नया benchmark प्रस्तावित कर सकता है, जिससे यह आंका जा सके कि LLM एजेंटों की तैनाती समाज के सहयोगी अवसंरचना पर क्या प्रभाव डालती है।

पेपर जानकारी

  • पृष्ठ संख्या: 15 पृष्ठ, 6 चित्र शामिल
  • विषय: मल्टी-एजेंट सिस्टम, कृत्रिम बुद्धिमत्ता
  • उद्धरण: arXiv:2412.10270 [cs.MA]
  • प्रस्तुतकर्ता: Edward Hughes

अन्य जानकारी

  • एक्सेस के तरीके: PDF, HTML, TeX source आदि विभिन्न प्रारूपों में पेपर उपलब्ध
  • संदर्भ और citation tools: NASA ADS, Google Scholar, Semantic Scholar आदि विभिन्न टूल उपलब्ध
  • संबंधित पेपर और डेटा: संबंधित पेपर, डेटा और media demo उपलब्ध

यह शोध LLM एजेंटों के सहयोगी व्यवहार को समझने और इसके माध्यम से सामाजिक सहयोग के विकास में योगदान देने की संभावना प्रस्तुत करता है.

1 टिप्पणियां

 
GN⁺ 2024-12-20
Hacker News राय
  • Meta ने मॉडल की perception और knowledge के लिए training data की कमी पाई, और इसे सुधारने के लिए synthetic data से दोबारा train करने पर Theory of Mind(TOM) benchmark में performance काफ़ी बेहतर हो गई

  • ollama का उपयोग करके Mistral LLM और Llama मॉडल के बीच बातचीत कराने की कोशिश की गई, और दोनों मॉडलों का random topics पर बात करना दिलचस्प लगा। खासकर बातचीत के अंत में उनका interaction प्रभावशाली था

  • इस research paper को लेकर मिश्रित भावनाएँ हैं, और लगता है कि LLM की cultural evolution अस्थायी हो सकती है, इसलिए experiment की framing उपयुक्त नहीं है। यह दावा स्वीकार करना कठिन है क्योंकि यह पता नहीं कि इंसान उसी स्थिति में क्या व्यवहार करेंगे

  • Donor Game का विवरण: random pairing किए गए individuals को donor और recipient में बाँटा जाता है, और donor या तो लाभ दे सकता है या कुछ भी नहीं कर सकता। donor की reputation महत्वपूर्ण भूमिका निभाती है, और जब reputation score एक तय threshold से ऊपर हो तो cooperation की strategy स्थिर रहती है

  • यह research मनमाने parameters के आधार पर forced ranking करती हुई लगती है, और देखा गया व्यवहार किसी specific setting का परिणाम हो सकता है। फिर भी LLM के नए व्यवहार देखना दिलचस्प है

  • paper की method शुरुआत में आकर्षक लग सकती है, लेकिन यह वास्तव में scalable है या नहीं, इस पर सवाल है। complex attention variants की वजह से training time बढ़ सकता है, और real data पर performance की जानकारी कम है। इस method के व्यावहारिक रूप से उपयोगी होने पर संदेह है

  • इस पर चर्चा है कि क्या LLM sociology के क्षेत्र में बदलाव ला सकते हैं, क्योंकि बड़े सामाजिक-आर्थिक experiments को LLM agents के ज़रिए आसानी से चलाया जा सकता है। LLM agents की non-deterministic प्रकृति और English में निर्देश लेने की क्षमता एक दिलचस्प अतिरिक्त तत्व हो सकती है

  • ऐसा लगता है कि मॉडल के output detail level का परीक्षण किया जा रहा है, और अधिक detailed output का झुकाव अधिक सफल function की ओर converge करने का है। हालांकि, यह मॉडल के internal properties को दर्शाता है या नहीं, इस पर भरोसा कम है

  • उम्मीद थी कि cooperation से LLM के अधिक accurate results मिलेंगे, लेकिन यह research सिर्फ sociological पहलू पर केंद्रित है। यह जानने की जिज्ञासा है कि क्या LLM के बीच interaction के ज़रिए concrete problems हल करने पर कोई research मौजूद है

  • LLM update rollout को model करने की कोशिश वास्तविक deployment जैसी नहीं लगती, इसलिए यह अनावश्यक hype जैसी प्रतीत होती है। फिर भी paper स्वयं दिलचस्प है