2 पॉइंट द्वारा GN⁺ 2024-04-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बस और अधिक एजेंट्स की ज़रूरत

  • यह पाया गया कि बड़े भाषा मॉडल्स (LLMs) का प्रदर्शन instantiated agents की संख्या के अनुसार स्केल कर सकता है।
  • sampling और voting तरीकों के माध्यम से मौजूदा जटिल तरीकों से स्वतंत्र रूप से LLMs को बेहतर बनाया जा सकता है, और सुधार की मात्रा task की कठिनाई से संबंधित है।
  • विभिन्न LLM benchmarks पर व्यापक प्रयोग करके इन निष्कर्षों के अस्तित्व की पुष्टि की गई और उन गुणों का अध्ययन किया गया जो इनके उभरने को प्रोत्साहित कर सकते हैं।
  • शोध में उपयोग किया गया कोड सार्वजनिक रूप से उपलब्ध है।

GN⁺ की राय

  • यह शोध बड़े भाषा मॉडल्स के प्रदर्शन सुधार के लिए एक नया दृष्टिकोण प्रस्तुत करके AI क्षेत्र में महत्वपूर्ण योगदान दे सकता है।
  • एजेंट्स की संख्या बढ़ाने से प्रदर्शन सुधार पर सीधा प्रभाव पड़ता है — यह खोज resource scalability और efficiency पर एक नया दृष्टिकोण प्रदान करती है।
  • प्रयोगात्मक परिणामों को वास्तविक applications में कैसे लागू किया जा सकता है, इस पर अतिरिक्त शोध की आवश्यकता है।
  • यह तथ्य कि प्रदर्शन सुधार task की कठिनाई से संबंधित है, विशिष्ट tasks के लिए language models की optimization strategy बनाने में मदद कर सकता है।
  • सार्वजनिक रूप से उपलब्ध कोड के माध्यम से अन्य शोधकर्ता इस शोध को पुनरुत्पादित और विस्तारित करने में योगदान दे सकते हैं, जो वैज्ञानिक transparency और collaboration को बढ़ावा देता है।

1 टिप्पणियां

 
GN⁺ 2024-04-08
Hacker News राय
  • पहली टिप्पणी का सार:

    • यह पेपर multi-agent सेटअप (जैसे: Chain-of-thought, LLM-Debate) के पूरे विचार पर सवाल उठाता है.
    • एक वैकल्पिक तरीके के रूप में, उसी LLM पर एक ही क्वेरी कई बार चलाई जाती है, और उत्तरों के बीच similarity algorithm का उपयोग करके सबसे आम उत्तर चुना जाता है.
    • यह सरल algorithm, अन्य multi-agent algorithms की तुलना में भी शानदार प्रदर्शन दिखाता है.
    • इससे संकेत मिलता है कि multi-agent schema कोई खास काम नहीं कर रहा, और बेहतर परिणाम मुख्य रूप से इस वजह से हैं कि LLM को कई बार चलाया जाता है और prompt के जरिए सबसे अच्छा उत्तर चुनने को कहा जाता है.
  • दूसरी टिप्पणी का सार:

    • पिछले 16 महीनों से यह तर्क दिया जा रहा है कि एक single agent से सब कुछ सही करवाने पर ध्यान देने के बजाय agents को hierarchical बनाना ज़रूरी है.
    • यह दिलचस्प है कि task पर returns ideal human meeting size की तरह तेज़ी से घटते हैं.
    • अगर agents की संख्या को और बारीकी से tune किया जाए, तो यह ideal meeting size से कितना मेल खाता है, यह जानने की जिज्ञासा है.
    • यह भी देखना चाहेंगे कि जब हर agent को थोड़ा अलग लक्ष्य के साथ fine-tune किया जाए, तो कितना performance gain मिलता है.
  • तीसरी टिप्पणी का सार:

    • यह हाल की ACM ByteCast podcast episode में Stanford University के Computer Science Department के Professor Edward Chang द्वारा उठाई गई बातों से जुड़ा है.
    • इसमें कई LLM किसी debate topic पर आपस में बातचीत करते हैं और एक इंसान moderator की भूमिका निभाता है.
    • बातचीत के ज़रिए कई LLM जिस अंतिम उत्तर तक पहुँचते हैं, उसमें accuracy और precision दोनों में बड़ा सुधार होता है.
  • चौथी टिप्पणी का सार:

    • mixture of experts पर research को लेकर एक निराशा यह है कि यह एक बुनियादी probabilistic reasoning है: LLM से कई बार पूछकर majority vote से परिणाम चुनना, एक बार पूछकर उसी परिणाम को चुनने से आम तौर पर बेहतर प्रदर्शन करता है.
    • ऐसा लगता है कि अलग-अलग LLM के मिश्रण या task को sub-tasks में बाँटने के बेहतर तरीकों से इस लाभ को और बढ़ाया जा सकता है.
  • पाँचवीं टिप्पणी का सार:

    • ग्राफ़ देखने पर लगता है कि 10 agents से ज़्यादातर लाभ मिल जाता है, 20 agents से थोड़ा और फायदा मिलता है, और उसके बाद returns घटने लगते हैं.
  • छठी टिप्पणी का सार:

    • LLM services देने वाली कंपनियों के business model पर एक मज़ाकिया विचार: ऐसी ride service जिसमें destination तक पहुँचने के लिए कई बार call करना पड़े, या ऐसा detergent जिसे कई बार लगाने पर ही कपड़े "शायद" साफ़ हों.
    • अगर कोई कंपनी "artificial intelligence" दे रही है, तो केवल सही उत्तर के लिए ही भुगतान करना तर्कसंगत होगा.
  • सातवीं टिप्पणी का सार:

    • यह चिंता है कि क्या यह तरीका बहुत महंगा और sustainable नहीं है, और इस राय से सहमति है कि MoE ही आगे बढ़ने की दिशा है क्योंकि नए models में शायद diminishing returns दिखेंगे.
    • एक single prompt के लिए computation 7-15 गुना बढ़ जाएगा.
  • आठवीं टिप्पणी का सार:

    • public repository और benchmark में इस्तेमाल किए गए prompts बहुत दिलचस्प हैं.
    • LLM-आधारित agents को tool set के साथ benchmark करते देखना चाहेंगे.
  • नौवीं टिप्पणी का सार:

    • "x ही सब कुछ है जो चाहिए" जैसी सभी बातों को जोड़ें, तो पता चलेगा कि वास्तव में बहुत सारी चीज़ें चाहिए.
  • दसवीं टिप्पणी का सार:

    • GPT 3.5 agents की किसी भी संख्या का ensemble, एक बार के GPT-4 call से कम accurate है.