[अनुवाद] MoA (Mixture-of-Agents, एजेंट मिश्रण तकनीक), LLM प्रदर्शन को बेहतर बनाने की एक नई तकनीक

PyTorchKR

MoE (Mixture-of-Experts) और MoD (Mixture-of-Depths) के बाद, LLM के प्रदर्शन को बेहतर बनाने के लिए एक नई तकनीक प्रस्तावित की गई है, जिसका यहाँ परिचय दिया जा रहा है। एजेंट मिश्रण (MoA, Mixture-of-Agents) नाम की यह तकनीक कई LLM की खूबियों को मिलाकर सामूहिक विशेषज्ञता का उपयोग करती है और प्रदर्शन को काफ़ी बेहतर बना सकती है। आइए, इसे साथ में देखते हैं। :smiley:

विशेषज्ञ मिश्रण (MoE, Mixture-of-Experts) तकनीक का संक्षिप्त परिचय

विशेषज्ञ मिश्रण कहलाने वाली MoE (Mixture-of-Experts) तकनीक में प्रशिक्षण के समय कई विशेषज्ञ मॉडलों को शामिल करके मॉडल का आकार बड़ा रखा जाता है, लेकिन निष्पादन (अनुमान, Inference) के समय उपयोगकर्ता के प्रश्न (Query) का उपयुक्त उत्तर देने वाले केवल कुछ विशेषज्ञों को ही सक्रिय किया जाता है। इस तरह मॉडल का प्रदर्शन बेहतर किया जाता है। #mixture-of-experts

गहराई मिश्रण (MoD, Mixture-of-Depths) तकनीक का संक्षिप्त परिचय

हाल ही में MoD (Mixture-of-Depths) तकनीक, जिसे गहराई मिश्रण तकनीक कहा जा सकता है, पर भी शोध और प्रकाशन हुआ है। यह सक्रिय लेयरों की संख्या कम करके गहराई (depth) घटाने से संबंधित तकनीक है। #mixture-of-depths

MoA (Mixture-of-Agents, एजेंट मिश्रण तकनीक), LLM प्रदर्शन को बेहतर बनाने की एक नई तकनीक

एजेंट मिश्रण (MoA, Mixture-of-Agents) तकनीक के पेपर का परिचय

हाल के समय में कई बड़े भाषा मॉडल (LLM) जारी और सार्वजनिक किए जा रहे हैं, और प्रत्येक LLM एक या कई क्षेत्रों में प्रभावशाली प्रदर्शन दिखा रहा है। लेकिन इन LLM का प्रदर्शन मॉडल के आकार, प्रशिक्षण डेटा और कंप्यूट इन्फ्रास्ट्रक्चर आदि के अनुपात में बढ़ता है, इसलिए इन्हें और अधिक स्केल करना बहुत महँगा हो जाता है.

यह पेपर (Mixture-of-Agents Enhances Large Language Model Capabilities) कई LLM की खूबियों का उपयोग करके reasoning और language generation क्षमताओं को बेहतर बनाने वाला Mixture-of-Agent फ़्रेमवर्क प्रस्तावित करता है। यह एजेंट मिश्रण तकनीक LLMs की collaborativeness पर आधारित है—यानी जब कोई मॉडल अन्य मॉडलों के उत्तरों का उपयोग करता है, तब भले ही उन उत्तरों की गुणवत्ता कम हो, वह बिना उनका उपयोग किए जाने की तुलना में बेहतर गुणवत्ता वाला उत्तर बना सकता है।

इस MoA तकनीक के ज़रिए कई LLM की विशिष्ट ताकतों को मिलाकर उनकी विशेषज्ञता को संयोजित किया जाता है, ताकि अंततः बेहतर प्रदर्शन हासिल किया जा सके। परिणामस्वरूप, AlpacaEval 2.0, MT-Benchmark, FLASK जैसे कई benchmarks में इसने उत्कृष्ट प्रदर्शन दिखाया, और विशेष रूप से GPT-4o (GPT-4 Omni) से भी बेहतर प्रदर्शन किया।

सबसे महत्वपूर्ण बात यह है कि MoA तकनीक मौजूदा LLM को बदले बिना, केवल LLM के input prompt और कुछ settings (temperature सहित sampling options) बदलकर इस्तेमाल की जा सकती है। यानी अलग से fine-tuning जैसी प्रक्रिया की ज़रूरत नहीं होती, और उपयोग किए जाने वाले agent LLM के आकार या architecture की परवाह किए बिना नवीनतम LLM को तुरंत लागू करने जैसी flexibility और scalability मिलती है।

एजेंट मिश्रण (MoA, Mixture-of-Agents) तकनीक का परिचय

Mixture-of-Agents (MoA) पद्धति का लक्ष्य कई LLM की सामूहिक विशेषज्ञता को एक hierarchical structure के माध्यम से उपयोग करना है। प्रत्येक layer कई LLM agents से बनी होती है, और वह पिछली layer के outputs के आधार पर response बनाकर अंतिम output को क्रमिक रूप से बेहतर करती है।

MoA तकनीक का मूल विचार इस बात से शुरू होता है कि बड़े भाषा मॉडल (LLM) अन्य मॉडलों के उत्तरों को संदर्भ के रूप में देखकर अधिक उच्च-गुणवत्ता वाले उत्तर बना सकते हैं। यानी कई LLM के उत्तरों को एक-दूसरे के लिए संदर्भ के रूप में उपलब्ध कराकर उनमें collaborativeness पैदा की जाती है, जिससे अंतिम उत्तर की गुणवत्ता बढ़ती है। इस तरह, भले ही intermediate outputs की गुणवत्ता कम हो, अंतिम उत्तर की गुणवत्ता काफ़ी बढ़ाई जा सकती है।

एजेंट मिश्रण तकनीक की प्रमुख विशेषताएँ इस प्रकार हैं:

Hierarchical structure: MoA framework कई LLM agents से बनी multi-layer संरचना का उपयोग करता है। प्रत्येक agent पिछली layer के responses को बेहतर बनाकर अंतिम output को धीरे-धीरे सुधारता है।
Model diversity: framework प्रत्येक layer में विविध LLM के उपयोग पर ज़ोर देता है। जब अलग-अलग models को जोड़ा जाता है, तो अधिक समृद्ध और सूक्ष्म responses बन सकते हैं।
Iterative refinement: यह पुनरावृत्त प्रक्रिया generated text को लगातार बेहतर बनाने देती है, और कई models की collaborative synthesis के माध्यम से सर्वोत्तम परिणाम निकालती है।

बड़े भाषा मॉडलों की सहयोगिता (Collaborativeness)

बड़े भाषा मॉडलों (LLM, Large Language Models) की collaborativeness का अर्थ है कि विभिन्न LLM, एक-दूसरे के outputs को संदर्भित करने पर बेहतर responses बना सकते हैं। कई अध्ययनों के अनुसार, जब एक language model दूसरे model के output को सहायक जानकारी के रूप में उपयोग करता है, तो response की गुणवत्ता बेहतर होती है। यह इसलिए संभव है क्योंकि हर model की अलग-अलग strengths होती हैं।

उदाहरण के लिए, कोई model जटिल instructions को अच्छी तरह follow कर सकता है, जबकि कोई दूसरा model code generation में बेहतर हो सकता है। यह विविधता collaborative environment में हर model को दूसरे models की कमज़ोरियों की भरपाई करने में सक्षम बनाती है। इस collaborativeness को प्रयोगात्मक रूप से सिद्ध करने के लिए कई benchmark tests का उपयोग किया गया, और विशेष रूप से AlpacaEval 2.0 benchmark में यह देखा गया कि जब कई models एक-दूसरे के outputs का संदर्भ लेते हैं, तो प्रदर्शन काफ़ी सुधरता है।

इससे यह देखा जा सकता है कि जब LLMs को स्वतंत्र रूप से बनाए गए उत्तर उपलब्ध कराए जाते हैं, तो कुल प्रदर्शन उल्लेखनीय रूप से बेहतर हो जाता है। ऐसे परिणाम दिखाते हैं कि LLM मूलतः सहयोगी प्रकृति के होते हैं। साथ ही, यह भी संकेत मिलता है कि कम गुणवत्ता वाले outputs से भी अन्य models के outputs से जानकारी लेकर बेहतर response बनाया जा सकता है।

इस पेपर में MoA तकनीक में उपयोग होने वाले LLM की भूमिकाओं को दो भागों में बाँटकर समझाया गया है: Proposer और Aggregator।

Proposer LLM: ऐसा LLM जो अन्य models द्वारा उपयोग किए जा सकने वाले उपयोगी reference responses बनाने में उत्कृष्ट हो। एक अच्छा proposer ज़रूरी नहीं कि अपने आप में हमेशा उच्च-स्कोर वाला response बनाए, लेकिन वह अधिक context और विविध perspectives देकर अंततः Aggregator के साथ उपयोग होने पर बेहतर अंतिम response में योगदान दे सकता है।
Aggregator LLM: ऐसा model जो अन्य model(s) के responses को मिलाकर एक उच्च-गुणवत्ता वाला output बनाने में कुशल हो। एक प्रभावी aggregator को ऐसा होना चाहिए कि Proposer से आने वाला input, भले उसकी गुणवत्ता aggregator LLM द्वारा स्वयं बनाए जाने वाले उत्तर से कम हो, फिर भी अंतिम उत्तर की गुणवत्ता को बनाए रख सके या बेहतर कर सके।

एजेंट मिश्रण तकनीक की संरचना (Architecture of MoA, Mixture-of-Agents)

MoA framework ऊपर के चित्र की तरह कई layers (Layer, $l$) से बना होता है, और प्रत्येक layer (Layer-$i$) में कई ($n$) LLM शामिल होते हैं। चित्र में $i$-वीं layer के प्रत्येक LLM को $A_{i,1}$, $A_{i,2}$, ...$A_{i,n}$ के रूप में दिखाया गया है। इस संरचना में प्रत्येक layer के agents, पिछली layer के सभी outputs को सहायक जानकारी के रूप में उपयोग करके response बनाते हैं। यहाँ ध्यान देने की बात यह है कि हर LLM को उसी layer में और अलग-अलग layers में दोबारा उपयोग किया जा सकता है।

शुरुआत में, पहली layer के LLM दिए गए prompt के लिए स्वतंत्र रूप से responses बनाते हैं। फिर ये responses अगली layer के agents को दिए जाते हैं, जो उनसे अधिक परिष्कृत responses बनाते हैं। यह प्रक्रिया तब तक दोहराई जाती है जब तक अंततः अधिक सटीक और अधिक समग्र response तैयार न हो जाए। इस प्रक्रिया के कई बार दोहराए जाने से और अधिक शक्तिशाली तथा समेकित response प्राप्त किया जा सकता है। इससे अलग-अलग models की सीमाओं को पार किया जा सकता है और विविध जानकारी व perspectives को जोड़कर उच्च-गुणवत्ता वाले responses बनाए जा सकते हैं, जो विशेष रूप से जटिल problem solving में बहुत उपयोगी हैं।

इस एजेंट मिश्रण तकनीक की संरचना का एक और महत्वपूर्ण तत्व model selection है। प्रत्येक layer में शामिल किए जाने वाले models को performance और diversity के आधार पर सावधानी से चुनना महत्वपूर्ण है। Performance metrics और model diversity को ध्यान में रखकर सर्वोत्तम agent composition तय किया जाता है।

उपयोग किए जाने वाले agents (LLM) के चयन के मानदंड

एजेंट मिश्रण तकनीक में models का चयन केवल इस आधार पर नहीं किया जाता कि वे किसी खास task को कितना अच्छा करते हैं, बल्कि इस आधार पर भी किया जाता है कि वे कितने विविध उत्तर बना सकते हैं:

Performance Metrics: यह दिखाते हैं कि हर model किसी विशेष task पर कितना अच्छा प्रदर्शन करता है, और इनके आधार पर ऐसे models चुने जाते हैं जो उच्च-गुणवत्ता वाले outputs बना सकें। Diversity का मतलब है models की यह क्षमता कि वे समस्याओं को अलग-अलग तरीकों से समझें और हल करें। उदाहरण के लिए, कोई model natural language processing में उत्कृष्ट हो सकता है, जबकि दूसरा code generation या math problem solving में बेहतर हो सकता है। ऐसी विविध क्षमताओं वाले models को मिलाकर multi-agent structure अधिक समग्र और शक्तिशाली response बना सकता है।
Diversity Considerations: model diversity किसी एक model की biases को कम करती है और अधिक व्यापक समस्याओं को हल करने में मदद करती है। उदाहरण के लिए, अगर वही model कई layers में बार-बार उपयोग किया जाए, तो उसकी सीमाओं के कारण response की गुणवत्ता घट सकती है। इसलिए विविध models का उपयोग महत्वपूर्ण है। Performance metrics और diversity को ध्यान में रखकर हर layer के लिए उपयुक्त models चुनने से अंतिम response की गुणवत्ता अधिकतम की जा सकती है।

Single-Proposer संरचना और Multi-Proposer संरचना

उच्च-स्तरीय अमूर्त दृष्टिकोण (High-level perspective) से देखें, तो MoA (agent-mixing technique) को MoE (expert-mixing technique) का model-level विस्तार माना जा सकता है। यह MoA तकनीक LLM की internal activations या weights को बदले बिना पूरी तरह केवल prompt interface के माध्यम से काम कर सकती है। यानी MoE की तरह किसी single model के भीतर specialized sub-networks रखने के बजाय, यह कई layers में एक या अधिक LLM का उपयोग करती है।

Single-Proposer संरचना: MoA मूल रूप से कई agents (LLM) के उपयोग पर आधारित है, लेकिन एक ही LLM को कई बार भी इस्तेमाल किया जा सकता है। ऐसे मामलों में, उसी model को input देते समय temperature settings सहित विभिन्न sampling settings बदलकर कई अलग-अलग outputs उत्पन्न किए जाते हैं। इस single-proposer संरचना में हर layer में एक या कुछ ही models सक्रिय होते हैं, लेकिन वे जो विविध responses बनाते हैं, वे aggregator द्वारा अंतिम response बनाने में महत्वपूर्ण भूमिका निभाते हैं।
Multi-Proposer संरचना: इसमें हर layer में अलग-अलग models का उपयोग करके विभिन्न outputs बनाए जाते हैं। इससे models के बीच interaction और collaborativeness अधिकतम होती है, और अधिक व्यापक तथा उच्च-गुणवत्ता वाले responses बन पाते हैं। Multi-proposer संरचना model diversity का अधिकतम उपयोग करके problem solving का दायरा बढ़ाती है और single model की सीमाओं को पार करने में मदद करती है। इस setup के ज़रिए multi-agent structure अधिक शक्तिशाली और समग्र solutions दे सकता है।

यहाँ proposers और aggregators एक-दूसरे की पूरक भूमिकाएँ निभाते हैं। Proposers विभिन्न approaches के ज़रिए प्रारंभिक responses बनाते हैं, और aggregators उन responses को समेकित करके अंतिम response की गुणवत्ता सुनिश्चित करते हैं। इस सहयोगी संरचना के माध्यम से multi-agent system, single model की तुलना में अधिक शक्तिशाली और अधिक समग्र response दे सकता है।

MoA तकनीक का प्रदर्शन और लागत-कुशलता

MoA तकनीक का प्रदर्शन

ऊपर की तालिका में MoA और MoA-Lite ऐसे models हैं जिनमें 6 proposers हैं, और क्रमशः 3 layers तथा 2 layers हैं। MoA w/ GPT-4o वह model है जिसमें MoA के अंतिम aggregator के रूप में GPT-4o का उपयोग किया गया है। ऊपर के benchmark में प्रत्येक configuration को 3 बार चलाने के बाद standard deviation और average score साथ में प्रकाशित किए गए हैं।

MoA तकनीक का उपयोग करने वाले model ने AlpacaEval 2.0 में 65.1% स्कोर दर्ज किया, जो GPT-4o के 57.5% से अधिक था। साथ ही, MT-Benchmark में भी इसने GPT-4o से बेहतर प्रदर्शन दिखाया।

ऊपर के चित्र की तरह, MoA तकनीक single LLM के उपयोग की तुलना में बेहतर प्रदर्शन देती है। इसका कारण यह लगता है कि aggregator केवल proposer LLMs द्वारा बनाए गए responses में से किसी एक को चुनता नहीं, बल्कि प्रस्तावित उत्तरों को समग्र रूप से संदर्भित करके अपना उत्तर तैयार करता है।

ऊपर के चित्र के दाहिने हिस्से में BLEU जैसे similarity scores का उपयोग करके aggregator के response और proposer के responses की तुलना की गई है। प्रत्येक sample में proposers के $n$ responses के आधार पर GPT-4 आधारित evaluator द्वारा तय किए गए $n$ preference scores और $n$ similarity scores के बीच rank correlation coefficient की गणना की गई। यानी यह देखा जा सकता है कि win rate और BLEU score के बीच सकारात्मक सहसंबंध है।

इसके अलावा, हर layer में proposers की उपयुक्त संख्या खोजने के लिए proposers की संख्या (ऊपर बाएँ तालिका का $n$) बदलकर अंतिम गुणवत्ता पर उसके प्रभाव का विश्लेषण किया गया। $n$ बढ़ने के साथ अंतिम गुणवत्ता भी बढ़ती है, जिसे इस तरह समझा जा सकता है कि अधिक विविध models से अधिक विविध उत्तर मिलते हैं, इसलिए aggregator के पास उपयोग के लिए अधिक जानकारी होती है। (यहाँ single-proposer संरचना वह परिणाम है जिसमें एक single LLM को temperature 0.7 पर स्थिर रखकर उपयोग किया गया।)

इसके अतिरिक्त, यह देखने के लिए भी प्रयोग किए गए कि proposer और aggregator भूमिकाओं में से किसी एक में विशेष रूप से उत्कृष्ट models हैं या नहीं। (ऊपर दाहिनी तालिका) GPT-4o, Qwen, और LLaMA-3 models ने proposer और aggregator दोनों भूमिकाओं में अच्छा प्रदर्शन दिखाया, जबकि WizardLM सहित कुछ models ने aggregator की तुलना में proposer के रूप में बेहतर प्रदर्शन किया।

MoA तकनीक की token और cost efficiency

बजट और token analysis सहित, यह दिखाया गया है कि MoA अन्य state-of-the-art models की तुलना में कम लागत पर उच्च प्रदर्शन दे सकता है। इसका मतलब है कि यह approach न केवल प्रभावी है, बल्कि cost-efficient भी है, और अत्यधिक खर्च के बिना LLM क्षमताओं को स्केल करने का एक व्यावहारिक समाधान प्रदान करती है।

ऊपर के चित्र के बाएँ (a) में AlpacaEval 2.0 benchmark के प्रत्येक instance के लिए average inference cost और LC win rate दिखाए गए हैं। यह हर API provider की लागत के आधार पर गणना की गई है, और यह दिखाता है कि MoA तकनीक उच्च प्रदर्शन हासिल करते हुए भी अत्यधिक लागत उत्पन्न नहीं करती। विशेष रूप से, MoA-Lite लगभग 4% बेहतर है GPT-4 Turbo की तुलना में, जबकि इसकी cost efficiency दो गुने से भी अधिक है।

ऊपर के चित्र के दाहिने (b) में LC win rate और teraflops की संख्या के बीच संबंध दिखाया गया है। यहाँ teraflops की संख्या को latency का प्रतिनिधित्व करने वाले मान के रूप में उपयोग किया गया है। यहाँ भी cost-efficiency analysis की तरह Pareto frontier देखा जाता है। यानी यह दिखाता है कि compute resources का कुशल उपयोग करते हुए LC win rate को अधिकतम किया जा रहा है।

सहयोगिता और विविधता पर अन्य विचार

इस पेपर में किए गए विभिन्न प्रयोगों के परिणामों से यह पुष्टि हुई कि LLM, अन्य models के outputs को संदर्भित करने पर बेहतर responses बनाते हैं। यही collaborativeness MoA तकनीक के माध्यम से प्रदर्शन सुधार का मुख्य तत्व है। साथ ही, यह भी सिद्ध हुआ कि हर layer में विविध LLM का उपयोग करना, किसी एक single model पर निर्भर रहने की तुलना में लगातार बेहतर परिणाम देता है। यानी model diversity से उत्पन्न responses की विविधता, समग्र प्रदर्शन को बेहतर बनाने में प्रभावी है।

निष्कर्ष

जैसा कि अब तक देखा गया, एजेंट मिश्रण तकनीक (MoA, Mixture-of-Agents) कई LLM की सामूहिक शक्तियों का उपयोग करने की दिशा में एक महत्वपूर्ण प्रगति को दर्शाती है। अपनी hierarchical और collaborative approach के माध्यम से MoA कई benchmarks में उत्कृष्ट प्रदर्शन दिखाता है और model diversity तथा iterative refinement के मूल्य को सिद्ध करता है। इस approach का उपयोग करके अधिक शक्तिशाली और अधिक कुशल LLM systems के लिए नए प्रयोग किए जा सकेंगे, ऐसी उम्मीद की जा सकती है।

MoA तकनीक का पेपर

https://arxiv.org/abs/2406.04692

MoA तकनीक का repository

https://github.com/togethercomputer/moa

OpenPipe ने MoA तकनीक का उपयोग कर GPT-4 के प्रदर्शन को पार करने वाला model 25 गुना कम कीमत पर उपलब्ध कराया

https://discuss.pytorch.kr/t/openpipe-moa-25-gpt-4/4668

यह लेख GPT model से तैयार की गई सामग्री के आधार पर लिखा गया है, इसलिए संभव है कि इसे मूल लेख की सामग्री या आशय से अलग ढंग से संक्षेपित किया गया हो। यदि यह विषय आपकी रुचि का है, तो कृपया मूल लेख भी साथ में देखें। पढ़ते समय यदि आपको कोई अटपटी या ग़लत बात दिखे, तो कृपया टिप्पणी में बताइए। 🤗

⚠️विज्ञापन⚠️: क्या PyTorch Korea User Group द्वारा संकलित यह लेख आपके लिए उपयोगी रहा? सदस्य के रूप में जुड़ें, तो हम आपको प्रमुख लेख ईमेल💌 से भेजेंगे! (डिफ़ॉल्ट Weekly है, लेकिन Daily में भी बदला जा सकता है.)