[2025/09/29 ~ 10/05] इस हफ़्ते देखने लायक AI/ML पेपरों का संग्रह
(discuss.pytorch.kr)[2025/09/29 ~ 10/05] इस हफ़्ते देखने लायक AI/ML पेपरों का संग्रह
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ जानकारी की सत्यता और विश्वसनीयता में सुधार: कई पेपरों में जानकारी की सटीकता और विश्वसनीयता बढ़ाने के लिए अलग-अलग approaches प्रस्तावित किए गए हैं। उदाहरण के लिए, "Incentive-Aligned Multi-Source LLM Summaries" में Truthful Text Summarization (TTS) framework के जरिए जानकारी की सत्यता सुनिश्चित की जाती है, और "AgentMaster" में multi-agent system का उपयोग करके भरोसेमंद information retrieval और analysis को support किया जाता है.
2️⃣ Multi-agent system का विकास: कई शोधों में multi-agent system (MAS, Multi-Agent System) का उपयोग बढ़ रहा है, और यह जटिल tasks को हल करने में काफी मददगार साबित हो रहा है। "TUMIX" और "AgentMaster" पेपरों में अलग-अलग tools का उपयोग करते हुए agents के बीच collaboration और interaction के जरिए performance सुधारने के तरीके प्रस्तुत किए गए हैं.
3️⃣ Knowledge injection और continual learning: "How to inject knowledge efficiently?" और "Continual Learning for VLMs" पेपरों में domain knowledge को प्रभावी ढंग से inject करने और abnormal data से लगातार सीखने के तरीकों पर शोध किया जा रहा है। ये शोध model performance को बेहतर बनाने और पहले से मौजूद knowledge को खोने से बचाने पर केंद्रित हैं.
ARE: एजेंट environments और evaluation का विस्तार / ARE: Scaling Up Agent Environments and Evaluations
पेपर परिचय
Meta Superintelligence Lab द्वारा जारी Meta Agents Research Environments (ARE) एक अभिनव research platform है, जो agent environments की scalability बढ़ाता है, synthetic या real applications के integration को support करता है, और agent orchestration को execute कर सकता है। ARE जटिल और विविध environments बनाने के लिए simple abstractions प्रदान करता है, ताकि हर environment के अपने rules, tools, content और verifiers हों, और इस तरह यह model development और real-world deployment के बीच की दूरी कम करने में मदद करता है.
ARE का एक प्रमुख innovation Gaia2 नाम का benchmark है। Gaia2 को agents की general capabilities को मापने के लिए design किया गया है, और यह सिर्फ search और execution से आगे बढ़कर agents से अपेक्षा करता है कि वे ambiguity और noise को handle करें, dynamic environments के अनुसार adapt करें, दूसरे agents के साथ collaborate करें, और time constraints के तहत काम करें। खास तौर पर, Gaia2 asynchronous तरीके से चलता है, जिससे static environments में दिखाई न देने वाले नए failure modes सामने आते हैं और agent performance का अधिक सूक्ष्म evaluation संभव हो पाता है.
प्रयोगों के परिणाम दिखाते हैं कि कोई भी system intelligence spectrum के हर हिस्से में बढ़त नहीं बनाता, और मजबूत reasoning capability की कीमत अक्सर efficiency में चुकानी पड़ती है। Budget scaling curves का plateau होना इस बात पर ज़ोर देता है कि नए architectures और adaptive compute strategies की ज़रूरत है। ये निष्कर्ष AI research की दिशा का संकेत देते हैं और ARE तथा Gaia2 के महत्व को रेखांकित करते हैं.
ARE की abstractions, Gaia2 को दूसरे environments तक लगातार विस्तार देने में सक्षम बनाती हैं, जिससे research community अपने domain के अनुरूप नए benchmarks तेजी से बना सकती है। AI की प्रगति आगे चलकर meaningful tasks और robust evaluations को परिभाषित करने पर और अधिक निर्भर होगी, और यह ARE की capabilities के माध्यम से संभव होगा। इस संदर्भ में, ARE agent development और evaluation के लिए ज़रूरी tools उपलब्ध कराता है और AI research की अग्रिम पंक्ति में महत्वपूर्ण भूमिका निभाएगा.
पेपर सारांश (Abstract)
हम Meta Agents Research Environments (ARE) प्रस्तुत करते हैं। ARE एक research platform है, जो environments के scalable creation, synthetic या real applications के integration, और agentic orchestrations के execution के लिए बनाया गया है। ARE अलग-अलग rules, tools, content और verifiers वाले जटिल और विविध environments को बनाने के लिए simple abstractions देता है, जिससे model development और real-world deployment के बीच की खाई को पाटने में मदद मिलती है। इसके साथ ही, हम ARE में निर्मित Gaia2 नामक benchmark प्रस्तावित करते हैं, जिसे general agent capabilities को मापने के लिए design किया गया है। Gaia2, search और execution से आगे बढ़कर agents से अपेक्षा करता है कि वे ambiguities और noise को handle करें, dynamic environments के अनुरूप adapt करें, दूसरे agents के साथ collaborate करें, और temporal constraints के तहत operate करें। पहले के benchmarks के विपरीत, Gaia2 asynchronous तरीके से चलता है, जिससे static settings में न दिखने वाले नए failure modes सामने आते हैं। हमारे प्रयोग दिखाते हैं कि कोई भी system intelligence spectrum के पूरे दायरे में प्रभुत्व स्थापित नहीं करता: अधिक शक्तिशाली reasoning अक्सर efficiency की कीमत पर आता है, और budget scaling curves plateau हो जाती हैं, जो नए architectures और adaptive compute strategies की ज़रूरत को उजागर करती हैं। शायद इससे भी अधिक महत्वपूर्ण यह है कि ARE की abstractions, Gaia2 को दूसरे environments तक लगातार विस्तार देने में सक्षम बनाती हैं, जिससे community अपने domains के अनुरूप नए benchmarks तेजी से बना सकती है। AI के दूसरे चरण में, प्रगति increasingly meaningful tasks और robust evaluations को परिभाषित करने पर निर्भर करेगी, ताकि frontier capabilities को आगे बढ़ाया जा सके।
> We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.
पेपर लिंक
https://arxiv.org/abs/2509.17158
इंसेंटिव-अलाइनड multi-source LLM summaries / Incentive-Aligned Multi-Source LLM Summaries
पेपर परिचय
Large language models (LLM) का आधुनिक information retrieval और response systems में कई स्रोतों के text को जोड़कर एक single response बनाने के लिए व्यापक रूप से उपयोग किया जाता है। हालांकि, मौजूदा systems में स्रोतों की सटीकता सुनिश्चित करने की सीमाएँ हैं और वे adversarial content के प्रति संवेदनशील हैं। इन समस्याओं को हल करने के लिए प्रस्तावित Truthful Text Summarization (TTS) framework एक अभिनव approach प्रदान करता है, जो factual robustness को बेहतर बनाते हुए भी ground-truth labels के बिना काम कर सकता है। TTS draft summary को atomic claims में विभाजित करता है, हर source के claims का मूल्यांकन करता है, और informative agreement को reward करने वाले adapted multi-task peer-prediction mechanism के माध्यम से sources को score करता है। अविश्वसनीय sources को filter करने के बाद दोबारा summarization करने की यह प्रक्रिया sources के incentives को information honesty के साथ align करती है, ताकि truthful reporting utility को maximize करने वाली strategy बन जाए।
TTS की methodology information की truthfulness सुनिश्चित करने के लिए एक नया approach प्रस्तुत करती है और मौजूदा information summarization तथा LLM-संबंधित research से अपनी अलग पहचान दिखाती है। प्रयोगों के परिणाम बताते हैं कि TTS factual accuracy और robustness को बेहतर बनाते हुए fluency को बनाए रखने में सफल रहा, और यह information verification तथा alignment के जरिए manipulation को हतोत्साहित करने में योगदान देता है। यह research information summarization systems की reliability को काफी बढ़ाने की संभावना दिखाती है और भविष्य में विभिन्न क्षेत्रों में इसके उपयोग की संभावनाओं को तलाशने के लिए महत्वपूर्ण आधार तैयार करती है। TTS information की truthfulness बढ़ाने के साथ-साथ sources के incentives को भी align करता है, जिससे information summarization systems की reliability में उल्लेखनीय सुधार की संभावना बनती है।
शोध सारांश (Abstract)
Large language models (LLM) का आधुनिक search और answer systems में कई, कभी-कभी परस्पर विरोधी, texts को एक single response में synthesize करने के लिए बढ़ते हुए उपयोग किया जा रहा है, लेकिन मौजूदा pipelines sources को accurate होने के लिए कमजोर incentives देती हैं और adversarial content के प्रति vulnerable हैं। हम Truthful Text Summarization (TTS) पेश करते हैं। TTS एक incentive-aligned framework है जो ground-truth labels के बिना factual robustness को बेहतर बनाता है। TTS (i) draft synthesis को atomic claims में विभाजित करता है, (ii) हर claim पर प्रत्येक source का stance निकालता है, (iii) informative agreement को reward करने वाले adapted multi-task peer-prediction mechanism से sources को score करता है, और (iv) दोबारा summarize करने से पहले अविश्वसनीय sources को filter करता है। हम औपचारिक guarantees स्थापित करते हैं जो source के incentives को informative honesty के साथ align करती हैं, जिससे truthful reporting utility-maximizing strategy बनती है। प्रयोग दिखाते हैं कि TTS fluency को बनाए रखते हुए factual accuracy और robustness में सुधार करता है, exposure को informative corroboration के साथ align करता है और manipulation को हतोत्साहित करता है。
> Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.
शोध-पत्र लिंक
https://arxiv.org/abs/2509.25184
TUMIX: tool use mixture के ज़रिए multi-agent test-time scaling / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture
शोध-पत्र परिचय
Tool-Use Mixture (TUMIX) एक ensemble framework है जो कई agents को parallel में चलाकर अलग-अलग tool-use strategies और answer paths अपनाने देता है। यह methodology text-based reasoning, coding, और search के integration के जरिए विभिन्न सवालों के लिए प्रभावी solutions प्रदान करने पर केंद्रित है। TUMIX के agents सवाल और पिछले जवाबों के आधार पर बार-बार responses साझा करते हैं और उन्हें refine करते हैं, जिससे गहरा integration और विभिन्न reasoning paths की खोज संभव होती है।
TUMIX ने मौजूदा tool-augmented और test-time scaling methods की तुलना में औसतन 3.55% accuracy improvement हासिल की, और Gemini-2.5-Pro तथा Gemini-2.5-Flash models पर प्रमुख reasoning benchmarks में बेहतर performance दिखाई। ये परिणाम बताते हैं कि agent diversity और quality महत्वपूर्ण तत्व हैं, और यह LLM (large language model) का उपयोग करके agent design को अपने आप optimize करने का तरीका प्रस्तावित करता है। इससे TUMIX ने औसतन 1.2% अतिरिक्त accuracy improvement हासिल की।
TUMIX एक ऐसा अभिनव approach प्रदान करता है जिसमें पर्याप्त confidence तक पहुँचने पर refinement को रोका जा सकता है, जिससे performance बनाए रखते हुए inference cost 49% तक कम हो जाती है। अतिरिक्त scaling के जरिए और बेहतर performance हासिल की जा सकती है, लेकिन इस स्थिति में लागत बढ़ती है, जो भविष्य के research के लिए एक महत्वपूर्ण विचारणीय बिंदु है।
यह research LLM की tool-use और reasoning capabilities को अधिकतम करने का तरीका प्रस्तुत करती है और विभिन्न सवालों के लिए प्रभावी solutions देने में योगदान करती है। TUMIX अपने मौजूदा methodologies से अलग approach के जरिए वास्तविक applications में अधिक generalize होने की संभावना दिखाता है।
शोध सारांश (Abstract)
Code Interpreter और Search जैसे विभिन्न tools को एकीकृत करने से ChatGPT Agent और Gemini-Pro जैसे models में Large Language Model (LLM) की reasoning काफ़ी बेहतर हुई है, लेकिन optimal tool use के लिए व्यावहारिक guidance अभी भी कम है। मुख्य चुनौती यह है कि अलग-अलग सवालों के लिए text reasoning, coding, और search को प्रभावी ढंग से जोड़ा जाए। इस paper में Tool-Use Mixture (TUMIX) प्रस्तावित किया गया है, जो एक ensemble framework है और अलग-अलग tool-use strategies तथा answer paths अपनाने वाले कई agents को parallel में चलाता है। TUMIX के agents सवाल और पिछले जवाबों के आधार पर responses को बार-बार साझा करते हैं और उन्हें refine करते हैं। प्रयोगों में, TUMIX ने state-of-the-art tool-augmented और test-time scaling methods की तुलना में उल्लेखनीय gains हासिल किए, और Gemini-2.5-Pro तथा Gemini-2.5-Flash पर प्रमुख reasoning benchmarks में best baseline की तुलना में औसतन 3.55% तक accuracy improvement दिया, जबकि inference cost लगभग समान रही। हमने पाया कि agent diversity और quality महत्वपूर्ण हैं, और LLM का उपयोग करके agent design को auto-optimize करने से इन्हें और बेहतर बनाया जा सकता है। इसके अलावा, पर्याप्त confidence हासिल होने पर TUMIX refinement रोक सकता है, जिससे performance बरकरार रखते हुए inference cost केवल 49% रह जाती है। अतिरिक्त scaling से और अधिक performance हासिल की जा सकती है, लेकिन इसकी लागत भी बढ़ेगी。
> Code Interpreter और Search जैसे tools को एकीकृत करने से ChatGPT Agent और Gemini-Pro जैसे models में Large Language Model (LLM) reasoning काफ़ी बेहतर हुई है, लेकिन optimal tool use पर व्यावहारिक guidance की कमी है। मुख्य चुनौती यह है कि विविध प्रश्नों के लिए textual reasoning, coding, और search को प्रभावी रूप से संयोजित किया जाए। इस paper में हम Tool-Use Mixture (TUMIX) प्रस्तावित करते हैं, जो एक ensemble framework है और कई agents को parallel में चलाता है, जहाँ हर agent अलग tool-use strategy और answer path अपनाता है। TUMIX के agents प्रश्न और पिछले उत्तरों के आधार पर responses को बार-बार साझा और refine करते हैं। प्रयोगों में, TUMIX ने state-of-the-art tool-augmented और test-time scaling methods की तुलना में महत्वपूर्ण gains हासिल किए, और प्रमुख reasoning benchmarks पर Gemini-2.5-Pro और Gemini-2.5-Flash में best baseline की तुलना में औसतन 3.55% तक accuracy improvement दिया, जबकि inference cost लगभग समान रही। हमने पाया कि agent diversity और quality बेहद महत्वपूर्ण हैं, और agent designs को auto-optimize करने के लिए LLMs का उपयोग करके इन्हें बेहतर किया जा सकता है। इसके अलावा, पर्याप्त confidence पर पहुँचने के बाद TUMIX refinement रोक सकता है, जिससे performance बनी रहती है और inference cost केवल 49% रह जाती है। आगे scaling करने से performance और बढ़ सकती है, हालांकि इसकी लागत भी अधिक होगी.
पेपर लिंक
https://arxiv.org/abs/2510.01279
अपनी ही भाषा में: छोटे models के लिए अनुकूलित reasoning traces उन्हें बेहतर reasoner बनाते हैं / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners
पेपर परिचय
बड़े भाषा models से छोटे models में reasoning क्षमता का transfer अक्सर अपेक्षा के विपरीत performance degradation की समस्या पैदा करता है। यह घटना supervised fine-tuning (SFT) प्रक्रिया के दौरान होने वाले distributional misalignment से उत्पन्न होती है, क्योंकि बड़े models के reasoning traces में ऐसे low-probability tokens शामिल होते हैं जो छोटे models के probability distribution से मेल नहीं खाते। इसके कारण छोटे models बड़े models के उन्नत reasoning patterns को प्रभावी रूप से सीख नहीं पाते और उल्टा learning barrier का सामना करते हैं.
इस समस्या को हल करने के लिए प्रस्तावित methodology, Reverse Speculative Decoding (RSD), इस तरह काम करती है कि teacher model candidate tokens प्रस्तावित करता है और student model अपने probability distribution के आधार पर तय करता है कि उन्हें स्वीकार करना है या नहीं। इस प्रक्रिया में low-probability tokens फ़िल्टर हो जाते हैं, जिससे छोटे models की क्षमता के दायरे में उपयोगी reasoning steps को बनाए रखा जा सकता है। RSD को Qwen3-0.6B model पर लागू किया गया, और जहाँ मौजूदा direct distillation approach से बने reasoning trace data ने average performance को 20.5% तक घटा दिया, वहीं RSD से बने reasoning traces पर training करने से 4.9% का सार्थक performance improvement मिला.
RSD का प्रभाव विभिन्न reasoning benchmarks में लगातार दिखाई दिया, जो यह रेखांकित करता है कि low-probability tokens प्रभावी reasoning transfer में एक प्रमुख bottleneck हैं। साथ ही, RSD को model-specific रूप से optimize किया जाना चाहिए, और यह संकेत देता है कि हर student model की विशिष्ट internal representations के अनुरूप distributional alignment आवश्यक है। इन शोध निष्कर्षों को छोटे models की performance improvement में योगदान देने वाली एक महत्वपूर्ण methodology के रूप में देखा जाता है, और यह भविष्य के शोध में इसके application की संभावनाएँ भी प्रस्तुत करता है.
निष्कर्षतः, RSD एक अभिनव approach है जो बड़े models की reasoning क्षमता को छोटे models तक प्रभावी रूप से transfer कर सकती है, और low-probability tokens की filtering के माध्यम से छोटे models की reasoning क्षमता को बेहतर बनाने में मदद करती है। यह शोध छोटे models की performance improvement के लिए एक नई दिशा प्रस्तुत करता है और भविष्य में AI तथा machine learning क्षेत्र में इसके applications का दायरा बढ़ाने वाली एक महत्वपूर्ण आधार सामग्री बन सकता है.
पेपर सारांश (Abstract)
बड़े language model से छोटे model में reasoning क्षमता का transfer supervised fine-tuning के ज़रिए अक्सर सहज अपेक्षा के विपरीत असफल हो जाता है, और high-quality teacher demonstrations उपलब्ध होने पर भी performance गिर जाती है। हमने पाया कि यह विफलता distributional misalignment से पैदा होती है: बड़े model के reasoning traces में ऐसे token शामिल होते हैं जिनकी probability छात्र model के distribution के तहत कम होती है, जिससे वे छोटे architecture की internal representation capacity से बाहर चले जाते हैं और उपयोगी guidance बनने के बजाय learning barrier बनाते हैं। हम Reverse Speculative Decoding (RSD) प्रस्तावित करते हैं, जो student-friendly reasoning traces बनाने का एक mechanism है, जिसमें teacher model candidate token सुझाता है लेकिन student model अपनी probability distribution के आधार पर उनके acceptance का निर्णय करता है, और low-probability token को फ़िल्टर कर देता है। Qwen3-0.6B पर लागू करने पर, s1K-1.1 reasoning trace data की direct distillation प्रमुख reasoning benchmarks पर औसत performance को 20.5% तक गिरा देती है, जबकि RSD से उत्पन्न reasoning traces पर trained वही model 4.9% का सार्थक सुधार हासिल करता है। हमारा analysis दिखाता है कि low-probability token reasoning क्षमता transfer में मुख्य bottleneck हैं। हालांकि, cross-model experiments यह भी दिखाते हैं कि RSD traces सार्वभौमिक रूप से लागू नहीं होते, बल्कि model-specific होते हैं, जो संकेत देता है कि distributional alignment को हर student architecture की विशिष्ट internal representation के अनुसार अनुकूलित करना होगा।
> बड़े language models से छोटे models में reasoning capabilities को supervised fine-tuning के माध्यम से transfer करना अक्सर अपेक्षा के विपरीत विफल हो जाता है, और high-quality teacher demonstrations उपलब्ध होने के बावजूद performance घट जाती है। हमने पाया कि यह विफलता distributional misalignment से आती है: बड़े models के reasoning traces में ऐसे token होते हैं जिनकी probability छात्र के distribution के तहत कम होती है, जो छोटे architectures की internal representation capacity से अधिक होते हैं और सहायक guidance के बजाय learning barrier पैदा करते हैं। हम Reverse Speculative Decoding (RSD) प्रस्तावित करते हैं, जो student-friendly reasoning traces बनाने का एक mechanism है, जिसमें teacher model candidate tokens प्रस्तावित करता है लेकिन student model अपनी probability distributions के आधार पर acceptance तय करता है, और low-probability tokens को फ़िल्टर करता है। Qwen3-0.6B पर लागू करने पर, s1K-1.1 reasoning trace data की direct distillation प्रमुख reasoning benchmarks पर औसत performance को 20.5% तक गिरा देती है, जबकि RSD-generated reasoning traces पर trained वही model 4.9% का महत्वपूर्ण सुधार हासिल करता है। हमारा analysis बताता है कि low-probability tokens reasoning ability transfer में critical bottleneck हैं। हालांकि, cross-model experiments दिखाते हैं that RSD traces सार्वभौमिक रूप से लागू नहीं हैं, बल्कि model-specific हैं, जो इंगित करता है कि distributional alignment को हर student architecture की अनूठी internal representation के अनुसार ढालना होगा।
पेपर लिंक
https://arxiv.org/abs/2509.22230
AgentMaster: मल्टीमोडल सूचना पुनर्प्राप्ति और विश्लेषण के लिए A2A और MCP protocols का उपयोग करने वाला multi-agent conversational framework / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis
पेपर परिचय
Artificial Intelligence (AI) क्षेत्र में Multi-Agent Systems (MAS) का विकास कई intelligent agents के सहयोग से जटिल समस्याएँ सुलझाने में महत्वपूर्ण भूमिका निभा रहा है। लेकिन मौजूदा MAS अभी भी agents के बीच seamless communication, coordination, और विभिन्न tools व resources के साथ interaction में कई चुनौतियों का सामना कर रहे हैं। इन समस्याओं के समाधान के लिए यह शोध AgentMaster नामक एक नया modular MAS framework प्रस्तावित करता है। यह framework Agent-to-Agent (A2A) communication protocol और Model Context Protocol (MCP) को एकीकृत करके dynamic coordination और flexible communication को संभव बनाता है।
AgentMaster एक unified conversational interface प्रदान करता है, जिसे इस तरह डिज़ाइन किया गया है कि उपयोगकर्ता बिना technical expertise के natural language में system के साथ interact कर सकें। इसके माध्यम से information retrieval, question answering, image analysis जैसी विभिन्न multimodal queries के लिए response दिया जा सकता है। इस शोध का मुख्य योगदान A2A और MCP का उपयोग करके agents के बीच प्रभावी coordination और specialized retrieval agents के बीच seamless communication को सक्षम बनाना है। इसके अलावा, AgentMaster user queries को specialized workflows में विभाजित करता है, जिसके ज़रिए automated query decomposition, task assignment, और dynamic routing को support मिलता है।
प्रयोगों के परिणामों में AgentMaster ने BERTScore F1 में 96.3% और LLM-as-a-Judge G-Eval में 87.1% का उच्च प्रदर्शन दर्ज किया। ये परिणाम agents के बीच मज़बूत automated coordination और domain-specific प्रासंगिक responses को प्रमाणित करते हैं, और MAS की संभावनाओं का विस्तार करने में योगदान देते हैं। यह शोध A2A और MCP को एकीकृत करने वाले MAS framework की नवाचारी प्रकृति को दर्शाता है, और collaborative व scalable conversational AI के विकास में महत्वपूर्ण योगदान देने की उम्मीद है।
पेपर सार (Abstract)
Multi-Agent Systems (MAS) का उभार, खासकर जब इन्हें Large Language Models (LLMs) के साथ एकीकृत किया जाता है, जटिल कार्यों के समाधान को काफी आसान बनाता है। हालांकि, मौजूदा सिस्टम अभी भी एजेंट-से-एजेंट संचार, समन्वय, और विभिन्न प्रकार के tools और resources के साथ interaction जैसी चुनौतियों का सामना कर रहे हैं। हाल ही में Anthropic का Model Context Protocol (MCP) और Google का Agent-to-Agent (A2A) communication protocol पेश किया गया है, और हमारी जानकारी के अनुसार ऐसे बहुत कम उदाहरण हैं जहाँ दोनों protocols को एक ही MAS framework के भीतर साथ में इस्तेमाल किया गया हो। हम AgentMaster का एक pilot study प्रस्तुत करते हैं, जो self-implemented A2A और MCP के साथ एक नया modular multi-protocol MAS framework है, और dynamic coordination, flexible communication, तथा तेज iteration के साथ rapid development को संभव बनाता है। एक unified conversational interface के माध्यम से, यह system बिना किसी पूर्व technical expertise के natural language interaction को support करता है और information retrieval, question answering, तथा image analysis जैसे कार्यों के लिए multimodal queries का जवाब देता है। प्रयोगों को human evaluation और quantitative metrics, जिनमें BERTScore F1 (96.3%) और LLM-as-a-Judge G-Eval (87.1%) शामिल हैं, के जरिए validate किया गया। ये परिणाम मजबूत automated inter-agent coordination, query decomposition, task allocation, dynamic routing, और domain-specific प्रासंगिक responses को दर्शाते हैं। कुल मिलाकर, हमारा प्रस्तावित framework MAS-संचालित domain-specific, collaborative, और scalable conversational AI की संभावित क्षमताओं में योगदान देता है。
> Artificial Intelligence (AI) में Multi-Agent Systems (MAS) का उभार, विशेष रूप से जब वे Large Language Models (LLMs) के साथ एकीकृत होते हैं, जटिल कार्यों के समाधान को बहुत आसान बना दिया है। हालांकि, वर्तमान सिस्टम अब भी inter-agent communication, coordination, और heterogeneous tools तथा resources के साथ interaction की चुनौतियों का सामना कर रहे हैं। हाल ही में Anthropic का Model Context Protocol (MCP) और Google का Agent-to-Agent (A2A) communication protocol पेश किया गया है, और हमारी जानकारी के अनुसार ऐसे बहुत कम application मौजूद हैं जहाँ दोनों protocols को एक ही MAS framework के भीतर उपयोग किया गया हो। हम AgentMaster का एक pilot study प्रस्तुत करते हैं, जो self-implemented A2A और MCP के साथ एक नया modular multi-protocol MAS framework है, और dynamic coordination, flexible communication, तथा तेज iteration के साथ rapid development को सक्षम बनाता है। एक unified conversational interface के माध्यम से, system बिना पूर्व technical expertise के natural language interaction को support करता है और information retrieval, question answering, तथा image analysis सहित कार्यों के लिए multimodal queries का उत्तर देता है। प्रयोगों को human evaluation और quantitative metrics, जिनमें BERTScore F1 (96.3%) और LLM-as-a-Judge G-Eval (87.1%) शामिल हैं, के माध्यम से validate किया गया। ये परिणाम मजबूत automated inter-agent coordination, query decomposition, task allocation, dynamic routing, और domain-specific प्रासंगिक responses को प्रदर्शित करते हैं। कुल मिलाकर, हमारा प्रस्तावित framework MAS द्वारा संचालित domain-specific, cooperative, और scalable conversational AI की संभावित क्षमताओं में योगदान देता है.
पेपर लिंक
https://arxiv.org/abs/2507.21105
ज्ञान को कुशलता से inject कैसे करें: Large Language Models के pre-training के लिए Knowledge Infusion Scaling Law / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models
पेपर परिचय
Large Language Models (LLMs) विभिन्न कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन यदि domain-specific optimization पर्याप्त न हो तो वे विशेषज्ञ ज्ञान वाले benchmarks पर कमजोर प्रदर्शन कर सकते हैं और hallucination की समस्या पैदा कर सकते हैं। इस अध्ययन में pre-training प्रक्रिया के दौरान domain knowledge को रणनीतिक रूप से inject करने की एक methodology प्रस्तावित की गई है, और इस प्रक्रिया में होने वाली memory collapse घटना पर विशेष ध्यान दिया गया है। memory collapse अत्यधिक knowledge infusion के कारण होती है, जिससे model की knowledge retention क्षमता तेजी से गिर जाती है। शोध टीम ने दो प्रमुख अवलोकन प्रस्तुत किए। पहला, प्रत्येक model एक ऐसा critical point दिखाता है जहाँ knowledge retention क्षमता अचानक गिरती है; दूसरा, यह collapse point model के size के साथ लगातार scaling संबंध दिखाता है.
इन insights के आधार पर, अध्ययन में knowledge infusion scaling law प्रस्तावित किया गया। यह law बड़े LLMs में inject किए जाने वाले domain knowledge की optimal मात्रा का अनुमान लगाने में मदद करता है, और विभिन्न model sizes तथा उनसे जुड़े token budgets पर किए गए प्रयोगों के माध्यम से इसकी effectiveness और generality को सत्यापित किया गया। विशेष रूप से, यह दिखाया गया कि memory collapse अत्यधिक knowledge infusion के कारण होती है, जो संकेत देता है कि sparse token-level knowledge infusion बड़े datasets में भी पर्याप्त हो सकती है.
अध्ययन ने अलग-अलग training dataset sizes और infusion frequency के अनुसार memory retention performance का भी मूल्यांकन किया, और पाया कि बड़े models अपेक्षाकृत कम knowledge के साथ भी saturation तक पहुँच सकते हैं। ये परिणाम LLMs के domain specialization और optimization के बारे में महत्वपूर्ण insights प्रदान करते हैं, और भविष्य के शोध में knowledge infusion strategies के design में योगदान देने की उम्मीद है। यह अध्ययन Large Language Models में knowledge infusion के प्रभाव का मूल्यांकन करने, memory retention क्षमता और collapse point की prediction के लिए methodology प्रस्तुत करने, तथा विभिन्न templates के प्रभाव का विश्लेषण करने पर केंद्रित है.
पेपर सारांश (Abstract)
बड़े language models (LLMs) ने विविध downstream tasks में अपनी प्रभावशाली सामान्य क्षमताओं के कारण काफ़ी ध्यान आकर्षित किया है। हालांकि, domain-specific optimization के बिना ये अक्सर specialized knowledge benchmarks पर कमज़ोर प्रदर्शन करते हैं और यहाँ तक कि hallucination भी उत्पन्न करते हैं। हालिया अध्ययनों से पता चलता है कि pretraining के दौरान रणनीतिक रूप से domain knowledge शामिल करने से downstream performance में काफ़ी सुधार हो सकता है। एक महत्वपूर्ण चुनौती इस infusion के संतुलन में है: यदि domain-specific data बहुत कम डाला जाए तो पर्याप्त specialization नहीं हो पाता, जबकि अत्यधिक infusion पहले से सीखी गई knowledge के catastrophic forgetting को ट्रिगर करता है। इस अध्ययन में हम over-infusion से उत्पन्न memory collapse की घटना पर ध्यान केंद्रित करते हैं। व्यवस्थित प्रयोगों के माध्यम से हमने दो प्रमुख अवलोकन किए। पहला, critical collapse point: हर मॉडल एक ऐसी threshold दिखाता है जिसके आगे उसकी knowledge retention क्षमता तेज़ी से गिरती है। दूसरा, scale correlation: ये collapse points मॉडल के आकार के साथ लगातार अनुपातिक रूप से बढ़ते हैं। इन insights के आधार पर, हम एक knowledge infusion scaling law प्रस्तावित करते हैं, जो छोटे मॉडलों का विश्लेषण करके बड़े LLMs में inject किए जाने वाले domain knowledge की optimal मात्रा का पूर्वानुमान लगाता है। विभिन्न model sizes और उनसे संबंधित token budgets पर व्यापक प्रयोगों के माध्यम से हमने अपने scaling law की effectiveness और generalizability, दोनों को सत्यापित किया।
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.
पेपर लिंक
https://arxiv.org/abs/2509.19371
Bifrost-1: patch-level CLIP latent variables के माध्यम से multimodal LLMs और diffusion models के बीच सेतु / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
पेपर परिचय
Bifrost-1 एक अभिनव framework प्रस्तावित करता है, जो pretrained multimodal large language models (MLLMs) और diffusion models को patch-level CLIP (Contrastive Language-Image Pretraining) image embeddings के माध्यम से जोड़ता है। मौजूदा approaches में high training cost और efficiency से जुड़ी समस्याएँ थीं, क्योंकि LLM ने pretraining के दौरान image representations का अनुभव नहीं किया था। Bifrost-1 इन समस्याओं को हल करने के लिए MLLM के CLIP visual encoder के साथ स्वाभाविक रूप से aligned patch-level image embeddings का उपयोग करता है और उन्हें diffusion model में एकीकृत करता है। इस प्रक्रिया में, ControlNet के lightweight adaptation के माध्यम से MLLM की मूल multimodal reasoning क्षमता को बनाए रखते हुए visual generation branch जोड़ी जाती है, जो patch-level image embeddings का पूर्वानुमान लगाती है।
Bifrost-1 का मुख्य नवाचार यह है कि यह patch-level CLIP latent variables का उपयोग करके MLLM और diffusion model के बीच कुशल bridging संभव बनाता है। इसके माध्यम से high-fidelity, controllable image generation हासिल की जाती है और training efficiency में काफ़ी सुधार होता है। प्रयोगों के परिणाम दिखाते हैं कि visual fidelity और multimodal understanding, दोनों पहलुओं में Bifrost-1 पहले की विधियों की तुलना में समान या बेहतर प्रदर्शन करता है, और training के दौरान computational cost को उल्लेखनीय रूप से घटाने में सफल रहा है।
इसके अलावा, व्यापक ablation studies के माध्यम से Bifrost-1 के design choices की प्रभावशीलता प्रदर्शित की गई है। ये अध्ययन multimodal information processing के महत्व को रेखांकित करते हैं और LLMs तथा diffusion models के बीच एकीकरण के माध्यम से अधिक उन्नत AI systems के निर्माण में योगदान देंगे। Bifrost-1 multimodal generation और understanding के लिए एक नया benchmark प्रस्तुत करता है और उम्मीद है कि यह भविष्य के शोध में एक महत्वपूर्ण मील का पत्थर साबित होगा।
पेपर सारांश(Abstract)
उच्च-फिडेलिटी visual synthesis क्षमताओं को बड़े भाषा मॉडल (LLM) में एकीकृत करने में रुचि बढ़ रही है, और यह काम उनकी मजबूत reasoning क्षमताओं से समझौता किए बिना आगे बढ़ रहा है। मौजूदा तरीके या तो सीधे LLM को train करते हैं या LLM और diffusion model के बीच bridging की कोशिश करते हैं, लेकिन backbone LLM ने pretraining के दौरान image representations नहीं देखे होते, इसलिए इन्हें महंगे training की समस्या झेलनी पड़ती है। हम Bifrost-1 प्रस्तावित करते हैं। यह एक unified framework है जो pretrained multimodal LLM (MLLM) और diffusion model को patch-level CLIP image embeddings को latent variables के रूप में इस्तेमाल करके जोड़ता है। ये patch-level image embeddings, MLLM के CLIP visual encoder के साथ स्वाभाविक रूप से aligned हैं। इन patch-level image embeddings को ControlNet के lightweight adaptation के जरिए diffusion model में एकीकृत किया जाता है। MLLM की मूल multimodal reasoning क्षमता बनाए रखने के लिए, हम patch-level image embeddings का prediction करते समय MLLM में original MLLM parameters से initialized visual generation branch जोड़ते हैं। pretrained MLLM और patch-level CLIP latent variables का उपयोग करके diffusion model को सहज रूप से एकीकृत करने के माध्यम से, हमारा framework उच्च-फिडेलिटी और controllable image generation को संभव बनाता है, साथ ही training efficiency को काफी बेहतर करता है। प्रयोगों के नतीजे दिखाते हैं कि Bifrost-1 ने visual fidelity और multimodal understanding दोनों में पिछले तरीकों के मुकाबले समान या बेहतर प्रदर्शन हासिल किया, और training के दौरान compute cost को काफी कम किया। इसके अलावा, हम अपनी design choices की प्रभावशीलता दिखाने वाले व्यापक ablation studies भी प्रस्तुत करते हैं.
> बड़े भाषा मॉडल (LLMs) में उच्च-फिडेलिटी visual synthesis क्षमताओं को उनकी मजबूत reasoning क्षमता से समझौता किए बिना एकीकृत करने में रुचि बढ़ रही है। मौजूदा तरीके, जो सीधे LLMs को train करते हैं या LLMs और diffusion models के बीच bridge बनाते हैं, आम तौर पर महंगे training से जूझते हैं क्योंकि backbone LLMs ने pretraining के दौरान image representations नहीं देखे होते। हम Bifrost-1 प्रस्तुत करते हैं, एक unified framework जो pretrained multimodal LLMs (MLLMs) और diffusion models को patch-level CLIP image embeddings को latent variables के रूप में उपयोग करके जोड़ता है, जो MLLM के CLIP visual encoder के साथ मूल रूप से aligned हैं। इन patch-level image embeddings को ControlNet के lightweight adaptation के साथ diffusion model में एकीकृत किया जाता है। MLLMs की मूल multimodal reasoning क्षमता बनाए रखने के लिए, patch-level image embeddings की भविष्यवाणी करते समय हम MLLM में original MLLM parameters से initialized एक visual generation branch जोड़ते हैं। pretrained MLLMs और diffusion models को patch-level CLIP latents के साथ सहज रूप से एकीकृत करके, हमारा framework महत्वपूर्ण training efficiency के साथ high-fidelity controllable image generation को सक्षम बनाता है। हमारे experiments दिखाते हैं कि Bifrost-1 visual fidelity और multimodal understanding के मामले में पिछले तरीकों की तुलना में समान या बेहतर performance हासिल करता है, जबकि training के दौरान compute काफी कम लगता है। हम अपनी design choices की प्रभावशीलता दिखाने वाले व्यापक ablation studies भी प्रदान करते हैं.
पेपर लिंक
https://arxiv.org/abs/2508.05954
आगे पढ़ें
VLM के लिए continual learning: forgetting से आगे का survey और taxonomy / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting
पेपर परिचय
Vision-Language Models (VLM) बड़े पैमाने की pretraining के जरिए विभिन्न multimodal tasks में उत्कृष्ट performance दिखाते हैं, लेकिन non-stationary data से लगातार सीखने में कई चुनौतियाँ मौजूद हैं। यह समस्या खास तौर पर इसलिए अधिक गंभीर है क्योंकि cross-modal alignment और generalization क्षमता catastrophic forgetting के प्रति संवेदनशील होती है। VLM का continual learning (VLM-CL), पारंपरिक single-modal continual learning से अलग विशिष्ट समस्याएँ रखता है, और यह पेपर VLM-CL के तीन प्रमुख failure modes की पहचान करता है तथा उन्हें हल करने के लिए challenge-based taxonomy प्रस्तावित करता है.
प्रस्तावित taxonomy में (1) multimodal replay strategies, (2) cross-modal regularization, और (3) parameter-efficient adaptation शामिल हैं। multimodal replay strategies, पिछले tasks की जानकारी को replay करके cross-modal feature drift को कम करने में मदद करती हैं, जबकि cross-modal regularization updates के दौरान modality alignment बनाए रखने पर केंद्रित है। parameter-efficient adaptation एक ऐसी methodology है जिसमें shared modules के interference की समस्या को हल करने के लिए मुख्य pretrained model को freeze रखा जाता है और केवल कुछ नए parameters को update किया जाता है.
यह पेपर VLM-CL के लिए एक comprehensive review प्रदान करता है, और मौजूदा evaluation protocols, datasets और metrics का विश्लेषण करके इस बात पर जोर देता है कि VLM-विशिष्ट forgetting और compositional generalization को पकड़ सकने वाले बेहतर benchmarks की जरूरत है। इसके अलावा, यह continual pretraining और compositional zero-shot learning सहित भविष्य के research directions भी प्रस्तुत करता है, ताकि शोधकर्ताओं को lifelong vision-language systems विकसित करने में उपयोगी संदर्भ सामग्री मिल सके। ऐसा व्यवस्थित और diagnostic approach, VLM के continual learning क्षेत्र में innovation को बढ़ावा देगा और वास्तव में lifelong learning multimodal AI systems के निर्माण की नींव रखने में योगदान करेगा.
पेपर सार (Abstract)
Vision-language models (VLM) ने बड़े पैमाने के pre-training का उपयोग करके विविध multimodal tasks में प्रभावशाली प्रदर्शन हासिल किया है। हालांकि, non-stationary data से लगातार सीखने में सक्षम बनाना अब भी एक बड़ी चुनौती है, क्योंकि उनकी cross-modal alignment और generalization क्षमताएँ विशेष रूप से catastrophic forgetting के प्रति संवेदनशील हैं। पारंपरिक unimodal continual learning (CL) से अलग, VLM को cross-modal feature drift, shared architecture के कारण parameter interference, और zero-shot क्षमता में गिरावट जैसी विशिष्ट चुनौतियों का सामना करना पड़ता है। यह survey paper VLM के लिए continual learning (VLM-CL) पर पहला केंद्रित और व्यवस्थित review प्रस्तुत करता है। हम पहले VLM-CL में प्रदर्शन घटाने वाले तीन मुख्य failure modes की पहचान करते हैं। इसके आधार पर हम समस्या-समाधान के लिए एक challenge-driven taxonomy प्रस्तावित करते हैं: (1) \textit{Multi-Modal Replay Strategies} स्पष्ट या अप्रत्यक्ष memory mechanisms के जरिए cross-modal drift को संबोधित करती हैं; (2) \textit{Cross-Modal Regularization} updates के दौरान modality alignment बनाए रखती है; और (3) \textit{Parameter-Efficient Adaptation} modular या low-rank updates के माध्यम से parameter interference को कम करती है। हम मौजूदा evaluation protocols, datasets, और metrics का भी विश्लेषण करते हैं, और ऐसे बेहतर benchmarks की आवश्यकता पर ज़ोर देते हैं जो VLM-विशिष्ट forgetting और compositional generalization को पकड़ सकें। अंत में, हम continual pre-training और compositional zero-shot learning सहित खुले प्रश्नों और भविष्य की दिशाओं को रेखांकित करते हैं। इस survey paper का उद्देश्य lifelong vision-language systems विकसित करने वाले शोधकर्ताओं के लिए एक व्यापक और diagnostic reference के रूप में काम करना है। सभी resources इस लिंक पर उपलब्ध हैं: https://github.com/YuyangSunshine/….
> Vision-language models (VLMs) ने बड़े पैमाने के pre-training का लाभ उठाकर विविध multimodal tasks में प्रभावशाली प्रदर्शन हासिल किया है। हालांकि, non-stationary data से लगातार सीखने में सक्षम बनाना अब भी एक बड़ी चुनौती बना हुआ है, क्योंकि उनकी cross-modal alignment और generalization क्षमताएँ विशेष रूप से catastrophic forgetting के प्रति संवेदनशील हैं। पारंपरिक unimodal continual learning (CL) के विपरीत, VLMs को cross-modal feature drift, shared architectures के कारण parameter interference, और zero-shot capability erosion जैसी अनोखी चुनौतियों का सामना करना पड़ता है। यह survey VLMs के लिए continual learning (VLM-CL) की पहली केंद्रित और व्यवस्थित समीक्षा प्रस्तुत करता है। हम VLM-CL में प्रदर्शन को कम करने वाले तीन मुख्य failure modes की पहचान से शुरुआत करते हैं। इनके आधार पर, हम एक challenge-driven taxonomy प्रस्तावित करते हैं जो solutions को उनकी target problems से जोड़ती है: (1) \textit{Multi-Modal Replay Strategies} स्पष्ट या अप्रत्यक्ष memory mechanisms के माध्यम से cross-modal drift को संबोधित करती हैं; (2) \textit{Cross-Modal Regularization} updates के दौरान modality alignment को बनाए रखती है; और (3) \textit{Parameter-Efficient Adaptation} modular या low-rank updates के साथ parameter interference को कम करती है। हम आगे वर्तमान evaluation protocols, datasets, और metrics का विश्लेषण करते हैं, और ऐसे बेहतर benchmarks की आवश्यकता को रेखांकित करते हैं जो VLM-specific forgetting और compositional generalization को capture कर सकें। अंत में, हम open problems और future directions को रेखांकित करते हैं, जिनमें continual pre-training और compositional zero-shot learning शामिल हैं। यह survey lifelong vision-language systems विकसित करने वाले शोधकर्ताओं के लिए एक comprehensive और diagnostic reference के रूप में काम करने का लक्ष्य रखता है। सभी resources यहाँ उपलब्ध हैं: https://github.com/YuyangSunshine/….
पेपर लिंक
https://arxiv.org/abs/2508.04227
और पढ़ें
https://github.com/YuyangSunshine/…
एजेंट महासंघ: बड़े पैमाने के agentic AI के लिए semantics-aware communication fabric / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI
पेपर परिचय
Federation of Agents (FoA) एक नवोन्मेषी distributed orchestration framework है, जो static multi-agent coordination को dynamic और capability-centered collaboration में बदलता है। यह system versioned capability vectors (VCVs) पेश करता है, जो agent की क्षमताओं को machine-readable profiles में बदलते हैं, ताकि agent अपनी capabilities, cost, और limitations को प्रभावी ढंग से advertise कर सकें। FoA की architecture में तीन प्रमुख innovations शामिल हैं। पहला, semantic routing के माध्यम से tasks को agents से match किया जाता है, जिसके लिए sharded HNSW index का उपयोग होता है और operational constraints का पालन करते हुए cost-biased optimization किया जाता है। दूसरा, dynamic task decomposition तकनीक के जरिए compatible agents जटिल tasks को DAG (Directed Acyclic Graph) के रूप में subtasks में विभाजित करते हैं और consensus-based merging के माध्यम से सहयोगपूर्वक काम करते हैं। तीसरा, smart clustering तकनीक समान subtasks संभालने वाले agents को collaborative channels में group करती है और k-round refinement के माध्यम से काम को और परिष्कृत करती है.
FoA, MQTT की publish-subscribe semantics पर आधारित होकर scalable message delivery को support करता है, और hierarchical capability matching तथा efficient index maintenance के माध्यम से sub-linear complexity हासिल करता है। HealthBench पर evaluation results दिखाते हैं कि FoA single-model baseline की तुलना में 13 गुना performance improvement देता है, और खास तौर पर यह साबित करता है कि clustering-enhanced collaboration कई दृष्टिकोणों की जरूरत वाले जटिल reasoning tasks में प्रभावी है। यह system horizontal scaling के साथ consistent performance बनाए रखता है, जिससे यह स्पष्ट होता है कि structured collaboration के जरिए semantic orchestration heterogeneous AI agent federations की collective intelligence का प्रभावी उपयोग कर सकती है। इस तरह का शोध multi-agent systems की efficiency को अधिकतम करने और जटिल tasks को अधिक प्रभावी ढंग से संभालने की methodology प्रस्तुत करके AI क्षेत्र की प्रगति में योगदान देने की अपेक्षा रखता है।
पेपर सार (Abstract)
नीचे AI/ML क्षेत्र के पेपर का abstract दिया गया है। हम Federation of Agents (FoA) प्रस्तुत करते हैं। FoA एक distributed orchestration framework है, जो स्थिर multi-agent coordination को dynamic, capability-driven collaboration में बदलता है। FoA, Versioned Capability Vectors (VCVs) पेश करता है। ये machine-readable profiles हैं, जो semantic embeddings के माध्यम से agent capabilities को searchable बनाते हैं, जिससे agents अपनी capabilities, cost और limitations का विज्ञापन कर सकें। हमारी architecture तीन प्रमुख innovations को जोड़ती है: (1) semantic routing, जो sharded HNSW indices के जरिए tasks को agents से match करता है और cost-biased optimization के माध्यम से operational constraints लागू करता है, (2) dynamic task decomposition, जिसमें compatible agents consensus-based merging के जरिए complex tasks को subtasks के DAG में मिलकर विभाजित करते हैं, और (3) smart clustering, जो समान subtasks पर काम करने वाले agents को synthesis से पहले k-round refinement के लिए collaborative channels में समूहित करता है। MQTT के publish-subscribe semantics पर निर्मित FoA, hierarchical capability matching और efficient index maintenance के जरिए sub-linear complexity हासिल करता है। HealthBench पर evaluation के नतीजे single-model baselines की तुलना में 13x सुधार दिखाते हैं, और यह साबित करते हैं कि clustering-enhanced collaboration कई दृष्टिकोणों की आवश्यकता वाले complex reasoning tasks में विशेष रूप से प्रभावी है। यह system horizontal scaling के साथ consistent performance बनाए रखता है, और दिखाता है कि structured collaboration के साथ semantic orchestration, heterogeneous AI agent federations की collective intelligence को उजागर कर सकती है।
> हम Federation of Agents (FoA) प्रस्तुत करते हैं, एक distributed orchestration framework जो static multi-agent coordination को dynamic, capability-driven collaboration में बदलता है। FoA, Versioned Capability Vectors (VCVs) पेश करता है: machine-readable profiles, जो semantic embeddings के माध्यम से agent capabilities को searchable बनाते हैं, जिससे agents अपनी capabilities, cost और limitations का विज्ञापन कर सकें। हमारी architecture तीन प्रमुख innovations को जोड़ती है: (1) semantic routing, जो sharded HNSW indices पर tasks को agents से match करता है और cost-biased optimization के माध्यम से operational constraints लागू करता है, (2) dynamic task decomposition, जिसमें compatible agents consensus-based merging के जरिए complex tasks को subtasks के DAGs में मिलकर विभाजित करते हैं, और (3) smart clustering, जो समान subtasks पर काम करने वाले agents को synthesis से पहले k-round refinement के लिए collaborative channels में समूहित करता है। Scalable message passing के लिए MQTT के publish-subscribe semantics पर निर्मित FoA, hierarchical capability matching और efficient index maintenance के जरिए sub-linear complexity हासिल करता है। HealthBench पर evaluation single-model baselines की तुलना में 13x सुधार दिखाता है, जिसमें clustering-enhanced collaboration विशेष रूप से उन complex reasoning tasks के लिए प्रभावी है जिन्हें कई दृष्टिकोणों की आवश्यकता होती है। यह system horizontal scaling के साथ consistent performance बनाए रखता है, और दिखाता है कि structured collaboration के साथ semantic orchestration, heterogeneous federations of AI agents की collective intelligence को unlock कर सकती है.
पेपर लिंक
https://arxiv.org/abs/2509.20175
बड़े भाषा मॉडलों के लिए efficient attention mechanisms का सर्वे / Efficient Attention Mechanisms for Large Language Models: A Survey
पेपर परिचय
Transformer-आधारित architecture बड़े भाषा मॉडलों का मूल है, लेकिन self-attention की quadratic time और memory complexity लंबे context को प्रोसेस करने में बड़ी बाधा बनती है। इसे हल करने के लिए हाल के शोध में efficient attention की दो प्रमुख तकनीकें प्रस्तावित की गई हैं: linear attention, जो kernel approximation, recurrent structures और fast weight dynamics का उपयोग करती है, और sparse attention, जो fixed patterns, block-wise routing और clustering का उपयोग करती है। यह survey paper algorithmic innovation और hardware perspective, दोनों को एकीकृत करते हुए इन तरीकों को व्यवस्थित रूप से संकलित करता है, और efficient attention को अपनाने वाले large-scale pre-trained language models के विभिन्न design approaches का विश्लेषण करता है। इस तरह यह scalable और efficient language model design के लिए theory और practical strategies के बीच एक आधारभूत कड़ी प्रदान करता है।
पेपर abstract (Abstract)
Transformer-आधारित आर्किटेक्चर बड़े language models की मुख्य backbone बन चुके हैं। लेकिन self-attention की quadratic time और memory complexity, लंबे context की efficient modeling में अब भी एक बुनियादी बाधा बनी हुई है। इस सीमा को दूर करने के लिए हालिया शोध में efficient attention mechanisms की दो प्रमुख श्रेणियां प्रस्तावित की गई हैं। Linear attention methods, kernel approximation, recurrent formulation, या fastweight dynamics के जरिए linear complexity हासिल करते हैं, जिससे computational overhead घटता है और scalable inference संभव होता है। दूसरी ओर, sparse attention techniques fixed patterns, block-wise routing, या clustering strategies के आधार पर attention computation को केवल चुने हुए token subsets तक सीमित करती हैं, जिससे contextual coverage बनाए रखते हुए efficiency बढ़ती है। यह survey paper algorithmic innovations और hardware-level considerations को एकीकृत करते हुए इन प्रगतियों का व्यवस्थित और व्यापक अवलोकन प्रस्तुत करता है। साथ ही, यह efficient attention को large-scale pre-trained language models में शामिल किए जाने के मामलों का विश्लेषण करता है, जिनमें पूरी तरह efficient attention पर आधारित architectures और local तथा global components को मिलाने वाले hybrid designs दोनों शामिल हैं। सैद्धांतिक आधारों और व्यावहारिक deployment strategies के बीच सामंजस्य स्थापित करके, यह कार्य scalable और efficient language model design को आगे बढ़ाने के लिए एक आधारभूत संदर्भ सामग्री के रूप में योगदान देने का लक्ष्य रखता है।
> Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.
पेपर लिंक
https://arxiv.org/abs/2507.19595
⚠️विज्ञापन⚠️: 🔥PyTorch Korea User Group🇰🇷 द्वारा संकलित यह लेख क्या आपको उपयोगी लगा? सदस्य के रूप में जुड़ें, और हम आपको प्रमुख लेख ईमेल💌 से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में भी बदला जा सकता है.)
अभी कोई टिप्पणी नहीं है.