[2025/12/15 ~ 21] इस हफ्ते पढ़ने लायक AI/ML पेपरों का संकलन

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ एजेंट adaptation का महत्व: इस हफ्ते चुने गए पेपर इस बात पर ज़ोर देते हैं कि agent-आधारित AI systems की performance और reliability बढ़ाने के लिए adaptation ज़रूरी है। agent और tool adaptation को एकीकृत करने वाला एक व्यवस्थित framework प्रस्तावित किया गया है, जो विभिन्न adaptation strategies के design space को स्पष्ट करता है और practical guide देता है।

2️⃣ memory systems का विकास: agent memory अब AI systems की एक core capability बन चुकी है, और memory systems के कई रूपों व functions पर शोध हो रहा है। यह मानते हुए कि मौजूदा memory classification आधुनिक agent memory की विविधता को पकड़ने के लिए पर्याप्त नहीं है, यह शोध memory के रूप, function और dynamics का एकीकृत विश्लेषण करके नए research directions सुझाता है।

3️⃣ कुशल model conversion और optimization: हाल के पेपर autoregressive language models (AR) से diffusion language models (dLM) में रूपांतरण के ज़रिए speed और accuracy दोनों सुधारने के तरीकों की तलाश कर रहे हैं। खास तौर पर, अलग-अलग attention patterns और training strategies की तुलना की गई है, और efficient conversion के लिए principles तथा methodologies प्रस्तावित की गई हैं ताकि model performance को अधिकतम किया जा सके।


एजेंटिक AI का adaptation / Adaptation of Agentic AI

पेपर परिचय

cutting-edge agentic AI systems foundation models पर आधारित हैं और अब वे लगातार अधिक जटिल तथा specialized tasks को पूरा करने की क्षमता हासिल कर रहे हैं। ऐसे systems की performance, reliability और generalization को बेहतर बनाने के लिए adaptation एक केंद्रीय mechanism बन चुका है। यह शोध agent adaptation और tool adaptation दोनों को समेटने वाला एक systematic framework प्रस्तुत करता है, जो विभिन्न adaptation strategies के design space को स्पष्ट करता है और strategies के बीच के trade-offs को सामने लाता है। framework को tool execution signals और agent output signals के आधार पर agent adaptation में विभाजित किया गया है, और इसे critic agent तथा supervisor agent के रूप में tool adaptation में भी बांटा गया है।

यह अध्ययन हर category में representative approaches की समीक्षा करता है, उनकी strengths और limitations का विश्लेषण करता है, और प्रमुख open challenges व future opportunities को रेखांकित करता है। खास तौर पर, शुरुआती A1-type methods supervised fine-tuning (Supervised Fine-Tuning) और direct preference optimization (Direct Preference Optimization) पर केंद्रित थे, और ये methods tool use से जुड़े model responses को इकट्ठा करके training signals प्राप्त करने की दिशा में विकसित हुए। Toolformer जैसे शुरुआती models ने self-supervised learning signals का उपयोग करके tool use बेहतर करने की कोशिश की, लेकिन real-world environments में उनकी सीमाएँ थीं।

इन सीमाओं को पार करने के लिए TRICE और ToolAlpaca जैसे बाद के models ने execution feedback के जरिए reinforcement learning अपनाया, ताकि tool use capability को सीधे सुधारा जा सके। TP-LLaMA failed paths का उपयोग करके model को अपनी विफलताओं से सीखने देने वाला नया approach पेश करता है, जबकि Gorilla बड़े machine learning API sets में सही API calls उत्पन्न करने के लिए structural correctness पर ज़ोर देता है। CodeAct executable code environment के साथ direct interaction के जरिए सीखने का paradigm प्रस्तावित करता है, जिससे verifiable results पर आधारित learning objectives तय करना संभव होता है।

अंत में, RLVR (verifiable rewards) आधारित methods model को tools और environment के साथ online interaction के जरिए सीधे सीखने देते हैं, जिससे adaptation अधिक dynamic और context-aware बनता है। यह शोध agentic AI systems के विकास में योगदान देता है और future research तथा practical application के लिए एक महत्वपूर्ण आधार प्रदान करता है।

पेपर सारांश(Abstract)

cutting-edge agent AI systems foundation models पर आधारित होते हैं, जिन्हें planning, reasoning और external tools के साथ interaction के लिए adapt किया जा सकता है ताकि वे लगातार अधिक जटिल और specialized tasks कर सकें। जैसे-जैसे इन systems की capability और scope बढ़ती है, adaptation performance, reliability और generalization सुधारने का एक केंद्रीय mechanism बन जाता है। इस paper में हम तेज़ी से फैलते research landscape को एक systematic framework में समेकित करते हैं, जो agent adaptations और tool adaptations दोनों को समेटता है। हम इसे आगे tool-execution-signaled और agent-output-signaled forms of agent adaptation, तथा agent-agnostic और agent-supervised forms of tool adaptation में विभाजित करते हैं। हम दिखाते हैं कि यह framework agentic AI में adaptation strategies के design space को स्पष्ट करने, उनके trade-offs को प्रत्यक्ष बनाने, और system design के दौरान strategies को चुनने या बदलने के लिए practical guidance देने में मदद करता है। इसके बाद हम प्रत्येक category में representative approaches की समीक्षा करते हैं, उनकी strengths और limitations का विश्लेषण करते हैं, और प्रमुख open challenges तथा future opportunities को उजागर करते हैं। कुल मिलाकर, यह paper अधिक capable, efficient और reliable agentic AI systems बनाने की कोशिश कर रहे researchers और practitioners के लिए एक conceptual foundation और practical roadmap प्रदान करने का लक्ष्य रखता है।

Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.

पेपर लिंक

https://arxiv.org/abs/2512.16301

और पढ़ें

https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI


AI एजेंट्स के युग में memory / Memory in the Age of AI Agents

पेपर परिचय

agent memory आधुनिक artificial intelligence (AI) systems में एक अनिवार्य तत्व के रूप में स्थापित हो चुकी है, और यह शोध इस memory की जटिलता और विविधता को व्यवस्थित रूप से व्यवस्थित और विश्लेषित करने का लक्ष्य रखता है। मौजूदा शोधों में agent memory की motivation, implementation methods और evaluation protocols में बड़े अंतर दिखाई देते हैं, जिसके कारण conceptual clarity की कमी बनी हुई है। इसलिए यह paper agent memory की सीमा को स्पष्ट रूप से परिभाषित करता है और large language model (LLM) memory, retrieval-augmented generation (RAG), context engineering आदि से इसकी भिन्नता पर ज़ोर देता है।

यह शोध agent memory का विश्लेषण तीन दृष्टिकोणों से करता है: form, function और dynamics। रूपात्मक दृष्टिकोण से यह token-level, parametric और latent memory के तीन प्रमुख रूप प्रस्तुत करता है, और हर रूप की विशेषताओं तथा उसके काम करने के तरीके को समझाता है। functional दृष्टिकोण से यह factual, experiential और working memory में भेद करता है, ताकि हर memory की भूमिका स्पष्ट हो सके। dynamics के दृष्टिकोण से यह memory के बनने, विकसित होने और retrieve होने की प्रक्रिया का अध्ययन करता है, और विश्लेषण करता है कि environment के साथ interaction के दौरान agent में memory कैसे काम करती है।

यह शोध व्यावहारिक development को समर्थन देने के लिए memory benchmark और open source framework का एक व्यापक सारांश भी प्रदान करता है, और memory automation, reinforcement learning integration, multimodal memory, multi-agent memory जैसी नई research frontier पर एक दृष्टिकोण प्रस्तुत करता है। यह दृष्टिकोण agent memory system के design में memory को first-class primitive concept के रूप में फिर से सोचने की नींव रखता है और भविष्य के शोध की दिशा सुझाता है。

नतीजतन, यह paper agent memory research की वर्तमान स्थिति को समग्र रूप से व्यवस्थित करता है और भविष्य के शोध के लिए insights प्रदान करके AI agent के memory system को आगे बढ़ाने में योगदान देने की उम्मीद रखता है।

पेपर सारांश(Abstract)

Memory foundation model-आधारित agent की एक मुख्य capability के रूप में उभरी है, और आगे भी महत्वपूर्ण भूमिका निभाती रहेगी। Agent memory पर research तेज़ी से बढ़ रही है और अभूतपूर्व ध्यान आकर्षित कर रही है, लेकिन इसके साथ यह क्षेत्र increasingly fragmented भी होता जा रहा है। Agent memory की श्रेणी में आने वाले मौजूदा कार्य अक्सर motivation, implementation और evaluation protocol के स्तर पर काफ़ी अलग-अलग हैं, जबकि ढीले ढंग से परिभाषित memory terminology के प्रसार ने conceptual clarity को और धुंधला कर दिया है। पारंपरिक taxonomy जैसे long/short-term memory समकालीन agent memory system की विविधता को पकड़ने के लिए अपर्याप्त साबित हुए हैं। यह अध्ययन वर्तमान agent memory research का एक up-to-date landscape प्रदान करने का लक्ष्य रखता है। हम agent memory के दायरे को स्पष्ट रूप से परिभाषित करने और उसे LLM memory, retrieval-augmented generation (RAG), और context engineering जैसी संबंधित अवधारणाओं से अलग करने से शुरू करते हैं। इसके बाद हम forms, functions और dynamics के एकीकृत दृष्टिकोण से agent memory की जांच करते हैं। Forms के दृष्टिकोण से, हम agent memory के तीन प्रमुख realization की पहचान करते हैं: token-level, parametric, और latent memory। Functions के दृष्टिकोण से, हम एक अधिक fine-grained taxonomy प्रस्तावित करते हैं जो factual, experiential, और working memory में अंतर करती है। Dynamics के दृष्टिकोण से, हम विश्लेषण करते हैं कि memory समय के साथ कैसे बनती है, विकसित होती है, और retrieve की जाती है। व्यावहारिक development को समर्थन देने के लिए, हम memory benchmark और open-source framework का एक व्यापक सारांश संकलित करते हैं। Consolidation से आगे बढ़ते हुए, हम memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, और trustworthiness issues सहित उभरती research frontiers पर एक forward-looking perspective प्रस्तुत करते हैं। हमें आशा है कि यह survey न केवल मौजूदा research के लिए reference के रूप में काम करेगा, बल्कि future agentic intelligence के design में memory को first-class primitive के रूप में पुनर्विचार करने के लिए एक conceptual foundation भी प्रदान करेगा।
> Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.

पेपर लिंक

https://arxiv.org/abs/2512.13564

आगे पढ़ें

https://github.com/Shichun-Liu/Agent-Memory-Paper-List


बड़े भाषा मॉडल-आधारित एजेंटों में detailed balance / Detailed balance in large language model-driven agents

पेपर परिचय

बड़े भाषा मॉडल (LLM) आधारित agent जटिल समस्याओं को हल करने के लिए एक क्रांतिकारी approach प्रदान कर रहे हैं, लेकिन इन systems की empirical success के बावजूद एक सैद्धांतिक framework की कमी बनी हुई है। यह अध्ययन least action principle के आधार पर LLM की generation directionality का अनुमान लगाने के लिए एक नई methodology प्रस्तावित करता है। यह methodology LLM द्वारा जनरेट किए गए states के बीच transition probability को प्रायोगिक रूप से मापकर, LLM-generated transitions में पाए गए detailed balance को सांख्यिकीय रूप से प्रमाणित करती है। यह खोज संकेत देती है कि LLM किसी विशेष rule set या strategy को सीखने के बजाय, implicit रूप से potential function की ऐसी class सीख सकते हैं जो विभिन्न LLM architecture और prompt template से परे भी लागू हो सके।

यह शोध LLM generation dynamics में macroscopic physical law की पहली खोज का उदाहरण है, और जटिल artificial intelligence (AI) systems के macroscopic dynamics theory को स्थापित करने का प्रयास करता है। इसके माध्यम से यह AI agent research को केवल engineering practices के संग्रह से आगे बढ़ाकर एक ऐसी science में बदलने की नींव रखना चाहता है जो predictable और quantifiable हो। LLM की generation process में होने वाले transition dynamics को समझना, ऐसे systems के काम करने के सिद्धांत को स्पष्ट करने के लिए आवश्यक है।

यह अध्ययन LLM की generation dynamics को समझाने के लिए एक नया theoretical framework प्रस्तावित करता है, और इसके माध्यम से AI research के लिए एक नई दिशा प्रस्तुत करता है। Experimental approach से एकत्रित data, LLM के working principle को समझने में महत्वपूर्ण योगदान देता है और भविष्य के शोध के लिए आधार सामग्री के रूप में उपयोग किया जा सकता है। ये शोध परिणाम LLM-आधारित agent के design और उपयोग में महत्वपूर्ण insights प्रदान करते हैं, और AI तकनीक के विकास में योगदान देने की उम्मीद है।

पेपर सारांश(Abstract)

LLM-आधारित एजेंट जटिल समस्याओं को हल करने के लिए एक शक्तिशाली नए paradigm के रूप में उभर रहे हैं। इन तरीकों की अनुभवजन्य सफलता के बावजूद, इनके मैक्रोस्कोपिक dynamics को समझने और एकीकृत करने के लिए एक सैद्धांतिक framework अब भी नहीं है। इस पेपर में minimum action principle पर आधारित एक विधि प्रस्तावित की गई है, जो एजेंट के भीतर अंतर्निहित LLM की मूल generative directionality का अनुमान लगाती है। LLM द्वारा उत्पन्न states के बीच transition probabilities को प्रयोगात्मक रूप से मापकर, शोधकर्ताओं ने LLM-जनित transitions में सांख्यिकीय रूप से detailed balance की खोज की। इससे संकेत मिलता है कि LLM generation सामान्य रूप से rule sets और strategies सीखकर नहीं, बल्कि ऐसे अंतर्निहित potential functions की एक class को अप्रत्यक्ष रूप से सीखकर हासिल हो सकता है, जो विभिन्न LLM architectures और prompt templates से परे जा सकती है। हमारी जानकारी के अनुसार, यह LLM generative dynamics में किसी विशिष्ट model details पर निर्भर न रहने वाले मैक्रोस्कोपिक physical law की पहली खोज है। यह शोध जटिल AI systems के मैक्रोस्कोपिक dynamics theory को स्थापित करने का एक प्रयास है, जिसका लक्ष्य AI agents के अध्ययन को engineering practices के एक संग्रह से आगे बढ़ाकर प्रभावी, पूर्वानुमेय और मात्रात्मक measurements पर आधारित एक science बनाना है。
> Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.

पेपर लिंक

https://arxiv.org/abs/2512.10047


Efficient-DLM: कुशल DLM: Autoregressive से Diffusion Language Models तक, और speed से भी आगे / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

पेपर परिचय

Diffusion Language Models (dLM) एक आशाजनक paradigm के रूप में उभर रहे हैं, क्योंकि वे parallel non-autoregressive generation को संभव बनाते हैं, लेकिन Autoregressive Language Models (AR) की तुलना में उनकी training efficiency कम होती है। इस समस्या को हल करने के लिए, AR models को efficient dLM में बदलने की एक methodology प्रस्तावित की गई है। शोधकर्ताओं ने मौजूदा AR-to-dLM conversion methods की सीमाओं का विश्लेषण किया और पाया कि AR model के pre-trained weight distribution को बनाए रखना प्रभावी conversion के लिए आवश्यक है।

इसके आधार पर, block-wise attention pattern को बनाए रखने वाली continuous pretraining विधि पेश की गई। यह तरीका हर block के भीतर bidirectional modeling को संभव बनाता है, जिससे AR model के weight distribution को बेहतर ढंग से संरक्षित किया जा सकता है। इसके अलावा, यह KV caching को संभव बनाता है, जिससे accuracy और efficiency दोनों में सुधार होता है। training के दौरान mask token distribution के अंतर को कम करने के लिए position-dependent token masking strategy भी प्रस्तावित की गई, जो training के दौरान बाद के tokens को अधिक masking probability देती है ताकि test-time behavior की बेहतर नकल की जा सके।

इन methodologies के माध्यम से dLM के attention patterns, training dynamics और design choices पर व्यापक अध्ययन किया गया, जो AR से dLM में scalable conversion के लिए व्यावहारिक insights प्रदान करता है। अंततः, Efficient-DLM family ने नवीनतम AR models और dLMs से बेहतर प्रदर्शन दिखाया। विशेष रूप से, Efficient-DLM 8B ने Dream 7B और Qwen3 4B की तुलना में क्रमशः +5.4% और +2.7% अधिक accuracy, तथा 4.5x और 2.7x अधिक throughput हासिल किया। यह शोध AR models से dLM में प्रभावी conversion के लिए एक नई methodology प्रस्तुत करता है और training efficiency तथा model performance दोनों को बेहतर बनाने में योगदान देता है।

पेपर सार (Abstract)

Diffusion language models (dLMs) एक उभरता हुआ आशाजनक paradigm है, जो parallel, non-autoregressive generation को संभव बनाता है, लेकिन scratch से train करने पर इसकी learning efficiency autoregressive (AR) language models की तुलना में कम रहती है। इसे हल करने के लिए, हम AR-to-dLM conversion का अध्ययन करते हैं, ताकि pretrained AR models को efficient dLMs में बदला जा सके, जो speed में बेहतर हों और साथ ही AR models की task accuracy को बनाए रखें। इसके लिए हम मौजूदा AR-to-dLM तरीकों के attention patterns और objectives की सीमाओं की पहचान करते हैं और अधिक प्रभावी AR-to-dLM conversion के लिए सिद्धांत और methodology प्रस्तावित करते हैं। विशेष रूप से, हम पहले विभिन्न attention patterns की व्यवस्थित तुलना करते हैं और पाते हैं कि pretrained AR weight distributions को बनाए रखना प्रभावी AR-to-dLM conversion के लिए महत्वपूर्ण है। इसलिए, हम एक continuous pretraining scheme पेश करते हैं, जिसमें block-wise attention pattern होता है, जो blocks के बीच causal बना रहता है, जबकि हर block के भीतर bidirectional modeling को सक्षम करता है। हम पाते हैं कि यह approach fully bidirectional modeling की तुलना में pretrained AR models की weight distributions को बेहतर संरक्षित कर सकता है, और KV caching को सक्षम करने के इसके ज्ञात लाभ के साथ accuracy और efficiency दोनों में win-win परिणाम देता है। दूसरा, mask token distributions में training-test gap को कम करने के लिए, हम एक position-dependent token masking strategy प्रस्तावित करते हैं, जो training के दौरान बाद के tokens को अधिक masking probability देती है, ताकि test-time behavior की बेहतर नकल की जा सके। इस framework का उपयोग करते हुए, हम dLMs के attention patterns, training dynamics और अन्य design choices पर व्यापक अध्ययन करते हैं, जिससे scalable AR-to-dLM conversion के लिए व्यावहारिक insights मिलती हैं। इन अध्ययनों से Efficient-DLM family विकसित हुई, जो state-of-the-art AR models और dLMs से बेहतर प्रदर्शन करती है। उदाहरण के लिए, हमारा Efficient-DLM 8B, Dream 7B और Qwen3 4B की तुलना में क्रमशः +5.4%/+2.7% अधिक accuracy और 4.5x/2.7x अधिक throughput हासिल करता है。
> Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

शोध-पत्र लिंक

https://arxiv.org/abs/2512.14067


सब कुछ context है: context engineering के लिए agentic file system abstraction / Everything is Context: Agentic File System Abstraction for Context Engineering

शोध-पत्र परिचय

Generative AI (GenAI) की प्रगति ने software systems के design में क्रांतिकारी बदलाव लाए हैं, खासकर foundation models के माध्यम से architecture और operations को फिर से परिभाषित किया जा रहा है। मौजूदा समय की मुख्य चुनौती model fine-tuning से आगे बढ़कर 'context engineering' की ओर शिफ्ट हो गई है, जिसका लक्ष्य external knowledge, memory, tools और human input को प्रभावी ढंग से capture और structure करना है। Prompt engineering या retrieval-augmented generation (RAG) जैसे मौजूदा approaches बिखरे हुए हैं, और इसके कारण बने context artifacts अक्सर अस्थायी होते हैं तथा उन्हें verify करना कठिन होता है।

यह शोध Unix की "everything is a file" philosophy से प्रेरित होकर context engineering के लिए file system abstraction का प्रस्ताव रखता है। यह abstraction heterogeneous context artifacts को manage करने के लिए persistent और managed infrastructure प्रदान करता है, जिससे consistent mounting, metadata और access control संभव हो पाते हैं। AIGNE framework के भीतर implement की गई यह architecture, context generators, loaders और evaluators से बनी एक verifiable context engineering pipeline के माध्यम से token constraints के तहत context को assemble, deliver और verify करने का काम करती है।

जैसे-जैसे GenAI decision support में एक सक्रिय collaborator के रूप में स्थापित हो रहा है, वैसे-वैसे मनुष्य curator, verifier और co-reasoner के रूप में केंद्रीय भूमिका निभाने लगते हैं। यह शोध memory वाले agents और MCP-आधारित GitHub assistant के जरिए प्रस्तावित architecture की व्यावहारिकता को प्रदर्शित करता है और developer तथा industry environments में इसकी operational viability दिखाता है। यह approach जिम्मेदार और human-centered AI collaboration के लिए एक reusable foundation स्थापित करता है और verifiable तथा maintainable GenAI systems को support देने में योगदान करता है।

निष्कर्षतः, यह शोध GenAI system design में context engineering के महत्व पर जोर देता है और दिखाता है कि file system-आधारित abstraction किस तरह persistent और transparent context management की नींव रख सकता है।

शोध-पत्र सार (Abstract)

Generative AI (GenAI) ने software system design को फिर से आकार दिया है, क्योंकि इसने foundation models को pre-trained subsystems के रूप में पेश किया है। अब नई चुनौती model fine-tuning नहीं, बल्कि context engineering है—यानी सिस्टम किस तरह external knowledge, memory, tools और human input को capture, structure और manage करते हैं ताकि भरोसेमंद reasoning संभव हो सके। Prompt engineering, retrieval-augmented generation (RAG), और tool integration जैसी मौजूदा प्रथाएं बिखरी हुई हैं, और ऐसे अस्थायी artefacts बनाती हैं जो traceability और accountability को सीमित करते हैं। यह पेपर context engineering के लिए एक file-system abstraction प्रस्तावित करता है, जो Unix की इस अवधारणा से प्रेरित है कि 'everything is a file'। यह abstraction uniform mounting, metadata और access control के जरिए heterogeneous context artefacts को manage करने के लिए एक persistent और governed infrastructure प्रदान करता है। Open source AIGNE framework के भीतर लागू यह architecture एक verifiable context-engineering pipeline को साकार करता है, जिसमें Context Constructor, Loader और Evaluator शामिल हैं, जो token constraints के तहत context को assemble, deliver और validate करते हैं। जैसे-जैसे GenAI decision support में एक active collaborator बनता जा रहा है, इंसान curator, verifier और co-reasoner के रूप में केंद्रीय भूमिका निभाते हैं। प्रस्तावित architecture दो उदाहरणों—memory वाले agent और MCP-based GitHub assistant—के जरिए accountable और human-centred AI collaboration के लिए एक reusable foundation स्थापित करता है। AIGNE framework के भीतर इसका implementation दिखाता है कि यह architecture developer और industrial settings में कैसे operationalise किया जा सकता है, और verifiable, maintainable तथा industry-ready GenAI systems को support करता है。
> Generative AI (GenAI) ने software system design को फिर से आकार दिया है, क्योंकि इसने foundation models को pre-trained subsystems के रूप में पेश किया है, जो architectures और operations को फिर से परिभाषित करते हैं। उभरती हुई चुनौती अब model fine-tuning नहीं, बल्कि context engineering है—यानी सिस्टम किस तरह external knowledge, memory, tools और human input को capture, structure और govern करते हैं ताकि trustworthy reasoning संभव हो सके। Prompt engineering, retrieval-augmented generation (RAG), और tool integration जैसी मौजूदा प्रथाएं अब भी fragmented हैं, और ऐसे transient artefacts बनाती हैं जो traceability और accountability को सीमित करते हैं। यह पेपर context engineering के लिए एक file-system abstraction प्रस्तावित करता है, जो Unix की इस धारणा से प्रेरित है कि 'everything is a file'। यह abstraction uniform mounting, metadata और access control के माध्यम से heterogeneous context artefacts को manage करने के लिए एक persistent, governed infrastructure प्रदान करता है। Open-source AIGNE framework के भीतर लागू यह architecture एक verifiable context-engineering pipeline को साकार करता है, जिसमें Context Constructor, Loader और Evaluator शामिल हैं, जो token constraints के तहत context को assemble, deliver और validate करते हैं। जैसे-जैसे GenAI decision support में एक सक्रिय collaborator बनता जा रहा है, इंसान curator, verifier और co-reasoner के रूप में केंद्रीय भूमिका निभाते हैं। प्रस्तावित architecture accountable और human-centred AI co-work के लिए एक reusable foundation स्थापित करता है, जिसे दो exemplars—memory वाला agent और MCP-based GitHub assistant—के जरिए प्रदर्शित किया गया है। AIGNE framework के भीतर किया गया implementation दिखाता है कि इस architecture को developer और industrial settings में कैसे operationalised किया जा सकता है, और यह verifiable, maintainable तथा industry-ready GenAI systems को support करता है.

पेपर लिंक

https://arxiv.org/abs/2512.05470


एजेंट सिस्टमों के scaling के विज्ञान की ओर / Towards a Science of Scaling Agent Systems

पेपर परिचय

Agent और language model आधारित systems वास्तविक AI applications में लगातार अधिक महत्वपूर्ण भूमिका निभा रहे हैं, लेकिन इन systems के performance को तय करने वाले सिद्धांतों का अभी पर्याप्त अध्ययन नहीं हुआ है। यह शोध agent systems के quantitative scaling principles निकालकर इस कमी को दूर करने का प्रयास करता है, ताकि practitioners अनुभव-आधारित तरीकों के बजाय सिद्धांत-आधारित design choices कर सकें। यह अध्ययन चार अलग-अलग benchmarks—Finance-Agent, BrowseComp-Plus, PlanCraft, और Workbench—पर किया गया है, और इसमें पांच विशिष्ट architectures (single, isolated, centralized, distributed, hybrid) को तीन language model families पर लागू करके 180 configurations का controlled evaluation किया गया है.

इस शोध का केंद्र empirical coordination metrics का उपयोग करके predictive model तैयार करना है। यह model efficiency, overhead, error amplification और redundancy जैसे कई factors को ध्यान में रखता है, और cross-validated R² value 0.513 हासिल करता है। अध्ययन में तीन प्रमुख effects की पहचान की गई। पहला, tool-coordination trade-off यह दिखाता है कि fixed compute budget के तहत tool-centric tasks पर multi-agent overhead का असंतुलित रूप से अधिक असर पड़ता है। दूसरा, capability saturation यह दर्शाता है कि जब single-agent performance लगभग 45% से ऊपर चला जाता है, तो coordination का लाभ घट जाता है या negative returns देने लगता है। तीसरा, topology-dependent error amplification यह बताता है that isolated agents errors को 17.2 गुना बढ़ा देते हैं, जबकि centralized coordination इसे 4.4 गुना तक सीमित रखता है.

Centralized coordination parallelisable tasks, जैसे financial reasoning, में performance को 80.9% तक बढ़ाता है, जबकि distributed coordination dynamic web navigation में तुलनात्मक रूप से बेहतर performance दिखाता है। लेकिन sequential reasoning tasks में सभी multi-agent variants performance को 39-70% तक घटा देते हैं। ये निष्कर्ष agent systems के performance की भविष्यवाणी करने और optimal coordination strategies सुझाने में महत्वपूर्ण योगदान देते हैं, और agentic tasks की प्रकृति पर आधारित predictive principles प्रदान करते हैं। यह शोध agent systems के scaling principles को मात्रात्मक रूप से निकालकर practitioners के लिए systems को अधिक प्रभावी ढंग से design और optimise करने की बुनियाद तैयार करता है.

पेपर सार (Abstract)

एजेंट, यानी भाषा मॉडल (LM) आधारित सिस्टम, जो reasoning, planning और acting करने में सक्षम हैं, वास्तविक AI applications के लिए प्रमुख paradigm बनते जा रहे हैं। इतनी व्यापक adoption के बावजूद, इनके performance को निर्धारित करने वाले सिद्धांतों पर अभी पर्याप्त अध्ययन नहीं हुआ है, जिसके कारण practitioners को principled design choices के बजाय heuristics पर निर्भर रहना पड़ता है। हम agent systems के लिए quantitative scaling principles निकालकर इस gap को संबोधित करते हैं। हम इसका मूल्यांकन चार विविध benchmarks—Finance-Agent, BrowseComp-Plus, PlanCraft, और Workbench—पर करते हैं। तीन LLM families में पाँच canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) को लागू करके, standardized tools और token budgets के साथ 180 configurations पर controlled evaluation किया गया। हमने efficiency, overhead, error amplification, और redundancy सहित empirical coordination metrics का उपयोग करके एक predictive model तैयार किया, जिसने cross-validated $R^2=0.513$ हासिल किया। हमने तीन प्रमुख प्रभावों की पहचान की: (1) tool-coordination trade-off: fixed computational budgets के तहत, tool-heavy tasks पर multi-agent overhead का अनुपातहीन रूप से अधिक प्रभाव पड़ता है। (2) capability saturation: जब single-agent baseline लगभग 45% से ऊपर चला जाता है, तो coordination का लाभ घटने लगता है या नकारात्मक हो जाता है (beta=-0.408, p<0.001)। (3) topology-dependent error amplification: independent agents अनियंत्रित propagation के कारण errors को 17.2x तक बढ़ा देते हैं, जबकि centralized coordination इसे 4.4x तक सीमित रखता है। Centralized coordination, financial reasoning जैसे parallelizable tasks में performance को 80.9% तक सुधारता है, जबकि decentralized coordination dynamic web navigation में बेहतर प्रदर्शन दिखाता है (+9.2% बनाम +0.2%)। लेकिन sequential reasoning tasks में, सभी multi-agent variants ने performance को 39-70% तक घटा दिया। यह framework held-out configurations के 87% के लिए optimal coordination strategy की भविष्यवाणी करता है और measurable task properties के आधार पर agentic scaling का एक predictive principle प्रदान करता है。
> Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

पेपर लिंक

https://arxiv.org/abs/2512.08296


LMCache: enterprise scale के LLM inference के लिए एक efficient KV cache layer / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

पेपर परिचय

बड़े भाषा मॉडल (LLM) inference की efficiency बढ़ाने के लिए LMCache नाम का एक नया approach प्रस्तावित किया गया है। परंपरागत रूप से KV cache को GPU memory में store किया जाता था और इसका उपयोग LLM के decoding चरण को तेज़ करने के लिए होता था, लेकिन हाल के समय में users द्वारा store किए जाने वाले KV cache की मात्रा GPU memory capacity से अधिक होने लगी है। इसी पृष्ठभूमि में LMCache, KV cache को GPU के बाहर ले जाकर अलग-अलग queries और inference engines के बीच उसके reuse को संभव बनाने वाला पहला open source solution बनकर उभरा है।

LMCache की मुख्य क्षमताएँ cache offload और prefill-decode (PD) disaggregation को support करना हैं। इसके जरिए queries के बीच prefix reuse संभव होता है, और अलग-अलग GPUs के बीच cache transfer आसान हो जाता है। LMCache तीन प्रमुख योगदानों के माध्यम से performance को अधिकतम करता है। पहला, इसने batched data movement operations तथा compute और input/output (I/O) pipelining के जरिए KV cache data movement को optimize किया। दूसरा, इसने modular KV cache connectors पेश किए, ताकि अलग-अलग inference engines के विकास के साथ लचीले ढंग से अनुकूलन किया जा सके। तीसरा, इसने GPU, CPU, storage, और network layers के बीच cache coordination के लिए first-class control APIs प्रदान किए, जिससे users को अधिक flexibility मिलती है।

LMCache का performance, vLLM के साथ मिलाकर, multi-round question answering और document analysis जैसे विभिन्न tasks में throughput को अधिकतम 15 गुना तक बढ़ाता हुआ दिखाया गया। वास्तविक use cases के जरिए यह भी पुष्टि हुई कि remote storage से KV cache लाना prefill latency को कम करने में प्रभावी है, और इसने यह महत्वपूर्ण insight भी दी कि industry में व्यापक रूप से इस्तेमाल होने वाली context truncation technique prefix cache hit rate को आधा कर सकती है।

निष्कर्षतः, LMCache LLM inference की efficiency को उल्लेखनीय रूप से बढ़ाने वाला एक अभिनव solution है, और उम्मीद की जाती है कि enterprise environments में इसके large-scale adoption के जरिए यह विभिन्न industries में योगदान देगा। यह LLM engines को distributed computing और storage ecosystem में रूपांतरित करता है, और संकेत देता है कि भविष्य में AI-native data, LLM inference की बुनियाद बन सकता है।

पेपर सारांश (Abstract)

KV cache को पारंपरिक रूप से बड़े language model (LLM) inference के decoding चरण को तेज़ करने के लिए GPU memory में संग्रहीत किया जाता रहा है। हालांकि, अलग-अलग query और inference engine के बीच cache reuse सक्षम करने के लिए KV cache को GPU device के बाहर ले जाने की आवश्यकता लगातार बढ़ रही है। हमारे वास्तविक उपयोग आँकड़े इस रुझान की पुष्टि करते हैं: समय के साथ उपयोगकर्ताओं द्वारा संग्रहीत कुल KV cache तेज़ी से बढ़ा है और GPU memory की क्षमता से बहुत आगे निकल गया है। इस आवश्यकता के बावजूद, KV cache को offload और transfer करने के लिए कुशल समाधान की कमी है। हम LMCACHE प्रस्तुत करते हैं, जो आधुनिक LLM engine (vLLM और SGLang) द्वारा उत्पन्न KV cache को GPU memory के बाहर निकालकर संग्रहीत करता है और उन्हें engine तथा query के बीच साझा करता है; यह पहला और अब तक का सबसे कुशल open source KV caching solution है। LMCACHE cache offloading (queries के बीच prefix reuse) और prefill-decode (PD) disaggregation (engines/GPU के बीच cache transfer) दोनों को support करता है। LMCACHE का उच्च performance और व्यापक adoption निम्न योगदानों से आता है: (1) batched data movement operations, compute और I/O pipelining द्वारा समर्थित अत्यधिक optimized KV cache data movement; (2) modular KV cache connector component, जो LMCACHE को inference engine के तेज़ विकास से decouple करता है; (3) GPU, CPU, storage और network layer के बीच flexible cache orchestration के लिए first-class control API। हमारा evaluation दिखाता है कि LMCACHE और vLLM को मिलाने पर multi-round question answering और document analysis जैसे workloads में throughput में अधिकतम 15x सुधार मिलता है। enterprise environment में LMCACHE का बड़े पैमाने पर adoption हमें मूल्यवान insights देता है; उदाहरण के लिए, remote storage से KV cache लाने पर prefill delay में स्पष्ट लाभ मिलता है, और context truncation, जो industry में व्यापक रूप से इस्तेमाल होने वाली तकनीक है, prefix cache hit ratio को आधा तक काफी घटा सकती है। LMCACHE का source code यहाँ उपलब्ध है: https://github.com/LMCache/LMCache.
> KV cache को पारंपरिक रूप से बड़े language model (LLM) inference के decoding phase को तेज़ करने के लिए GPU memory में store किया गया है। हालांकि, अलग-अलग queries और inference engines के बीच cache reuse सक्षम करने के लिए KV caches को GPU devices के बाहर ले जाना अब increasingly आवश्यक हो गया है। हमारे real-world usage statistics इस trend की पुष्टि करते हैं: समय के साथ, users द्वारा store किया गया कुल KV cache तेज़ी से बढ़ा है और GPU memory की capacity से बहुत आगे निकल गया है। इस आवश्यकता के बावजूद, KV caches को offload और transfer करने के लिए कोई efficient solution उपलब्ध नहीं है। हम LMCACHE प्रस्तुत करते हैं, जो पहला और अब तक का सबसे efficient open-source KV caching solution है; यह आधुनिक LLM engines (vLLM और SGLang) द्वारा उत्पन्न KV caches को GPU memory से बाहर extract और store करता है और उन्हें engines तथा queries के बीच share करता है। LMCACHE cache offloading (queries के बीच prefix reuse) और prefill-decode (PD) disaggregation (cross-engine/GPU cache transfer) दोनों को support करता है। LMCACHE का high performance और wide adoption निम्न contributions से आता है: (1) batched data movement operations, compute और I/O pipelining द्वारा संचालित highly optimized KV cache data movement; (2) modular KV cache connector component, जो LMCACHE को inference engines के rapid evolution से decouple करता है; (3) GPU, CPU, storage और network layers के बीच flexible cache orchestration के लिए first-class control API। हमारा evaluation दिखाता है कि LMCACHE को vLLM के साथ मिलाने पर multi-round question answering और document analysis जैसे workloads में throughput में up to 15x improvement मिलता है। enterprise settings में LMCACHE का large-scale adoption हमें मूल्यवान insights देता है; उदाहरण के लिए, remote storage से KV cache fetch करने पर prefill delay में अपेक्षित लाभ मिलता है, और context truncation, जो industry में व्यापक रूप से लागू की जाने वाली तकनीक है, prefix cache hit ratio को आधा तक काफी कम कर सकती है। LMCACHE का source code यहाँ है: https://github.com/LMCache/LMCache.

पेपर लिंक

https://arxiv.org/abs/2510.09665

आगे पढ़ें

https://github.com/LMCache/LMCache

https://discuss.pytorch.kr/t/lmcache-llm/7179


ReFusion: समानांतर autoregressive decoding के साथ diffusion बड़े language model / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

पेपर परिचय

ReFusion एक अभिनव masked diffusion model है जो parallel autoregressive decoding का उपयोग करता है, और इसे मौजूदा autoregressive model (ARM) तथा masked diffusion model (MDM) की सीमाओं को दूर करने के लिए डिज़ाइन किया गया है। पारंपरिक ARM, sequential decoding पद्धति के कारण धीमी inference speed का सामना करते हैं, जबकि MDM conditional independence मानते हैं, लेकिन architectural bottleneck और inconsistent generation की समस्याओं के कारण उनकी efficiency घट जाती है। ReFusion इन समस्याओं को हल करने के लिए parallel decoding को slot level तक उन्नत करता है, जहाँ slot निश्चित लंबाई वाली लगातार sub-sequence होती हैं।

ReFusion का केंद्र "plan-and-infill" decoding process है। इस प्रक्रिया में पहले चरण में weak dependency वाले slots की पहचान की जाती है, और दूसरे चरण में इन slots को parallel में decode किया जाता है। यह slot-based design Key-Value (KV) cache के reuse को संभव बनाता है, जिससे पूरे context की KV state को हर बार दोबारा calculate करने की आवश्यकता नहीं रहती। परिणामस्वरूप, training complexity token combination space से घटकर slot-level permutation space तक आ जाती है, जिससे efficiency में बड़ा सुधार होता है।

प्रयोगों के परिणामों में, ReFusion ने पिछले MDMs की तुलना में 34% performance improvement और औसतन 18x speedup दर्ज किया, साथ ही मजबूत ARM के साथ performance gap को कम करते हुए औसतन 2.33x speedup हासिल किया। ये परिणाम दिखाते हैं कि ReFusion मौजूदा मॉडलों की सीमाओं को पार करता है और नए diffusion model की संभावनाएँ सामने लाता है।

ReFusion, KV cache reuse और training complexity reduction के माध्यम से performance और speed दोनों में महत्वपूर्ण योगदान देता है, और भविष्य के research direction के लिए अहम insights प्रदान करता है। यह model diffusion model और autoregressive model के फायदों को जोड़ता है, और उम्मीद है कि बड़े language model के विकास में योगदान देगा।

पेपर सारांश (Abstract)

Autoregressive मॉडल (ARMs) धीमी sequential inference के कारण सीमित होते हैं। Masked diffusion models (MDMs) एक parallel विकल्प देते हैं, लेकिन उनमें दो बड़ी कमियां हैं: Key-Value (KV) caching को उपयोग न कर पाने से होने वाला ऊंचा computational overhead, और token combinations के ऐसे विशाल व अव्यवहारिक space पर dependencies सीखने से उत्पन्न असंगत generation। इन सीमाओं को दूर करने के लिए हम ReFusion नाम का एक नया masked diffusion model प्रस्तुत करते हैं। ReFusion, parallel decoding को token स्तर से उठाकर एक उच्च slot स्तर पर ले जाता है, जहां हर slot निश्चित लंबाई वाला लगातार sub-sequence होता है, और इसी से बेहतर performance व efficiency हासिल करता है। यह एक iterative plan-and-infill decoding प्रक्रिया के जरिए काम करता है: diffusion-आधारित planning step पहले weakly dependent slots के एक set की पहचान करता है, और फिर autoregressive infilling step चुने गए slots को parallel में decode करता है। यह slot-आधारित design एक unified causal framework के साथ full KV cache reuse को संभव बनाता है और learning complexity को token combination space से घटाकर एक manageable slot-level permutation space तक ले आता है। सात विभिन्न benchmarks पर किए गए व्यापक experiments दिखाते हैं कि ReFusion न सिर्फ पहले के MDMs को 34% performance gain और औसतन 18$\times$ से अधिक speedup के साथ निर्णायक रूप से पीछे छोड़ देता है, बल्कि मजबूत ARMs के साथ performance gap को भी कम करता है, जबकि औसतन 2.33$\times$ speedup बनाए रखता है।
> Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.

पेपर लिंक

https://arxiv.org/abs/2512.13586

आगे पढ़ें

https://github.com/ML-GSAI/ReFusion

https://huggingface.co/GSAI-ML/ReFusion


generation के लिए scalable visual tokenizer pre-training की ओर / Towards Scalable Pre-training of Visual Tokenizers for Generation

पेपर परिचय

Visual tokenizer के latent space की quality आधुनिक generation models के performance पर महत्वपूर्ण प्रभाव डालती है। लेकिन मौजूदा reconstruction-आधारित training तरीके low-level information की ओर झुका हुआ latent space बनाते हैं, जिससे यह समस्या पैदा होती है कि बेहतर pixel-level accuracy जरूरी नहीं कि higher-quality generation की गारंटी दे। इस घटना को "pre-training scaling problem" के रूप में परिभाषित किया गया है, और यह इस जरूरत को सामने लाती है कि प्रभावी generation models के लिए latent space को high-level semantics को संक्षेप में व्यक्त करना चाहिए।

इस अध्ययन में VTP (Visual Tokenizer Pre-training) नाम का एक नया unified visual tokenizer pre-training framework प्रस्तावित किया गया है। VTP एक नवीन approach अपनाता है जो image-text contrast, self-supervised learning, और reconstruction loss को jointly optimize करता है, जिससे generation performance बेहतर होती है। बड़े पैमाने के अध्ययन से दो मुख्य निष्कर्ष निकले। पहला, semantic understanding generation की मुख्य प्रेरक शक्ति है; दूसरा, VTP computation resources, model parameters, और data size के साथ generation performance को प्रभावी ढंग से बेहतर करने वाली उत्कृष्ट scaling characteristics दिखाता है।

VTP ने ImageNet पर 78.2% zero-shot accuracy और 0.36 rFID हासिल किया, और मौजूदा उन्नत distillation methods की तुलना में 4.1 गुना तेज convergence दर्ज किया। इसके अलावा, standard DiT training spec में बदलाव किए बिना pre-training में अधिक FLOPS निवेश करके VTP ने downstream generation में 65.8% FID improvement हासिल किया। ये नतीजे दिखाते हैं कि VTP पारंपरिक autoencoder तरीकों की तुलना में बेहतर प्रदर्शन करता है और एक scalable model के रूप में स्थापित हो सकता है।

निष्कर्षतः, VTP visual tokenizer के pre-training scaling problem को हल करने में मदद करता है और latent space की understanding तथा generation क्षमता के बीच मजबूत correlation स्थापित करता है। यह अध्ययन generation models के performance improvement के लिए एक नई दिशा प्रस्तुत करता है और भविष्य के शोध के लिए महत्वपूर्ण आधार सामग्री बन सकता है।

पेपर सार (Abstract)

विज़ुअल tokenizer (जैसे VAE) में latent space की गुणवत्ता आधुनिक generative models के लिए बेहद महत्वपूर्ण है। हालांकि, मानक reconstruction-आधारित training paradigm ऐसा latent space बनाता है जो low-level information की ओर पक्षपाती होता है, जिससे एक बुनियादी खामी पैदा होती है: बेहतर pixel-level accuracy, ज़रूरी नहीं कि उच्च-गुणवत्ता generation तक ले जाए। इसका मतलब है कि visual tokenizer pre-training में भारी compute लगाने पर भी generation performance में अनुपातिक सुधार नहीं मिलता। हम इसे "pre-training scaling problem" के रूप में परिभाषित करते हैं, और प्रस्तावित करते हैं कि प्रभावी generation के लिए latent space को high-level semantics को संक्षेप में व्यक्त करना चाहिए। हम VTP प्रस्तुत करते हैं, जो एक एकीकृत visual tokenizer pre-training framework है और image-text contrastive, self-supervised, तथा reconstruction loss के joint optimization को आगे बढ़ाता है। हमारे large-scale अध्ययन से दो मुख्य निष्कर्ष सामने आते हैं: (1) understanding, generation की प्रमुख प्रेरक शक्ति है, और (2) इसमें कहीं बेहतर scaling properties हैं, जहाँ generative performance, visual tokenizer के pre-training के लिए आवंटित compute, parameters और data के साथ प्रभावी ढंग से scale करती है। large-scale pre-training के बाद, हमारा tokenizer प्रतिस्पर्धी प्रोफ़ाइल देता है (ImageNet पर 78.2 zero-shot accuracy और 0.36 rFID) और उन्नत distillation methods की तुलना में generation में 4.1 गुना तेज convergence दिखाता है। इससे भी महत्वपूर्ण बात यह है कि यह प्रभावी रूप से scale करता है: मानक DiT training specs को बदले बिना, केवल VTP के pre-training में अधिक FLOPS निवेश करके downstream generation में 65.8% FID improvement हासिल की जाती है, जबकि पारंपरिक autoencoder 1/10 FLOPS पर बहुत जल्दी ठहर जाता है। हमारे pre-trained models https://github.com/MiniMax-AI/VTP पर उपलब्ध हैं。
> visual tokenizers (जैसे VAEs) में latent space की गुणवत्ता आधुनिक generative models के लिए निर्णायक है। लेकिन standard reconstruction-based training paradigm ऐसा latent space बनाता है जो low-level information की ओर झुका होता है, और यही एक बुनियादी दोष पैदा करता है: बेहतर pixel-level accuracy से उच्च-गुणवत्ता generation नहीं मिलती। इसका अर्थ है कि visual tokenizer pre-training में बहुत अधिक compute लगाने पर भी generation performance में सीमित ही सुधार आता है। हम इसे pre-training scaling problem के रूप में पहचानते हैं और सुझाव देते हैं कि generation के लिए प्रभावी होने हेतु latent space को high-level semantics को संक्षेप में प्रदर्शित करना चाहिए। हम VTP प्रस्तुत करते हैं, एक unified visual tokenizer pre-training framework, जो image-text contrastive, self-supervised, और reconstruction losses के joint optimization की शुरुआत करता है। हमारे large-scale study से दो प्रमुख निष्कर्ष सामने आते हैं: (1) understanding, generation का मुख्य driver है, और (2) scaling properties कहीं बेहतर हैं, जहाँ generative performance, visual tokenizer के pretraining के लिए दिए गए compute, parameters, और data के साथ प्रभावी रूप से scale करती है। large-scale pre-training के बाद, हमारा tokenizer एक प्रतिस्पर्धी प्रोफ़ाइल देता है (ImageNet पर 78.2 zero-shot accuracy और 0.36 rFID) और advanced distillation methods की तुलना में generation पर 4.1 गुना तेज convergence दिखाता है। और भी महत्वपूर्ण यह है कि यह प्रभावी रूप से scale करता है: standard DiT training specs में बदलाव किए बिना, केवल VTP pretraining में अधिक FLOPS निवेश करने से downstream generation में 65.8% FID improvement हासिल होती है, जबकि conventional autoencoder 1/10 FLOPS पर बहुत शुरुआती चरण में ही stagnate हो जाता है। हमारे pre-trained models https://github.com/MiniMax-AI/VTP पर उपलब्ध हैं.

पेपर लिंक

https://arxiv.org/abs/2512.13687

आगे पढ़ें

https://github.com/MiniMax-AI/VTP


CLaRa: निरंतर latent reasoning के ज़रिए retrieval और generation का एकीकरण / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

पेपर परिचय

CLaRa (Continuous Latent Reasoning) एक नवोन्मेषी framework है, जिसे retrieval-augmented generation (RAG) systems की सीमाओं को दूर करने के लिए विकसित किया गया है। मौजूदा RAG approaches लंबे context को संभालने में कठिनाई झेलते हैं, और retrieval तथा generation के बीच optimization अलग-अलग होने के कारण efficiency घट जाती है। इन समस्याओं को हल करने के लिए CLaRa embedding-आधारित compression और shared continuous space में joint optimization के माध्यम से retrieval और generation को एकीकृत करने वाली नई methodology प्रस्तावित करता है.

CLaRa के मुख्य components में से एक SCP (key-preserving data synthesis) है, जो question-answering (QA) और paraphrase supervision का उपयोग करके semantically rich और retrievable compressed vectors बनाता है। यह प्रक्रिया data की diversity और quality बनाए रखते हुए retrieval accuracy बढ़ाने में योगदान देती है। इसके बाद, CLaRa reranker और generator को एकल language modeling loss के माध्यम से end-to-end तरीके से train करता है, जिससे दोनों modules के बीच gradient flow optimize होता है। यह integrated optimization approach retrieval relevance और generated answers की quality को एक-दूसरे के अनुरूप लाने में अहम भूमिका निभाती है.

प्रयोगों के परिणामों में CLaRa ने कई question-answering (QA) benchmarks पर मौजूदा text-based methods से बेहतर state-of-the-art compression और reranking performance दिखाई। खास तौर पर, CLaRa ने लंबे context को प्रभावी ढंग से संभालने में अनुकूल परिणाम दिए, जो साबित करता है कि इसका integrated optimization तरीका वास्तव में प्रभावी है। ये उपलब्धियाँ संकेत देती हैं कि CLaRa में RAG systems की performance को काफ़ी बेहतर बनाने की क्षमता है.

CLaRa का approach मौजूदा RAG research से अलग है, और retrieval तथा generation को सीधे optimize करने वाले पहले तरीकों में से एक के रूप में भविष्य में विभिन्न application क्षेत्रों में लागू होने की संभावना दिखाता है। यह शोध RAG systems के लिए नई संभावनाएँ प्रस्तुत करता है और उम्मीद है कि आगे के शोध में एक महत्वपूर्ण आधार सामग्री के रूप में उपयोग होगा.

पेपर सार (Abstract)

खोज-आधारित ऑगमेंटेड जेनरेशन (RAG) बड़े भाषा मॉडल (LLM) को बाहरी ज्ञान से मजबूत बनाता है, लेकिन यह अभी भी लंबे context और retrieval-generation optimization के अलग-अलग होने की समस्या से जूझता है। इस अध्ययन में CLaRa (Continuous Latent Reasoning) प्रस्तावित किया गया है। CLaRa एक unified framework है, जो embedding-आधारित compression और shared continuous space में joint optimization करता है। semantic रूप से समृद्ध और searchable compressed vectors प्राप्त करने के लिए, इसमें SCP पेश किया गया है, जो QA और paraphrase supervision का उपयोग करने वाला key-preserving data synthesis framework है। इसके बाद CLaRa, एक single language modeling loss के माध्यम से reranker और generator को end-to-end train करता है, और gradients differentiable top-k estimator का उपयोग करते हुए दोनों modules के बीच प्रवाहित होते हैं। सैद्धांतिक रूप से, यह unified optimization retrieval relevance और answer quality को एक-दूसरे के अनुरूप बनाता है। कई QA benchmarks पर किए गए experiments दिखाते हैं कि CLaRa state-of-the-art compression और reranking performance हासिल करता है, और अक्सर text-based fine-tuned baselines से भी बेहतर प्रदर्शन करता है।
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.

पेपर लिंक

https://arxiv.org/abs/2511.18659

आगे पढ़ें

https://github.com/apple/ml-clara


⚠️विज्ञापन⚠️: 🔥PyTorch Korea User Group🇰🇷 द्वारा तैयार किया गया यह लेख क्या आपके लिए उपयोगी रहा? सदस्य के रूप में जुड़ें, तो हम आपको प्रमुख लेख ईमेल💌 से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में बदलना भी संभव है।)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.