PyTorchKR🔥🇰🇷 🤔💭

1️⃣ मल्टीमॉडल मॉडल्स का एकीकरण और ऑप्टिमाइज़ेशन: हाल के शोधपत्र Unified Multimodal Models (UMM) के प्रदर्शन को बेहतर बनाने के लिए कई तरह के approaches प्रस्तावित करते हैं। उदाहरण के लिए, "Reconstruction Alignment" इमेज और टेक्स्ट के संयोजन के ज़रिए मॉडल की understanding और generation क्षमताओं को फिर से align करने का तरीका प्रस्तुत करता है, जबकि "AToken" इमेज, वीडियो और 3D assets के लिए एक unified tokenizer विकसित करता है ताकि विविध visual inputs को प्रोसेस किया जा सके। ये शोध मल्टीमॉडल AI systems की प्रगति के लिए बुनियाद तैयार कर रहे हैं।

2️⃣ एजेंट-केंद्रित डेटा सिस्टम डिज़ाइन: "Supporting Our AI Overlords" और "Scaling Agents via Continual Pre-training" शोधपत्र तर्क देते हैं कि Large Language Model (LLM) agents डेटा systems में महत्वपूर्ण भूमिका निभाएँगे। ये इस बात पर ज़ोर देते हैं कि agents को डेटा manipulation और analysis के लिए आवश्यक क्षमताएँ विकसित करने हेतु विभिन्न environments में interaction के माध्यम से सीखना चाहिए। यह agent-first डेटा system architecture डिज़ाइन पर नए research opportunities प्रस्तुत करता है।

3️⃣ स्वायत्त learning और विकसित होते मॉडल्स: "R-Zero" शोधपत्र उन मॉडल्स की आवश्यकता पर ज़ोर देता है जो स्वायत्त रूप से डेटा generate करें और सीखें। जहाँ मौजूदा methods मानव द्वारा परिष्कृत tasks और labels पर निर्भर करते हैं, वहीं R-Zero दो मॉडल्स के माध्यम से self-evolving learning curriculum बनाता है जो स्वयं tasks प्रस्तावित और हल करते हैं। उम्मीद है कि यह approach AI systems को मानव बुद्धिमत्ता से आगे बढ़ने वाली क्षमताओं तक विकसित करने में अहम भूमिका निभाएगा।


Reconstruction Alignment unified multimodal models को बेहतर बनाता है / Reconstruction Alignment Improves Unified Multimodal Models

शोधपत्र परिचय

Unified Multimodal Models (UMMs) एक अभिनव approach है, जो visual understanding और generation क्षमताओं को एकीकृत करके विभिन्न tasks करने की संभावना प्रदान करता है। लेकिन मौजूदा training methods image-text pairs पर निर्भर करते हैं, जिससे captions अक्सर बारीक visual जानकारी को छोड़ देते हैं और प्रदर्शन में गिरावट आती है। इस सीमा को दूर करने के लिए प्रस्तावित method है Reconstruction Alignment (RecA)। RecA एक resource-efficient post-training technique है, जो visual understanding encoder embeddings को dense "text prompts" की तरह उपयोग करके captions के बिना भी समृद्ध supervision signal प्रदान करती है।

RecA का मूल यह है कि UMM को उसके अपने visual understanding embeddings पर condition करके input image को reconstruct करने के लिए optimize किया जाता है। इस प्रक्रिया में self-supervised reconstruction loss का उपयोग करके मॉडल की understanding और generation क्षमताओं को align किया जाता है, जिससे visual जानकारी का अधिक प्रभावी उपयोग संभव होता है। RecA autoregressive, masked autoregressive और diffusion-based UMMs सहित विभिन्न architectures पर लागू किया जा सकता है, और यह generation तथा editing fidelity में लगातार सुधार दिखाता है।

प्रयोगों के परिणामों में, RecA लागू करने के बाद GenEval पर image generation performance 0.73 से 0.90 तक, और DPGBench पर 80.93 से 88.15 तक सुधरी। साथ ही, image editing benchmarks में भी ImgEdit और GEdit पर क्रमशः 3.38 से 3.75 और 6.94 से 7.25 तक वृद्धि दर्ज की गई। ये नतीजे दिखाते हैं कि RecA मौजूदा बड़े open source models से बेहतर प्रदर्शन करता है और विभिन्न UMM architectures पर व्यापक रूप से लागू हो सकता है।

RecA, UMM की understanding और generation क्षमताओं को प्रभावी ढंग से align करने का तरीका है, और यह resource-efficient post-training strategy के रूप में स्थापित होने की क्षमता दिखाता है। भविष्य के शोध में RecA के उपयोग-क्षेत्र को और विस्तृत करना तथा अन्य multimodal tasks पर इसके प्रदर्शन का मूल्यांकन करना महत्वपूर्ण होगा। उम्मीद है कि यह शोध मल्टीमॉडल मॉडल्स की प्रगति में योगदान देगा।

शोधपत्र सारांश (Abstract)

Unified multimodal models (UMM) एक ही architecture के भीतर visual understanding और generation को एकीकृत करते हैं। लेकिन पारंपरिक training तरीके आमतौर पर image-text pairs (या sequences) पर निर्भर करते हैं, जिनके captions प्रायः sparse होते हैं और सूक्ष्म visual details को छोड़ देते हैं, यहाँ तक कि जब वे एक साधारण image का वर्णन करने के लिए सैकड़ों शब्दों का उपयोग करें तब भी। हम Reconstruction Alignment (RecA) प्रस्तुत करते हैं, जो एक resource-efficient post-training method है और visual understanding encoder embeddings को dense "text prompts" के रूप में उपयोग करता है, जिससे captions के बिना समृद्ध supervision मिलता है। विशेष रूप से, RecA UMM को उसके अपने visual understanding embeddings पर condition करता है और self-supervised reconstruction loss के साथ input image को reconstruct करने के लिए optimize करता है, जिससे understanding और generation फिर से align होते हैं। इसकी सादगी के बावजूद, RecA व्यापक रूप से लागू किया जा सकता है: autoregressive, masked autoregressive और diffusion-based UMMs में यह generation और editing fidelity को लगातार बेहतर बनाता है। केवल 27 GPU-hours के साथ, RecA द्वारा किया गया post-training GenEval पर image generation performance को काफ़ी सुधारता है (0.73$\rightarrow$0.90) और DPGBench (80.93$\rightarrow$88.15) पर भी प्रदर्शन बढ़ाता है, साथ ही editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25) को भी बेहतर बनाता है। विशेष रूप से, RecA काफ़ी बड़े open-source models को भी पीछे छोड़ देता है और विविध UMM architectures में व्यापक रूप से लागू होता है, जिससे यह UMMs के लिए एक efficient और general post-training alignment strategy के रूप में स्थापित होता है।

> Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

शोधपत्र लिंक

https://arxiv.org/abs/2509.07295


हमारे AI अधिपतियों का समर्थन: डेटा systems को agent-first बनाने के लिए पुनःडिज़ाइन / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

शोधपत्र परिचय

बड़े भाषा मॉडल (LLM) एजेंट डेटा को मैनिपुलेट और विश्लेषित करने का तरीका भविष्य के डेटा सिस्टम्स में बड़े बदलाव ला सकता है। ये एजेंट उपयोगकर्ता के अनुरोध के अनुसार तेज़ी से खोज करते हुए और समाधान प्रस्तुत करते हुए agentic speculation प्रक्रिया के ज़रिए काम करते हैं। हालांकि, agentic speculation की बड़ी मात्रा और इसकी अक्षमियाँ मौजूदा डेटा सिस्टम्स के लिए चुनौती बन सकती हैं। इसलिए, डेटा सिस्टम्स को इस तरह विकसित होना होगा कि वे ऐसे agentic workloads को मूल रूप से सपोर्ट कर सकें।

यह अध्ययन agentic speculation की विशेषताओं—स्केल, विविधता, पुनरावृत्ति, और steerability—का उपयोग करके एक नए agent-first data system architecture के लिए शोध के अवसर प्रस्तुत करता है। इसके माध्यम से नए query interfaces, query processing techniques, और agentic memory stores जैसे नवोन्मेषी दृष्टिकोणों की पड़ताल की गई है। खास तौर पर, यदि एजेंट डेटा के साथ इंटरैक्ट करने का मुख्य माध्यम बनते हैं, तो यह डेटा सिस्टम्स की उत्पादकता बढ़ाने की नई संभावनाएँ खोल सकता है।

case study के ज़रिए agentic workloads की विशेषताओं का विश्लेषण किया गया और उनसे optimization के अवसर पहचाने गए। पहले अध्ययन में BIRD dataset का उपयोग करके यह देखा गया कि LLM requests की संख्या बढ़ाकर accuracy कैसे सुधार सकते हैं, जबकि दूसरे अध्ययन में दो databases की जानकारी को जोड़ने वाले जटिल कार्य किए गए। ये शोध परिणाम दिखाते हैं कि agentic speculation में डेटा सिस्टम्स की efficiency बढ़ाने की क्षमता है।

अंत में, agentic memory stores और एक नए transaction framework का प्रस्ताव किया गया, ताकि agentic speculation के exploration चरण में उत्पन्न होने वाली पुनरावृत्ति और विविधता की समस्याओं का समाधान खोजा जा सके। यह दृष्टिकोण इस आवश्यकता पर ज़ोर देता है कि डेटा सिस्टम्स को agent-केंद्रित रूप में फिर से डिज़ाइन किया जाए, और यह भविष्य के शोध के लिए एक नई दृष्टि प्रस्तुत करता है।

शोध सार (Abstract)

बड़े भाषा मॉडल (LLM) एजेंट, जो उपयोगकर्ताओं की ओर से डेटा को मैनिपुलेट और विश्लेषित करते हैं, भविष्य के डेटा सिस्टम्स में प्रमुख workload बनने की संभावना रखते हैं। डेटा के साथ काम करते समय, एजेंट दिए गए कार्य के लिए खोज और समाधान तैयार करने की एक high-throughput प्रक्रिया का उपयोग करते हैं, जिसे हम agentic speculation कहते हैं। agentic speculation की विशाल मात्रा और अक्षमियाँ आज के डेटा सिस्टम्स के लिए चुनौती बन सकती हैं। हमारा तर्क है कि डेटा सिस्टम्स को agentic workloads को अधिक मूलभूत रूप से सपोर्ट करने के लिए अनुकूलित होना चाहिए। हम agentic speculation की पहचानी गई विशेषताओं—scale, heterogeneity, redundancy, और steerability—का लाभ उठाकर एक नए agent-first data systems architecture के लिए कई शोध अवसरों की रूपरेखा प्रस्तुत करते हैं, जिनमें नए query interfaces, नई query processing techniques, और नए agentic memory stores शामिल हैं।

> Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.

शोधपत्र लिंक

https://arxiv.org/abs/2509.00997


AToken: विज़न के लिए एकीकृत tokenizer / AToken: A Unified Tokenizer for Vision

शोधपत्र परिचय

AToken पहला unified visual tokenizer है, जो images, videos, और 3D assets में एक साथ high-fidelity reconstruction और semantic understanding हासिल करता है। जहाँ मौजूदा tokenizers आमतौर पर किसी एक modality में reconstruction या understanding पर केंद्रित होते हैं, वहीं AToken विभिन्न visual inputs को एक shared 4D latent space में encode करके इन दोनों कार्यों और modalities को एक ही framework में एकीकृत करता है। यह सिस्टम arbitrary resolution और temporal length वाले visual inputs को प्रोसेस करने के लिए 4D rotary position embedding के साथ एक pure transformer architecture पेश करता है। stable training सुनिश्चित करने के लिए, AToken एक adversarial-free learning objective प्रस्तावित करता है, जो perceptual loss और Gram matrix loss को मिलाकर state-of-the-art reconstruction quality हासिल करता है। progressive learning curriculum के माध्यम से AToken single image से video और 3D तक धीरे-धीरे विस्तार करता है, और continuous तथा discrete latent tokens दोनों को सपोर्ट करता है। AToken images के लिए 0.21 rFID और 82.2% ImageNet accuracy, videos के लिए 3.01 rFVD और 32.6% MSRVTT retrieval performance, और 3D के लिए 28.19 PSNR और 90.9% classification accuracy हासिल करता है। downstream applications में AToken image generation, text-to-video generation, image-to-3D synthesis जैसी visual generation tasks और multimodal बड़े भाषा मॉडल (LLM) जैसे understanding tasks को सक्षम बनाता है, और सभी benchmarks पर प्रतिस्पर्धी प्रदर्शन दिखाता है। ये परिणाम unified visual tokenization पर आधारित अगली पीढ़ी के multimodal AI systems की संभावना दिखाते हैं।

शोध सार (Abstract)

हम AToken प्रस्तुत करते हैं, जो पहला unified visual tokenizer है और images, videos, तथा 3D assets में high-fidelity reconstruction और semantic understanding दोनों हासिल करता है। मौजूदा tokenizers जहाँ किसी एक modality के लिए reconstruction या understanding में विशेषज्ञ होते हैं, वहीं AToken इन विविध visual inputs को एक shared 4D latent space में encode करके एक ही framework के भीतर दोनों कार्यों और modalities को एकीकृत करता है। विशेष रूप से, हम arbitrary resolution और temporal duration वाले visual inputs को संभालने के लिए 4D rotary position embeddings के साथ एक pure transformer architecture पेश करते हैं। stable training सुनिश्चित करने के लिए, हम एक adversarial-free learning objective पेश करते हैं, जो perceptual loss और Gramian matrix loss को मिलाकर state-of-the-art reconstruction quality हासिल करता है। progressive learning curriculum का उपयोग करते हुए, AToken single images, videos, और 3D तक क्रमिक रूप से विस्तार करता है और continuous तथा discrete latent tokens दोनों को सपोर्ट करता है। AToken images के लिए 0.21 rFID और 82.2% ImageNet accuracy, videos के लिए 3.01 rFVD और 32.6% MSRVTT retrieval rate, और 3D के लिए 28.19 PSNR और 90.9% classification accuracy हासिल करता है। downstream applications में AToken visual generation tasks (जैसे continuous और discrete tokens के साथ image generation, text-to-video generation, image-to-3D synthesis) और understanding tasks (जैसे multimodal बड़े भाषा मॉडल) दोनों को सक्षम बनाता है, और सभी benchmarks पर प्रतिस्पर्धी प्रदर्शन प्राप्त करता है। ये परिणाम unified visual tokenization के आधार पर निर्मित अगली पीढ़ी के multimodal AI systems के लिए अंतर्दृष्टि प्रदान करते हैं।

हम AToken प्रस्तुत करते हैं, यह पहला unified visual tokenizer है जो images, videos और 3D assets में high-fidelity reconstruction और semantic understanding दोनों हासिल करता है। मौजूदा tokenizers के विपरीत, जो single modality में reconstruction या understanding में से किसी एक पर केंद्रित होते हैं, AToken इन विविध visual inputs को एक shared 4D latent space में encode करता है, जिससे एक ही framework में tasks और modalities दोनों एकीकृत हो जाते हैं। विशेष रूप से, हम arbitrary resolutions और temporal durations वाले visual inputs को process करने के लिए 4D rotary position embeddings के साथ एक pure transformer architecture प्रस्तुत करते हैं। stable training सुनिश्चित करने के लिए, हम एक adversarial-free training objective पेश करते हैं जो perceptual और Gram matrix losses को जोड़ता है, और state-of-the-art reconstruction quality हासिल करता है। progressive training curriculum का उपयोग करके, AToken single images, videos और 3D से धीरे-धीरे विस्तार करता है, और continuous तथा discrete latent tokens दोनों को support करता है। AToken images के लिए 82.2% ImageNet accuracy के साथ 0.21 rFID, videos के लिए 32.6% MSRVTT retrieval के साथ 3.01 rFVD, और 3D के लिए 90.9% classification accuracy के साथ 28.19 PSNR हासिल करता है। downstream applications में, AToken visual generation tasks (जैसे continuous और discrete tokens के साथ image generation, text-to-video generation, image-to-3D synthesis) और understanding tasks (जैसे multimodal LLMs) दोनों को सक्षम बनाता है, और सभी benchmarks पर competitive performance हासिल करता है। ये परिणाम unified visual tokenization पर आधारित अगली पीढ़ी के multimodal AI systems की दिशा में महत्वपूर्ण संकेत देते हैं.

पेपर लिंक

https://arxiv.org/abs/2509.14476


environment scaling के माध्यम से general agentic intelligence की ओर / Towards General Agentic Intelligence via Environment Scaling

पेपर परिचय

उन्नत agent intelligence बड़े भाषा मॉडलों (LLM) को वास्तविक applications में प्रभावी ढंग से deploy करने के लिए एक आवश्यक तत्व बन चुकी है। विभिन्न वास्तविक API सटीक और मजबूत function-calling intelligence की मांग करते हैं, जिसका अर्थ है कि agent को विविध environments में interaction के माध्यम से ये क्षमताएँ विकसित करनी होंगी। यह शोध general agent intelligence को बेहतर बनाने के एक चरण के रूप में environment scaling का प्रस्ताव करता है, ताकि दो प्रमुख चुनौतियों का समाधान किया जा सके। पहली, environments को सिद्धांतसम्मत तरीके से scale कैसे किया जाए; दूसरी, इन environments के साथ interaction के माध्यम से agent की क्षमताओं को प्रभावी ढंग से कैसे सिखाया जाए।

इन समस्याओं को हल करने के लिए, शोधकर्ताओं ने heterogeneous environments को स्वचालित रूप से निर्मित करने वाला एक scalable framework डिज़ाइन किया। यह framework पूरी तरह simulated environments को व्यवस्थित रूप से scale करके function-calling scenarios के दायरे को बढ़ाने पर केंद्रित है। साथ ही, इसमें agent fine-tuning की दो-चरणीय रणनीति पेश की गई है, जिसमें पहले चरण में agent को बुनियादी agentic क्षमता दी जाती है, और दूसरे चरण में उसे domain-specific context के अनुरूप विशेषज्ञ बनाया जाता है।

इस शोध में प्रस्तावित environment construction और scaling methodology में 30,000 से अधिक API का संग्रह, तथा tool dependency graph modeling के माध्यम से domain partition और distribution निकालने वाली एक व्यवस्थित pipeline शामिल है। इसके जरिए agent environment state को initialize कर सकता है, और domain-specific tool graph से logically consistent tool sequences sample करके valid sequences बना सकता है। यह प्रक्रिया database-level state consistency और tool sequence के सटीक मिलान को सुनिश्चित करती है, जिससे agent की function-calling क्षमता में उल्लेखनीय सुधार होता है।

परिणामस्वरूप, इस शोध में विकसित AgentScaler मॉडल agent की function-calling क्षमता में उल्लेखनीय सुधार करता है, और उम्मीद है कि यह भविष्य में agent intelligence के विकास में महत्वपूर्ण योगदान देगा। यह दृष्टिकोण agents को विविध environments में प्रभावी ढंग से काम करने में सहायता करता है और agent intelligence के व्यावहारिक अनुप्रयोगों की संभावनाओं को और विस्तृत करता है।

पेपर सारांश (Abstract)

उन्नत agent intelligence बड़े भाषा मॉडलों को वास्तविक applications में deploy करने के लिए एक पूर्वशर्त है। विभिन्न वास्तविक API सटीक और मजबूत function-calling intelligence की मांग करते हैं, जिसका अर्थ है कि agent को विविध environments में interaction के माध्यम से इन क्षमताओं को विकसित करना चाहिए। function-calling क्षमता की व्यापकता agent के प्रशिक्षण environments की विविधता से गहराई से जुड़ी है। इस शोध में हम general agent intelligence को बेहतर बनाने के एक चरण के रूप में environments को scale करते हैं। इससे दो प्रमुख चुनौतियाँ उत्पन्न होती हैं: (i) environments को सिद्धांतसम्मत तरीके से scale कैसे किया जाए, (ii) इन environments के साथ interaction से प्राप्त अनुभव के आधार पर agent की क्षमताओं को प्रभावी ढंग से कैसे train किया जाए। इसे हल करने के लिए, हमने heterogeneous environments को स्वचालित रूप से निर्मित करने वाला एक scalable framework डिज़ाइन किया है, जो function-calling scenarios के दायरे को व्यवस्थित रूप से विस्तृत करता है। इसके अतिरिक्त, हम agent को बुनियादी agentic क्षमताएँ देने और फिर उसे domain-specific context के अनुरूप विशेषज्ञ बनाने की दो-चरणीय agent fine-tuning रणनीति लागू करते हैं। agent benchmarks tau-bench, tau2-Bench, ACEBench पर व्यापक experiments के माध्यम से हम दिखाते हैं कि हमारा trained model AgentScaler मॉडल की function-calling क्षमता को उल्लेखनीय रूप से बेहतर बनाता है।

> उन्नत agentic intelligence, Large Language Models को व्यावहारिक, वास्तविक दुनिया के अनुप्रयोगों में तैनात करने के लिए एक पूर्वशर्त है। विविध वास्तविक दुनिया के APIs को सटीक और मज़बूत function-calling intelligence की आवश्यकता होती है, जिसके लिए agents को विविध environments में interaction के माध्यम से ये क्षमताएँ विकसित करनी होती हैं। function-calling competence की व्यापकता, उन environments की विविधता से गहराई से जुड़ी है जिनमें agents को train किया जाता है। इस कार्य में, हम general agentic intelligence को आगे बढ़ाने की दिशा में environments का scale-up करते हैं। इससे दो केंद्रीय चुनौतियाँ सामने आती हैं: (i) environments को सिद्धांतसम्मत तरीके से scale करना, और (ii) इन environments के साथ interaction से प्राप्त अनुभवों से agentic capabilities को प्रभावी ढंग से train करना। इन चुनौतियों का समाधान करने के लिए, हम एक scalable framework डिज़ाइन करते हैं जो पूरी तरह simulated heterogeneous environments का स्वतः निर्माण करता है, जिससे function-calling scenarios के दायरे का व्यवस्थित विस्तार होता है। हम आगे two-phase agent fine-tuning strategy को अपनाते हैं: पहले agents को बुनियादी agentic capabilities देना, फिर उन्हें domain-specific contexts के लिए specialize करना। agentic benchmarks, tau-bench, tau2-Bench, और ACEBench पर व्यापक experiments यह दिखाते हैं कि हमारा trained model, AgentScaler, models की function-calling capability को उल्लेखनीय रूप से बढ़ाता है।

पेपर लिंक

https://arxiv.org/abs/2509.13311

और पढ़ें

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/


संदर्भ के भीतर सीखना क्या वास्तव में सीखना है? / Is In-Context Learning Learning?

पेपर परिचय

In-Context Learning (ICL) यह दिखाता है कि autoregressive models अतिरिक्त training के बिना भी अगले token prediction के ज़रिए विभिन्न tasks को हल कर सकते हैं। इस दृष्टिकोण ने यह दावा जन्म दिया कि मॉडल केवल कुछ उदाहरणों के आधार पर ऐसे tasks भी हल कर सकते हैं जिन्हें उन्होंने पहले नहीं देखा। हालांकि, इस बात पर विवाद है कि क्या ICL वास्तव में learning करता है। यह अध्ययन तर्क देता है कि गणितीय रूप से ICL learning का गठन करता है, लेकिन इसकी प्रकृति को पूरी तरह समझने के लिए empirical analysis ज़रूरी है।

बड़े पैमाने के analysis के ज़रिए ICL के प्रदर्शन का मूल्यांकन किया गया, जिसमें memorization, pretraining, distribution shift, prompt style, और syntax के प्रति sensitivity को ध्यान में रखा गया। अध्ययन में पाया गया कि ICL एक प्रभावी learning paradigm की तरह काम करता है, लेकिन unseen tasks पर generalize करने की इसकी क्षमता सीमित है। खास तौर पर, जैसे-जैसे उदाहरणों की संख्या बढ़ती है, accuracy उदाहरणों के distribution, model, या prompt style के प्रति कम sensitive हो जाती है, और इसके बजाय prompt की regularity से pattern infer करने की प्रवृत्ति दिखाई देती है। इससे विशेष रूप से Chain-of-Thought जैसे कुछ prompt styles में distributional sensitivity उत्पन्न हुई।

औपचारिक रूप से समान tasks में accuracy के अंतर यह संकेत देते हैं कि autoregressive models की ad-hoc encoding कोई मज़बूत learning mechanism नहीं है, और यह सीमित general-purpose generalization की ओर इशारा करती है। यह अध्ययन दिखाता है कि ICL learning mechanism के रूप में काम तो करता है, लेकिन उसकी सीमाएँ और व्यवहार भी स्पष्ट रूप से सामने आते हैं, और LLM (Large Language Model) का प्रदर्शन data distribution के अनुसार बदल सकता है। ये परिणाम ICL की संभावनाओं की खोज में महत्वपूर्ण योगदान देते हैं और भविष्य के शोध में ICL की प्रकृति और सीमाओं को और गहराई से समझने में सहायक हो सकते हैं।

पेपर सारांश (Abstract)

संदर्भ के भीतर सीखना (In-Context Learning, ICL) कुछ autoregressive models को अगले token prediction के माध्यम से, अतिरिक्त training की आवश्यकता के बिना, tasks हल करने की अनुमति देता है। इससे ऐसे दावे सामने आए कि ये models prompt में केवल कुछ उदाहरणों (shots) के आधार पर unseen tasks को हल, यानी सीख, सकते हैं। हालांकि, निष्कर्ष निकालना हमेशा learning का अर्थ नहीं होता, क्योंकि ICL किसी दिए गए observation को स्पष्ट रूप से encode नहीं करता। इसके बजाय, models अपने prior knowledge और दिए गए exemplars, यदि हों, उन पर निर्भर करते हैं। हम तर्क देते हैं कि गणितीय रूप से ICL वास्तव में learning है, लेकिन इसकी पूर्ण विशेषता समझने के लिए empirical work आवश्यक है। इसके बाद हम memorization, pretraining, distributional shifts, prompt style, और phrasing को हटाकर या ध्यान में रखते हुए ICL का large-scale analysis करते हैं। हम पाते हैं कि ICL एक प्रभावी learning paradigm है, लेकिन unseen tasks को सीखने और उन पर generalize करने की इसकी क्षमता सीमित है। हम देखते हैं कि, जब exemplars की संख्या बहुत अधिक हो जाती है, तो accuracy exemplar distribution, model, prompt style, और input की linguistic features के प्रति असंवेदनशील हो जाती है। इसके बजाय, यह prompt की regularities से patterns infer करता है, जो विशेष रूप से chain-of-thought जैसे prompting styles में distributional sensitivity पैदा करता है। औपचारिक रूप से समान tasks पर अलग-अलग accuracies को देखते हुए, हम निष्कर्ष निकालते हैं कि autoregression की ad-hoc encoding कोई robust mechanism नहीं है, और यह सीमित all-purpose generalisability का संकेत देती है।

> In-context learning (ICL) कुछ autoregressive models को next-token prediction के ज़रिए और अतिरिक्त training की आवश्यकता के बिना tasks हल करने की अनुमति देता है। इससे इन models की उस क्षमता को लेकर दावे सामने आए कि वे prompt में केवल कुछ shots (exemplars) के आधार पर unseen tasks को हल, यानी सीख, सकते हैं। हालांकि, deduction हमेशा learning का संकेत नहीं देता, क्योंकि ICL किसी दिए गए observation को स्पष्ट रूप से encode नहीं करता। इसके बजाय, models अपने prior knowledge और दिए गए exemplars, यदि मौजूद हों, उन पर निर्भर करते हैं। हम तर्क देते हैं कि गणितीय रूप से ICL वास्तव में learning है, लेकिन इसकी पूर्ण व्याख्या के लिए empirical work आवश्यक है। इसके बाद हम memorisation, pretraining, distributional shifts, और prompting style तथा phrasing को हटाकर या ध्यान में रखते हुए ICL का large-scale analysis करते हैं। हम पाते हैं कि ICL एक प्रभावी learning paradigm है, लेकिन unseen tasks को सीखने और उन पर generalise करने की इसकी क्षमता सीमित है। हम ध्यान देते हैं कि, जब exemplars की संख्या अधिक हो जाती है, तो accuracy exemplar distribution, model, prompt style, और input की linguistic features के प्रति असंवेदनशील हो जाती है। इसके बजाय, यह prompt की regularities से patterns infer करता है, जो विशेष रूप से chain-of-thought जैसे prompting styles में distributional sensitivity पैदा करता है। औपचारिक रूप से समान tasks पर अलग-अलग accuracies को देखते हुए, हम निष्कर्ष निकालते हैं कि autoregression की ad-hoc encoding कोई robust mechanism नहीं है, और यह सीमित all-purpose generalisability का संकेत देती है।

पेपर लिंक

https://arxiv.org/abs/2509.10414


DeepDive: ज्ञान ग्राफ और मल्टी-टर्न RL के जरिए deep search agents को आगे बढ़ाना / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

शोधपत्र परिचय

DeepDive एक नवोन्मेषी दृष्टिकोण प्रस्तुत करता है, जो बड़े भाषा मॉडल (LLM) को deep search agent के रूप में विकसित करने के लिए Knowledge Graph (KG) और Multi-Turn Reinforcement Learning (RL) का उपयोग करता है। मौजूदा LLMs में browsing tools के साथ एकीकरण के दौरान long-horizon reasoning क्षमता की कमी होती है, और जटिल प्रश्नों को हल करने के लिए पर्याप्त supervised data भी उपलब्ध नहीं होता, जिसके कारण उनका प्रदर्शन कमजोर रहता है। इन समस्याओं को हल करने के लिए DeepDive दो प्रमुख तकनीकें पेश करता है।

पहला, इसने KG का उपयोग करके जटिल और ढूंढने में कठिन प्रश्नों को अपने-आप synthesize करने की विधि विकसित की है। KG entities और उनके संबंधों को संरचित रूप में दर्शाता है, जिससे agent को long-horizon reasoning करने का वातावरण मिलता है। इस प्रक्रिया में random walk के जरिए प्रश्नों की जटिलता और अस्पष्टता बढ़ाई जाती है, और LLM की मदद से चुनौतीपूर्ण question-answer pairs तैयार किए जाते हैं। यह automated data synthesis deep search agents के प्रशिक्षण के लिए आवश्यक high-quality data उपलब्ध कराता है।

दूसरा, DeepDive LLM की long-horizon reasoning क्षमता को बेहतर बनाने के लिए end-to-end multi-turn RL लागू करता है। इस विधि में एक सख्त reward structure शामिल है, जो agent को चरण-दर-चरण यह सीखने में मदद करता है कि कैसे search करना है, क्या search करना है, और search कब रोकना है। Multi-turn RL, iterative reasoning और tool calls के माध्यम से agent को अंतिम उत्तर तक पहुंचने में सक्षम बनाता है, जिससे deep search क्षमता में उल्लेखनीय सुधार होता है।

DeepDive के प्रयोगात्मक परिणामों से पता चलता है कि इसने BrowseComp पर नया open source competitive result हासिल किया और कई मौजूदा मॉडलों से बेहतर प्रदर्शन किया। यह शोध deep search agents के प्रदर्शन को सुधारने में महत्वपूर्ण योगदान देता है, और सार्वजनिक datasets तथा code के जरिए शोध की reproducibility बढ़ाता है और भविष्य के शोध के लिए आधार सामग्री उपलब्ध कराता है। DeepDive जटिल information retrieval समस्याओं को हल करने के लिए एक नया दृष्टिकोण प्रस्तुत करता है और LLMs की उपयोग-क्षमता को और आगे बढ़ाने में योगदान देता है।

शोधपत्र सार (Abstract)

बड़े भाषा मॉडल (LLM) में browsing tools जोड़ने से जटिल वास्तविक-विश्व कार्यों को हल करने वाले deep search agents के रूप में उनकी क्षमता काफी बढ़ जाती है। लेकिन open LLMs अब भी ऐसे परिवेश में कमजोर प्रदर्शन करते हैं, क्योंकि browsing tools के साथ उनकी long-horizon reasoning क्षमता सीमित है और पर्याप्त रूप से कठिन supervised data की कमी है। इन चुनौतियों से निपटने के लिए, हम deep search agents को आगे बढ़ाने हेतु DeepDive प्रस्तुत करते हैं। पहला, हम open knowledge graphs से जटिल, कठिन और ढूंढने में मुश्किल प्रश्नों को स्वचालित रूप से synthesize करने की एक रणनीति प्रस्तावित करते हैं। दूसरा, हम deep search के माध्यम से LLMs की long-horizon reasoning क्षमता को बढ़ाने के लिए end-to-end multi-turn reinforcement learning (RL) लागू करते हैं। प्रयोग दिखाते हैं कि DeepDive-32B, BrowseComp पर नया open-source competitive result हासिल करता है और WebSailor, DeepSeek-R1-Browse, तथा Search-o1 से बेहतर प्रदर्शन करता है। हम दिखाते हैं कि multi-turn RL training deep search ability को बेहतर बनाती है और कई benchmarks में performance improvements में महत्वपूर्ण योगदान देती है। हमने यह भी देखा कि DeepDive tool calls के test-time scaling और parallel sampling को सक्षम बनाता है। सभी datasets, models, और code सार्वजनिक रूप से https://github.com/THUDM/DeepDive पर उपलब्ध हैं।

> बड़े भाषा मॉडल (LLMs) में browsing tools जोड़ने से जटिल वास्तविक-विश्व कार्यों को हल करने वाले deep search agents के रूप में उनकी क्षमता काफी बढ़ जाती है। लेकिन open LLMs अब भी ऐसे परिवेश में कमजोर प्रदर्शन करते हैं, क्योंकि browsing tools के साथ उनकी long-horizon reasoning क्षमता सीमित है और पर्याप्त रूप से कठिन supervised data की कमी है। इन चुनौतियों से निपटने के लिए, हम deep search agents को आगे बढ़ाने हेतु DeepDive प्रस्तुत करते हैं। पहला, हम open knowledge graphs से जटिल, कठिन और ढूंढने में मुश्किल प्रश्नों को स्वचालित रूप से synthesize करने की एक रणनीति प्रस्तावित करते हैं। दूसरा, हम deep search के माध्यम से LLMs की long-horizon reasoning क्षमता को बढ़ाने के लिए end-to-end multi-turn reinforcement learning (RL) लागू करते हैं। प्रयोग दिखाते हैं कि DeepDive-32B, BrowseComp पर नया open-source competitive result हासिल करता है और WebSailor, DeepSeek-R1-Browse, तथा Search-o1 से बेहतर प्रदर्शन करता है। हम दिखाते हैं कि multi-turn RL training deep search ability को बेहतर बनाती है और कई benchmarks में performance improvements में महत्वपूर्ण योगदान देती है। हमने यह भी देखा कि DeepDive tool calls के test-time scaling और parallel sampling को सक्षम बनाता है। सभी datasets, models, और code सार्वजनिक रूप से https://github.com/THUDM/DeepDive पर उपलब्ध हैं।

शोधपत्र लिंक

https://arxiv.org/abs/2509.10446

और पढ़ें

https://github.com/THUDM/DeepDive


Multimodal बड़े भाषा मॉडल का उपयोग करके video temporal grounding पर सर्वे / A Survey on Video Temporal Grounding with Multimodal Large Language Model

शोधपत्र परिचय

Video Temporal Grounding (VTG) का क्षेत्र वीडियो में विशिष्ट समयगत घटनाओं की पहचान और समझ में महत्वपूर्ण भूमिका निभाता है, और हाल के दिनों में Multimodal Large Language Models (MLLMs) की प्रगति के कारण इसका प्रदर्शन काफी बेहतर हुआ है। MLLMs अपनी उत्कृष्ट multimodal understanding और reasoning क्षमता के आधार पर VTG approaches में पारंपरिक fine-tuning तरीकों से आगे निकलते हुए परिणाम दिखा रहे हैं। यह अध्ययन VTG-MLLMs की एक व्यापक समीक्षा के माध्यम से इस क्षेत्र की मौजूदा शोध प्रवृत्तियों का व्यवस्थित विश्लेषण करता है, और उन्हें तीन आयामों में समझाता है: MLLMs की functional roles, learning paradigms, और video feature processing techniques.

MLLMs, VTG में दो प्रमुख भूमिकाएं निभाते हैं। पहला, facilitator के रूप में वे video और language के बीच interaction को समर्थन देते हैं, और दूसरा, executor के रूप में वे वास्तविक VTG tasks को पूरा करने वाले मॉडल की तरह काम करते हैं। इन भूमिकाओं के माध्यम से विभिन्न मॉडल VTG tasks में प्रदर्शन को अधिकतम कर रहे हैं। Learning paradigms को pre-training, fine-tuning, और no-training में बांटा गया है, और प्रत्येक paradigm मॉडल के प्रदर्शन तथा generalization क्षमता पर महत्वपूर्ण प्रभाव डालता है। खास तौर पर, no-training paradigm यह संभावना दिखाता है कि कम data के साथ भी प्रभावी प्रदर्शन हासिल किया जा सकता है।

Video feature processing techniques भी VTG-MLLMs के प्रदर्शन पर महत्वपूर्ण प्रभाव डालती हैं। Visual features और temporal features को प्रभावी ढंग से संसाधित करने की पद्धतियां वीडियो के spatial और temporal representations तय करने के लिए आवश्यक हैं। इसके साथ ही, benchmark datasets और evaluation protocols के जरिए VTG-MLLMs के प्रदर्शन का मूल्यांकन किया जाता है और मॉडल की generalization क्षमता की जांच में भी इनकी महत्वपूर्ण भूमिका होती है।

अंत में, यह अध्ययन VTG-MLLMs की मौजूदा सीमाओं की पहचान करता है और भविष्य के शोध की दिशाएं प्रस्तावित करता है। datasets में विविधता की कमी, मॉडल की जटिलता, और real-time processing की कठिनाइयां अब भी प्रमुख चुनौतियां बनी हुई हैं। इन सीमाओं को पार करने के लिए नए datasets के विकास और model optimization पर केंद्रित शोध की आवश्यकता है। यह शोधपत्र VTG-MLLMs पर एक व्यापक समीक्षा प्रस्तुत करता है और इस क्षेत्र के शोधकर्ताओं के लिए उपयोगी जानकारी उपलब्ध कराता है।

शोधपत्र सार (Abstract)

हाल के वर्षों में video temporal grounding (VTG) में हुई प्रगति ने fine-grained video understanding को काफी बेहतर बनाया है, और इसका मुख्य कारण multimodal large language models (MLLMs) रहे हैं। बेहतर multimodal समझ और reasoning क्षमता से लैस MLLMs-आधारित VTG approaches (VTG-MLLMs) धीरे-धीरे पारंपरिक fine-tuning methods से आगे निकल रहे हैं। ये न केवल प्रतिस्पर्धी performance हासिल करते हैं, बल्कि zero-shot, multi-task, और multi-domain settings में generalization के मामले में भी उत्कृष्ट हैं। सामान्य video-language understanding पर व्यापक surveys उपलब्ध होने के बावजूद, खास तौर पर VTG-MLLMs पर केंद्रित comprehensive reviews अब भी कम हैं। इस कमी को दूर करने के लिए, यह survey VTG-MLLMs पर वर्तमान शोध की तीन-आयामी taxonomy के माध्यम से व्यवस्थित समीक्षा करता है: 1) MLLMs की functional roles, जो उनकी architectural significance को रेखांकित करती हैं; 2) training paradigms, जो temporal reasoning और task adaptation की strategies का विश्लेषण करती हैं; और 3) video feature processing techniques, जो spatiotemporal representation की प्रभावशीलता तय करती हैं। इसके अलावा, यह benchmark datasets और evaluation protocols पर चर्चा करता है तथा empirical findings का सार प्रस्तुत करता है। अंत में, यह मौजूदा सीमाओं की पहचान करता है और आशाजनक research directions का प्रस्ताव देता है। अतिरिक्त सामग्री और विस्तृत जानकारी के लिए, पाठकों को https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding पर जाने की सलाह दी जाती है.

> The recent advancement in video temporal grounding (VTG) has significantly enhanced fine-grained video understanding, primarily driven by multimodal large language models (MLLMs). With superior multimodal comprehension and reasoning abilities, VTG approaches based on MLLMs (VTG-MLLMs) are gradually surpassing traditional fine-tuned methods. They not only achieve competitive performance but also excel in generalization across zero-shot, multi-task, and multi-domain settings. Despite extensive surveys on general video-language understanding, comprehensive reviews specifically addressing VTG-MLLMs remain scarce. To fill this gap, this survey systematically examines current research on VTG-MLLMs through a three-dimensional taxonomy: 1) the functional roles of MLLMs, highlighting their architectural significance; 2) training paradigms, analyzing strategies for temporal reasoning and task adaptation; and 3) video feature processing techniques, which determine spatiotemporal representation effectiveness. We further discuss benchmark datasets, evaluation protocols, and summarize empirical findings. Finally, we identify existing limitations and propose promising research directions. For additional resources and details, readers are encouraged to visit our repository at https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.

पेपर लिंक

https://arxiv.org/abs/2508.10922

आगे पढ़ें

https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding


सतत प्री-ट्रेनिंग के माध्यम से एजेंट्स का विस्तार / Scaling Agents via Continual Pre-training

पेपर परिचय

large language models (LLM) अब ऐसे agent systems में विकसित हो चुके हैं जो autonomous tool use और जटिल समस्या-समाधान के लिए multi-step reasoning कर सकते हैं। लेकिन general-purpose foundation models पर आधारित post-training approaches, agent tasks में लगातार कमजोर प्रदर्शन दिखाते हैं। इस समस्या की मूल वजह एक मजबूत agent foundation model की अनुपस्थिति है, जिसके कारण post-training प्रक्रिया के दौरान मॉडल को विविध agent behaviors सीखते हुए उन्हें expert demonstrations के अनुरूप भी ढालना पड़ता है, और इससे optimization tension पैदा होता है। इस समस्या को हल करने के लिए, हम पहली बार agentic continual pre-training (Agentic CPT) को deep research agent training pipeline में एकीकृत करने का प्रस्ताव रखते हैं। इसी approach के आधार पर हमने AgentFounder नाम का deep research agent model विकसित किया है। AgentFounder-30B का 10 benchmarks पर मूल्यांकन किया गया, और इसने state-of-the-art performance हासिल की। खास तौर पर, इसने BrowseComp-en में 39.9%, BrowseComp-zh में 43.3%, और HLE में 31.5% Pass@1 performance बनाए रखते हुए मजबूत tool-use क्षमता दिखाई।

पेपर सारांश (Abstract)

large language models (LLM) ऐसे agent systems में विकसित हो चुके हैं जो autonomous tool use और जटिल समस्या-समाधान के लिए multi-step reasoning करने में सक्षम हैं। हालांकि, general-purpose foundation models पर आधारित post-training approaches agent tasks में लगातार कमजोर performance दिखाते हैं, खासकर open source implementations में। हमने इसकी मूल वजह की पहचान की है: एक मजबूत agent foundation model की कमी के कारण post-training के दौरान मॉडल को विविध agent behaviors एक साथ सीखने पड़ते हैं, साथ ही उन्हें expert demonstrations के अनुरूप भी समायोजित करना पड़ता है, जिससे बुनियादी optimization tension उत्पन्न होता है। इस समस्या के समाधान के लिए, हम पहली बार एक मजबूत agent foundation model बनाने हेतु agentic continual pre-training (Agentic CPT) को deep research agent training pipeline में शामिल करने का प्रस्ताव रखते हैं। इसी approach के आधार पर हमने AgentFounder नाम का deep research agent model विकसित किया। हमने AgentFounder-30B का 10 benchmarks पर मूल्यांकन किया और पाया कि इसने मजबूत tool-use क्षमता बनाए रखते हुए state-of-the-art performance हासिल की; विशेष रूप से BrowseComp-en में 39.9%, BrowseComp-zh में 43.3%, और HLE में Pass@1 31.5% दर्ज किया।

Large language models (LLMs) स्वायत्त tool use और जटिल समस्याओं के समाधान के लिए multi-step reasoning करने में सक्षम agentic systems के रूप में विकसित हो चुके हैं। हालांकि, general-purpose foundation models पर आधारित post-training approaches agentic tasks में लगातार कमतर प्रदर्शन करते हैं, खासकर open-source implementations में। हम मूल कारण की पहचान करते हैं: मजबूत agentic foundation models की अनुपस्थिति के कारण post-training के दौरान models को एक साथ विविध agentic behaviors सीखने और उन्हें expert demonstrations के साथ align करने के लिए मजबूर होना पड़ता है, जिससे optimization में बुनियादी तनाव पैदा होता है। इसी उद्देश्य से, हमने deep research agents training pipeline में Agentic Continual Pre-training (Agentic CPT) को शामिल करने का पहला प्रस्ताव दिया है, ताकि शक्तिशाली agentic foundational models बनाए जा सकें। इस दृष्टिकोण के आधार पर, हमने AgentFounder नाम का एक deep research agent model विकसित किया। हमने अपने AgentFounder-30B का 10 benchmarks पर मूल्यांकन किया और state-of-the-art प्रदर्शन हासिल किया, साथ ही मजबूत tool-use क्षमता भी बनाए रखी; खास तौर पर BrowseComp-en पर 39.9%, BrowseComp-zh पर 43.3%, और HLE पर 31.5% Pass@1।

पेपर लिंक

https://arxiv.org/abs/2509.13310

आगे पढ़ें

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/


Differentially Private Language Models के लिए Scaling Laws / Scaling Laws for Differentially Private Language Models

पेपर परिचय

Differential Privacy (DP) लागू किए गए large language model (LLM) training के scaling laws पर यह शोध आधुनिक AI क्षेत्र में एक महत्वपूर्ण प्रगति को दर्शाता है। इस शोध का मुख्य उद्देश्य DP LLM training की जटिलता को सटीक रूप से मॉडल करने वाले scaling laws स्थापित करना है, ताकि computing, privacy और utility के बीच के trade-off को स्पष्ट किया जा सके और optimal training configuration प्रस्तुत किया जा सके। मौजूदा LLM training में scaling laws प्रदर्शन सुधार का अनुमान लगाने और hyperparameter चयन के लिए दिशा-निर्देश देने में महत्वपूर्ण भूमिका निभाते हैं, लेकिन DP training की dynamics कुछ अलग हैं, इसलिए उसके scaling laws अभी तक पर्याप्त रूप से समझे नहीं गए हैं.

इस शोध में loss का अनुमान लगाने वाले function L(M,T,\\bar{\\sigma}) को fit करने की प्रक्रिया के माध्यम से DP LLM training के scaling laws स्थापित किए गए। यहाँ M मॉडल के parameters की संख्या, T training iterations की संख्या, और \\bar{\\sigma} noise batch ratio को दर्शाता है, और यह function linear interpolation के माध्यम से fit किया जाता है। Python के scipy.interpolate.RegularGridInterpolator का उपयोग करके लागू किया गया यह function log space में स्वाभाविक रूप से बदलने वाले parameters को ध्यान में रखकर परिभाषित किया गया है। यह दृष्टिकोण DP LLM training की जटिल dynamics को समझने में योगदान देता है और प्रयोगात्मक सेटिंग्स की सीमा के भीतर अच्छी तरह परिभाषित परिणाम देता है।

इसके अलावा, यह शोध fitted function के सूत्र और implementation details के माध्यम से evaluation points पर smooth data को सटीक रूप से match करने और उनके बीच के values का approximation करने की विधि प्रस्तुत करता है। इससे DP LLM training के scaling laws को समझने के लिए महत्वपूर्ण आधार सामग्री मिलती है, और भविष्य के शोध में प्रस्तावित scaling laws के आधार पर विभिन्न DP LLM architectures पर प्रयोग करने तथा theoretical model को और विकसित करने की आवश्यकता है।

नतीजतन, यह शोध Differential Privacy लागू large language model training के scaling laws स्थापित करके DP LLM training की जटिलता को समझने और भविष्य में LLM training तथा optimization के लिए महत्वपूर्ण दिशा-निर्देश प्रदान करेगा। उम्मीद है कि ये निष्कर्ष DP LLMs की व्यावहारिक उपयोगिता बढ़ाने में योगदान देंगे.

पेपर सारांश (Abstract)

Scaling laws large language model (LLM) training का एक महत्वपूर्ण हिस्सा बनकर उभरे हैं, क्योंकि वे scale के माध्यम से performance gains का अनुमान लगा सकते हैं और ऐसे महत्वपूर्ण hyper-parameter choices पर guidance देते हैं जो अन्यथा महंगे पड़ते। LLMs बड़े, उच्च-गुणवत्ता वाले training datasets पर भी निर्भर करते हैं, जैसे वे जो (कभी-कभी संवेदनशील) user data से प्राप्त होते हैं। इस संवेदनशील user data पर models को train करने के लिए differential privacy (DP) जैसी सावधानीपूर्वक privacy protections की आवश्यकता होती है। हालांकि, DP training की dynamics काफी अलग हैं, और परिणामस्वरूप उनके scaling laws अभी तक पूरी तरह समझे नहीं गए हैं। इस कार्य में, हम ऐसे scaling laws स्थापित करते हैं जो DP LLM training की जटिलताओं को सटीक रूप से मॉडल करते हैं, और कई settings में compute-privacy-utility trade-offs तथा optimal training configurations की एक पूर्ण तस्वीर प्रदान करते हैं.

Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.

पेपर लिंक

https://arxiv.org/abs/2501.18914

आगे पढ़ें

https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf

https://huggingface.co/google/vaultgemma-1b

https://research.google/blog/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…


R-Zero: शून्य डेटा से self-evolving reasoning LLM / R-Zero: Self-Evolving Reasoning LLM from Zero Data

पेपर परिचय

स्वयं-विकसित होने वाले Large Language Models (LLM) अपने अनुभव स्वयं उत्पन्न करके और उनसे सीखकर superintelligence की ओर बढ़ने का एक scalable रास्ता प्रदान करते हैं। मौजूदा training methods बड़े पैमाने पर human-curated tasks और labels पर निर्भर हैं, जिससे AI systems की प्रगति सीमित हो जाती है। इसे दूर करने के लिए R-Zero नाम का एक fully autonomous framework प्रस्तावित किया गया है, जो base LLM से शुरू होकर Challenger और Solver नाम के दो independent models को initialize करता है। ये models आपसी interaction के माध्यम से optimize होते हैं, और R-Zero बिना किसी मौजूदा task या label के goal-oriented self-improving curriculum बनाकर विभिन्न LLMs की reasoning क्षमता को काफ़ी बेहतर बनाता है.

शोधपत्र का सारांश(Abstract)

स्वयं-विकसित होने वाले Large Language Models (LLM) अपने अनुभव स्वयं उत्पन्न, परिष्कृत और उनसे सीखकर superintelligence की ओर बढ़ने का एक scalable मार्ग प्रदान करते हैं। लेकिन ऐसे models को train करने के मौजूदा तरीके अब भी बड़े पैमाने पर human-curated tasks और labels पर बहुत अधिक निर्भर हैं, और आम तौर पर यह fine-tuning या reinforcement learning के ज़रिए किया जाता है। इससे AI systems को मानव बुद्धि से आगे की क्षमताओं तक विकसित करने में एक मूलभूत bottleneck पैदा होता है। इस सीमा को दूर करने के लिए हम R-Zero प्रस्तुत करते हैं। R-Zero एक fully autonomous framework है, जो शुरुआत से अपना training data खुद तैयार करता है। एक base LLM से शुरू करके, R-Zero अलग-अलग भूमिकाओं वाले दो independent models — Challenger और Solver — को initialize करता है। इन models को अलग-अलग optimize किया जाता है और वे interaction के माध्यम से साथ-साथ विकसित होते हैं: Challenger को Solver की capability की सीमा के आसपास tasks प्रस्तावित करने पर reward मिलता है, और Solver को Challenger द्वारा दिए गए लगातार अधिक चुनौतीपूर्ण tasks को हल करने पर reward मिलता है। यह प्रक्रिया बिना किसी पहले से मौजूद task या label के एक targeted, self-improving curriculum तैयार करती है। अनुभवजन्य रूप से, R-Zero अलग-अलग backbone LLMs में reasoning capability को काफ़ी बढ़ाता है; उदाहरण के लिए, यह Qwen3-4B-Base को math-reasoning benchmarks पर +6.49 और general-domain reasoning benchmarks पर +7.54 तक बढ़ाता है.

> Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

शोधपत्र लिंक

https://arxiv.org/abs/2508.05004


🔥PyTorch Korea User Group🇰🇷 द्वारा संकलित यह लेख क्या आपके लिए उपयोगी रहा? सदस्य के रूप में जुड़ें, और हम प्रमुख लेख आपको ईमेल💌 से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में भी बदला जा सकता है.)

🎁 नीचे↘️ जाकर अगर आप Like❤️ दबाएँगे, तो इससे न्यूज़ प्रकाशित करने में बहुत मदद मिलेगी~ 🤗


यह लेख GPT मॉडल से तैयार किए गए सारांश पर आधारित है, इसलिए संभव है कि इसमें मूल लेख की सामग्री या आशय से अलग कुछ संक्षेपण शामिल हो। अगर विषय आपकी रुचि का है, तो कृपया मूल लेख भी साथ में देखें। पढ़ते समय अगर आपको कोई अटपटी या गलत बात मिले, तो कृपया कमेंट में बताएं। 🤗

⚠️विज्ञापन⚠️: 🔥PyTorch Korea User Group🇰🇷 द्वारा संकलित यह लेख क्या आपके लिए उपयोगी रहा? सदस्य के रूप में जुड़ें, और हम प्रमुख लेख आपको ईमेल💌 से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में भी बदला जा सकता है.)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.