[2025/12/22 ~ 28] इस हफ्ते देखने लायक AI/ML शोधपत्रों का संकलन

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ हैलुसिनेशन की गहन पहचान और शमन रणनीतियाँ (Deep Hallucination Detection & Mitigation): इस हफ्ते चुने गए शोधपत्रों को देखें तो यह स्पष्ट है कि अब फोकस सिर्फ मॉडल का आकार बढ़ाने पर नहीं, बल्कि LLM की पुरानी समस्या हैलुसिनेशन (Hallucination) को जड़ से हल करने पर है। QuCo-RAG मॉडल के भीतर की व्यक्तिपरक confidence की जगह pre-training data के statistics जैसे objective संकेतकों का उपयोग करके retrieval का समय तय करता है, जबकि H-Neurons हैलुसिनेशन पैदा करने वाले खास neurons की पहचान करता है और उनके स्रोत का पता लगाता है। इसके अलावा, Model-First Reasoning समस्या-समाधान से पहले एक स्पष्ट modeling चरण से गुजरता है, जिससे structural errors कम होते हैं। यह दिखाता है कि AI research सिर्फ 'विश्वसनीय लगने वाले जवाब' देने से आगे बढ़कर 'सत्यापित किए जा सकने वाले और भरोसेमंद mechanisms' बनाने की दिशा में विकसित हो रही है।

2️⃣ inference efficiency और real-time processing तकनीकों का विकास (Evolution of Inference Efficiency & Real-Time Processing): जैसे-जैसे मॉडल बड़े होते जा रहे हैं, inference speed और memory efficiency को अधिकतम करने वाली research भी तेज़ी से बढ़ रही है। WorldPlay ने speed और memory के बीच के trade-off को हल करके real-time video generation संभव बनाया, और Jacobi Forcing ने sequential generation (AR) की सीमाओं से आगे बढ़ते हुए parallel decoding के जरिए inference speed को नाटकीय रूप से बढ़ाया। साथ ही qTTT ने लंबे context को प्रोसेस करते समय होने वाली performance गिरावट (score dilution) को रोकने के लिए inference चरण में lightweight learning करने का नया तरीका पेश किया। इसे high-performance models को वास्तविक service level (Real-time application) में उपयोग करने के लिए एक अनिवार्य optimization प्रक्रिया के रूप में देखा जा सकता है।

3️⃣ dynamic world understanding और structured reasoning क्षमता को मजबूत करना (Enhanced Dynamic World Understanding & Structured Reasoning): static image या text analysis से आगे बढ़कर, अब समय के प्रवाह (4D) और physical/logical structure को समझने की दिशा में काम तेज़ हो रहा है। 4D-RGPT वीडियो की temporal dynamics को समझने के लिए 3D space में time axis जोड़कर 4D perception का प्रयास करता है, और WorldPlay geometric consistency बनाए रखते हुए world modeling करता है। NEPA भी pixel reconstruction की बजाय embedding prediction के जरिए visual understanding को बेहतर बनाना चाहता है। यह संकेत देता है कि AI अब केवल pattern matching से आगे बढ़कर, इंसानों की तरह physical laws और logical causality सहित 'दुनिया कैसे काम करती है' को आंतरिक रूप से समझने के चरण की ओर बढ़ रहा है।


वर्ल्डप्ले: रियल-टाइम इंटरैक्टिव वर्ल्ड मॉडलिंग के लिए दीर्घकालिक ज्यामितीय सुसंगतता में सुधार / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

शोधपत्र परिचय

WorldPlay real-time interactive world modeling के लिए बनाया गया एक अभिनव streaming video diffusion model है, जिसे long-term geometric consistency बनाए रखते हुए speed और memory के बीच के trade-off को हल करने पर केंद्रित करके विकसित किया गया है। यह मॉडल तीन प्रमुख innovations के जरिए अपनी performance को अधिकतम करता है। पहला, Dual Action Representation उपयोगकर्ता input पर मजबूत action control संभव बनाता है, जिससे अलग-अलग scale के scenes में physically plausible movement हासिल की जा सके। दूसरा, Reconstituted Context Memory पिछले frames की जानकारी को dynamically reconstruct करता है, जिससे long-term consistency बनाए रखने में मदद मिलती है। इसके जरिए geometric रूप से महत्वपूर्ण पुराने frames तक पहुँच बनाए रखते हुए memory efficiency बढ़ती है। तीसरा, Context Forcing नामक एक नई distillation method पेश की गई है, जो memory-aware model की performance को बेहतर बनाती है। यह तरीका teacher और student models के बीच memory context को align करता है, ताकि student model long-term information का प्रभावी उपयोग कर सके।

WorldPlay 24 frames per second पर 720p video generate करता है और मौजूदा तकनीकों की तुलना में बेहतर consistency दिखाता है। यह मॉडल real-time video generation में speed और long-term geometric consistency दोनों को एक साथ हासिल करने में सफल रहा है, और विभिन्न scenes में मजबूत generalization भी दिखाता है। साथ ही, यह high-quality 3D reconstruction को संभव बनाता है और dynamic world events को trigger करने वाली prompt-based interaction को support करता है। इन विशेषताओं की वजह से WorldPlay real-time interactive video generation के क्षेत्र में एक महत्वपूर्ण योगदान देता है और भविष्य में कई तरह के applications की संभावनाएँ खोलता है।

शोधपत्र सार (Abstract)

यह शोधपत्र WorldPlay प्रस्तुत करता है, जो एक streaming video diffusion model है और real-time, interactive world modeling को संभव बनाता है। WorldPlay मौजूदा तरीकों को सीमित करने वाले speed और memory के बीच के trade-off को हल करते हुए long-term geometric consistency बनाए रखता है। WorldPlay को तीन प्रमुख innovations से ताकत मिलती है। 1) हम Dual Action Representation का उपयोग करते हैं, जो user के keyboard और mouse input के जवाब में मज़बूत action control संभव बनाता है। 2) long-term consistency बनाए रखने के लिए, हमारी Reconstituted Context Memory पिछले frames से context को dynamically फिर से बनाती है, और geometrically महत्वपूर्ण लेकिन बहुत पुराने frames को सुलभ बनाए रखने के लिए temporal reframing का उपयोग करती है, जिससे memory attenuation प्रभावी ढंग से कम होता है। 3) हम Context Forcing भी प्रस्तावित करते हैं, जो memory-aware model के लिए डिज़ाइन की गई एक नई distillation method है। Teacher और student के बीच memory context को align करके, यह student की long-range information उपयोग करने की क्षमता को बनाए रखती है, जिससे error drift को रोका जा सके और real-time speed भी संभव हो। कुल मिलाकर, WorldPlay 24 FPS पर 720p video को long-horizon streaming के रूप में generate कर सकता है, और यह मौजूदा तकनीकों की तुलना में बेहतर consistency बनाए रखते हुए विविध scenes में मजबूत generalization दिखाता है। Project page और online demo यहाँ उपलब्ध हैं: https://3d-models.hunyuan.tencent.com/world/ तथा https://3d.hunyuan.tencent.com/sceneTo3D.
> This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

पेपर लिंक

https://arxiv.org/abs/2512.14614

आगे पढ़ें

https://3d-models.hunyuan.tencent.com/world/

https://3d.hunyuan.tencent.com/sceneTo3D


QuCo-RAG: pre-training data से uncertainty को quantify करके dynamic retrieval-augmented generation के लिए एक विधि / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

पेपर परिचय

QuCo-RAG एक अभिनव method है, जो बड़े language model (LLM) की generation प्रक्रिया के दौरान dynamic रूप से यह तय करता है कि retrieval कब किया जाए, ताकि hallucination को कम किया जा सके। मौजूदा approaches model के internal signals पर निर्भर करते हैं, लेकिन समस्या यह है कि LLM अक्सर ठीक से calibrated नहीं होते और गलत outputs पर भी बहुत अधिक confidence दिखाते हैं। इस अध्ययन में इन सीमाओं को दूर करने के लिए subjective confidence के बजाय pre-training data से निकाले गए objective statistics के आधार पर uncertainty को quantify करने का एक नया तरीका प्रस्तावित किया गया है.

QuCo-RAG की uncertainty quantification दो मुख्य चरणों से बनी है। पहले चरण में generation से पहले low-frequency entities की पहचान की जाती है, जो long-tail knowledge gaps को दर्शाती हैं। दूसरे चरण में generation के दौरान pre-training data में entities के co-occurrence को verify किया जाता है, और यदि co-occurrence 0 हो तो इसे hallucination के जोखिम का संकेत माना जाता है। ये दोनों चरण Infini-gram का उपयोग करके 4 trillion tokens पर millisecond-latency queries चलाते हैं, जिससे high-uncertainty situations में retrieval trigger किया जा सके.

प्रयोगों के परिणामों में, QuCo-RAG ने multi-hop question answering (QA) benchmark पर OLMo-2 model का उपयोग करते हुए state-of-the-art baselines की तुलना में accuracy (EM) में 5-12 points का सुधार हासिल किया। इसके अलावा, non-public pre-training data वाले models (Llama, Qwen, GPT) पर भी यह प्रभावी रूप से transfer हुआ और EM को अधिकतम 14 points तक बढ़ाया। Biomedical QA में domain generalization experiments ने QuCo-RAG की robustness को और सत्यापित किया.

QuCo-RAG pre-training corpus आधारित verification के माध्यम से dynamic retrieval-augmented generation के लिए एक नया paradigm प्रस्तुत करता है, और यह model-agnostic approach होने के कारण विभिन्न LLMs पर लागू किया जा सकता है। यह शोध hallucination के जोखिम को कम करने में योगदान देता है, और भविष्य में इसे विभिन्न domains में लागू करने की संभावनाओं का पता लगाने का लक्ष्य रखता है.

पेपर सारांश(Abstract)

Dynamic Retrieval-Augmented Generation बड़े भाषा मॉडल (LLMs) में hallucination को कम करने के लिए generation के दौरान retrieval कब करना है, यह अनुकूल रूप से तय करता है। लेकिन मौजूदा तरीके मॉडल के आंतरिक संकेतों (जैसे logits, entropy) पर निर्भर करते हैं, जो मूल रूप से अविश्वसनीय हैं क्योंकि LLMs आम तौर पर अच्छी तरह calibrated नहीं होते और अक्सर गलत outputs के लिए भी उच्च confidence दिखाते हैं। हम QuCo-RAG प्रस्तावित करते हैं, जो subjective confidence से हटकर pre-training data से गणना किए गए objective statistics पर आधारित है। हमारा तरीका uncertainty को दो चरणों में मापता है: (1) generation से पहले, हम low-frequency entities की पहचान करते हैं, जो long-tail knowledge gaps को दर्शाती हैं; (2) generation के दौरान, हम pre-training corpus में entities के co-occurrence की जाँच करते हैं, जहाँ zero co-occurrence अक्सर hallucination risk का संकेत देता है। दोनों चरण 4 trillion tokens पर millisecond-latency queries के लिए Infini-gram का उपयोग करते हैं, और uncertainty अधिक होने पर retrieval trigger करते हैं। multi-hop QA benchmarks पर experiments दिखाते हैं कि QuCo-RAG, OLMo-2 models के साथ state-of-the-art baselines की तुलना में EM में 5--12 points का सुधार हासिल करता है, और undisclosed pre-training data वाले models (Llama, Qwen, GPT) पर भी प्रभावी रूप से transfer होता है, जहाँ EM में अधिकतम 14 points तक सुधार मिलता है। biomedical QA पर domain generalization हमारे paradigm की robustness को और पुष्ट करती है। ये परिणाम corpus-grounded verification को dynamic RAG के लिए एक principled और व्यावहारिक रूप से model-agnostic paradigm के रूप में स्थापित करते हैं। हमारा code https://github.com/ZhishanQ/QuCo-RAG पर सार्वजनिक रूप से उपलब्ध है。
> Dynamic Retrieval-Augmented Generation generation के दौरान retrieval कब करना है, इसे अनुकूल रूप से तय करता है ताकि बड़े भाषा मॉडल (LLMs) में hallucination को कम किया जा सके। हालांकि, मौजूदा तरीके model-internal signals (जैसे logits, entropy) par निर्भर करते हैं, जो मूल रूप से अविश्वसनीय हैं क्योंकि LLMs आम तौर पर ill-calibrated होते हैं और अक्सर गलत outputs पर भी उच्च confidence दिखाते हैं। हम QuCo-RAG प्रस्तावित करते हैं, जो subjective confidence से objective statistics की ओर बदलाव करता है, जिन्हें pre-training data से गणना किया जाता है। हमारा तरीका uncertainty को दो चरणों में मापता है: (1) generation से पहले, हम low-frequency entities की पहचान करते हैं, जो long-tail knowledge gaps का संकेत देती हैं; (2) generation के दौरान, हम pre-training corpus में entity co-occurrence की जाँच करते हैं, जहाँ zero co-occurrence अक्सर hallucination risk का संकेत देता है। दोनों चरण 4 trillion tokens पर millisecond-latency queries के लिए Infini-gram का उपयोग करते हैं, और uncertainty अधिक होने पर retrieval trigger करते हैं। multi-hop QA benchmarks पर experiments दिखाते हैं कि QuCo-RAG, OLMo-2 models के साथ state-of-the-art baselines की तुलना में EM में 5--12 points का सुधार हासिल करता है, और undisclosed pre-training data वाले models (Llama, Qwen, GPT) पर भी प्रभावी रूप से transfer होता है, जहाँ EM में अधिकतम 14 points तक सुधार मिलता है। biomedical QA पर domain generalization हमारे paradigm की robustness को और पुष्ट करती है। ये परिणाम corpus-grounded verification को dynamic RAG के लिए एक principled, व्यावहारिक रूप से model-agnostic paradigm के रूप में स्थापित करते हैं। हमारा code सार्वजनिक रूप से https://github.com/ZhishanQ/QuCo-RAG पर उपलब्ध है.

शोधपत्र लिंक

https://arxiv.org/abs/2512.19134

आगे पढ़ें

https://github.com/ZhishanQ/QuCo-RAG


4D-RGPT: क्षेत्र-स्तरीय 4D समझ की ओर एक perceptual distillation approach / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

शोधपत्र परिचय

4D-RGPT एक विशेषीकृत multimodal large language model (MMLM) है, जिसे video input से 4D representations को प्रभावी ढंग से कैप्चर करने के लिए डिज़ाइन किया गया है। मौजूदा 3D और 4D video question answering (VQA) benchmarks स्थिर दृश्यों पर केंद्रित हैं, और region-level prompts की कमी के कारण temporal dynamics की समझ सीमित रही है। इस समस्या को हल करने के लिए, यह शोध Perceptual 4D Distillation (P4D) नामक एक नवीन learning framework पेश करता है, जो frozen expert model से 4D representations को 4D-RGPT में transfer करके व्यापक 4D perception संभव बनाता है.

R4D-Bench नाम का एक नया benchmark भी प्रस्तावित किया गया है, जिसमें depth-aware dynamic scenes के लिए region-level prompts शामिल हैं। R4D-Bench को hybrid automation और human verification pipeline के माध्यम से बनाया गया है, ताकि मौजूदा non-region-based 4D VQA benchmarks की सीमाओं को पार किया जा सके। यह benchmark 4D understanding के विभिन्न पहलुओं का मूल्यांकन करने के लिए 9 question categories शामिल करता है, और प्रत्येक category MMLM के प्रदर्शन का व्यापक आकलन करने के लिए एक मानदंड प्रदान करती है.

question option format MMLM से सटीक उत्तर देने के लिए आवश्यक precision की मांग करता है, जो objects की position और orientation को समझने के लिए आवश्यक है। यह approach MMLM की 4D understanding क्षमता को बेहतर बनाता है और region-based questions के माध्यम से अधिक गहन evaluation संभव करता है। यह शोध 4D-RGPT और R4D-Bench के माध्यम से मौजूदा VQA systems की सीमाओं को पार करता है और 4D perception तथा temporal understanding को बेहतर बनाने में महत्वपूर्ण योगदान देता है.

शोधपत्र सार (Abstract)

विभिन्न Multimodal Large Language Models (MLLMs) में प्रगति के बावजूद, 3D संरचनाओं और temporal dynamics पर reasoning करने की उनकी क्षमता अब भी सीमित है, जो कमजोर 4D perception और temporal understanding से बाधित है। मौजूदा 3D और 4D Video Question Answering (VQA) benchmarks भी static scenes पर ज़ोर देते हैं और इनमें region-level prompting की कमी है। हम इन समस्याओं के समाधान के लिए निम्नलिखित प्रस्तुत करते हैं: (a) 4D-RGPT, एक specialized MLLM जिसे बेहतर temporal perception के साथ video inputs से 4D representations capture करने के लिए डिज़ाइन किया गया है; (b) Perceptual 4D Distillation (P4D), एक training framework जो comprehensive 4D perception के लिए frozen expert model से 4D representations को 4D-RGPT में transfer करता है; और (c) R4D-Bench, region-level prompting के साथ depth-aware dynamic scenes के लिए एक benchmark, जिसे hybrid automated और human-verified pipeline के माध्यम से बनाया गया है। हमारा 4D-RGPT, मौजूदा 4D VQA benchmarks और प्रस्तावित R4D-Bench benchmark दोनों पर उल्लेखनीय सुधार हासिल करता है।
> Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.

पेपर लिंक

https://arxiv.org/abs/2512.17012

आगे पढ़ें

https://ca-joe-yang.github.io/resource/projects/4D_RGPT


H-न्यूरॉन्स: Large Language Models में hallucination-संबंधित न्यूरॉन्स के अस्तित्व, प्रभाव और उत्पत्ति पर अध्ययन / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

पेपर परिचय

Large Language Models (LLMs) में hallucination की समस्या मॉडल की विश्वसनीयता को कम करने वाले प्रमुख कारकों में से एक है; इसका अर्थ है ऐसे output बनना जो विश्वसनीय लगते हैं लेकिन तथ्यात्मक रूप से गलत होते हैं। इस अध्ययन में hallucination से जुड़े न्यूरॉन्स, यानी H-Neurons, के अस्तित्व, उनके प्रभाव और उनकी उत्पत्ति का व्यवस्थित विश्लेषण किया गया। H-Neurons की पहचान की प्रक्रिया में यह दिखाया गया कि कुल न्यूरॉन्स के 0.1% से भी कम का एक sparse neuron set hallucination की घटना का विश्वसनीय रूप से पूर्वानुमान कर सकता है। इन न्यूरॉन्स ने विभिन्न scenarios में मजबूत generalization क्षमता भी दिखाई।

व्यवहारिक प्रभाव के संदर्भ में, controlled intervention के माध्यम से शोधकर्ताओं ने पाया कि H-Neurons का over-compliance behavior से causal संबंध है। यह संकेत देता है कि hallucination में योगदान देने वाले न्यूरॉन्स केवल संयोग से activate नहीं होते, बल्कि उनका विशिष्ट behavioral patterns से घनिष्ठ संबंध होता है। उत्पत्ति के संदर्भ में, यह पुष्टि की गई कि H-Neurons pre-trained base model से आते हैं, और ये न्यूरॉन्स hallucination detection के लिए अपनी predictive power बनाए रखते हैं। यह एक महत्वपूर्ण insight देता है कि H-Neurons मॉडल की शुरुआती learning process के दौरान ही बनते हैं।

शोध पद्धति के रूप में, hallucination-संबंधित न्यूरॉन्स की मज़बूत पहचान के लिए TriviaQA dataset का उपयोग कर reliable outputs और hallucinated outputs को अलग करने वाला high-quality contrast set बनाया गया। इसके बाद, प्रत्येक neuron के contribution को quantify करने के लिए linear classifier train किया गया, और इसके आधार पर hallucination है या नहीं, इसका binary label तैयार किया गया। यह approach H-Neurons के functional impact का स्पष्ट मूल्यांकन करने की बुनियाद प्रदान करती है।

अंत में, यह अध्ययन LLMs में hallucination-संबंधित न्यूरॉन्स के neural mechanisms को समझने में योगदान देता है और भविष्य में अधिक विश्वसनीय LLMs के विकास के लिए महत्वपूर्ण आधार सामग्री प्रदान करता है। ये निष्कर्ष LLM की reliability बढ़ाने वाले शोध के लिए आवश्यक insights देते हैं और भविष्य के research directions की बुनियाद तैयार करते हैं।

पेपर सारांश (Abstract)

Large language models (LLMs) अक्सर hallucinations उत्पन्न करते हैं, यानी ऐसे outputs जो विश्वसनीय लगते हैं लेकिन तथ्यों से मेल नहीं खाते, जिससे उनकी reliability कम होती है। पहले के शोधों ने training data और objectives जैसे macroscopic perspectives से hallucinations का अध्ययन किया है, लेकिन neuron-level mechanisms अब तक काफी हद तक अनदेखे रहे हैं। इस पेपर में, हम LLMs में hallucination-associated neurons (H-Neurons) की तीन दृष्टिकोणों से व्यवस्थित जाँच करते हैं: identification, behavioral impact, और origins। identification के संदर्भ में, हम दिखाते हैं कि न्यूरॉन्स का एक बेहद sparse subset (कुल न्यूरॉन्स का $0.1%$ से कम) hallucination की घटनाओं का विश्वसनीय पूर्वानुमान कर सकता है, और यह विभिन्न scenarios में मजबूत generalization भी दिखाता है। behavioral impact के संदर्भ में, controlled interventions से पता चलता है कि इन न्यूरॉन्स का over-compliance behaviors से causal संबंध है। origins के संदर्भ में, हम इन न्यूरॉन्स को pre-trained base models तक trace करते हैं और पाते हैं कि ये hallucination detection के लिए predictive बने रहते हैं, जो दर्शाता है कि ये pre-training के दौरान उभरते हैं। हमारे निष्कर्ष macroscopic behavioral patterns और microscopic neural mechanisms के बीच सेतु का काम करते हैं, और अधिक विश्वसनीय LLMs विकसित करने के लिए insights प्रदान करते हैं।
> Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.

पेपर लिंक

https://arxiv.org/abs/2512.01797


अगली embedding prediction मज़बूत vision learners बनाती है / Next-Embedding Prediction Makes Strong Vision Learners

शोधपत्र परिचय

self-supervised learning बड़े पैमाने के बिना annotation वाले datasets का उपयोग करके representations सीखने की एक महत्वपूर्ण methodology के रूप में स्थापित हो चुकी है, और हाल के वर्षों में contrastive learning तथा self-distillation जैसे कई approaches विकसित हुए हैं। लेकिन इन methods को अक्सर बड़े batches या memory banks की आवश्यकता होती है, और lightweight decoders के जरिए reconstruction objectives भी अपनी सीमाएँ दिखा चुके हैं। इसके विकल्प के रूप में predictive representation learning प्रस्तावित की गई, जो raw input के बजाय semantic embeddings की prediction करने वाला approach है, और खास तौर पर JEPA (Just-Embedding Predictive Autoregression) जैसी methods ने ध्यान आकर्षित किया है। हालांकि, JEPA representation-केंद्रित है, इसलिए pretrained encoder ऐसे features बनाता है जिन्हें downstream modules अलग से consume करते हैं — यह इसकी एक सीमा है.

इसी पृष्ठभूमि में प्रस्तावित Next-Embedding Predictive Autoregression (NEPA) approach, past patch embeddings को condition बनाकर future patch embeddings की prediction करता है, और इसमें causal masking तथा stop gradient techniques का उपयोग होता है। NEPA का मुख्य फोकस इस बात पर है कि मॉडल downstream tasks के लिए features output करने के बजाय prediction task को सीधे करना सीखे। यह methodology एक सरल Transformer architecture पर आधारित है और ImageNet-1k dataset पर pretraining के जरिए उच्च performance दिखाती है। खास तौर पर, pixel reconstruction, discrete tokens, contrastive loss, या task-specific heads के बिना भी इसका प्रदर्शन मज़बूत बना रहता है.

NEPA ने ViT-B और ViT-L backbones का उपयोग करके ImageNet-1K पर क्रमशः 83.8% और 85.3% top-1 accuracy हासिल की, और ADE20K पर semantic segmentation task में भी प्रभावी transfer दिखाया। ये परिणाम दिखाते हैं कि NEPA visual self-supervised learning के लिए एक सरल, scalable, और संभावित रूप से modality-agnostic विकल्प के रूप में योगदान दे सकता है। NEPA का शोध यह संभावना प्रस्तुत करता है कि prediction के माध्यम से task behavior को सीधे प्रेरित किया जा सकता है, और यह भविष्य के कई vision tasks में उपयोग की नई संभावनाएँ खोलता है.

शोधपत्र सार (Abstract)

प्राकृतिक भाषा में generative pretraining की सफलता से प्रेरित होकर, हम यह प्रश्न उठाते हैं कि क्या यही सिद्धांत मज़बूत self-supervised visual learners भी बना सकते हैं। models को downstream उपयोग के लिए features output करने के लिए train करने के बजाय, हम उन्हें predictive tasks को सीधे पूरा करने के लिए embeddings generate करना सिखाते हैं। यह अध्ययन representation learning से model learning की ओर इस बदलाव की पड़ताल करता है। विशेष रूप से, models को past patch embeddings को condition बनाकर future patch embeddings की prediction करने के लिए train किया जाता है, और इसके लिए causal masking तथा stop gradient का उपयोग किया जाता है। हम इसे Next-Embedding Predictive Autoregression (NEPA) कहते हैं। हम दिखाते हैं कि ImageNet-1k पर pretrained एक सरल Transformer, यदि next embedding prediction को ही अपना एकमात्र learning objective बनाए, तो प्रभावी साबित होता है। इसके लिए pixel reconstruction, discrete tokens, contrastive loss, या task-specific heads की आवश्यकता नहीं होती। यह formulation अतिरिक्त design complexity के बिना architectural simplicity और scalability बनाए रखता है। NEPA ने विभिन्न tasks पर मज़बूत परिणाम हासिल किए हैं, और fine-tuning के बाद ViT-B तथा ViT-L backbones के साथ ImageNet-1K पर क्रमशः 83.8% और 85.3% top-1 accuracy दर्ज की, साथ ही ADE20K पर semantic segmentation में प्रभावी transfer भी दिखाया। हमारा मानना है कि embeddings से generative pretraining, visual self-supervised learning के लिए एक सरल, scalable, और संभावित रूप से modality-agnostic विकल्प प्रदान करता है।

Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.

शोधपत्र लिंक

https://arxiv.org/abs/2512.16922

और पढ़ें

https://sihanxu.me/nepa


model-first reasoning LLM agents: explicit problem modeling के जरिए hallucinations में कमी / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling

शोधपत्र परिचय

बड़े भाषा मॉडल (LLM) जटिल multi-step planning tasks में अक्सर constraints के उल्लंघन और inconsistent solutions की उच्च दर दिखाते हैं। मौजूदा strategies, जैसे Chain-of-Thought और ReAct, implicit state tracking पर निर्भर करती हैं, और explicit problem representation की कमी के कारण इन सीमाओं को प्रभावी ढंग से पार नहीं कर पातीं। इस शोध में classical AI planning से प्रेरित होकर Model-First Reasoning (MFR) नाम का एक नया two-step paradigm प्रस्तावित किया गया है। इस approach में LLM पहले समस्या का एक explicit model बनाता है, और फिर उसके आधार पर solution plan तैयार करता है.

MFR ने कई planning domains में experiments के माध्यम से constraint compliance और solution quality, दोनों में सुधार दिखाया। खास तौर पर, medical scheduling, route planning, resource allocation, logic puzzles, और procedural synthesis जैसे विभिन्न क्षेत्रों में MFR की प्रभावशीलता प्रमाणित हुई। ablation studies ने यह रेखांकित किया कि explicit modeling चरण इन परिणामों के लिए आवश्यक है। शोध के परिणाम यह संकेत देते हैं कि LLM की planning failures मुख्यतः representation defects से उत्पन्न होती हैं — यानी समस्या reasoning की सीमा में कम और problem representation की कमी में अधिक है.

MFR को समस्या का explicit model बनाने के चरण और solution generate करने के चरण में बाँटा गया है, और इस प्रक्रिया में entities, state variables, actions, तथा constraints को परिभाषित किया जाता है। ऐसी explicit modeling, LLM को समस्या को अधिक structured तरीके से समझने और हल करने में मदद करती है। यह शोध LLM-आधारित planning और reasoning tasks में representation failure को संबोधित करने की बुनियाद प्रदान करता है, और trustworthy AI agents के लिए एक महत्वपूर्ण योगदान देता है। सभी prompts, evaluation procedures, और task datasets को दस्तावेजीकृत किया गया है ताकि reproducibility को बढ़ावा मिले और भविष्य के शोध के लिए आधार तैयार हो सके.

शोधपत्र सार (Abstract)

Large Language Models (LLM) अक्सर जटिल multi-step planning tasks में कठिनाई झेलते हैं, और इनमें constraint violations की दर ऊंची तथा solutions असंगत होते हैं। Chain-of-Thought और ReAct जैसी मौजूदा strategies implicit state tracking पर निर्भर करती हैं और इनमें problem representation स्पष्ट नहीं होता। classical AI planning से प्रेरित होकर, हम Model-First Reasoning (MFR) प्रस्तावित करते हैं। MFR एक two-phase paradigm है, जिसमें LLM पहले समस्या का एक explicit model बनाता है, entities, state variables, actions और constraints को परिभाषित करता है, और उसके बाद solution plan तैयार करता है। medical scheduling, route planning, resource allocation, logic puzzles और procedural synthesis सहित कई planning domains में MFR, Chain-of-Thought और ReAct की तुलना में constraint violations को कम करता है और solution quality को बेहतर बनाता है। ablation studies दिखाती हैं कि explicit modeling phase इन सुधारों के लिए महत्वपूर्ण है। हमारे परिणाम संकेत देते हैं कि LLM planning की कई विफलताएं reasoning limitations के बजाय representational deficiencies से उत्पन्न होती हैं, और robust तथा interpretable AI agents के लिए explicit modeling को एक प्रमुख घटक के रूप में रेखांकित करती हैं। reproducibility को आसान बनाने के लिए सभी prompts, evaluation procedures और task datasets को document किया गया है।
> Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.

शोधपत्र लिंक

https://arxiv.org/abs/2512.14474


सिर्फ context पर निर्भर न रहें: long-context LLMs के लिए test-time training / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

शोधपत्र परिचय

Large Language Models (LLM) में प्रगति ने long context को संभालने की क्षमता को काफी बेहतर किया है, लेकिन यह समस्या सुलझाना अभी भी महत्वपूर्ण है कि ये मॉडल वास्तव में लंबे context में प्रभावी ढंग से काम नहीं कर पाते। इस शोध में बताया गया है that existing inference-time strategies performance सुधारने के लिए जो thinking tokens generation तरीका इस्तेमाल करती हैं, उसकी एक सीमा है, क्योंकि उसमें score dilution की समस्या होती है। score dilution static self-attention की प्रकृति के कारण होता है, और यही लंबे context में मॉडल की accuracy को कम कर देता है।

इस समस्या को हल करने के लिए, यह शोध query-only test-time training (qTTT) नाम की एक नई methodology प्रस्तावित करता है। qTTT दिए गए context पर targeted gradient updates के जरिए static self-attention की सीमाओं को पार करता है, और लंबे context में performance सुधारने का लक्ष्य रखता है। प्रयोगों के नतीजे दिखाते हैं कि qTTT, मौजूदा inference-time strategies की तुलना में अधिक प्रभावी approach प्रदान करता है, और Qwen3-4B मॉडल में LongBench-v2 तथा ZeroScrolls benchmark के subsets पर औसतन 12.6% और 14.1% points का performance improvement लाता है।

यह अध्ययन इस बात पर जोर देता है कि लंबे context में performance सुधारने के लिए context-specific छोटे पैमाने की learning की आवश्यकता होती है, जिसका मतलब है inference computation का बेहतर उपयोग। qTTT की शुरुआत long-context LLM की performance को अधिकतम करने का एक व्यावहारिक तरीका प्रस्तुत करती है, और उम्मीद है कि यह भविष्य के शोध में long-context processing के लिए नई दिशा दिखाएगी। यह innovative approach LLM के उपयोग की संभावनाओं को और विस्तृत करती है और विभिन्न application domains में performance improvement में योगदान दे सकती है।

शोधपत्र सारांश(Abstract)

ट्रेनिंग और आर्किटेक्चर रणनीतियों में प्रगति ने ऐसे बड़े भाषा मॉडल (LLM) संभव किए हैं जिनकी context length में लाखों tokens शामिल हो सकते हैं। हालांकि, अनुभवजन्य साक्ष्य बताते हैं कि ऐसे long-context LLM उतना पाठ consume कर सकते हैं, जितना वे वास्तव में विश्वसनीय रूप से उपयोग नहीं कर पाते। दूसरी ओर, यह दिखाया गया है कि inference-time compute का उपयोग LLM के प्रदर्शन को बढ़ाने के लिए किया जा सकता है, खासकर बहु-चरणीय reasoning वाले चुनौतीपूर्ण कार्यों में। sandbox long-context tasks पर नियंत्रित प्रयोगों के माध्यम से, हमने पाया कि ऐसी inference-time रणनीतियों का लाभ बहुत जल्दी घटने लगता है और वे लंबे context में विफल हो जाती हैं। हम इन विफलताओं का कारण score dilution को मानते हैं, जो static self-attention में निहित एक घटना है। आगे, हम दिखाते हैं कि मौजूदा inference-time रणनीतियाँ कुछ परिस्थितियों में प्रासंगिक long-context signals को retrieve नहीं कर पातीं। हम एक सरल विधि प्रस्तावित करते हैं जो दिए गए context पर targeted gradient updates के माध्यम से static self-attention की सीमाओं को पार करती है। हमने पाया कि inference-time compute के उपयोग के तरीके में यह बदलाव models और long-context benchmarks में लगातार बड़े performance improvements लाता है। हमारी विधि LongBench-v2 और ZeroScrolls benchmarks के subsets में Qwen3-4B के लिए औसतन 12.6 और 14.1 percentage points का बड़ा सुधार लाती है। व्यावहारिक निष्कर्ष यह है: long context के लिए, context-specific training की थोड़ी-सी मात्रा, अधिक thinking tokens उत्पन्न करने जैसी मौजूदा inference-time scaling रणनीतियों की तुलना में, inference compute का बेहतर उपयोग है。
> Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.

शोधपत्र लिंक

https://arxiv.org/abs/2512.13898


बड़े भाषा मॉडलों का उपयोग करके reinforcement learning को स्थिर बनाना: औपचारिक रूपरेखा और व्यवहार / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

शोधपत्र परिचय

Reinforcement Learning (RL) का सफलतापूर्वक कई क्षेत्रों में उपयोग हुआ है, लेकिन training process की instability अब भी एक प्रमुख चुनौती बनी हुई है। यह शोध बड़े भाषा मॉडल (Large Language Models, LLMs) का उपयोग करके RL की stability बढ़ाने के लिए एक नई कार्यप्रणाली प्रस्तावित करता है। विशेष रूप से, policy gradient methodology REINFORCE के माध्यम से sequence-level rewards को token-level objectives से बदलकर optimize करने की शर्तों को स्पष्ट किया गया है। first-order approximation के जरिए यह दिखाया गया है कि यह वैकल्पिक objective तब प्रभावी होता है जब training-inference mismatch और policy staleness न्यूनतम हों।

ये insights यह समझाने में मदद करते हैं कि importance sampling correction, clipping, और Mixture-of-Experts (MoE) models के लिए Routing Replay जैसी तकनीकें RL training की stability पर कैसे असर डालती हैं। 30B MoE model का उपयोग करते हुए लाखों GPU घंटों के experiments के माध्यम से यह सिद्ध किया गया कि on-policy training में importance sampling correction शामिल करने वाला बुनियादी policy gradient algorithm सबसे अधिक training stability हासिल करता है। इसके अलावा, जब convergence को तेज करने के लिए off-policy updates जोड़े जाते हैं, तब clipping और Routing Replay का संयोजन policy staleness से उत्पन्न instability को कम करने के लिए आवश्यक होता है।

यह भी दिखाया गया है कि training स्थिर हो जाने के बाद, initialization method चाहे कोई भी हो, लगातार optimization से अंतिम performance एकसमान रहती है। ये शोध परिणाम stable RL training के लिए नई अंतर्दृष्टि प्रदान करते हैं और भविष्य के शोध में योगदान देने के लिए एक महत्वपूर्ण आधार तैयार करते हैं। यह शोधपत्र बड़े भाषा मॉडलों का उपयोग करके reinforcement learning को स्थिर बनाने के लिए एक अभिनव दृष्टिकोण प्रस्तुत करता है और RL training की instability को हल करने की दिशा में महत्वपूर्ण योगदान देता है।

शोधपत्र सार (Abstract)

यह शोधपत्र बड़े भाषा मॉडल (LLM) का उपयोग करने वाले reinforcement learning (RL) के लिए एक नया formulation प्रस्तावित करता है, और बताता है कि वास्तविक sequence-level reward को policy gradient methods जैसे REINFORCE में surrogate token-level objective के ज़रिए कैसे और किन शर्तों के तहत optimize किया जा सकता है। विशेष रूप से, first-order approximation के माध्यम से हम दिखाते हैं कि यह surrogate तभी क्रमशः अधिक वैध होता है जब training-inference mismatch और policy staleness दोनों को न्यूनतम किया जाए। यह insight principled तरीके से समझाती है कि importance sampling correction, clipping, और खास तौर पर Mixture-of-Experts (MoE) मॉडल्स के लिए Routing Replay जैसी कई व्यापक रूप से अपनाई गई तकनीकें RL training को स्थिर करने में क्यों महत्वपूर्ण भूमिका निभाती हैं। सैकड़ों हज़ार GPU घंटों का उपयोग करने वाले 30B MoE मॉडल पर किए गए व्यापक experiments के माध्यम से, हम दिखाते हैं कि on-policy training में importance sampling correction शामिल करने वाला basic policy gradient algorithm सबसे अधिक training stability हासिल करता है। जब convergence को तेज़ करने के लिए off-policy updates शामिल किए जाते हैं, तब policy staleness से पैदा होने वाली instability को कम करने के लिए clipping और Routing Replay का संयोजन आवश्यक हो जाता है। विशेष रूप से, एक बार training स्थिर हो जाने पर, लंबे optimization के बाद cold-start initialization की परवाह किए बिना लगातार समान अंतिम performance मिलती है। हमें आशा है कि साझा किए गए insights और stable RL training के लिए विकसित recipes भविष्य के शोध में सहायक होंगे।
> This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.

शोधपत्र लिंक

https://arxiv.org/abs/2512.01374


पुनरावर्ती forcing का उपयोग करके तेज़ और सटीक causal parallel decoding / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

शोधपत्र परिचय

बड़े भाषा मॉडल की inference speed को बेहतर बनाने के लिए शोध तेज़ी से आगे बढ़ रहा है, और यह अध्ययन Jacobi Forcing नाम की एक अभिनव methodology प्रस्तावित करता है। यह methodology multi-token generation के माध्यम से Transformer-आधारित मॉडल्स में parallel decoding को संभव बनाती है, और inference latency को न्यूनतम करने पर केंद्रित है। मौजूदा diffusion large language models (dLLMs) approach ने pre-training और post-training के बीच mismatch के कारण performance improvement में सीमाएँ दिखाई हैं। खास तौर पर, dLLMs bidirectional attention का उपयोग करते हैं, जिससे causal prior के साथ टकराव पैदा होता है, और यह सटीक key-value cache (KV cache) reuse में बाधा डालता है.

Jacobi Forcing एक progressive distillation paradigm है, जिसमें मॉडल को अपने ही generated parallel decoding paths पर train किया जाता है, ताकि pre-trained causal inference properties को बनाए रखते हुए उसे एक efficient parallel decoder में बदला जा सके। इस methodology के ज़रिए train किए गए Jacobi Forcing model ने coding और math benchmarks पर performance loss को न्यूनतम रखते हुए 3.8x wall-clock speedup हासिल किया। इसके अलावा, rejection recycling के माध्यम से multi-block decoding को पेश किया गया, जिससे हर iteration में अधिकतम 4.5x तक उच्च token acceptance संभव हुआ और लगभग 4.0x wall-clock speedup प्राप्त हुआ.

यह शोध Jacobi Forcing के माध्यम से AR मॉडल्स की causal inference properties को बनाए रखते हुए efficient parallel decoding को संभव बनाने वाली methodology प्रस्तुत करता है, और दिखाता है कि बड़े भाषा मॉडल की inference speed को नाटकीय रूप से बढ़ाया जा सकता है। यह approach natural language processing (NLP) क्षेत्र में model efficiency को काफ़ी बेहतर बनाने की क्षमता रखता है, और उम्मीद है कि भविष्य के शोध में महत्वपूर्ण योगदान देगा।

शोधपत्र सारांश(Abstract)

मल्टी-टोकन जनरेशन transformer-आधारित बड़े मॉडलों के inference को तेज़ करने के लिए एक उभरता हुआ और आशाजनक paradigm बन गया है। हालिया प्रयास मुख्य रूप से inference latency कम करने के लिए parallel decoding हेतु diffusion Large Language Models (dLLMs) का अध्ययन कर रहे हैं। AR-स्तर की generation quality हासिल करने के लिए कई तकनीकें AR मॉडलों को dLLMs में अनुकूलित करती हैं ताकि parallel decoding संभव हो सके। लेकिन pretraining और post-training के बीच असंगति के कारण, इन्हें AR मॉडलों की तुलना में सीमित speedup मिलता है। विशेष रूप से, post-training में masked data distribution, pretraining के दौरान देखे गए वास्तविक data distribution से काफ़ी अलग होता है, और dLLMs bidirectional attention पर निर्भर करते हैं, जो pretraining के दौरान सीखे गए causal prior से टकराता है और exact KV cache reuse के एकीकरण में बाधा डालता है। इसे हल करने के लिए हम Jacobi Forcing पेश करते हैं। यह एक progressive distillation paradigm है, जिसमें मॉडल अपनी ही generated parallel decoding trajectories पर train होते हैं, जिससे AR मॉडल धीरे-धीरे efficient parallel decoder में बदल जाते हैं और साथ ही अपनी pretrained causal inference property बनाए रखते हैं। इस paradigm के तहत प्रशिक्षित मॉडल, Jacobi Forcing Model, coding और math benchmarks पर performance में न्यूनतम गिरावट के साथ 3.8x wall-clock speedup हासिल करता है। Jacobi Forcing Models की trajectory characteristics के आधार पर, हम rejection recycling के साथ multi-block decoding पेश करते हैं, जो प्रति iteration token acceptance count को अधिकतम 4.5x तक बढ़ाने और लगभग 4.0x wall-clock speedup हासिल करने में सक्षम बनाता है, यानी अतिरिक्त compute के बदले कम inference latency का प्रभावी trade-off करता है। हमारा code https://github.com/hao-ai-lab/JacobiForcing पर उपलब्ध है।
> Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.

पेपर लिंक

https://arxiv.org/abs/2512.14681

और पढ़ें

https://github.com/hao-ai-lab/JacobiForcing


बड़े भाषा मॉडल (LLM) के नुकसान: वर्गीकरण और चर्चा / LLM Harms: A Taxonomy and Discussion

पेपर परिचय

यह अध्ययन बड़े भाषा मॉडल (LLM) से जुड़े नुकसान की श्रेणियों पर केंद्रित है। शोध में AI application development से पहले, उसके दौरान और बाद में उत्पन्न हो सकने वाली पाँच प्रकार की हानियों की श्रेणियाँ प्रस्तुत की गई हैं: pre-development, direct output, misuse and malicious application, और downstream application। यह वर्तमान परिदृश्य में जोखिमों को परिभाषित करने की आवश्यकता पर ज़ोर देता है और accountability, transparency तथा bias को प्रबंधित करने के तरीकों का सुझाव देता है। साथ ही, यह विशिष्ट domains के लिए mitigation strategies और भविष्य की दिशाएँ प्रस्तावित करता है, और LLM के जिम्मेदार विकास एवं integration का मार्गदर्शन करने वाली dynamic auditing system के लिए एक standardized proposal भी शामिल करता है।

पेपर सारांश(Abstract)

यह अध्ययन artificial intelligence के क्षेत्र में बड़े भाषा मॉडल (LLMs) से जुड़े नुकसान की श्रेणियों पर चर्चा करता है। इसमें AI applications के development से पहले, development के दौरान और development के बाद संबोधित की जाने वाली पाँच प्रकार की हानियाँ शामिल हैं: pre-development, direct output, misuse and malicious application, और downstream application। यह वर्तमान परिदृश्य में जोखिमों को परिभाषित करने की आवश्यकता पर ज़ोर देता है, ताकि accountability, transparency और LLMs को व्यावहारिक applications में अनुकूलित करते समय bias को समझने और संभालने को सुनिश्चित किया जा सके। यह विशिष्ट domains के लिए mitigation strategies, भविष्य की दिशाएँ, और LLMs के जिम्मेदार विकास एवं integration का मार्गदर्शन करने वाली dynamic auditing system के लिए standardized proposal प्रस्तुत करता है।
> This study addresses categories of harm surrounding Large Language Models (LLMs) in the field of artificial intelligence. It addresses five categories of harms addressed before, during, and after development of AI applications: pre-development, direct output, Misuse and Malicious Application, and downstream application. By underscoring the need to define risks of the current landscape to ensure accountability, transparency and navigating bias when adapting LLMs for practical applications. It proposes mitigation strategies and future directions for specific domains and a dynamic auditing system guiding responsible development and integration of LLMs in a standardized proposal.

पेपर लिंक

https://arxiv.org/abs/2512.05929


⚠️विज्ञापन⚠️: 🔥PyTorch Korea User Group🇰🇷 द्वारा संकलित यह लेख क्या आपके लिए उपयोगी रहा? सदस्य के रूप में जुड़ें, तो हम आपको प्रमुख लेख ईमेल💌 से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में बदलना भी संभव है।)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.