[2025/09/08 ~ 14] इस हफ्ते देखने लायक AI/ML रिसर्च पेपर्स का संग्रह
(discuss.pytorch.kr)[2025/09/08 ~ 14] इस हफ्ते देखने लायक AI/ML रिसर्च पेपर्स का संग्रह
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ भाषा मॉडल में hallucination: हालिया शोध इस बात पर ज़ोर देता है कि बड़े भाषा मॉडल अनिश्चित होने पर अनुमान लगाकर ऐसे कथन बना देते हैं जो सुनने में विश्वसनीय लगते हैं, लेकिन गलत होते हैं। इसे 'hallucination' कहा जाता है। ऐसा इसलिए होता है क्योंकि training और evaluation प्रक्रियाएँ अनिश्चितता को स्वीकार करने के बजाय अनुमान लगाने को पुरस्कृत करती हैं। शोध यह भी कहता है कि this समस्या से निपटने के लिए मौजूदा benchmarks की scoring प्रणाली में बदलाव किया जाना चाहिए.
2️⃣ अर्थ-संरचना की समझ: बड़े भाषा मॉडलों की embedding matrix में semantic संबंध किस तरह संरचित हैं, इस पर शोध बढ़ रहा है। ऐसे अध्ययन मानव की semantic judgment से मिलती-जुलती low-dimensional संरचनाएँ खोजते हैं, और यह दिखाते हैं कि शब्दों के semantic direction के अनुसार projection का मानव मूल्यांकन से उच्च correlation होता है। इससे संकेत मिलता है कि भाषा मॉडल semantic जानकारी को मानव भाषा के समान तरीके से प्रोसेस कर रहे हैं.
3️⃣ reinforcement learning के जरिए उन्नत reasoning क्षमता में सुधार: reinforcement learning (RL) का उपयोग करके बड़े भाषा मॉडलों की जटिल reasoning क्षमता को बेहतर बनाने पर सक्रिय शोध हो रहा है। खास तौर पर, RL algorithms की efficiency बढ़ाने के लिए depth और width को नियंत्रित करने के तरीके प्रस्तावित किए गए हैं, और यह पाया गया है कि उन्नत strategic planning की खोज और mastery में इनकी महत्वपूर्ण भूमिका है। यह दृष्टिकोण RLVR (verifiable reward reinforcement learning) जैसे नए paradigms के माध्यम से आगे बढ़ रहा है.
भाषा मॉडल hallucination क्यों करते हैं / Why Language Models Hallucinate (feat. OpenAI)
शोधपत्र परिचय
बड़े भाषा मॉडल अनिश्चित परिस्थितियों में सही उत्तर का अनुमान लगाने की प्रवृत्ति रखते हैं, और इसी कारण "hallucination" की वह घटना सामने आती है जिसमें वे विश्वसनीय लगने वाली लेकिन गलत जानकारी उत्पन्न करते हैं। यह समस्या नवीनतम मॉडलों में भी बनी हुई है और reliability को कमज़ोर करने वाले प्रमुख कारणों में से एक है। यह शोध इस बात की पड़ताल करता है कि भाषा मॉडल hallucination क्यों करते हैं, और इसका कारण training तथा evaluation प्रक्रियाओं में अनिश्चितता को स्वीकार करने के बजाय अनुमान लगाने को पुरस्कृत करने की प्रवृत्ति में खोजता है। विशेष रूप से, शोध के अनुसार hallucination binary classification में होने वाली त्रुटियों से उत्पन्न होती है, और जब गलत कथनों को तथ्यों से अलग नहीं किया जा सकता, तब यह स्वाभाविक statistical pressure के कारण सामने आती है.
pretraining चरण में भाषा मॉडल बड़े पैमाने के text data से भाषा का distribution सीखते हैं, और इस प्रक्रिया में त्रुटियाँ उत्पन्न हो सकती हैं। ऐसी त्रुटियाँ उन evaluation तरीकों से लगातार मज़बूत होती रहती हैं जो अनिश्चित उत्तरों को दंडित करते हैं। शोधकर्ता यह इंगित करते हैं कि भाषा मॉडल परीक्षाओं में अच्छा प्रदर्शन करने के लिए अनिश्चितता से बचते हैं और अनुमान लगाने की ओर झुकते हैं, और उनका तर्क है कि यही प्रवृत्ति hallucination को बनाए रखती है.
OpenAI द्वारा प्रकाशित यह शोधपत्र hallucination के statistical कारणों को स्पष्ट करता है, और pretraining में इसकी उत्पत्ति तथा post-training में इसके बने रहने का विश्लेषण करता है। साथ ही, यह प्रस्तावित करता है कि मौजूदा evaluation पद्धतियों में संशोधन hallucination को कम करने का एक प्रभावी तरीका हो सकता है। यह दृष्टिकोण भाषा मॉडलों की reliability बढ़ाने और आगे चलकर अधिक trustworthy AI systems की दिशा दिखाता है। इस शोध के निष्कर्ष भाषा मॉडल hallucination को समझने और सुधारने के लिए महत्वपूर्ण आधार सामग्री के रूप में उपयोग किए जा सकते हैं.
शोधपत्र सारांश (Abstract)
जैसे छात्र कठिन परीक्षा प्रश्नों का सामना करते समय करते हैं, वैसे ही बड़े भाषा मॉडल भी अनिश्चित होने पर अनिश्चितता स्वीकार करने के बजाय अनुमान लगाते हैं, और इस तरह वे विश्वसनीय लेकिन गलत कथन उत्पन्न करते हैं। ऐसे "hallucinations" अत्याधुनिक systems में भी बने हुए हैं और भरोसे को कमज़ोर करते हैं। हम तर्क देते हैं कि भाषा मॉडल hallucination इसलिए करते हैं क्योंकि training और evaluation प्रक्रियाएँ अनिश्चितता को स्वीकार करने की तुलना में अनुमान लगाने को अधिक पुरस्कृत करती हैं, और हम आधुनिक training pipeline में hallucination के statistical कारणों का विश्लेषण करते हैं। hallucination कोई रहस्यमय चीज़ नहीं है। वे बस binary classification में होने वाली त्रुटियों से उत्पन्न होती हैं। यदि गलत कथनों को तथ्यों से अलग नहीं किया जा सकता, तो pretrained भाषा मॉडलों में hallucination प्राकृतिक statistical pressure के कारण उत्पन्न होगी। हम आगे यह भी तर्क देते हैं कि hallucination इसलिए बनी रहती है क्योंकि अधिकांश evaluations को जिस तरह grade किया जाता है, वही इसकी वजह है — भाषा मॉडलों को अच्छे test-taker की तरह optimize किया गया है, और अनिश्चित होने पर अनुमान लगाना test performance को बेहतर बनाता है। अनिश्चित उत्तरों को दंडित करने की इस "महामारी" का समाधान केवल socio-technical mitigation से हो सकता है: ऐसे मौजूदा benchmarks की scoring में बदलाव करके जो misaligned हैं लेकिन leaderboards पर हावी हैं, न कि अतिरिक्त hallucination evaluations जोड़कर। यह बदलाव क्षेत्र को अधिक trustworthy AI systems की दिशा में ले जा सकता है।
> Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.
शोधपत्र लिंक
https://arxiv.org/abs/2509.04664
बड़े भाषा मॉडल embeddings में semantic संरचना / Semantic Structure in Large Language Model Embeddings
शोधपत्र परिचय
बड़े भाषा मॉडल (LLMs) की embedding संरचना इस बात के कारण उल्लेखनीय है कि वह semantic जानकारी को मानव की भाषाई संज्ञान प्रक्रिया से मिलते-जुलते तरीके से प्रस्तुत करती है। यह शोध मनोविज्ञान संबंधी निष्कर्षों के आधार पर LLM की embedding matrix में शब्दों के बीच semantic संबंधों का विश्लेषण करता है, और इसके माध्यम से मानव शब्द-मूल्यांकन तथा LLM के आंतरिक representation के बीच correlation की जाँच करता है। शोध के परिणाम बताते हैं कि LLM embeddings में शब्दों के projection को तीन प्रमुख dimensions — evaluation (अच्छा vs. बुरा), potency (मज़बूत vs. कमज़ोर), और activity (सक्रिय vs. निष्क्रिय) — तक सीमित किया जा सकता है.
इस अध्ययन में 360 शब्दों पर किए गए survey से एकत्रित data और LLM embeddings की तुलना करके मानव semantic मूल्यांकन और LLM embeddings के बीच correlation का मात्रात्मक विश्लेषण किया गया। विशेष रूप से, शब्दों की semantic feature directions निकाली गईं, और इनके आधार पर intervention के जरिए off-target effects को मापते हुए इस बात पर ज़ोर दिया गया कि LLM की विशेषताएँ आपस में उलझी हुई हैं। ये निष्कर्ष संकेत देते हैं कि LLM embeddings मानव भाषा की जटिलता को प्रतिबिंबित करती हैं, और semantic जानकारी अपेक्षाकृत low-dimensional है.
इसके अलावा, शोध इस बात पर ज़ोर देता है कि LLM के आंतरिक कामकाज को समझने के लिए individual features के बीच संबंधों को मापना महत्वपूर्ण है, और इससे AI safety तथा functional alignment पर सकारात्मक प्रभाव पड़ सकता है। यह दृष्टिकोण feature steering की प्रक्रिया में उत्पन्न होने वाले अनचाहे परिणामों से बचने में भी मदद कर सकता है। यह शोध LLM की semantic संरचना को समझने और उसके माध्यम से मॉडल के व्यवहार को अधिक स्पष्ट रूप से पकड़ने में महत्वपूर्ण योगदान देता है.
शोधपत्र सारांश (Abstract)
मनोविज्ञान शोध लगातार यह पाता है कि विभिन्न semantic scales पर शब्दों के प्रति मानव मूल्यांकन को अपेक्षाकृत कम information loss के साथ low-dimensional रूप में संकुचित किया जा सकता है। हमने पाया कि large language models (LLMs) की embedding matrices में encoded semantic associations भी इसी तरह की संरचना दिखाते हैं। हम दिखाते हैं कि antonym pairs (जैसे kind - cruel) से परिभाषित semantic directions पर शब्दों के projections का मानव मूल्यांकन के साथ उच्च correlation होता है, और आगे यह भी पाते हैं कि ये projections LLM embeddings के भीतर प्रभावी रूप से 3-dimensional subspace तक सिमट जाते हैं। यह मानव survey responses से निकले patterns से काफ़ी मिलता-जुलता है। इसके अलावा, हमने पाया कि किसी एक semantic direction के along tokens को shift करने से geometrically aligned features पर cosine similarity के अनुपात में off-target effects उत्पन्न होते हैं। ये निष्कर्ष संकेत देते हैं कि LLMs के भीतर semantic features उसी तरह entangled हैं जैसे वे मानव भाषा में परस्पर जुड़े होते हैं, और काफ़ी जटिल दिखने वाली semantic information भी आश्चर्यजनक रूप से low-dimensional होती है। इसके अलावा, features को steer करते समय अनपेक्षित परिणामों से बचने के लिए इस semantic structure को ध्यान में रखना आवश्यक हो सकता है。
> Psychological research consistently finds that human ratings of words across diverse semantic scales can be reduced to a low-dimensional form with relatively little information loss. We find that the semantic associations encoded in the embedding matrices of large language models (LLMs) exhibit a similar structure. We show that the projections of words on semantic directions defined by antonym pairs (e.g. kind - cruel) correlate highly with human ratings, and further find that these projections effectively reduce to a 3-dimensional subspace within LLM embeddings, closely resembling the patterns derived from human survey responses. Moreover, we find that shifting tokens along one semantic direction causes off-target effects on geometrically aligned features proportional to their cosine similarity. These findings suggest that semantic features are entangled within LLMs similarly to how they are interconnected in human language, and a great deal of semantic information, despite its apparent complexity, is surprisingly low-dimensional. Furthermore, accounting for this semantic structure may prove essential for avoiding unintended consequences when steering features.
पेपर लिंक
https://arxiv.org/abs/2508.10003
rStar2-Agent: एजेंटिक रीजनिंग तकनीकी रिपोर्ट / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)
पेपर परिचय
rStar2-Agent एक 14 अरब-पैरामीटर वाला Math-reasoning मॉडल है, जिसे agentic reinforcement learning के ज़रिए state-of-the-art प्रदर्शन हासिल करने के लिए डिज़ाइन किया गया है। यह मॉडल पारंपरिक Long Chain-of-Thought (Long-CoT) approach से आगे बढ़कर जटिल problem solving के दौरान उन्नत cognitive behaviors दिखाता है। ख़ास तौर पर, Python coding tools का उपयोग करते समय यह सावधानी से सोचता है, code execution feedback को reflect करता है, और intermediate steps को स्वायत्त रूप से explore तथा verify करने की क्षमता रखता है। यह नवाचार तीन प्रमुख तत्वों के ज़रिए संभव हुआ है।
पहला, rStar2-Agent कुशल RL infrastructure के माध्यम से एक भरोसेमंद Python code environment बनाता है, जो high-throughput execution को support करता है। यह infrastructure सीमित GPU resources पर भी प्रभावी training के लिए डिज़ाइन किया गया है, जिससे ऊँची rollout cost कम होती है। दूसरा, GRPO-RoC नामक agentic RL algorithm, Resample-on-Correct rollout strategy का उपयोग करके coding tool environment के noise को संभालता है और मॉडल को code environment में अधिक प्रभावी ढंग से reason करने में मदद करता है। तीसरा, non-reasoning SFT (Supervised Fine-Tuning) से शुरू होकर multi-stage RL तक जाने वाली एक efficient agent training recipe, न्यूनतम computing cost पर उन्नत cognitive abilities प्रदान करती है।
इन methodologies के माध्यम से rStar2-Agent सिर्फ 510 RL steps के भीतर एक pre-trained 14B मॉडल को state-of-the-art स्तर तक ले जाता है और AIME24 में औसतन 80.6% तथा AIME25 में 69.8% pass@1 score हासिल करता है। यह DeepSeek-R1(671B) से बेहतर प्रदर्शन दिखाता है, साथ ही response time भी काफ़ी कम करता है। इसके अलावा, rStar2-Agent गणितीय problem solving से आगे बढ़कर alignment, scientific reasoning, और agentic tool-use tasks में भी मज़बूत generalization क्षमता दिखाता है। ये उपलब्धियाँ दर्शाती हैं कि agentic RL approach जटिल problem solving में cognitive behavior को सशक्त बनाने में महत्वपूर्ण योगदान दे रहा है।
पेपर सारांश(Abstract)
हम frontier-level performance हासिल करने के लिए agentic reinforcement learning से train किया गया 14B math reasoning model rStar2-Agent पेश करते हैं। मौजूदा लंबे chain-of-thought (CoT) से आगे बढ़ते हुए, यह मॉडल Python coding tools का उपयोग करने से पहले सावधानी से सोचने और code execution feedback पर विचार करके जटिल problem-solving प्रक्रिया में intermediate steps को स्वायत्त रूप से explore, verify और refine करने जैसे उन्नत cognitive behavior दिखाता है। यह क्षमता तीन प्रमुख innovations के माध्यम से संभव हुई है, जो large scale पर agentic RL को प्रभावी बनाती हैं: (i) एक efficient RL infrastructure, जिसमें high-throughput execution को support करने वाला और high rollout cost को कम करने वाला विश्वसनीय Python code environment है, जिससे सीमित GPU resources (64 MI300X GPUs) पर training संभव होती है; (ii) GRPO-RoC, एक agentic RL algorithm जिसमें Resample-on-Correct rollout strategy है, जो coding tools से उत्पन्न होने वाले inherent environment noise को संबोधित करता है, जिससे मॉडल code environment में अधिक प्रभावी ढंग से reason कर पाता है; (iii) एक efficient agent training recipe, जो non-reasoning SFT से शुरू होकर multi-stage RL के माध्यम से आगे बढ़ती है और न्यूनतम compute cost पर उन्नत cognitive abilities प्रदान करती है। इस उद्देश्य से, rStar2-Agent केवल 510 RL steps में pre-trained 14B model को state of the art तक ले जाता है, AIME24 पर औसत pass@1 score 80.6% और AIME25 पर 69.8% हासिल करता है, और DeepSeek-R1 (671B) को कहीं छोटे responses के साथ पीछे छोड़ देता है। गणित से आगे, rStar2-Agent-14B alignment, scientific reasoning और agentic tool-use tasks पर भी मजबूत generalization क्षमता दिखाता है। Code और training recipe https://github.com/microsoft/rStar पर उपलब्ध हैं。
> हम rStar2-Agent पेश करते हैं, एक 14B math reasoning model जिसे frontier-level performance हासिल करने के लिए agentic reinforcement learning के साथ train किया गया है। मौजूदा long CoT से आगे, यह मॉडल उन्नत cognitive behavior दिखाता है, जैसे Python coding tools का उपयोग करने से पहले सावधानी से सोचना और code execution feedback पर विचार करके complex problem-solving में intermediate steps को स्वायत्त रूप से explore, verify और refine करना। यह क्षमता तीन प्रमुख innovations के माध्यम से संभव होती है, जो scale पर agentic RL को प्रभावी बनाती हैं: (i) एक efficient RL infrastructure, जिसमें high-throughput execution को support करने वाला और high rollout cost को कम करने वाला विश्वसनीय Python code environment है, जिससे सीमित GPU resources (64 MI300X GPUs) पर training संभव होती है; (ii) GRPO-RoC, एक agentic RL algorithm जिसमें Resample-on-Correct rollout strategy है, जो coding tools से आने वाले inherent environment noises को संबोधित करता है, जिससे मॉडल code environment में अधिक प्रभावी ढंग से reason कर सकता है; (iii) एक efficient agent training recipe, जो non-reasoning SFT से शुरू होकर multi-RL stages के माध्यम से आगे बढ़ती है और न्यूनतम compute cost के साथ उन्नत cognitive abilities देती है। इस उद्देश्य से, rStar2-Agent एक pre-trained 14B model को केवल 510 RL steps और एक सप्ताह के भीतर state of the art तक पहुंचाता है, AIME24 पर 80.6% और AIME25 पर 69.8% के औसत pass@1 scores हासिल करता है, और DeepSeek-R1 (671B) को उल्लेखनीय रूप से छोटे responses के साथ पीछे छोड़ देता है। गणित से आगे, rStar2-Agent-14B alignment, scientific reasoning और agentic tool-use tasks पर भी मजबूत generalization दिखाता है। Code और training recipes https://github.com/microsoft/rStar पर उपलब्ध हैं।
पेपर लिंक
https://arxiv.org/abs/2508.20722
और पढ़ें
https://github.com/microsoft/rStar
uGMM-NN: एकचर Gaussian Mixture Model Neural Network / uGMM-NN: Univariate Gaussian Mixture Model Neural Network
पेपर परिचय
एकचर Gaussian Mixture Model Neural Network (Univariate Gaussian Mixture Model Neural Network, uGMM-NN) एक अभिनव architecture है जो deep neural networks की computational units में probabilistic inference को सीधे integrate करता है, और इसमें हर neuron अपनी activation को univariate Gaussian mixture के रूप में parameterize करता है। यह approach पारंपरिक neurons के weighted sum और fixed nonlinearity की सीमाओं को पार करती है, और learnable mean, variance तथा mixture coefficients के माध्यम से individual neurons में multimodality और uncertainty को प्रभावी ढंग से capture करने में सक्षम बनाती है। यह design मॉडल को complex data distributions सीखने के लिए आवश्यक flexibility प्रदान करता है, जबकि standard feedforward networks की scalability को बनाए रखता है।
uGMM-NN मौजूदा Multilayer Perceptron (MLP) की तुलना में competitive discriminative performance हासिल कर सकता है, और activations की probabilistic interpretation को संभव बनाता है। इसके कारण मॉडल सिर्फ simple decision boundaries से आगे बढ़कर data की complex structure को समझने और represent करने की क्षमता हासिल करता है। प्रस्तावित framework आधुनिक neural architectures में uncertainty-aware components को integrate करने की नींव रखता है, जो discriminative और generative modeling दोनों के लिए नए research directions प्रस्तुत करता है।
uGMM-NN की संरचना इस तरह बनाई गई है कि प्रत्येक neuron mixture coefficients, mean और variance सहित activation को represent करता है, और training प्रक्रिया के दौरान इन तत्वों को optimize किया जाता है। Training method के रूप में parameters को update करने के लिए backpropagation algorithm का उपयोग किया जाता है, और loss function को इस तरह design किया गया है कि वह प्रत्येक neuron की activation और वास्तविक labels के बीच के अंतर को minimize करे। इस प्रक्रिया में gradient-based optimization techniques लागू की जाती हैं ताकि मॉडल का performance अधिकतम हो सके।
प्रयोगात्मक परिणामों में, uGMM-NN ने विभिन्न benchmark datasets पर मौजूदा MLP की तुलना में अधिक accuracy दर्ज की, और uncertainty को प्रभावी ढंग से संभालने की अपनी क्षमता साबित की। ये परिणाम uGMM-NN की श्रेष्ठता को दिखाते हैं और भविष्य में uncertainty-aware modeling की दिशा के लिए महत्वपूर्ण आधार प्रदान करते हैं। यह शोध विभिन्न application क्षेत्रों में उपयोग की संभावनाओं की पड़ताल करता है, और uGMM-NN की scalability तथा अन्य models के साथ integration की संभावना पर चर्चा की ओर बढ़ता है।
पेपर सारांश (Abstract)
यह पेपर Univariate Gaussian Mixture Model Neural Network (uGMM-NN) नाम की एक नई neural architecture पेश करता है, जो probabilistic reasoning को deep networks की computational units में सीधे embed करती है। पारंपरिक neurons जहाँ weighted sums पर fixed nonlinearity लागू करते हैं, वहीं हर uGMM-NN node अपनी activations को univariate Gaussian mixture के रूप में parameterize करता है, जिसमें learnable means, variances, और mixing coefficients होते हैं। यह डिज़ाइन individual neuron स्तर पर multimodality और uncertainty को capture करके अधिक समृद्ध representations संभव बनाता है, जबकि standard feedforward networks की scalability भी बनाए रखता है। हम दिखाते हैं कि uGMM-NN पारंपरिक multilayer perceptrons की तुलना में competitive discriminative performance हासिल कर सकता है, और साथ ही activations की probabilistic interpretation भी प्रदान करता है। प्रस्तावित framework आधुनिक neural architectures में uncertainty-aware components को integrate करने की नींव देता है और discriminative तथा generative modeling दोनों के लिए नई दिशाएँ खोलता है।
> This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling.
पेपर लिंक
https://arxiv.org/abs/2509.07569
बड़े भाषा मॉडल्स में reinforcement learning के ज़रिए उभरता hierarchical reasoning / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
पेपर परिचय
बड़े भाषा मॉडल्स (LLMs) की जटिल reasoning क्षमताओं को बेहतर बनाने पर हाल के समय में AI क्षेत्र में खास ध्यान दिया गया है। इस अध्ययन में यह खोजा गया है कि reinforcement learning (RL) LLMs की इन क्षमताओं को कैसे बढ़ाता है, और इस प्रक्रिया में दिखाई देने वाली कई घटनाएँ आपस में जुड़ी हुई हैं। खास तौर पर, "aha moment" जैसे अनुभव high-level strategic thinking से गहराई से जुड़े होते हैं, और इन्हें एक उभरती हुई reasoning hierarchy की विशेषता के रूप में समझा जा सकता है, जो मानव cognition में high-level planning और low-level execution के अलगाव से मिलती-जुलती है।
अध्ययन learning dynamics के दो चरण प्रस्तुत करता है। शुरुआती चरण में मॉडल procedural correctness से सीमित रहता है और उसे low-level skills में सुधार करना पड़ता है। इसके बाद learning bottleneck बदल जाता है, और performance improvement high-level strategic planning की exploration और mastery से संचालित होती है। ये insights मौजूदा RL algorithms, खासकर GRPO (Generalized Reinforcement Policy Optimization), की inefficiency को उजागर करते हैं, और यह रेखांकित करते हैं कि यह algorithm optimization pressure को बिना भेदभाव के लागू करके learning signals को dilute कर देता है।
इस समस्या के समाधान के लिए लेखक HIerarchy-Aware Credit Assignment (HICRA) नाम का एक नया algorithm प्रस्तावित करते हैं। HICRA strategic bottlenecks को हल करने के लिए high-impact planning tokens पर optimization effort केंद्रित करता है। यह algorithm मजबूत baselines से बेहतर performance दिखाता है और यह साबित करता है कि यह advanced reasoning को unlock करने की कुंजी बन सकता है। इसके अलावा, लेखक semantic entropy को strategic exploration मापने के लिए एक बेहतर metric के रूप में प्रस्तावित करते हैं, जो token-level entropy जैसे भ्रामक metrics की तुलना में अधिक अच्छा प्रदर्शन करता है।
यह शोध LLMs के learning और reasoning process में efficiency बढ़ाने के लिए एक नया approach प्रस्तुत करता है, और HICRA algorithm के माध्यम से strategic planning पर केंद्रित optimization की आवश्यकता पर ज़ोर देता है। उम्मीद है कि ये योगदान LLMs की जटिल reasoning क्षमताओं को और आगे बढ़ाएँगे और भविष्य के शोध के लिए एक महत्वपूर्ण आधार बनेंगे।
पेपर सारांश (Abstract)
Reinforcement Learning (RL) ने Large Language Models (LLMs) की जटिल reasoning क्षमताओं को बेहतर बनाने में खुद को बेहद प्रभावी साबित किया है, लेकिन इस सफलता को चलाने वाले मूल तंत्र अब भी काफी हद तक अस्पष्ट हैं। हमारा विश्लेषण दिखाता है कि "aha moments", "length-scaling", और entropy dynamics जैसी उलझाने वाली घटनाएँ अलग-अलग घटनाएँ नहीं हैं, बल्कि एक emergent reasoning hierarchy की पहचान हैं, जो मानव cognition में high-level strategic planning और low-level procedural execution के विभाजन जैसी है। हमने एक आकर्षक two-phase dynamic का पता लगाया है: शुरुआत में मॉडल procedural correctness से सीमित रहता है और उसे अपने low-level skills सुधारने होते हैं। इसके बाद learning bottleneck निर्णायक रूप से बदल जाता है, और performance gains high-level strategic planning की exploration और mastery से संचालित होने लगते हैं। यह insight GRPO जैसे मौजूदा RL algorithms की एक मूल inefficiency को उजागर करती है, जो optimization pressure को बिना भेदभाव के लागू करते हैं और learning signal को सभी tokens में पतला कर देते हैं। इसे हल करने के लिए, हम HIerarchy-Aware Credit Assignment (HICRA) प्रस्तावित करते हैं, एक ऐसा algorithm जो optimization efforts को high-impact planning tokens पर केंद्रित करता है। HICRA मजबूत baselines की तुलना में उल्लेखनीय रूप से बेहतर प्रदर्शन करता है, और यह दिखाता है कि इस strategic bottleneck पर फोकस करना advanced reasoning को unlock करने की कुंजी है। इसके अलावा, हम यह भी सत्यापित करते हैं कि semantic entropy, token-level entropy जैसे भ्रामक metrics की तुलना में, strategic exploration को मापने के लिए एक बेहतर compass है।
> Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.
पेपर लिंक
https://arxiv.org/abs/2509.03646
OpenVision 2: मल्टीमॉडल लर्निंग के लिए generative pretrained visual encoders का एक परिवार / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)
पेपर परिचय
OpenVision 2 मल्टीमॉडल लर्निंग के लिए generative pretrained visual encoders का एक नया परिवार प्रस्तावित करता है, और मौजूदा OpenVision की architecture तथा loss design को सरल बनाकर training efficiency को काफी बढ़ाता है। यह शोध CapPa और AIMv2 जैसे पहले के vision-language pretraining कार्यों तथा आधुनिक multimodal design LLaVA पर आधारित है, और text encoder को हटाकर केवल captioning loss बनाए रखने के तरीके से आगे बढ़ता है। यह सरल की गई संरचना image encoder और text decoder, इन दो modules से बनी है, जिससे generative learning signal के जरिए visual representations को प्रभावी ढंग से सीखा जा सकता है.
OpenVision 2 के शुरुआती प्रयोगात्मक नतीजों ने मूल मॉडल का प्रदर्शन बनाए रखते हुए training time और memory consumption को काफी कम करने में सफलता पाई है। उदाहरण के लिए, ViT-L/14 backbone का उपयोग करने पर training time 1.5 गुना कम हुआ, और memory usage 1.8 गुना घट गया, जिससे maximum batch size को 2,000 से बढ़ाकर 8,000 किया जा सका। ये सुधार इस संभावना को खोलते हैं कि OpenVision 2 को 1 billion से अधिक parameters तक scale किया जा सकता है, और यह संकेत देते हैं कि हल्का, generation-only paradigm multimodal foundation models के विकास में आकर्षक हो सकता है.
यह शोध इस मौजूदा धारणा पर फिर से विचार करने के लिए प्रेरित करता है कि vision encoder बनाने के लिए CLIP-style contrastive learning अनिवार्य है। OpenVision 2 दिखाता है कि pure generative objective, multimodal performance में contrastive methods के साथ प्रतिस्पर्धा कर सकता है, जबकि compute cost को काफी घटाता है और बड़े मॉडल scaling को संभव बनाता है। शोधकर्ता OpenVision 2 के पूरे training set और pretrained checkpoints का उपयोग करके vision encoder की generative pretraining क्षमता का और गहराई से अध्ययन करने का अवसर प्राप्त कर सकते हैं। यह नवाचार multimodal learning क्षेत्र में एक नई दिशा प्रस्तुत करता है और भविष्य के शोध में महत्वपूर्ण योगदान देने की उम्मीद है.
पेपर सार (Abstract)
यह शोधपत्र OpenVision की architecture और loss design को सरल बनाकर उसकी training efficiency बेहतर करने का तरीका प्रस्तुत करता है। पहले के vision-language pretraining कार्यों CapPa और AIMv2, तथा LLaVA जैसे आधुनिक multimodal designs के आधार पर हमारा बदलाव सीधा है: text encoder (और इस तरह contrastive loss) को हटा दिया जाता है, और केवल captioning loss को एक शुद्ध generative training signal के रूप में रखा जाता है। हम इस नए संस्करण को OpenVision 2 नाम देते हैं। शुरुआती नतीजे उत्साहजनक हैं: इस सरलीकरण के बावजूद OpenVision 2, multimodal benchmarks की एक व्यापक श्रृंखला पर मूल मॉडल के प्रदर्शन की बराबरी प्रतिस्पर्धी ढंग से करता है, साथ ही training time और memory consumption दोनों को काफ़ी घटाता है। उदाहरण के लिए, ViT-L/14 के साथ यह training time को लगभग 1.5x कम करता है (83 घंटे से 57 घंटे तक), और memory usage को लगभग 1.8x घटाता है (24.5GB से 13.8GB तक, यानी maximum batch size को 2k से 8k तक बढ़ाया जा सकता है)। यह बेहतर training efficiency हमें OpenVision में उपयोग किए गए सबसे बड़े vision encoder से भी काफ़ी आगे scale करने देती है, और 1 billion से अधिक parameters तक पहुँचने में सक्षम बनाती है। हमें मज़बूत विश्वास है कि यह lightweight, generative-only paradigm multimodal foundation models में भविष्य के vision encoder development के लिए आकर्षक है।
> This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.
पेपर लिंक
https://arxiv.org/abs/2509.01644
आगे पढ़ें
https://ucsc-vlaa.github.io/OpenVision2
https://github.com/UCSC-VLAA/OpenVision
https://huggingface.co/collections/UCSC-VLAA/…
https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B
बैकप्रॉम्प्टिंग: स्वास्थ्य सलाह guardrails के लिए synthetic production data का उपयोग / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)
पेपर परिचय
जैसे-जैसे बड़े भाषा मॉडल (LLM) का उपयोग enterprise environment में फैल रहा है, उससे जुड़े कई risk factors भी सामने आ रहे हैं। खास तौर पर, LLM के output में गलत जानकारी शामिल होने की संभावना health advice जैसे संवेदनशील क्षेत्रों में गंभीर परिणाम पैदा कर सकती है। इन जोखिमों को कम करने के लिए guardrails तकनीक की ज़रूरत होती है, जो LLM के input और output text को विभिन्न detectors के ज़रिए filter करने के तरीके से काम करती है। लेकिन मज़बूत detectors को विकसित और बनाए रखने में सबसे बड़ी बाधाओं में से एक यह है कि वास्तविक LLM outputs के लिए production-quality labeled data हासिल करना कठिन है।
इस शोध में इस समस्या को हल करने के लिए बैकप्रॉम्प्टिंग(Backprompting) नाम की एक नवीन methodology प्रस्तावित की गई है। बैकप्रॉम्प्टिंग वह approach है जिसमें user द्वारा दिए गए प्रश्न के आधार पर LLM द्वारा generated text पर फिर से सवाल पूछकर production-जैसा labeled data बनाया जाता है। इस प्रक्रिया में sparse human-in-the-loop clustering technique का उपयोग करके generated data को label किया जाता है। इसके माध्यम से मूल dataset का मोटे तौर पर प्रतिनिधित्व करते हुए, वास्तविक LLM outputs के समान एक parallel corpus तैयार किया जा सकता है।
अध्ययन का मुख्य लक्ष्य मौजूदा dataset में synthetic examples inject करके detectors के लिए मज़बूत training data तैयार करना है। इसके ज़रिए health advice की पहचान करने वाले guardrail के निर्माण में प्रदर्शन सुधारने का लक्ष्य रखा गया है। प्रयोगों के नतीजों में प्रस्तावित detector ने मौजूदा तरीकों की तुलना में अधिकतम 3.73% तक performance improvement दर्ज किया, और GPT-4o से तुलना में भी बेहतर परिणाम दिखाए। ये उपलब्धियाँ संकेत देती हैं कि बैकप्रॉम्प्टिंग से generated data ने detector training पर सकारात्मक प्रभाव डाला।
निष्कर्षतः, यह शोध LLM outputs की सुरक्षा बढ़ाने के लिए data generation की एक नई methodology प्रस्तुत करता है, और भविष्य में इसके विभिन्न क्षेत्रों में लागू होने की संभावना दिखाता है। बैकप्रॉम्प्टिंग health advice guardrails के विकास में प्रभावी है, और LLM के सुरक्षित उपयोग के लिए एक महत्वपूर्ण योगदान देने की उम्मीद है।
पेपर सारांश (Abstract)
enterprise environment में बड़े language models (LLM) के व्यापक प्रसार के साथ इनके उपयोग से जुड़े काफी जोखिम भी सामने आए हैं। guardrail technologies का लक्ष्य विभिन्न detectors के जरिए LLM के input/output text को filter करके इन जोखिमों को कम करना है। हालांकि, मजबूत detectors को विकसित और बनाए रखना कई चुनौतियों से भरा है, जिनमें से एक deployment से पहले वास्तविक LLM outputs पर production-quality labeled data हासिल करने की कठिनाई है। इस शोध में हम health advice guardrails के development के लिए production-जैसा labeled data बनाने का एक सरल लेकिन सहज समाधान, backprompting, प्रस्तावित करते हैं। इसके अलावा, generated data को label करने के लिए हम अपने backprompting method को sparse human-in-the-loop clustering technique के साथ जोड़ते हैं। हमारा लक्ष्य ऐसा parallel corpus बनाना है जो मूल dataset का मोटे तौर पर प्रतिनिधित्व करे, लेकिन वास्तविक LLM output जैसा भी लगे। इसके बाद हम detector के लिए मजबूत training data तैयार करने हेतु existing datasets में अपने synthetic examples को शामिल करते हैं। हम अपनी technique को LLM output में health advice की पहचान जैसे सबसे कठिन और सूक्ष्म guardrails में से एक पर test करते हैं, और अन्य solutions की तुलना में बेहतर performance दिखाते हैं। हमारा detector, 400 गुना कम parameters होने के बावजूद, GPT-4o से अधिकतम 3.73% बेहतर प्रदर्शन कर सकता है。
> enterprise settings में बड़े language models (LLMs) की सर्वव्यापकता ने उनके उपयोग से जुड़े महत्वपूर्ण जोखिम भी सामने ला दिए हैं। Guardrails technologies का उद्देश्य विभिन्न detectors के माध्यम से LLMs के input/output text को filter करके इस जोखिम को कम करना है। हालांकि, robust detectors को विकसित और maintain करना कई चुनौतियों का सामना करता है, जिनमें से एक deployment से पहले वास्तविक LLM outputs पर production-quality labeled data हासिल करने की कठिनाई है। इस कार्य में हम health advice guardrails development के लिए production-जैसा labeled data generate करने का एक सरल लेकिन सहज समाधान, backprompting, प्रस्तावित करते हैं। इसके अलावा, generated data को label करने के लिए हम अपने backprompting method को sparse human-in-the-loop clustering technique के साथ जोड़ते हैं। हमारा उद्देश्य एक ऐसा parallel corpus बनाना है जो मोटे तौर पर original dataset का प्रतिनिधित्व करे, लेकिन वास्तविक LLM output जैसा दिखे। फिर हम अपने synthetic examples को existing datasets में शामिल करके अपने detector के लिए robust training data तैयार करते हैं। हम अपनी technique को guardrails के सबसे कठिन और सूक्ष्म उपयोग-प्रकरणों में से एक, यानी LLM output में health advice की पहचान, पर test करते हैं और अन्य समाधानों की तुलना में सुधार दिखाते हैं। हमारा detector, 400x कम parameters होने के बावजूद, GPT-4o से अधिकतम 3.73% बेहतर प्रदर्शन कर सकता है।
पेपर लिंक
https://arxiv.org/abs/2508.18384
RLVR में depth-breadth synergy: adaptive exploration के जरिए LLM reasoning क्षमता को बढ़ाना / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration
पेपर परिचय
Reinforcement Learning with Verifiable Reward (RLVR) बड़े language models (LLM) की reasoning क्षमता को अधिकतम करने में अहम भूमिका निभा रहा है, लेकिन इसकी क्षमता दो अब तक कम खोजे गए आयामों—Depth (वे सबसे कठिन समस्याएँ जिन्हें model sample कर सकता है) और Breadth (एक ही iteration में consume होने वाले instances की संख्या)—से सीमित है। इस शोध में मौजूदा GRPO (Generalized Relative Preference Optimization) algorithm का विश्लेषण किया गया है और यह दिखाया गया है कि cumulative advantage, मध्यम accuracy वाले samples को असंतुलित रूप से अधिक weight देता है, जबकि कम-accuracy instances को व्यवस्थित रूप से कम महत्व देता है। इसे हल करने के लिए शोधकर्ता Difficulty Adaptive Rollout Sampling (DARS) methodology प्रस्तावित करते हैं, जो goal-directed multi-stage rollouts के माध्यम से कठिन समस्याओं के weights को फिर से संतुलित करती है ताकि positive rollouts की संख्या बढ़ सके.
DARS सिर्फ rollout size बढ़ाने तक सीमित नहीं है, बल्कि Pass@K performance को बेहतर बनाने में योगदान देता है। साथ ही, यह भी जांचा गया है कि training data की breadth को आक्रामक रूप से बढ़ाना reasoning improvement में मदद कर सकता है। इसके लिए batch size को काफी बढ़ाया गया और Proximal Policy Optimization (PPO) की mini-batch iterations को कई epochs में full-batch updates से बदल दिया गया। यह approach Pass@1 performance को काफी बेहतर बनाता है, और large-scale breadth training उच्च token-level entropy बनाए रखती है, जो निरंतर exploration और gradient noise में कमी का संकेत देती है.
DARS-B, DARS में large-scale breadth जोड़कर Pass@K और Pass@1 दोनों में एक साथ performance gains हासिल करने की methodology है, और यह दिखाती है कि breadth और depth के लिए adaptive exploration, RLVR की reasoning क्षमता को सामने लाने में महत्वपूर्ण भूमिका निभाता है। यह शोध इन methodologies के जरिए RLVR की reasoning क्षमता को अधिकतम करने के लिए एक नई दिशा प्रस्तुत करता है, और प्रयोगों के माध्यम से साबित करता है कि depth और breadth की adaptive exploration, RLVR के performance improvement में योगदान देती है.
पेपर सार (Abstract)
Reinforcement Learning with Verifiable Reward (RLVR) बड़े language models की reasoning क्षमताओं को उजागर करने के लिए एक शक्तिशाली paradigm के रूप में उभरा है, लेकिन इसकी पूरी क्षमता दो कम-खोजे गए आयामों से सीमित है: depth — वह सबसे कठिन समस्या जिसे मॉडल sample कर सकता है; breadth — एक single iteration में उपयोग किए जाने वाले instances की संख्या। हम लोकप्रिय GRPO algorithm का विश्लेषण करते हैं और एक systematic bias दिखाते हैं: cumulative-advantage मध्यम accuracy वाले samples को असंगत रूप से अधिक weight देता है, जबकि reasoning की सीमाओं को आगे बढ़ाने के लिए महत्वपूर्ण low-accuracy instances का weight कम कर देता है। Depth की इस उपेक्षा को ठीक करने के लिए, हम Difficulty Adaptive Rollout Sampling (DARS) पेश करते हैं, जो लक्षित multi-stage rollouts के माध्यम से कठिन समस्याओं का weight फिर से निर्धारित करता है और इस तरह कठिन समस्याओं के लिए positive rollouts की संख्या बढ़ाता है। अनुभवजन्य रूप से, rollout size को साधारण रूप से बढ़ाने से केवल convergence तेज होती है और Pass@K पर नकारात्मक असर भी पड़ता है। इसके विपरीत, हमारा DARS convergence पर अतिरिक्त inference cost के बिना लगातार Pass@K सुधार देता है। जैसे हमने exploration की depth को अनुकूली तरीके से बढ़ाया, वैसे ही अब हम पूछते हैं कि क्या training data की breadth को आक्रामक रूप से बढ़ाने से reasoning gains और बढ़ सकते हैं। इसके लिए, हम batch size को बड़े पैमाने पर बढ़ाते हैं और PPO की mini-batch iterations को कई epochs में full-batch updates से बदलते हैं। Breadth बढ़ाने से Pass@1 प्रदर्शन में महत्वपूर्ण सुधार होता है। Large-breadth training उच्च token-level entropy बनाए रखती है, जो लगातार exploration और कम gradient noise का संकेत देती है। हम आगे DARS-B भी प्रस्तुत करते हैं, जो DARS को large breadth के साथ बढ़ाता है, और Pass@K तथा Pass@1 दोनों में एक साथ सुधार दिखाता है। परिणाम पुष्टि करते हैं कि breadth और depth के पार adaptive exploration, RLVR में orthogonal dimensions की तरह काम करते हैं, और यही RLVR की reasoning शक्ति को पूरी तरह उजागर करने की कुंजी हैं。
> Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.
पेपर लिंक
https://arxiv.org/abs/2508.13755
FlowVLA: visual chain of thought के साथ motion के बारे में सोचना / FlowVLA: Thinking in Motion with a Visual Chain of Thought
पेपर परिचय
Vision-Language-Action (VLA) models अगली frame prediction के माध्यम से प्रशिक्षित internal world models पर निर्भर करते हैं, लेकिन इस तरीके में static appearance और dynamic motion आपस में उलझे रहते हैं, जिससे physical reasoning कठिन हो जाती है। इसे हल करने के लिए हम Visual Chain of Thought (Visual CoT) नामक एक pretraining framework पेश करते हैं, जो scene के evolution पर reasoning करने के बाद prediction करने के लिए प्रेरित करता है। FlowVLA पहले intermediate optical flow representations बनाता है और फिर future frames की prediction करता है; यह प्रक्रिया एक single autoregressive Transformer के भीतर लागू की जाती है, जिससे dynamic elements को अलग करके सीखा जा सके। प्रयोगों के परिणाम दिखाते हैं कि FlowVLA अधिक सुसंगत visual predictions उत्पन्न करता है और policy learning की efficiency को काफी बढ़ाता है, जिससे world modeling के लिए अधिक principled foundation मिलती है।
पेपर सार (Abstract)
कई Vision-Language-Action (VLA) मॉडल next-frame prediction के जरिए प्रशिक्षित internal world model पर निर्भर करते हैं। लेकिन यह तरीका static appearance और dynamic motion को आपस में उलझा देता है, जिससे physical reasoning कठिन हो जाती है, और अक्सर अविश्वसनीय visual prediction तथा अप्रभावी policy learning होती है। इन सीमाओं को दूर करने के लिए हम Visual Chain of Thought (Visual CoT) पेश करते हैं: यह एक pre-training framework है जो मॉडल को यह अनुमान लगाने के लिए प्रेरित करता है कि दृश्य कैसे विकसित होगा, उससे पहले कि वह यह भविष्यवाणी करे कि वह कैसा दिखेगा। हमने इस सिद्धांत को FlowVLA में लागू किया है, जो dynamic motion को encode करने वाली intermediate optical flow representation ($f_t$) बनाने के बाद ही future frame ($v_{t+1}$) की भविष्यवाणी करता है। यह "$v_t \rightarrow f_t \rightarrow v_{t+1}$" reasoning process एक single autoregressive Transformer के भीतर लागू किया गया है, जो मॉडल को disentangled dynamics सीखने के लिए मार्गदर्शन देता है। नतीजतन, FlowVLA सुसंगत visual prediction उत्पन्न करता है और अधिक efficient policy learning को सक्षम बनाता है। चुनौतीपूर्ण robotics manipulation benchmarks पर किए गए प्रयोग state-of-the-art प्रदर्शन दिखाते हैं, साथ ही sample efficiency में उल्लेखनीय सुधार भी साबित करते हैं, जो world modeling के लिए अधिक principled foundation की ओर संकेत करता है। Project page: https://irpn-lab.github.io/FlowVLA/
> कई Vision-Language-Action (VLA) मॉडल next-frame prediction के जरिए प्रशिक्षित internal world model पर निर्भर करते हैं। हालांकि, यह तरीका physical reasoning में संघर्ष करता है क्योंकि यह static appearance को dynamic motion के साथ उलझा देता है, जिससे अक्सर अविश्वसनीय visual forecast और अप्रभावी policy learning होती है। इन सीमाओं को दूर करने के लिए, हम Visual Chain of Thought (Visual CoT) पेश करते हैं: एक pre-training framework जो मॉडल को यह समझने के लिए प्रोत्साहित करता है कि दृश्य कैसे बदलता है, उससे पहले कि वह अनुमान लगाए कि वह कैसा दिखेगा। हमने इस सिद्धांत को FlowVLA में लागू किया है, जो motion dynamics को encode करने वाली intermediate optical flow representation ($f_t$) बनाने के बाद ही future frame ($v_{t+1}$) की भविष्यवाणी करता है। यह ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process एक single autoregressive Transformer के भीतर लागू किया गया है, जो मॉडल को disentangled dynamics सीखने के लिए मार्गदर्शन देता है। परिणामस्वरूप, FlowVLA सुसंगत visual prediction देता है और अधिक efficient policy learning को सक्षम बनाता है। चुनौतीपूर्ण robotics manipulation benchmarks पर किए गए प्रयोग state-of-the-art प्रदर्शन दिखाते हैं, साथ ही sample efficiency में काफी सुधार भी दर्शाते हैं, जो world modeling के लिए अधिक principled foundation की ओर इशारा करता है। Project page: https://irpn-lab.github.io/FlowVLA/
पेपर लिंक
https://arxiv.org/abs/2508.18269
आगे पढ़ें
https://irpn-lab.github.io/FlowVLA/
दीर्घ-आकार के वीडियो समझ के लिए Episodic Memory Representation / Episodic Memory Representation for Long-form Video Understanding
पेपर परिचय
वीडियो समझ के क्षेत्र की प्रमुख चुनौतियों में से एक है लंबे वीडियो के संदर्भ को प्रभावी ढंग से संभालना। मौजूदा Video Large Language Models (Video-LLMs) सामान्य वीडियो समझ में तो उत्कृष्ट हैं, लेकिन लंबे वीडियो में context window की सीमाओं के कारण कठिनाई का सामना करते हैं। इस समस्या को हल करने के लिए प्रस्तावित Video-EM (Episodic Memory Representation) framework एक नवीन, training-free approach प्रदान करता है।
Video-EM वीडियो की प्रमुख घटनाओं को समयानुक्रम में व्यवस्थित episode के रूप में मॉडल करता है, जिससे dynamic spatiotemporal relationship और narrative को पकड़ा जा सकता है। यह framework तीन मुख्य components से बना है: Key Event Selection, Episodic Memory Representation, और Chain of Thought (CoT) Video Reasoning। Key Event Selection module query से संबंधित जानकारी की पहचान करता है और समय की दृष्टि से आस-पास की प्रमुख घटनाओं को निकालता है, जिससे वीडियो की redundancy की समस्या का समाधान होता है।
Episodic Memory Representation module प्रत्येक event के temporal order को स्पष्ट रूप से मॉडल करता है, जिससे dynamic spatiotemporal context को समृद्ध रूप से प्रस्तुत किया जा सकता है। इसके जरिए वीडियो के narrative को प्रभावी ढंग से पुनर्निर्मित किया जा सकता है। अंत में, CoT Video Reasoning संबंधित episodic memory के न्यूनतम सेट को बार-बार चुनकर सटीक और context-grounded उत्तर उत्पन्न करता है।
इस अध्ययन ने विभिन्न benchmarks पर Video-EM के प्रदर्शन का मूल्यांकन किया और मौजूदा मॉडलों की तुलना में 4-9% प्रदर्शन सुधार हासिल करने के परिणाम दिखाए। ये उपलब्धियां यह दर्शाती हैं कि कम संख्या में frames का उपयोग करते हुए भी उच्च accuracy बनाए रखने में सफलता मिली। Video-EM वीडियो question answering की accuracy को काफी बढ़ाता है और वीडियो समझ के क्षेत्र में नई संभावनाओं को खोलने वाला एक महत्वपूर्ण योगदान देता है। यह approach भविष्य के शोध के लिए एक महत्वपूर्ण आधार सामग्री के रूप में उपयोगी हो सकता है।
पेपर सार (Abstract)
Video-LLM सामान्य video understanding में बेहतरीन प्रदर्शन करते हैं, लेकिन context window की सीमाओं के कारण लंबे वीडियो में संघर्ष करते हैं। इसलिए हाल की approaches keyframe retrieval पर फोकस करती हैं, जिससे लंबे वीडियो को कुछ informative frames में संकुचित किया जा सके। हालांकि ये तरीके व्यावहारिक हैं, लेकिन ये समस्या को static text-image matching तक सरल बना देते हैं, जिससे scene transition और contextual continuity को पकड़ने के लिए महत्वपूर्ण spatio-temporal relationships नजरअंदाज हो जाते हैं। साथ ही, ये सीमित जानकारी वाले redundant keyframes भी पैदा कर सकते हैं, जिससे सटीक video question answering के लिए जरूरी महत्वपूर्ण संकेत कमजोर पड़ सकते हैं। इन सीमाओं को दूर करने के लिए, हम Video-EM पेश करते हैं, जो मानव episodic memory के सिद्धांतों से प्रेरित एक training-free framework है और मजबूत तथा contextually grounded reasoning को सक्षम बनाने के लिए डिज़ाइन किया गया है। Keyframes को अलग-थलग visual entities की तरह देखने के बजाय, Video-EM उन्हें समयानुक्रम में व्यवस्थित episodic events के रूप में स्पष्ट रूप से model करता है, जिससे underlying narrative को सही तरह से पुनर्निर्मित करने के लिए आवश्यक spatial relationships और temporal dynamics दोनों को कैप्चर किया जा सके। इसके अलावा, यह framework LLMs के साथ chain-of-thought (CoT) reasoning का उपयोग करके episodic memories के एक न्यूनतम लेकिन अत्यधिक informative subset की iterative पहचान करता है, जिससे Video-LLMs द्वारा efficient और accurate question answering संभव हो पाती है। Video-MME, EgoSchema, HourVideo और LVBench benchmarks पर व्यापक evaluations से Video-EM की श्रेष्ठता की पुष्टि हुई है। यह अपने-अपने baselines की तुलना में 4-9% बेहतर performance हासिल करता है, जबकि कम frames का उपयोग करते हुए भी competitive results देता है।
> Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant keyframes with limited information, diluting salient cues essential for accurate video question answering. To address these limitations, we introduce Video-EM, a training free framework inspired by the principles of human episodic memory, designed to facilitate robust and contextually grounded reasoning. Rather than treating keyframes as isolated visual entities, Video-EM explicitly models them as temporally ordered episodic events, capturing both spatial relationships and temporal dynamics necessary for accurately reconstructing the underlying narrative. Furthermore, the framework leverages chain of thought (CoT) thinking with LLMs to iteratively identify a minimal yet highly informative subset of episodic memories, enabling efficient and accurate question answering by Video-LLMs. Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench benchmarks confirm the superiority of Video-EM, which achieves highly competitive results with performance gains of 4-9 percent over respective baselines while utilizing fewer frames.
पेपर लिंक
https://arxiv.org/abs/2508.09486
यह लेख GPT मॉडल से तैयार किए गए सारांश पर आधारित है, इसलिए संभव है कि इसमें मूल लेख की सामग्री या आशय से अलग तरह से संक्षेपित किए गए हिस्से हों। यदि यह विषय आपकी रुचि का है, तो कृपया मूल लेख भी साथ में देखें। पढ़ते समय यदि आपको कोई अटपटा या गलत हिस्सा मिले, तो कृपया टिप्पणी में बताएं। 🤗
⚠️विज्ञापन⚠️: 🔥PyTorch Korea User Group🇰🇷 द्वारा तैयार किया गया यह लेख क्या आपको उपयोगी लगा? सदस्य के रूप में जुड़ें, तो हम आपको प्रमुख लेख ईमेल💌 से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में बदलना भी संभव है.)
अभी कोई टिप्पणी नहीं है.