[2026/06/08 ~ 14] इस सप्ताह देखने लायक AI/ML शोध-पत्रों का संग्रह
(discuss.pytorch.kr)PyTorchKR🔥🇰🇷 🤔💭
इस सप्ताह चुने गए 10 शोध-पत्रों को देखें तो साफ़ दिखता है कि AI research अब सिर्फ मॉडल performance बढ़ाने तक सीमित नहीं है, बल्कि autonomy, reliability और efficiency की सीमाओं को पार करने की दिशा में तीन स्पष्ट रुझान उभर रहे हैं.
1️⃣ स्वायत्त self-improvement और multi-agent systems का विकास: इस सप्ताह के शोध-पत्रों में यह रुझान खास तौर पर उभरकर सामने आता है कि agents अब इंसानों के स्पष्ट निर्देशों या तय trajectory से आगे बढ़कर ऐसे autonomous systems में बदल रहे हैं जो खुद संगठन बनाते हैं और अपनी कमजोरियों को सुधारते हैं। Economy of Minds और AutoScientists ने ऐसे distributed collaboration systems प्रस्तावित किए हैं जिनमें agents बिना central control के economic interactions (auction, capital accumulation) या shared forum के ज़रिए स्वेच्छा से भूमिकाएँ बाँटते हैं और लंबे समय तक exploration जारी रखते हैं। साथ ही Self-Harness ने एक ऐसा framework प्रस्तुत किया जिसमें agent अपने पुराने failure patterns का विश्लेषण कर system prompt और operational policy (Harness) को बार-बार संशोधित करते हुए अपनी performance खुद बढ़ाता है। यह संकेत देता है कि AI अब किसी एक task को पूरा करने वाले passive tool से आगे बढ़कर long-term planning और collaboration करने वाली active evolving entity बन रहा है.
2️⃣ AI capabilities का कठोर सत्यापन और complementary use (hybrid): AI की सतही performance के पीछे मौजूद वास्तविक सीमाओं को पहचानना और उन्हें इंसानों या classical algorithms के साथ मिलाकर पार करने की कोशिश करना भी एक प्रमुख रुझान है। LiveBrowseComp ने इस blind spot को उजागर किया कि search agents वास्तव में नई जानकारी खोजने के बजाय अक्सर मॉडल के अंदर मौजूद prior knowledge की ही पुष्टि करते हैं। AI reviewer study ने अनुभवजन्य रूप से दिखाया कि AI सूक्ष्म errors पकड़ने में तो सक्षम है, लेकिन long-term context समझने में कमजोर है, इसलिए वह human reviewers का पूरी तरह replacement नहीं बल्कि एक 'complement' है। आगे बढ़ते हुए hyperparameter optimization (HPO) study ने पुष्टि की कि state tracking में LLMs की क्षमता classical algorithms से कमज़ोर है, और CMA-ES की internal state को LLM के साथ साझा करने वाले hybrid approach से सर्वोत्तम performance हासिल की गई। यह inflated benchmarks से सावधान रहने और AI की कमजोरियों को स्पष्ट रूप से समझकर सबसे प्रभावी collaboration structure बनाने का एक व्यावहारिक प्रयास है.
3️⃣ डेटा, environment और compute resources का बुद्धिमान optimization: सिर्फ model size बढ़ाने के बजाय, training environment, data और hardware computation की efficiency को अधिकतम करके cost-performance density बढ़ाने वाली infrastructure-level approaches भी तेज़ी से आगे बढ़ रही हैं। AutoForge ने high-difficulty agent reinforcement learning के लिए जटिल simulation environments को स्वतः synthesize करके training scalability की समस्या हल की, जबकि APEX ने data difficulty को dynamically classify करके prompt optimization computation को सिर्फ सबसे अधिक informative data पर केंद्रित किया और अत्यधिक data efficiency दिखाई। इसके अलावा FP8 is All You Need ने 8-bit low-precision tensor computation का उपयोग कर high-cost double precision (FP64) आधारित high-performance computing (HPC) की सीमाओं को तोड़ा, और DySIB ने high-dimensional observation data से सिर्फ dynamics की core information निकालने वाली mathematical efficiency साबित की। यह सीमित संसाधनों का सबसे बुद्धिमानी से उपयोग करके AI systems की वास्तविक industrial और scientific applicability बढ़ाने का एक गंभीर प्रयास है.
शोध-पत्रवार मुख्य सारांश
-
Economy of Minds एक distributed system प्रस्तावित करता है जिसमें agents बिना centralized control के auction के माध्यम से action rights हासिल करते हैं और environment rewards से wealth जमा करते हैं; इन economic interaction rules के आधार पर वे स्वाभाविक रूप से evolve होते हैं और multi-step reasoning जैसी high-level collective intelligence बनाते हैं.
-
AutoForge बड़े language agents के प्रभावी reinforcement learning के लिए verifiable high-difficulty simulation environments को स्वतः बड़े पैमाने पर synthesize करता है, और user instability तथा environments के बीच heterogeneity को पार कर training stability सुधारने वाली environment-level integrated pipeline प्रस्तुत करता है.
-
APEX बड़े language models के prompt optimization के दौरान पूरे evaluation dataset को व्यर्थ खर्च करने वाली मौजूदा inefficiency को सुधारने के लिए, सही और गलत उत्तरों के मिश्रित interval को dynamically चुनकर सीमित compute budget के भीतर data efficiency को अधिकतम करने की विधि प्रस्तुत करता है.
-
Self-Harness ऐसा framework प्रस्तुत करता है जिसमें human experts के हस्तक्षेप या अधिक शक्तिशाली बाहरी models की मदद के बिना, agent स्वयं पिछले execution traces में पाए गए failure patterns का विश्लेषण करता है और regression tests के बाद अपने तथा environment के बीच interaction को नियंत्रित करने वाली operational policy को स्वायत्त रूप से संशोधित करता है.
-
autoresearch study यह दिखाती है कि large language models hyperparameter optimization environment में explicit state tracking की कठिनाई के कारण classical algorithms को पूरी तरह पार नहीं कर पाते, और covariance matrix adaptation evolution strategy की internal state को language model के साथ साझा करने वाला hybrid तरीका प्रस्तावित कर सर्वोच्च performance हासिल करती है.
-
FP8 is All You Need इस धारणा को चुनौती देता है कि high-performance computing में native double-precision floating-point hardware अनिवार्य है, और Chinese remainder theorem को 8-bit low-precision tensor computation के साथ जोड़कर tensor throughput को अधिकतम करते हुए बिना accuracy loss के execution performance बहाल की जा सकती है, यह साबित करता है.
-
AI reviewer study ने 45 domain experts द्वारा Nature परिवार के शोध-पत्रों पर बड़े पैमाने पर annotation और validation के परिणामों के माध्यम से बहुस्तरीय विश्लेषण किया कि artificial intelligence इंसानों से छूट गई विशिष्ट समस्याओं को पहचानने वाला एक उत्कृष्ट complement है, लेकिन long-context management और domain-specific tacit knowledge की कमी जैसी संरचनात्मक सीमाएँ भी रखता है.
-
LiveBrowseComp ने यह पहचाना कि मौजूदा search agents बाहरी web पर नए facts खोजने के बजाय पहले से निहित prior knowledge की दोबारा पुष्टि करने पर निर्भर रहते हैं, और मॉडल की knowledge boundary से आगे हाल की घटनाओं पर वास्तविक deep search capability का कठोर मूल्यांकन करने वाला नया benchmark पेश किया.
-
DySIB high-dimensional time-series observation data में past और future observation windows के बीच predictive mutual information को अधिकतम करके, raw images को सीधे reconstruct किए बिना भी system dynamics को नियंत्रित करने वाले low-dimensional phase space के geometric coordinates को सटीक और interpretable तरीके से सीखने की methodology प्रस्तुत करता है.
-
AutoScientists ने long-term computational science experiments में आवश्यक hypothesis formulation, experiment execution, result analysis और revision के iterative cycle को distributed agent team द्वारा स्वयं चर्चा और संगठन के माध्यम से संचालित कराया, जिससे failed exploration knowledge को संरक्षित रखते हुए promising directions में सहयोग करने वाला autonomous research system बनाया गया.
मनों की अर्थव्यवस्था: आर्थिक अंतःक्रियाओं के माध्यम से उभरती multi-agent intelligence / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions
शोध-पत्र परिचय
यह अध्ययन इस सवाल पर केंद्रित है कि centralized control के बिना अनेक agents किस तरह स्वाभाविक रूप से अधिक शक्तिशाली collective intelligence में विकसित हो सकते हैं। इस दृष्टि से यह विशेष रूप से उल्लेखनीय है कि यह Friedrich Hayek के distributed market coordination theory को multi-agent artificial intelligence के संदर्भ में रूपांतरित करने का प्रयास है। इसके लिए लेखक agent economy नामक एक ढाँचा प्रस्तावित करते हैं, जिसमें प्रत्येक agent केवल सहयोग नहीं करता, बल्कि auction के माध्यम से action rights प्राप्त करता है, एक-दूसरे को भुगतान करता है और environment से मिले rewards के आधार पर wealth जमा करता है। ऐसे economic signals, अलग global orchestration या explicit communication protocol के बिना भी, agents के बीच decentralized credit assignment को संभव बनाते हैं और हर action का value स्वाभाविक रूप से सामने आने देते हैं। परिणामस्वरूप planning बाहर से थोपी नहीं जाती, बल्कि हर agent अपने आर्थिक incentives का अनुसरण करते हुए भीतर से विकसित करता है। यानी जटिल collaboration mechanisms को बारीकी से design करने के बजाय, interaction के नियमों को सही तरह सेट करके collective reasoning को उभरने देने वाला यह एक अलग दृष्टिकोण है.
इस शोध-पत्र का एक और मुख्य बिंदु यह है कि system किसी fixed structure में स्थिर नहीं रहता, बल्कि economic selection के माध्यम से लगातार evolve करता है। कुशल agents अधिक wealth जमा करते हैं और exploitation-केंद्रित improvement opportunities प्राप्त करते हैं, जबकि कम प्रदर्शन करने वाले agents resources खो देते हैं और नए agents से replace हो जाते हैं, जिससे exploration के नए रास्ते खुलते हैं। wealth को state variable के रूप में उपयोग करने वाला यह design साधारण parameter optimization से आगे जाकर ऐसा decentralized evolution mechanism बनाता है, जिसमें individual agents के local incentives, long-term global performance से जुड़ते हैं। खास बात यह है that even weak initial agents से शुरुआत होने पर भी, इन economic dynamics के माध्यम से अधिक refined behavioral strategies धीरे-धीरे संचित और संयोजित होती जाती हैं। लेखक दिखाते हैं कि इस प्रक्रिया में multi-step reasoning जैसे high-level behaviors स्वाभाविक रूप से उभर सकते हैं, और उनका तर्क है कि agents साधारण reactive policies से आगे बढ़कर planning और verification को शामिल करने वाली strategies में विकसित होते हैं.
प्रयोगों में यह आर्थिक सिस्टम पाँच agentic कार्यों—गणितीय reasoning, वित्तीय शोध, वैज्ञानिक शोध, accelerator design, और distributed-system optimization—में इसकी प्रभावशीलता को सत्यापित करता है। परिणामस्वरूप, रिपोर्ट के अनुसार प्रस्तावित विधि अधिक शक्तिशाली एकल विशाल मॉडल (monolithic baseline) से बेहतर प्रदर्शन दिखाती है, जो यह संकेत देता है कि multi-agent intelligence का विस्तार अनिवार्य रूप से केंद्रीकृत coordination पर निर्भर नहीं होना चाहिए। इस शोध का मुख्य संदेश यह है कि coordination को सीधे डिज़ाइन करने के बजाय, ऐसी incentive structure डिज़ाइन की जानी चाहिए जिसमें coordination स्वाभाविक रूप से उत्पन्न हो। दावा यह है कि auction, payment, wealth, bankruptcy, और replacement जैसे सरल आर्थिक मेकैनिज़्म प्रतिस्पर्धा और सहयोग को एक साथ संगठित कर सकते हैं, और इस प्रक्रिया में बेहतर reasoning तथा problem-solving strategies को emergent रूप में पैदा कर सकते हैं। आगे बढ़कर, लेखक यह भी सैद्धांतिक अंतर्दृष्टि देते हैं कि आर्थिक dynamics agent के व्यवहार को कैसे आकार देती है, जिससे यह दिखता है कि ये घटनाएँ केवल संयोगवश मिले अनुभवजन्य परिणाम नहीं, बल्कि सिद्धांत-आधारित डिज़ाइन के दायरे में आने वाली संभावनाएँ हैं। अंततः यह शोध-पत्र समझाता है कि distributed incentive structure किस तरह collective intelligence की वृद्धि को आगे बढ़ा सकती है, और भविष्य में multi-agent AI को डिज़ाइन करने के लिए एक नया paradigm प्रस्तावित करता है.
सारांश(Abstract)
बिना केंद्रीकृत नियंत्रण के agents की एक आबादी अपने-आप कैसे तालमेल बिठा सकती है और self-adapt होकर अधिक शक्तिशाली collective intelligence में विकसित हो सकती है? Friedrich Hayek के बाज़ारों में decentralized coordination के आर्थिक सिद्धांत से प्रेरित होकर, हम इस प्रश्न का अध्ययन एक agent economy के माध्यम से करते हैं, जिसमें agents कार्रवाई करने के अधिकार के लिए auction के ज़रिए प्रतिस्पर्धा करते हैं, payment का आदान-प्रदान करते हैं, और environment rewards से wealth जमा करते हैं। ये सरल आर्थिक संकेत decentralized credit assignment को प्रेरित करते हैं, जिससे global orchestration या explicit communication protocols के बिना planning आगे बढ़ती है। यह आबादी आर्थिक selection के माध्यम से विकसित होती है। प्रभावी agents wealth जमा करते हैं और exploitation के ज़रिए mutate होते हैं, जबकि अप्रभावी agents bankrupt हो जाते हैं और exploration के ज़रिए उनकी जगह नए agents आते हैं। हम दिखाते हैं कि weak agents से initialization होने पर भी यह economy emergent multi-step reasoning strategies उत्पन्न करती है और गणितीय reasoning, वित्तीय शोध, वैज्ञानिक शोध, accelerator design, तथा distributed-system optimization सहित 5 agentic tasks में अधिक शक्तिशाली monolithic baselines से बेहतर प्रदर्शन करती है। हम यह भी सैद्धांतिक अंतर्दृष्टि देते हैं कि आर्थिक dynamics agent behaviors को कैसे आकार देती है, और local incentives को long-term global performance से कैसे जोड़ती है। हमारे परिणाम multi-agent intelligence के लिए एक नया रास्ता सुझाते हैं। यानी coordination को सीधे engineer करने के बजाय, हम ऐसी decentralized incentive structures डिज़ाइन कर सकते हैं जिनके तहत वह अपने-आप emergent हो जाए।
How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.
शोध-पत्र लिंक
https://arxiv.org/abs/2606.02859
आगे पढ़ें
https://zhentingqi.github.io/internal/projects/EoM/
https://github.com/zhentingqi/EoM
AutoForge: agentic reinforcement learning के लिए automated environment synthesis / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning
शोध-पत्र परिचय
बड़े language-based agents को वास्तविकता के करीब प्रशिक्षित करने के लिए, कम लागत पर पर्याप्त जटिल simulation environments को स्थिर रूप से बड़े पैमाने पर तैयार करने की विधि और उन environments में उत्पन्न interaction noise को सहने वाली learning procedure—दोनों की आवश्यकता होती है। AutoForge इस समस्या को हल करने के लिए एक एकीकृत pipeline प्रस्तावित करता है, जो verifiable high-difficulty tasks से जुड़े simulation environments को स्वचालित रूप से synthesize करता है, साथ ही उन environments की विशेषताओं के अनुरूप डिज़ाइन किया गया environment-level reinforcement learning (RL) algorithm भी प्रस्तुत करता है। इसका मुख्य विचार environment को केवल prompt के एक साधारण सेट के रूप में नहीं, बल्कि state structure और operation functions के समूह से बने एक executable system के रूप में देखना है, और tool description documents के आधार पर ऐसे environments को बड़े पैमाने पर बनाना है। विशेष रूप से, state structure generation में property names और वास्तविक values को अलग किया जाता है, और function set generation में state structure पर निर्भर Python code को स्वचालित रूप से synthesize करके इस तरह डिज़ाइन किया गया है कि विभिन्न tasks को reusable environment schema के ऊपर लगातार और सुसंगत रूप से रखा जा सके।
इसके बाद tool sequence generation चरण में केवल tools की सूची नहीं बनाई जाती, बल्कि graph-based random walk, sequence merging, reasoning node insertion, और reasoning edge insertion के माध्यम से tool calls और high-order reasoning से जुड़ा एक directed acyclic graph (DAG) बनाया जाता है। यह प्रक्रिया ऐसे tasks तैयार करने के लिए है जिनमें केवल एकल lookup-type कार्यों की तुलना में कहीं अधिक जटिल dependencies चाहिए हों, और यह उस कठिनाई के अधिक करीब है जिसमें वास्तविक agent tool को call करने के बाद परिणामों की व्याख्या करता है और अगला action तय करता है। तैयार किए गए graph को फिर task generation चरण में भेजा जाता है, जहाँ उसे initial state और final state दोनों के साथ verifiable learning samples के रूप में फिर से परिष्कृत किया जाता है, और correctness का निर्णय किसी विशेष tool path की समानता से नहीं बल्कि final state के मेल से किया जाता है। यह बिंदु agent environments की उस विशेषता को दर्शाता है जिसमें एक ही लक्ष्य तक कई रास्तों से पहुँचा जा सकता है, और इसका महत्व इस बात में है कि data generation और evaluation criteria दोनों को state-centric तरीके से align किया गया है।
लर्निंग एल्गोरिदम ERPO, मौजूदा GRPO का विस्तार करते हुए इस तरह बनाया गया है कि यह simulated user की अस्थिरता और environments के बीच की heterogeneity—दोनों को एक साथ संभाल सके। एजेंट rollout के दौरान tool calls और user से information requests को बारी-बारी से करता है, और इस प्रक्रिया में interleaved thinking के जरिए पहले के reasoning को बनाए रखते हुए दीर्घकालिक planning और re-planning जारी रखता है। इसके अलावा, masking erroneous user behaviors (MEU) रणनीति लागू की जाती है, जो गलत user behaviors को पहले से पहचानकर उन्हें learning signal से बाहर कर देती है, जिससे synthetic user errors द्वारा reward estimation और policy updates के दूषित होने की समस्या कम होती है। सबसे महत्वपूर्ण योगदान environment-level advantage estimation है, जिसमें advantage की गणना एक ही question bundle के बजाय उसी environment के भीतर reward को normalize करके की जाती है; इसलिए यह अलग-अलग environments की difficulty differences और outliers के प्रति कम संवेदनशील रहता है और training stability बढ़ती है.
आखिरकार, यह design environment generation, interaction procedure, और reward estimation—इन तीन स्तरों को एक सुसंगत framework में जोड़ता है, ताकि agentic reinforcement learning के लिए आवश्यक scale, stability, और generalization को एक साथ हासिल किया जा सके। tau-bench, tau2-Bench, और VitaBench पर validation तथा out-of-domain generalization analysis यह संकेत देते हैं कि AutoForge केवल एक synthetic data generation technique से आगे बढ़कर वास्तविक agent training के लिए foundational infrastructure के रूप में काम कर सकता है.
सार(Abstract)
simulated environments में reinforcement learning (RL) करना language-based agents को बेहतर बनाने का एक cost-effective और अत्यधिक scalable तरीका प्रदान करता है। हालांकि, पिछला काम semi-automated environment synthesis या पर्याप्त कठिनाई से रहित tasks तक सीमित रहा है, जिससे breadth और depth—दोनों की कमी रही। इसके अलावा, इन environments में integrated simulated users की instability और simulated environments के बीच heterogeneity, agentic RL के लिए अतिरिक्त चुनौतियाँ पैदा करती हैं। इस शोध में हम (1) उच्च कठिनाई वाले लेकिन आसानी से verifiable tasks से जुड़े simulated environments के automated और scalable synthesis के लिए एक unified pipeline, और (2) एक environment-level RL algorithm प्रस्तावित करते हैं, जो न केवल user instability को प्रभावी ढंग से कम करता है बल्कि environment level पर advantage estimation भी करता है, जिससे training efficiency और stability बेहतर होती है। tau-bench, tau2-Bench, और VitaBench सहित agentic benchmarks पर व्यापक evaluation प्रस्तावित विधि की प्रभावशीलता को सत्यापित करता है। अतिरिक्त गहन analysis उत्कृष्ट out-of-domain generalization क्षमता को रेखांकित करता है।
Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.
पेपर लिंक
https://arxiv.org/abs/2512.22857
APEX: dynamic data selection का उपयोग करने वाला automated prompt engineering expert / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection
पेपर परिचय
Large Language Models (LLMs) prompts की अभिव्यक्ति के तरीके के प्रति बेहद संवेदनशील होते हैं, इसलिए उनकी पूरी क्षमता निकालने के लिए automatic prompt optimization एक केंद्रीय चुनौती बन जाती है। मौजूदा evolutionary algorithms-आधारित approaches prompts को क्रमिक रूप से बदलने में मजबूत रहे हैं, लेकिन development dataset को एक स्थिर evaluation resource की तरह बार-बार इस्तेमाल करते हुए वे computation budget को अक्षम तरीके से खर्च करते हैं। APEX (Automatic Prompt Engineering eXpert) इस bottleneck को हल करने के लिए एक नया framework प्रस्तावित करता है, जो prompt exploration और data utilization—दोनों को एक साथ optimize करता है। इस विधि के केंद्र में एक ऐसी strategy है, जो optimization lineage के अनुसार dataset को dynamic रूप से Easy, Hard, और Mixed—इन तीन स्तरों में पुनर्गठित करती है, और खास तौर पर Mixed स्तर, जहाँ model के correct और incorrect दोनों उत्तर साथ दिखाई देते हैं, को सबसे अधिक information-rich क्षेत्र मानती है। यह दृष्टिकोण साफ़ तौर पर दिखाता है कि केवल अधिक examples देखना पर्याप्त नहीं है; इससे अधिक महत्वपूर्ण यह पहचानना है कि कौन-से examples prompt improvement के लिए वास्तविक signal देते हैं.
APEX Mixed स्तर से दो high-value frontiers निकालता है। एक है addressable frontier, जो informative variations उत्पन्न करने में सहायक होता है, और दूसरा है rank-sensitive frontier, जो candidate prompts के बीच प्रदर्शन का अंतर पहचानने के प्रति संवेदनशील होता है। पहला prompt modification की direction देता है, और दूसरा यह तय करने में मदद करता है कि कौन-सा variation वास्तव में बेहतर performance की ओर ले जाता है; इस तरह दोनों frontiers exploration और evaluation की भूमिकाओं को परस्पर पूरक बनाते हैं। खास तौर पर, यह संरचना पूरे dataset को एक साथ संभालने वाले पारंपरिक तरीकों के विपरीत, optimization के मौजूदा चरण में सबसे अर्थपूर्ण samples पर computation को केंद्रित करती है, जिससे data efficiency काफी बढ़ जाती है। दूसरे शब्दों में, APEX prompts को अंधाधुंध बहुत अधिक बदलने के बजाय, model behavior के उन बिंदुओं पर रणनीतिक रूप से काम करता है जहाँ वह सबसे अधिक अस्थिर होता है और इसलिए सबसे अधिक information समेटे होता है। यह design prompt optimization को केवल एक generation problem नहीं, बल्कि data selection और candidate comparison से जुड़ी एक adaptive exploration problem के रूप में पुनर्परिभाषित करता है.
प्रयोगों में APEX को IFBench, SimpleQA Verified, और FACTS Grounding—इन तीन अलग प्रकृति वाले benchmarks पर सत्यापित किया गया, और 5,000 evaluation calls के fixed budget की शर्त में भी इसने स्थिर सुधार दिखाया। परिणामस्वरूप, initial prompt की तुलना में Gemini 2.5 Flash पर औसतन 11.2% और Gemma 3 27B पर औसतन 6.8% performance improvement हासिल हुआ, जिससे यह सिद्ध हुआ कि data-centric approach, efficient और powerful prompt optimization के लिए कितनी महत्वपूर्ण है। ये परिणाम इसलिए भी अहम हैं कि APEX केवल exploration algorithm को बेहतर बनाने तक सीमित नहीं है, बल्कि यह अनुभवजन्य रूप से दिखाता है कि prompt engineering की सफलता इस बात पर निर्भर करती है कि कौन-सा data कब और कैसे चुना जाता है। अंततः, यह शोध automatic prompt optimization के केंद्र को “more evaluations” से हटाकर “smarter data use” पर ले आता है, और सीमित computational resources के भीतर उच्चतर performance हासिल करने के लिए एक practical और generalizable methodology प्रस्तुत करता है.
सार(Abstract)
Large Language Model (LLM) प्रॉम्प्ट के formulation के प्रति बेहद संवेदनशील होते हैं, इसलिए उनकी पूरी क्षमता को सामने लाने के लिए automatic prompt optimization की आवश्यकता होती है। हालांकि evolutionary algorithms इस क्षेत्र में प्रमुख paradigm के रूप में उभरे हैं, लेकिन वे data efficiency की एक गंभीर bottleneck समस्या से जूझते हैं। मौजूदा तरीके development dataset को एक static benchmark की तरह मानते हैं, जिससे कम-जानकारी वाले data पर काफी compute budget व्यर्थ हो जाता है। इस शोध में APEX (Automatic Prompt Engineering eXpert) नामक एक नया framework पेश किया गया है, जो prompt search के साथ-साथ data usage को भी optimize करता है। APEX optimization lineage के आधार पर dataset को dynamic रूप से Easy, Hard, और Mixed tiers में विभाजित करता है। Mixed tier को प्राथमिकता देकर, जो उस data की पहचान करता है जहाँ LLM का performance मिला-जुला रहता है, हम दो high-leverage subsets की पहचान करते हैं। एक है informative mutations बनाने के लिए addressable frontier, और दूसरा है candidate quality में अंतर करने के लिए rank-sensitive frontier। हमने APEX का मूल्यांकन तीन विविध benchmarks—IFBench, SimpleQA Verified, और FACTS Grounding—पर किया। 5,000 evaluation calls के fixed budget के तहत, अपनी data efficiency के कारण APEX ने Gemini 2.5 Flash पर initial prompt की तुलना में औसतन 11.2% और Gemma 3 27B पर 6.8% बेहतर प्रदर्शन किया, जो दिखाता है कि efficient और effective prompt optimization के लिए data-centric approach बेहद महत्वपूर्ण है。
Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.
शोधपत्र लिंक
https://arxiv.org/abs/2606.11459
सेल्फ-हार्नेस(Self-Harness): खुद को सुधारने वाले हार्नेस / Self-Harness: Harnesses That Improve Themselves
शोधपत्र परिचय
Large Language Model (LLM) आधारित agents का प्रदर्शन केवल base model की reasoning क्षमता से तय नहीं होता, बल्कि environment के साथ उसकी interaction को संचालित करने वाले harness के design से भी गहराई से प्रभावित होता है। harness एक operational layer है, जिसमें system prompt, tools के उपयोग का तरीका, validation procedures, और failure recovery policies तक शामिल होती हैं। इसी वजह से, एक ही model अलग-अलग harness लागू होने पर बिल्कुल अलग व्यवहार दिखा सकता है। लेखक इसी बिंदु पर ध्यान केंद्रित करते हुए यह समस्या उठाते हैं कि harness अब केवल मानव विशेषज्ञों द्वारा manually design की गई एक स्थिर asset नहीं रहनी चाहिए, बल्कि model के वास्तविक failure patterns के आधार पर स्वयं को सुधारने में सक्षम होनी चाहिए। इसी दृष्टिकोण से प्रस्तावित Self-Harness एक नया paradigm प्रस्तुत करता है, जिसमें LLM-आधारित agent किसी बाहरी अधिक शक्तिशाली agent या human engineer पर निर्भर हुए बिना अपने operational harness को बार-बार सुधारता है।
Self-Harness की मुख्य methodology एक iterative loop पर आधारित है, जिसमें Weakness Mining, Harness Proposal, और Proposal Validation शामिल हैं। सबसे पहले execution traces से model-विशिष्ट failure patterns निकाले जाते हैं, ताकि यह संरचनात्मक रूप से समझा जा सके कि कौन-से व्यवहार बार-बार performance को नुकसान पहुँचा रहे हैं। इसके बाद उन कमजोरियों से सीधे जुड़े न्यूनतम harness modifications कई रूपों में तैयार किए जाते हैं, लेकिन उद्देश्य अत्यधिक बड़े बदलाव करना नहीं, बल्कि वास्तविक operational policies को बारीकी से निखारने वाले local edits करना होता है। अंत में regression testing के माध्यम से यह सत्यापित किया जाता है कि प्रस्तावित बदलाव मौजूदा प्रदर्शन को नुकसान तो नहीं पहुँचा रहे; केवल ऐसे बदलाव ही अपनाए जाते हैं। इस तरह यह केवल prompt tuning नहीं, बल्कि एक सुरक्षित और cumulative improvement framework बन जाता है। यह design तकनीकी रूप से इस विचार को साकार करता है कि harness जहाँ model के व्यवहार को निर्देशित करता है, वहीं model की विफलताओं से दोबारा सीख भी सकता है।
शोधपत्र में इस framework का परीक्षण Terminal-Bench-2.0 environment में किया गया, जहाँ शुरुआत में बहुत सरल harness का उपयोग करते हुए इसे MiniMax M2.5, Qwen3.5-35B-A3B, और GLM-5 जैसे तीन अलग-अलग परिवारों के base models पर लागू किया गया। प्रयोगों में holdout pass rate क्रमशः 40.5% से 61.9%, 23.8% से 38.1%, और 42.9% से 57.1% तक बढ़ा, जिससे यह दिखा कि Self-Harness model के प्रकार से स्वतंत्र रूप से लगातार सुधार देने में सक्षम है। खास तौर पर qualitative analysis में यह सामने आया कि सुधार केवल सामान्य निर्देश जोड़ने भर का परिणाम नहीं था, बल्कि प्रत्येक model की कमजोरियों को ठोस और executable harness changes में बदलने की प्रक्रिया थी। यह इस बात की ओर मजबूत संकेत देता है कि agent performance improvement की bottleneck केवल model parameters के भीतर ही नहीं है; operational policies को अधिक परिष्कृत ढंग से सीखकर भी वास्तविक performance gains हासिल किए जा सकते हैं। नतीजतन, Self-Harness एक नई research direction प्रस्तुत करता है, जिसमें LLM-आधारित agents केवल harness द्वारा आकार नहीं लेते, बल्कि harness को फिर से आकार भी दे सकते हैं।
सार(Abstract)
LLM-आधारित एजेंटों का प्रदर्शन उनके base model और environment के साथ उनकी interaction को मध्यस्थित करने वाले harness, दोनों से मिलकर तय होता है। अलग-अलग model अलग व्यवहार दिखाते हैं, इसलिए प्रभावी harness design स्वाभाविक रूप से model-specific होता है। फिर भी agent harness अब भी बड़े पैमाने पर मानव विशेषज्ञों द्वारा डिज़ाइन किए जाते हैं, और modern LLMs के लगातार अधिक विविध और तेज़ी से विकसित होने के साथ यह तरीका scalable नहीं रह जाता। इस पेपर में लेखक Self-Harness पेश करते हैं, एक नया paradigm जिसमें LLM-आधारित agent बिना human engineer या अधिक शक्तिशाली external agent पर निर्भर हुए अपना operational harness खुद बेहतर बनाता है। Self-Harness को तीन चरणों वाले iterative loop के रूप में लागू किया गया है। Weakness Mining execution trace से model-specific failure pattern की पहचान करता है, Harness Proposal इन failures से जुड़े विविध लेकिन न्यूनतम harness modifications बनाता है, और Proposal Validation केवल regression test पास होने पर ही candidate edits को स्वीकार करता है। लेखकों ने Terminal-Bench-2.0 पर एक न्यूनतम initial harness और तीन अलग family के base model — MiniMax M2.5, Qwen3.5-35B-A3B, और GLM-5 — के साथ Self-Harness लागू किया। तीनों models में Self-Harness ने लगातार प्रदर्शन सुधारा, और held-out pass rate क्रमशः 40.5% से 61.9%, 23.8% से 38.1%, और 42.9% से 57.1% तक बढ़ गया। गुणात्मक विश्लेषण यह भी दिखाता है कि Self-Harness सिर्फ सामान्य निर्देश जोड़ने तक सीमित नहीं है, बल्कि model-specific कमजोरियों को ठोस और executable harness बदलावों में प्रभावी ढंग से बदल देता है। ये परिणाम संकेत देते हैं कि LLM-आधारित agent सिर्फ harness से आकार नहीं लेते, बल्कि उसे दोबारा गढ़ने में भी भाग ले सकते हैं。
The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.
पेपर लिंक
https://arxiv.org/abs/2606.09498
क्या बड़े language model (LLM) पारंपरिक hyperparameter optimization algorithms को हरा सकते हैं? autoresearch पर एक अध्ययन / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch
पेपर परिचय
यह अध्ययन इस बात की जांच करता है कि क्या बड़े language model (LLM) agent वास्तविक hyperparameter optimization (HPO) वातावरण में पारंपरिक algorithms से आगे निकल सकते हैं, और इसके लिए autoresearch repository को testbed बनाकर code-editing आधारित optimization की संभावनाओं और सीमाओं को सीधे परखता है। यहां agent का काम सिर्फ संख्यात्मक hyperparameter चुनना नहीं है, बल्कि training code को सीधे संशोधित करते हुए छोटे language model के प्रदर्शन को बेहतर बनाना है, और लक्ष्य एक तय compute budget के भीतर validation bits-per-byte (val_bpb) को न्यूनतम करना है। खास तौर पर यह समस्या architecture, optimizer, learning loop, और model size तक फैले व्यापक code space से जुड़ी है, इसलिए इसमें language understanding और optimization state tracking दोनों की एक साथ जरूरत पड़ती है, जो इसे सामान्य black-box optimization की तुलना में कहीं अधिक चुनौतीपूर्ण बनाता है। लेखक इस वातावरण में Covariance Matrix Adaptation Evolution Strategy (CMA-ES) और Tree-structured Parzen Estimator (TPE) जैसी पारंपरिक तकनीकों की सीधे LLM-आधारित approaches से तुलना करते हैं, और यह व्यवस्थित रूप से विश्लेषण करते हैं कि वास्तविक प्रदर्शन को क्या चीज़ नियंत्रित करती है। नतीजों से पता चला कि fixed search space में पारंपरिक तरीके लगातार बेहतर रहे, और खासकर generated candidate की विविधता से ज्यादा execution failure को कम करने वाली स्थिरता अधिक महत्वपूर्ण निकली।
दिलचस्प बात यह है कि जब LLM को source code सीधे edit करने की अनुमति दी गई, तो यह अंतर कुछ कम हुआ, लेकिन उस समय के state-of-the-art models — Claude Opus 4.6 और Gemini 3.1 Pro Preview — भी पारंपरिक तरीकों को पूरी तरह नहीं पकड़ सके। इससे यह अवलोकन सामने आता है कि LLM अलग-अलग trial में उपयोगी संशोधन सुझा सकते हैं, लेकिन पूरे iterative experiment के दौरान optimization state को लगातार बनाए रखने में अब भी कमजोर हैं। इसके विपरीत, पारंपरिक algorithms में domain knowledge की कमी हो सकती है, लेकिन वे mean vector, step size, और covariance matrix जैसी explicit state को स्थिर रूप से update करने की ताकत रखते हैं। इसी पूरकता के आधार पर लेखक Centaur नाम की एक hybrid method प्रस्तावित करते हैं, जो CMA-ES की interpretable internal state को LLM के साथ साझा करती है ताकि language model exploration के context को बेहतर ढंग से दर्शा सके। Centaur ने पूरे experiment में सबसे अच्छा प्रदर्शन दिखाया, और हैरानी की बात यह रही कि केवल 0.8B आकार के छोटे LLM के साथ भी यह शुद्ध पारंपरिक और शुद्ध LLM, दोनों तरीकों से आगे निकल सका। दूसरी ओर, unconstrained code-editing approach के लिए बड़े model की जरूरत पड़ी, जो यह संकेत देता है कि सिर्फ model scale से अधिक optimization interface और state representation का प्रदर्शन पर बड़ा प्रभाव पड़ता है। लेखक exploration diversity, model scaling, और Centaur में LLM द्वारा प्रस्तावित trial के अनुपात का भी बारीकी से विश्लेषण करते हैं, जिससे यह स्पष्ट होता है कि LLM कब ताकत साबित होते हैं और कब कमजोरी। कुल मिलाकर, यह अध्ययन प्रभावी ढंग से दिखाता है कि LLM पारंपरिक optimizer का सीधा विकल्प बनने की बजाय explicit search state को पूरक करने वाले एक सहयोगी घटक के रूप में सबसे अधिक उपयोगी हो सकते हैं।
सार(Abstract)
Autoresearch repository LLM agent को training code सीधे edit करके hyperparameters optimize करने में सक्षम बनाता है। हमने इसे testbed के रूप में इस्तेमाल करते हुए, fixed compute budget के तहत छोटे language model के hyperparameters tune करने की समस्या पर classical HPO algorithms और LLM-आधारित methods की तुलना की। Autoresearch में fixed search space परिभाषित करने पर, CMA-ES और TPE जैसे classical methods ने लगातार LLM-आधारित agents से बेहतर प्रदर्शन किया, और इस सेटिंग में search diversity से अधिक महत्वपूर्ण out-of-memory (OOM) failures से बचना था। जब LLM को source code सीधे edit करने की अनुमति दी गई, तो classical methods के साथ अंतर कम हुआ, लेकिन लेखन के समय उपलब्ध Claude Opus 4.6 और Gemini 3.1 Pro Preview जैसे frontier models के साथ भी यह अंतर पूरी तरह खत्म नहीं हुआ। हमने देखा कि LLMs को कई trials के दौरान optimization state को track करने में कठिनाई होती है। दूसरी ओर, classical methods में LLMs जैसा domain knowledge नहीं होता। दोनों approaches की ताकतों को मिलाने के लिए, हम Centaur नामक एक hybrid method प्रस्तुत करते हैं, जो CMA-ES की interpretable internal state — जिसमें mean vector, step-size, और covariance matrix शामिल हैं — को LLM के साथ साझा करता है। हमारे experiments में Centaur ने सबसे अच्छा result हासिल किया, और केवल 0.8B LLM भी सभी classical methods और pure LLM methods से बेहतर प्रदर्शन करने के लिए पर्याप्त था। बिना किसी constraint के code editing को classical methods के साथ प्रतिस्पर्धी बनने के लिए बड़े models की आवश्यकता होती है। हमने search diversity, 0.8B से frontier models तक model scaling, और Centaur में LLM द्वारा प्रस्तावित trials के अनुपात पर ablation experiments का भी अतिरिक्त विश्लेषण किया। कुल मिलाकर, हमारे परिणाम संकेत देते हैं कि LLMs classical optimizers का replacement बनने की बजाय उनके complement के रूप में सबसे अधिक प्रभावी हैं। Code https://github.com/ferreirafabio/autoresearch-automl पर उपलब्ध है, और interactive demo https://ferreirafabio.github.io/autoresearch-automl पर देखा जा सकता है。
The autoresearch repository enables an LLM agent to optimize hyperparameters by editing training code directly. We use it as a testbed to compare classical HPO algorithms against LLM-based methods on tuning the hyperparameters of a small language model under a fixed compute budget. When defining a fixed search space over autoresearch, classical methods such as CMA-ES and TPE consistently outperform LLM-based agents, where avoiding out-of-memory failures matters more than search diversity. Allowing the LLM to directly edit source code narrows the gap to the classical methods but does not close it, even with frontier models available at the time of writing such as Claude Opus 4.6 and Gemini 3.1 Pro Preview. We observe that LLMs struggle to track optimization state across trials. In contrast, classical methods lack the domain knowledge of LLMs. To combine the strengths of both, we introduce Centaur, a hybrid that shares CMA-ES's interpretable internal state, including mean vector, step-size, and covariance matrix, with an LLM. Centaur achieves the best result in our experiments, and a 0.8B LLM already suffices to outperform all classical and pure LLM methods. Unconstrained code editing requires larger models to be competitive with classical methods. We further analyze search diversity, model scaling from 0.8B to frontier models, and ablate the fraction of LLM-proposed trials in Centaur. All in all, our results suggest that LLMs are most effective as a complement to classical optimizers, not as a replacement. Code is available at https://github.com/ferreirafabio/autoresearch-automl & interactive demo at https://ferreirafabio.github.io/autoresearch-automl.
पेपर लिंक
https://arxiv.org/abs/2603.24647
आगे पढ़ें
https://github.com/ferreirafabio/autoresearch-automl
https://ferreirafabio.github.io/autoresearch-automl
FP8 ही काफ़ी है (भाग 1): HPC के पवित्र लक्ष्य माने जाने वाले hardware FP64 का खंडन / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail
पेपर परिचय
High-performance computing (HPC) क्षेत्र में लंबे समय से hardware द्वारा सीधे प्रदान की जाने वाली double-precision floating point (FP64) computation को scientific computing की अनिवार्य शर्त माना जाता रहा है, लेकिन यह paper तर्क देता है कि नवीनतम AI-optimized GPU पीढ़ियों में यह धारणा अब जरूरी नहीं रह गई है। खास तौर पर, NVIDIA Blackwell Ultra(B300) में native FP64 throughput के काफी कम हो जाने को शुरुआती बिंदु बनाते हुए, यह दिखाया गया है कि इसके बजाय प्रचुर FP8 (8-bit floating point) tensor throughput का उपयोग करके FP64 accuracy को पुनर्स्थापित करने का रास्ता अधिक व्यावहारिक हो सकता है। इसके लिए लेखक Chinese Remainder Theorem (CRT) और Ozaki Scheme II को मिलाकर values को कई residual modular channels में विभाजित करने और फिर उन्हें सटीक रूप से reconstruct करने की विधि अपनाते हैं, और इस प्रक्रिया को इस तरह डिज़ाइन करते हैं कि FP64-स्तरीय numerical accuracy बनाए रखते हुए low-precision tensor operations के उच्च throughput का लाभ यथावत लिया जा सके। मुख्य methodology केवल approximate acceleration नहीं है, बल्कि computation path को ही low-precision tensor cores पर ले जाकर परिणाम को integer-based reconstruction के माध्यम से rigorously वापस लाना है, और इसी बिंदु पर यह मौजूदा double-precision-केंद्रित approaches से स्पष्ट रूप से अलग है।
इस paper का एक और महत्वपूर्ण योगदान पारंपरिक Roofline model का विस्तारित रूप Tensor-Memory Equilibrium(TME) model है। TME केवल compute performance और memory bandwidth के संतुलन को नहीं देखता, बल्कि FP8-आधारित emulation के FP64 workloads में रूपांतरण के दौरान उत्पन्न होने वाले compute multipliers, bandwidth multipliers, और reconstruction latency को भी साथ में शामिल करके वास्तविक execution performance की व्याख्या करता है। लेखक इस ढांचे के माध्यम से समझाते हैं कि register-level fusion intermediate results को बार-बार memory में लिखे जाने से रोककर bandwidth multiplier को व्यावहारिक रूप से 1 के करीब ला सकता है, और इसके परिणामस्वरूप reconstruction overhead memory wall के पीछे छिप जाने वाली संरचना बनती है। दूसरे शब्दों में, भले ही अतिरिक्त transformation और reconstruction steps मौजूद हों, फिर भी memory movement-प्रधान सेक्शनों में समग्र performance लगभग बिना नुकसान के बनी रह सकती है।
इम्प्लीमेंटेशन के दृष्टिकोण से प्रस्तुत Ozaki Scheme II kernel यह अच्छी तरह दिखाता है कि ये विचार व्यवहार में वास्तव में कैसे काम करते हैं। input matrix और vector को कई residue channels में विभाजित कर, हर channel में wmma-आधारित tensor operations से accumulation किया जाता है, और अंत में Garner reconstruction के जरिए उसे एक single double value में बहाल किया जाता है। यह संरचना उस design philosophy को उजागर करती है जिसमें accuracy और speed को अलग-अलग संभालकर, प्रत्येक के लिए सबसे उपयुक्त hardware path सौंपा जाता है। इस दौरान SpMV(sparse matrix-vector multiplication), GEMV(general matrix-vector multiplication), stencil जैसे प्रतिनिधि HPC kernels को भी इसी तर्क से प्रोसेस किया जा सकता है, यह दिखाता है कि यह approach केवल किसी एक खास workload तक सीमित optimization नहीं है। performance results भी इस दावे का समर्थन करते हैं: लेखक बताते हैं कि B300 का native FP64 काफी कमजोर कर दिया गया है, जबकि Ozaki II path कहीं अधिक effective throughput के साथ memory limit तक पहुँच सकता है, और H100 की तुलना में भी समान या बेहतर performance दिखाता है।
आखिरकार, इस शोध का मुख्य संदेश यह है कि double-precision accuracy बनाए रखने के लिए native FP64 hardware पर अनिवार्य रूप से निर्भर रहना चाहिए — यह पारंपरिक धारणा अब उतनी निरपेक्ष नहीं रह गई है। FP8 tensor throughput, CRT-आधारित reconstruction, और register-level fusion को मिलाकर production environment के HPC में FP64 accuracy और memory bandwidth efficiency दोनों एक साथ हासिल की जा सकती हैं, और उलटे पुरानी FP64-केंद्रित design की तुलना में अधिक performance potential भी मिल सकता है। यह दावा hardware design की प्राथमिकताओं पर पुनर्विचार करने को प्रेरित करता है, और जोरदार संकेत देता है कि भविष्य की scientific computing को अब single precision arithmetic units पर निर्भर रहने की जरूरत नहीं है।
सार(Abstract)
पारंपरिक HPC मान्यता यह मानती है कि native hardware FP64 silicon वैज्ञानिक संगणना की अपरिवर्तनीय नींव है, यानी double-precision simulation का “holy grail”। लेकिन यह शोध-पत्र तर्क देता है कि यह मान्यता गलत है। B300 पीढ़ी और उसके बाद के AI-optimized GPU में प्रचुर FP8 tensor throughput को Chinese Remainder Theorem-आधारित Ozaki Scheme II के साथ जोड़कर, canonical HPC kernels के व्यापक स्पेक्ट्रम में पूर्ण FP64 accuracy के साथ memory-roof स्तर का execution पुनः प्राप्त किया जा सकता है। NVIDIA का Blackwell Ultra(B300) native FP64 को लगभग 1.3 TFLOPS तक गिरा देता है, जो B200 की तुलना में 31 गुना regression है, और यहाँ तक कि memory-bound kernels (SpMV, GEMV, stencil) को भी compute-bound बना देता है। हम चार योगदान प्रस्तुत करते हैं। पहला, हम एक unified analytic model, Tensor-Memory Equilibrium(TME) model, प्रस्तावित करते हैं, जो Roofline में compute multiplier α, bandwidth multiplier β, और reconstruction latency γ जोड़ता है। दूसरा, हम दिखाते हैं कि register-level fusion वह mechanism है जो β → 1 को संभव बनाता है, जिससे memory wall के पीछे emulation लगभग मुफ्त हो जाती है। तीसरा, हम अनुमान लगाते हैं कि Ozaki II emulated FP64 को लगभग 1 TFLOPS के native floor से B300 पर लगभग 500 TFLOPS और Rubin R200 पर लगभग 400 TFLOPS तक पहुँचा देता है; compute-bound regime में यह B200 की native FP64 ceiling को 10 गुना से अधिक पार कर जाता है, जबकि bandwidth-bound regime में memory roof के बराबर पहुँचता है। चौथा, H100 को baseline मानने पर, Ozaki II अध्ययन किए गए हर workload में H100 के बराबर या उससे बेहतर performance दिखाता है, जबकि B300 का native FP64 अधिकतम 50 गुना regression पैदा करता है। इसके साथ companion Part(2) paper में रिपोर्ट किए गए FFT analysis (बचे हुए INT32 pipe पर Kulisch fixed-point reconstruction) और FP32+Kahan reductions को जोड़ने पर, B300 पर सर्वे किए गए हर kernel class में पूर्ण FP64 के साथ memory roof तक पहुँचना संभव हो जाता है। यह साक्ष्य शीर्षक के दावे का समर्थन करता है। यानी, Ozaki II और Kulisch escape routes के साथ केवल FP8 ही production HPC के लिए पर्याप्त है; native FP64 silicon अब वह “holy grail” नहीं रह गया है जैसा इसे लंबे समय से माना जाता रहा है।
Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.
पेपर लिंक
https://arxiv.org/abs/2606.06510
AI reviewer की सीमाएँ और अवसर: 45 विशेषज्ञ वैज्ञानिकों ने Nature-family papers की reviews की समीक्षा करने वाला शोध / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists
पेपर परिचय
जैसे-जैसे वैज्ञानिक शोध-पत्रों की peer review प्रक्रिया में AI reviewers को धीरे-धीरे शामिल किया जा रहा है, वैसे-वैसे उनके प्रदर्शन को केवल अंतिम निर्णय की समानता के आधार पर परखने की सीमाएँ स्पष्ट होती जा रही हैं। वास्तव में, review की गुणवत्ता इस बात पर बहुत निर्भर करती है कि reviewer द्वारा की गई हर अलग आलोचना कितनी सटीक है, वह कितनी महत्वपूर्ण समस्या की ओर इशारा करती है, और उसके दावे के समर्थन में पर्याप्त साक्ष्य हैं या नहीं। इसी वजह से लेखकों ने इस सूक्ष्म स्तर के मूल्यांकन के माध्यम से AI reviewers की वास्तविक क्षमता और सीमाओं को बारीकी से उजागर करने की कोशिश की। इसके लिए उन्होंने physics, biology और health sciences के 45 विशेषज्ञ वैज्ञानिकों की भागीदारी वाला एक बड़े पैमाने का annotation study तैयार किया, और Nature family की 82 शोध-पत्रों पर मानव और AI द्वारा लिखी गई 2,960 अलग-अलग आलोचनाओं का अलग-अलग मूल्यांकन कराया। हर आलोचना को correctness (सटीकता), significance (महत्त्व), और sufficiency of evidence (साक्ष्य की पर्याप्तता) इन तीन अक्षों पर आंका गया, और कुल 469 घंटे की समीक्षा के माध्यम से यह बहुस्तरीय विश्लेषण संभव हुआ कि AI reviewer वास्तव में क्या अच्छा करता है और कहाँ विफल होता है। यह methodology केवल यह पूछने के स्तर से आगे बढ़ती है कि “क्या AI इंसानों जैसा निष्कर्ष देता है”, और ठोस रूप से दिखाती है कि वह किस तरह की समस्याओं को बेहतर पकड़ता है और किन संदर्भों में उलटे अतिशय या गलत निर्णय दे बैठता है। मात्रात्मक नतीजे संकेत देते हैं कि मौजूदा AI reviewers किसी सतही सहायक tool तक सीमित नहीं हैं। उदाहरण के लिए, GPT-5.2 आधारित review agent ने तीनों मूल्यांकन अक्षों को मिलाकर बने मानक पर हर शोध-पत्र के सर्वोच्च-रेटेड मानव reviewer से अधिक स्कोर दर्ज किया, और Gemini 3.0 Pro तथा Claude Opus 4.5 सहित अन्य AI reviewers ने भी सभी अक्षों पर सबसे कम-रेटेड मानव reviewer को पीछे छोड़ा। इससे आगे, AI reviewers द्वारा उठाई गई सटीक आलोचनाओं को अधिक बार महत्वपूर्ण और पर्याप्त साक्ष्य-समर्थित माना गया, और उन्होंने ऐसे 26% मुद्दे नए सिरे से पकड़े जिन्हें इंसानों ने इंगित नहीं किया था, जिससे उनकी detection range के विस्तार की भी पुष्टि हुई। लेकिन साथ ही, AI reviewers में एक-दूसरे से बहुत मिलती-जुलती आलोचनाएँ दोहराने की प्रवृत्ति भी प्रबल थी, इसलिए उनमें इंसानों की तुलना में कहीं अधिक duplication rate दिखा। इसके अलावा, कुछ subfields की tacit knowledge की कमी, लंबे context को संभालने की सीमा, और मामूली समस्याओं पर जरूरत से ज्यादा आलोचनात्मक रवैये जैसी बार-बार दिखने वाली कमजोरियाँ भी सामने आईं। appendix में दिए गए qualitative उदाहरण बताते हैं कि ये कमजोरियाँ केवल साधारण गलत उत्तर नहीं हैं, बल्कि domain-specific practices की गलत व्याख्या, temporal context की त्रुटि, सुधार-योग्यता को ध्यान में न रखते हुए अत्यधिक माँग, और code तथा मुख्य पाठ के बीच असंगति को नजरअंदाज करने जैसी संरचनात्मक समस्याओं से जुड़ी हैं। आखिरकार, यह अध्ययन प्रभावशाली ढंग से दिखाता है कि AI reviewer मानव समीक्षकों का विकल्प बनने के बजाय, व्यापक दायरे की समस्याओं को तेजी से पहचानने और सूक्ष्म जाँच करने वाले पूरक के रूप में अधिक आशाजनक है, और भविष्य की वैज्ञानिक समीक्षा में मानव और AI के बीच भूमिकाओं के बँटवारे को फिर से परिभाषित करने के लिए महत्त्वपूर्ण आधार प्रदान करता है।
सारांश(Abstract)
AI की क्षमताओं में प्रगति के साथ AI reviewers को वैज्ञानिक peer review में तैनात किया जाने लगा है, लेकिन उनकी क्षमता और विश्वसनीयता अब भी सवालों के घेरे में है। कई वैज्ञानिक उन्हें केवल ऐसे probabilistic systems के रूप में देखते हैं जिनमें शोध का मूल्यांकन करने की विशेषज्ञता नहीं है, जबकि कुछ अन्य शोधकर्ता ठोस साक्ष्य के बिना उनकी तैयारी को अधिक आशावादी रूप से देखते हैं। यह समझना आवश्यक है कि AI reviewers क्या अच्छा करते हैं, कहाँ कम पड़ते हैं, और कौन-सी चुनौतियाँ अभी बाकी हैं। लेकिन AI reviewers के मौजूदा मूल्यांकन मुख्य रूप से इस बात पर केंद्रित रहे हैं कि क्या उनका verdict मानव verdict से मेल खाता है (जैसे score alignment, acceptance prediction), जो उनकी क्षमता और सीमाओं को समझने के लिए पर्याप्त नहीं है। इस शोध-पत्र में हम इस अंतर को एक बड़े पैमाने के expert annotation study के माध्यम से भरते हैं। physical sciences, life sciences और health sciences के 45 domain scientists ने 469 घंटे लगाकर Nature family के 82 शोध-पत्रों की मानव-लिखित और AI-generated reviews से ली गई 2,960 अलग-अलग आलोचनाओं (जिनमें से हर एक शोध-पत्र के किसी एक विशिष्ट पहलू को लक्ष्य करती थी) को correctness, significance, और sufficiency of evidence के आधार पर रेट किया। तीनों dimensions के composite metric पर, GPT-5.2 द्वारा संचालित reviewing agent हर शोध-पत्र के सर्वोच्च-रेटेड मानव reviewer से आगे रहा (60.0% बनाम 48.2%, p = 0.009), जबकि Gemini 3.0 Pro और Claude Opus 4.5 सहित सभी AI reviewers ने हर dimension में सबसे कम-रेटेड मानव reviewer से बेहतर प्रदर्शन किया। इसके अलावा, AI reviewers की सटीक आलोचनाओं को अधिक बार महत्वपूर्ण और पर्याप्त साक्ष्य-समर्थित माना गया, और उन्होंने ऐसे 26% विशिष्ट मुद्दे उजागर किए जिन्हें किसी मानव ने नहीं उठाया। हालांकि, AI reviewers के बीच overlap इंसानों की तुलना में काफी अधिक था (cross-reviewer pairs के आधार पर 21% बनाम 3%), और उन्होंने 16 ऐसी दोहराई जाने वाली कमजोरियाँ भी दिखाईं जो इंसानों में साझा नहीं थीं, जैसे subfield knowledge की कमी, कई files में फैले लंबे context को संभालने की सीमित क्षमता, और छोटे मुद्दों पर जरूरत से ज्यादा आलोचनात्मक रुख। कुल मिलाकर, हमारे नतीजे दिखाते हैं कि मौजूदा AI reviewers मानव reviewers के विकल्प नहीं, बल्कि उनके पूरक हैं।
With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.
शोध-पत्र लिंक
https://arxiv.org/abs/2605.20668
और पढ़ें
https://prometheus-eval.github.io/cmu-paper-reviewer/
https://github.com/prometheus-eval/cmu-paper-reviewer
https://huggingface.co/datasets/prometheus-eval/peerreview-bench
LiveBrowseComp: क्या search agents सच में खोज रहे हैं, या सिर्फ वही सत्यापित कर रहे हैं जो वे पहले से जानते हैं? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
शोध-पत्र परिचय
Large Language Model (LLM) आधारित search agents बाहरी web को explore करके ताज़ा तथ्यों को खोज निकालने की क्षमता के कारण ध्यान आकर्षित कर रहे हैं, लेकिन इस शोध की शुरुआत इस समस्या-बोध से होती है कि व्यवहार में वे अक्सर नई जानकारी खोजने के बजाय पहले से निहित ज्ञान (intrinsic knowledge) को web पर verify करने तक सीमित रह जाते हैं। लेखक इस घटना को Intrinsic Knowledge Dependence (IKD) के रूप में परिभाषित करते हैं और यह सटीक रूप से जाँचने के लिए कि search tools वास्तव में agent की reasoning को कितना विस्तार देते हैं, तीन दृष्टिकोणों से विश्लेषण तैयार करते हैं। पहला, tools को पूरी तरह हटाकर closed-book setting में यह मापा गया कि model कितना उत्तर दे सकता है, ताकि यह देखा जा सके कि मौजूदा benchmarks शुरू से ही model के आंतरिक ज्ञान में कितना समाहित हैं। दूसरा, search की अनुमति देते हुए भी सही उत्तर का समर्थन करने वाले evidence documents हटा दिए गए, ताकि यह परखा जा सके कि agent सचमुच बाहरी evidence का उपयोग करता है या केवल पहले से बनाई गई hypothesis की पुष्टि करता है। तीसरा, search trajectory को track करके queries को इस आधार पर वर्गीकृत किया गया कि वे model के भीतर बनी hypothesis से शुरू हुई थीं या search results से मिले संकेतों से, ताकि यह अलग किया जा सके कि search discovery की प्रक्रिया है या verification की। यह methodology केवल accuracy की तुलना से आगे बढ़कर search agents की वास्तविक कार्यप्रणाली को dissect करने के कारण महत्वपूर्ण है.
विश्लेषण के नतीजे साफ दिखाते हैं कि मौजूदा search benchmarks, search capability और memory-आधारित re-verification के बीच भ्रम पैदा कर सकते हैं। कुछ models ने tools के बिना भी BrowseComp के 44.5% तक प्रश्न हल कर लिए, search queries का आधे से अधिक हिस्सा search results के बजाय model के भीतर उत्पन्न hypothesis से शुरू हुआ, और जब सही उत्तर को support करने वाला evidence हटा दिया गया तो performance closed-book baseline से भी नीचे चली गई। यह संकेत देता है कि search agents web से नए तथ्य खोजने की तुलना में, पहले से जानी हुई बातों को search के ज़रिए verify करने की ओर अधिक झुकते हैं। इस समस्या को हल करने के लिए लेखक LiveBrowseComp नाम का एक नया deep-search benchmark प्रस्तावित करते हैं। LiveBrowseComp में 335 मानव-लिखित प्रश्न हैं, जो benchmark निर्माण के समय से पिछले 90 दिनों के भीतर सार्वजनिक हुए तथ्यों पर निर्भर करते हैं, और इसे GDELT, TMDB, RAWG, CVE/NVD, SportsDB, USGS जैसे छह लगातार अपडेट होने वाले sources के आधार पर बनाया गया है, ताकि इसे मौजूदा models के prior knowledge से आसानी से हल न किया जा सके। साथ ही, दुनिया भर में व्यापक रूप से ज्ञात घटनाओं को बाहर रखा गया है, ताकि केवल recall या सामान्य अनुमान से सही उत्तर तक पहुँचने की संभावना कम हो। परिणामस्वरूप, मूल्यांकित सभी agents की closed-book accuracy 2% से कम रही, search-enabled scores भी BrowseComp की तुलना में 25~40 अंक गिर गए, और पुराने model rankings अब performance का स्थिर अनुमान नहीं दे पाए। अंततः यह शोध प्रभावशाली ढंग से दिखाता है कि search agents की performance का मूल्यांकन करते समय यह नहीं देखना चाहिए कि वे “पहले से जानी बातों की पुष्टि कितनी अच्छी तरह करते हैं”, बल्कि यह देखना चाहिए कि वे “वर्तमान ज्ञान-सीमा से बाहर की अज्ञात बातों को वास्तव में कितना खोज पाते हैं”।
सारांश (Abstract)
क्या LLM-आधारित search agents वास्तव में search कर रहे हैं, या web का उपयोग करके वही verify कर रहे हैं जो वे पहले से जानते हैं? हम BrowseComp पर तीन diagnostic metrics के माध्यम से इस प्रश्न का अध्ययन करते हैं। हमारा विश्लेषण Intrinsic Knowledge Dependence (IKD) को उजागर करता है। यानी, tools तक पहुँच होने पर भी agents अक्सर retrieval से प्राप्त बाहरी evidence के बजाय intrinsic knowledge पर निर्भर करते हैं — वह जानकारी जो search से पहले ही model में encoded होती है। Agents tools के बिना BrowseComp के 44.5% तक प्रश्नों का उत्तर दे देते हैं, अपने search queries के आधे से अधिक हिस्से को retrieved leads के बजाय internally generated hypotheses से बनाते हैं, और जब उत्तर का समर्थन करने वाला evidence हटा दिया जाता है तो closed-book baselines से भी खराब प्रदर्शन करते हैं। ये परिणाम संकेत देते हैं कि static search benchmarks, evidence-driven discovery के बजाय memory-backed verification को reward कर सकते हैं, और agents जो पहले से जानते हैं तथा जो वास्तव में खोज सकते हैं, उनके बीच भ्रम पैदा कर सकते हैं।
इसके बाद हम LiveBrowseComp पेश करते हैं, जो एक deep-search benchmark है और agents का मूल्यांकन उनके intrinsic knowledge coverage से आगे जाकर करने के लिए डिज़ाइन किया गया है। इस benchmark में 335 human-authored प्रश्न हैं, जिनके उत्तर benchmark निर्माण से ठीक पहले के 90 दिनों के भीतर प्रकाशित तथ्यों पर निर्भर करते हैं। प्रश्न 6 updated sources से लिए गए हैं, और globally widely known events को बाहर करने के लिए filter किए गए हैं। LiveBrowseComp में मूल्यांकित सभी agents की closed-book accuracy 2% से कम रहती है, search-augmented scores BrowseComp की तुलना में 25~40 points गिर जाते हैं, और पुराने model rankings अब performance का विश्वसनीय अनुमान नहीं देते। LiveBrowseComp https://huggingface.co/datasets/Forival/LiveBrowseComp पर उपलब्ध है।
Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.
शोध-पत्र लिंक
https://arxiv.org/abs/2605.28721
आगे पढ़ें
https://huggingface.co/datasets/Forival/LiveBrowseComp
उच्च-आयामी प्रायोगिक डेटा से dynamics के phase space को सीखने के लिए information bottleneck / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data
शोध-पत्र परिचय
उच्च-आयामी इमेज या time-series अवलोकनों से उन state variables को खोज निकालने की समस्या, जो किसी system की वास्तविक dynamics को नियंत्रित करते हैं, भौतिकी, जीवविज्ञान और complex systems अनुसंधान में लंबे समय से एक बेहद महत्वपूर्ण कार्य मानी जाती रही है। अवलोकित मानों में स्वयं बहुत शोर और दोहराव वाली जानकारी होती है, लेकिन उनके पीछे अक्सर अपेक्षाकृत निम्न-आयामी phase space संरचना मौजूद होती है। इसलिए मुख्य बात अवलोकनों को जस का तस पुनर्निर्मित करना नहीं, बल्कि ऐसे latent coordinates खोजना है जो उसकी dynamics को सबसे अच्छी तरह समझा सकें। लेखक इसी दृष्टिकोण के आधार पर DySIB (Dynamical Symmetric Information Bottleneck) प्रस्तावित करते हैं, जो past और future observation windows के बीच predictive mutual information को अधिकतम करते हुए latent representation की complexity को नियंत्रित करके low-dimensional representation सीखता है। इस approach की एक महत्वपूर्ण विशेषता यह है कि reconstruction error को सीधे न्यूनतम करने वाले autoencoder के विपरीत, इसमें input images को पुनर्निर्मित नहीं किया जाता और सीखना केवल latent space में होता है; इस कारण dynamics prediction के लिए आवश्यक जानकारी से असंबंधित सूक्ष्म बदलावों को साहसपूर्वक हटाया जा सकता है।
DySIB की methodology, Information Bottleneck सिद्धांत का dynamics learning समस्या तक विस्तार है, और इसे इस तरह डिज़ाइन किया गया है कि latent representation केवल एक compressed vector न रहकर future को अच्छी तरह predict करने वाले sufficient statistic जैसी भूमिका निभाए। इसके लिए यह past और future को symmetric तरीके से संभालने वाली संरचना अपनाता है, predictive information का अनुमान लगाने के लिए InfoNCE lower bound का उपयोग करता है, और Gaussian prior के माध्यम से representation complexity को नियंत्रित करता है। साथ ही, time-delay embedding और shared encoder का उपयोग करके past और future windows को एक ही geometric मानदंड पर map किया जाता है, जिससे latent space में comparability और interpretability बढ़ती है। यह डिज़ाइन साधारण future frame generation पर नहीं, बल्कि dynamics की essential structure को समेटने वाले coordinate system को सीखने पर केंद्रित है, और यही इसे मौजूदा predictive models से अलग बनाता है।
प्रायोगिक सत्यापन physical pendulum के experimental video data पर किया गया, जो एक आदर्श परीक्षण-स्थल है क्योंकि इस system का वास्तविक state space पहले से ज्ञात है और इसलिए सीखे गए latent coordinates की संगति का कड़ाई से मूल्यांकन किया जा सकता है। परिणामस्वरूप, DySIB ने latent dimension और time-window length को data के अनुसार self-consistently चुनते हुए pendulum की वास्तविक degrees of freedom से मेल खाने वाली 2-dimensional representation पुनर्प्राप्त की, और सीखे गए coordinates कोण तथा angular velocity के साथ smooth correspondence दिखाते थे। इससे आगे, इस representation ने stable equilibrium point, unstable saddle, separatrix, तथा rotation और oscillation को अलग करने वाली annular topological structure तक पुनः प्रस्तुत की, जिससे स्पष्ट हुआ कि इसने केवल दृश्य समानता नहीं, बल्कि dimensionality, topology और geometric structure को भी एक साथ पकड़ा। यह तथ्य कि इतनी पुनर्प्राप्ति कम resolution वाले वीडियो में भी संभव हुई, इस बात का समर्थन करता है कि DySIB अनावश्यक observational details को छोड़कर केवल dynamics की दृष्टि से महत्वपूर्ण जानकारी निकालने में प्रभावी है।
इस शोध का महत्व इस बात में है कि यह high-dimensional observations से सीधे interpretable dynamical coordinates खोजे जा सकते हैं। विशेष रूप से, भौतिकी में लंबे समय से उपयोग किए जाते रहे state variables, effective variables और order parameters जैसी अवधारणाओं को data-driven तरीके से पुनर्निर्मित करने के संदर्भ में, DySIB को पारंपरिक सैद्धांतिक भौतिकी और आधुनिक representation learning के बीच एक methodological bridge के रूप में देखा जा सकता है। साथ ही, latent representation की non-uniqueness, gauge freedom, और अधिक जटिल nonlinear systems तक विस्तार की संभावना जैसी सीमाएँ भी स्पष्ट रूप से सामने आती हैं, जिससे भविष्य में strong noise, chaotic systems और multi-scale systems पर generalization तथा integration की गुंजाइश बनती है। फिर भी, यह शोध-पत्र प्रयोगात्मक रूप से सिद्ध करता है कि केवल predictive information के आधार पर भी वास्तविक phase space के coordinates पुनर्प्राप्त किए जा सकते हैं, और इस तरह raw observations से interpretable equations of motion तक पहुँचने वाली एक नई शोध-दिशा प्रस्तुत करता है।
सार(Abstract)
उच्च-आयामी अवलोकनों से किसी system के dynamical state variables की पहचान करना भौतिक विज्ञानों में एक केंद्रीय समस्या है। चुनौती यह है कि state variables सीधे अवलोकनीय नहीं होते और उन्हें supervision के बिना raw high-dimensional data से अनुमानित करना पड़ता है। यहाँ हम DySIB (Dynamical Symmetric Information Bottleneck) प्रस्तुत करते हैं, जो past और future observation windows के बीच predictive mutual information को अधिकतम करते हुए representation complexity पर penalty लगाकर time-series data की low-dimensional representations सीखने की एक विधि है। यह objective पूरी तरह latent space में काम करता है और observations के reconstruction की आवश्यकता नहीं रखता। हमने DySIB को physical pendulum के एक experimental video dataset पर लागू किया, जहाँ वास्तविक state space ज्ञात है। data द्वारा self-consistently निर्धारित learning architecture के hyperparameters के साथ, इस विधि ने pendulum phase space की dimensionality, topology और geometry से मेल खाने वाली 2-dimensional representation पुनर्प्राप्त की, और सीखे गए coordinates मानक angle और angular velocity के साथ smooth alignment में थे। ये परिणाम दिखाते हैं कि एक अच्छी तरह वर्णित experimental system में, latent space की predictive information का उपयोग करके high-dimensional data से सीधे interpretable dynamical coordinates पुनर्प्राप्त किए जा सकते हैं।
Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.
शोध-पत्र लिंक
https://arxiv.org/abs/2604.24662
AutoScientists: दीर्घकालिक वैज्ञानिक प्रयोगों के लिए self-organizing agent teams / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
शोध-पत्र परिचय
दीर्घकालिक वैज्ञानिक प्रयोगों में परिकल्पना बनाना, प्रयोग डिज़ाइन करना, उन्हें चलाना, और फिर परिणामों के आधार पर दिशा को दोबारा समायोजित करना—यह चक्र लगातार दोहराया जाता है। AutoScientists इस पूरी प्रक्रिया को एक iterative exploration problem के रूप में औपचारिक रूप देता है और इसे पूरा करने के लिए एक distributed agent system प्रस्तावित करता है। जहाँ मौजूदा AI agents आम तौर पर एक ही research trajectory का अनुसरण करते हैं या किसी central planner द्वारा तय स्थिर लक्ष्यों को पूरा करते हैं, वहीं यह तरीका इस तरह डिज़ाइन किया गया है कि कई agents shared state को साथ मिलकर पढ़ें-लिखें और स्वयं टीम बनाएँ तथा पुनर्गठित करें। इसका मुख्य विचार यह है कि केंद्रीय स्तर पर एकमुश्त निर्देश देने के बजाय, agents सबूत जमा होने के तरीके के अनुसार promising hypotheses के आसपास स्वायत्त रूप से इकट्ठा हों, experiment resources खर्च करने से पहले एक-दूसरे के प्रस्तावों की आलोचनात्मक समीक्षा करें, और सफलता व विफलता—दोनों को साझा करके अनावश्यक दोहराव वाली खोज को कम करें। इसके लिए शोध-पत्र task description, initial program, learning dataset और evaluation metrics के आधार पर search space के भीतर evaluation performance को अधिकतम करने वाले program को खोजने की optimization problem परिभाषित करता है, और training data, validation data तथा जरूरत पड़ने पर cross-validation (CV) को अलग रखकर दीर्घकालिक प्रयोगों के evaluation criteria को स्पष्ट करता है। यह problem setting इसलिए महत्वपूर्ण है क्योंकि यह scientific discovery को केवल एक बार की prediction नहीं, बल्कि program-level संशोधन और validation के लगातार जुड़ते जाने वाली research process के रूप में देखने को प्रेरित करती है।
AutoScientists का काम करने का तरीका मुख्य रूप से discussion phase और execution phase के चक्र पर आधारित है। discussion phase में agents मौजूदा सर्वश्रेष्ठ candidate champion model, पिछले experiment records, और shared forum की सामग्री के आधार पर यह चर्चा करते हैं कि कौन-सी hypothesis आशाजनक है। शुरुआत में वे अलग-अलग search directions को व्यापक रूप से प्रस्तावित करते हैं, फिर एक-दूसरे के ideas की आलोचना करके search space के blind spots खोजते हैं। इसके बाद execution phase में इस तरह बनी टीम parallel रूप से experiments चलाती है, और हर experiment के परिणामों को experiment log और shared forum में दर्ज करती है ताकि अन्य टीमें उन्हें तुरंत संदर्भ के रूप में उपयोग कर सकें। खास तौर पर, इस system में analyst भूमिका वाले agents अब तक न आजमाई गई दिशाओं की पहचान कर उन्हें प्रस्तावित करते हैं, जबकि experimenter भूमिका वाले agents वास्तविक code changes और training को अंजाम देते हैं। इस तरह functional separation करके लंबे experiment process में अक्सर पैदा होने वाले bottlenecks को कम किया जाता है। साथ ही, विफल experiments को अलग सूची में सहेजकर उसी दिशा को दोहराने से रोका जाता है, और यदि performance improvement के statistical noise होने की संभावना हो तो अतिरिक्त seeds के साथ दोबारा सत्यापन करने के बाद ही उसे promote किया जाता है, ताकि संयोगवश हुए सुधार को वास्तविक प्रगति समझने की गलती न हो।
इस approach की सबसे बड़ी ताकत केवल अधिक ideas पैदा करना नहीं है, बल्कि experiment knowledge के accumulation के लिए एक व्यवस्थित संरचना बनाना है। agents internal state और memory को बनाए रखते हुए लंबे समय तक सीखते हैं, सफल संशोधनों के mechanism का विश्लेषण करके उन्हें अगली hypotheses से जोड़ते हैं, और विफल दिशाओं को भी पूरे system की learning assets के रूप में संरक्षित रखते हैं। इसके परिणामस्वरूप AutoScientists research output के रूप में केवल सर्वोत्तम performance वाला program ही नहीं, बल्कि model card और research results report भी छोड़ता है, जिससे reproducibility और interpretability दोनों सुनिश्चित होते हैं। यह डिज़ाइन दीर्घकालिक scientific experiments में महत्वपूर्ण adaptability, parallelism, और failure से learning—इन सबको एक ही framework में जोड़ता है, और इसी वजह से यह मौजूदा agent approaches से स्पष्ट रूप से अलग दिखता है। वास्तव में, इस तरीके ने biomedical machine learning, language model training optimization, और protein fitness prediction में मौजूदा agents की तुलना में बेहतर परिणाम दिखाए। BioML-Bench में इसने 24 tasks के आधार पर औसत leaderboard percentile 74.4% हासिल किया और सबसे मजबूत single agent की तुलना में 8.33% बेहतर प्रदर्शन किया। इसके अलावा GPT training optimization में यह target validation bits-per-byte तक Autoresearch की तुलना में 1.9 गुना तेजी से पहुँचा, और ProteinGym में ACE2-Spike binding problem तथा कुल 217 assays में मौजूदा सर्वोत्तम प्रदर्शन से आगे निकलने वाले सुधार दिखाए, जिससे यह सिद्ध होता है कि distributed self-organizing agents दीर्घकालिक scientific exploration में वास्तविक प्रभाव डाल सकते हैं。
सार(Abstract)
वैज्ञानिक शोध परिकल्पना बनाना, प्रयोग की रूपरेखा तैयार करना, उसे चलाना और संशोधित करना—इन दोहराए जाने वाले चक्रों के माध्यम से आगे बढ़ता है। AI agent इस प्रक्रिया के कुछ हिस्सों को automate कर सकते हैं, लेकिन मौजूदा approaches आमतौर पर एक ही research trajectory का पालन करती हैं या तयशुदा लक्ष्यों वाले central planner के जरिए समन्वित होती हैं। इसका परिणाम यह होता है कि वे parallel exploration को लंबे समय तक बनाए रखने, experimental evidence बदलने पर उसके अनुसार ढलने, या लंबे समय तक चलने वाले experiments में असफल दिशाओं से जुड़ी जानकारी को संरक्षित रखने में कठिनाई झेलती हैं। हम AutoScientists पेश करते हैं, जो लंबे समय तक चलने वाले computational scientific experimentation के लिए decentralized AI agents की एक टीम है। ये agents साझा experimental state की व्याख्या करते हैं, promising hypotheses के आसपास खुद को टीमों में संगठित करते हैं, experimental compute का उपयोग करने से पहले proposals की आलोचनात्मक समीक्षा करते हैं, और सफलता व असफलता साझा करके दोहराव वाली exploration को कम करते हैं। समान experimental budget के तहत, AutoScientists ने biomedical machine learning, language-model training optimization, और protein fitness prediction में पहले के AI agents की तुलना में बेहतर प्रदर्शन दिखाया। BioML-Bench में, जो biomedical imaging, protein engineering, single-cell omics, और drug discovery को समेटता है, AutoScientists ने 24 tasks में औसत leaderboard percentile 74.4% हासिल किया, जो सबसे मजबूत AI agent से +8.33% बेहतर है। GPT training optimization में, AutoScientists ने Autoresearch की तुलना में target validation bits-per-byte तक 1.9x तेजी से पहुंच बनाई, और ऐसे starting champion state से भी आगे सुधार ढूंढता रहा जहां single-agent approach को कोई सुधार नहीं मिला (स्वीकृत सुधार 7 बनाम 0)। ProteinGym fitness prediction में, AutoScientists ने ACE2-Spike binding के लिए एक method खोजा, जिसने मौजूदा state-of-the-art model की तुलना में Spearman correlation पर +12.5% सुधार किया। इसके अलावा, जब इसी method को बिना किसी संशोधन के सभी 217 ProteinGym assays पर लागू किया गया, तो इसने पिछले state of the art की तुलना में Spearman correlation पर +6.5% सुधार दिखाया।
Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).
पेपर लिंक
https://arxiv.org/abs/2605.28655
और पढ़ें
https://autoscientists.openscientist.ai/
https://github.com/mims-harvard/AutoScientists
⚠️विज्ञापन⚠️: 🔥PyTorch Korea User Group🇰🇷 द्वारा तैयार किया गया यह लेख क्या आपको उपयोगी लगा? सदस्य बनने पर हम आपको प्रमुख लेख ईमेल💌 से भेजेंगे! आप Telegram या Slack/Discord/Teams/Dooray/GoogleChat आदि के जरिए भी नए लेखों की सूचना प्राप्त कर सकते हैं। :D
अभी कोई टिप्पणी नहीं है.