लंबा context क्यों विफल होता है

(dbreunig.com)

3 पॉइंट द्वारा GN⁺ 2025-07-06 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

नवीनतम बड़े language models में 10 लाख tokens तक सपोर्ट करने वाले लंबे context window पेश किए गए हैं, जिससे agents के प्रदर्शन में बड़ी छलांग की उम्मीद बढ़ी है
लेकिन वास्तव में लंबा context बेहतर जवाब नहीं बनाता, बल्कि context poisoning, errors, confusion, clashes जैसी समस्याओं के कारण सिस्टम विफलता पैदा करता है
Context Poisoning , Context Distraction , Context Confusion , Context Clash प्रमुख समस्याएँ हैं
ये समस्याएँ खासकर कई information sources, tool integration, multi-step reasoning जैसे जटिल flows में agents को और अधिक प्रभावित करती हैं
आगे की पोस्ट में व्यावहारिक समाधान और बचाव की रणनीतियाँ पर चर्चा की जाएगी

context management का महत्व

हाल के बड़े frontier models 10 लाख tokens तक सपोर्ट करने वाले लंबे context window प्रदान करते हैं
बहुत से लोगों को उम्मीद है कि इतने बड़े window में सभी tools, documents और instructions डाल देने पर भी कोई समस्या नहीं होगी
लेकिन व्यवहार में context overload कई तरह की विफलताएँ पैदा करता है, और agent-आधारित applications में यह विशेष रूप से गंभीर समस्या बन जाता है

context poisoning वह स्थिति है जिसमें hallucination या errors context में आ जाते हैं और बार-बार refer किए जाते हैं
Deep Mind की Gemini 2.5 तकनीकी रिपोर्ट बताती है कि गेम के दौरान गलत game state goal या summary section में रह जाने पर agent निरर्थक रणनीतियाँ और असंभव लक्ष्य अपनाते हुए गलत व्यवहार दोहराता है
ऐसा दूषित context अस्थायी रूप से या लंबे समय तक agent के निर्णय को धुंधला कर सकता है

context distraction वह स्थिति है जिसमें context इतना लंबा हो जाता है कि model training के दौरान सीखी गई बातों की तुलना में context पर अत्यधिक ध्यान देने लगता है
Gemini 2.5 Pro के 1M+ token window में भी, व्यवहार में context 100,000 tokens से आगे बढ़ने पर model सिर्फ पुराना इतिहास दोहराता रहता है और रचनात्मक planning कठिन हो जाती है
Databricks के शोध में पाया गया कि Llama 3.1 405b के मामले में 32,000 tokens पर ही accuracy तेज़ी से गिर जाती है
इससे संकेत मिलता है कि इतने विशाल window व्यावहारिक रूप से केवल summarization और fact retrieval के लिए ही उपयोगी हैं

जब context में बहुत सारे tools या definitions डाल दिए जाते हैं, तो model अनावश्यक या अनुपयुक्त tool calls जैसी कम-गुणवत्ता वाली प्रतिक्रियाएँ बनाने लगता है
Berkeley के Function-Calling Leaderboard के अनुसार, जैसे-जैसे अधिक tools दिए जाते हैं, सभी models का प्रदर्शन गिरता है और अनावश्यक calls बार-बार होने लगते हैं
GeoEngine benchmark पेपर में, Llama 3.1 8b model 46 tools दिए जाने पर विफल रहा, लेकिन केवल 19 tools दिए जाने पर सफल हुआ
context में शामिल जानकारी को model ऐसी चीज़ मानता है जिसे उसे ज़रूर consider करना है, और यही अनावश्यक noise समस्या पैदा करता है

Context Clash वह स्थिति है जिसमें multi-step तरीके से इकट्ठी की गई जानकारी या tool descriptions के बीच आपस में विरोधाभासी या टकराने वाली बातें मौजूद होती हैं
Microsoft और Salesforce के शोध से पता चलता है कि multi-turn conversations में यह घटना औसतन 39% प्रदर्शन गिरावट तक ले जाती है
इसका कारण यह है कि शुरुआती response में गलत assumptions बन जाती हैं, और बाद में भी सिस्टम उसी जवाब पर अत्यधिक निर्भर रहता है
MCP जैसे external tools से जुड़ने पर टकराव का जोखिम बढ़ जाता है

मिलियन-token context का आगमन एक क्रांति माना गया था, लेकिन व्यवहार में poisoning, distraction, confusion, clash जैसी नई तरह की errors बढ़ गई हैं
ये समस्याएँ खासकर कई स्रोतों से जानकारी जुटाने, चरणबद्ध tool chaining, लंबा conversation history जमा होने वाले agent systems में घातक साबित होती हैं
समाधान के रूप में dynamic tool loading, context isolation जैसी कई रणनीतियाँ प्रस्तावित की जा सकती हैं, जिन पर अगली पोस्ट में विस्तार से चर्चा की जाएगी