- बड़े लैंग्वेज मॉडल (LLM) को बहुत लंबे इनपुट प्रॉम्प्ट प्रोसेस करने में सक्षम बनाने के लिए नई reasoning strategy RLM (Recursive Language Model) प्रस्तावित की गई है
- RLM लंबे प्रॉम्प्ट को बाहरी environment के एक हिस्से के रूप में मानता है, और मॉडल को उन्हें programmatically खोजने, विभाजित करने और recursively call करने की अनुमति देता है
- यह तरीका मौजूदा context window limits से आगे बढ़कर अधिकतम करोड़ों tokens के स्तर तक के इनपुट को प्रोसेस करता है, और मौजूदा LLM की तुलना में गुणवत्ता को काफी बेहतर बनाता है
- प्रयोगों के नतीजों में, GPT-5 और Qwen3-Coder आधारित RLM ने विभिन्न long-context tasks में दो अंकों का performance improvement दिखाया, जबकि लागत समान या उससे कम रही
- इसे long-context processing की सीमाओं को पार कर LLM की reasoning क्षमता को बड़े पैमाने पर विस्तारित करने वाले सामान्य approach के रूप में आंका गया है
RLM का अवलोकन
- Recursive Language Model (RLM) को इस तरह डिज़ाइन किया गया है कि LLM लंबे इनपुट को सीधे neural network में डालने के बजाय, उसे बाहरी environment के variables की तरह मानकर उसके साथ interact करे
- इनपुट प्रॉम्प्ट P को Python REPL environment के एक variable के रूप में लोड किया जाता है, और LLM उसे code के ज़रिए explore, decompose और recursively call करता है
- LLM REPL environment की state (जैसे: string length) को पहचानता है, code execution के side effects को observe करता है, और धीरे-धीरे समस्या हल करता है
- यह संरचना मौजूदा context compaction या summary-based approaches में विवरण खो जाने की समस्या को हल करती है
- RLM को ऐसे सामान्य reasoning paradigm के रूप में प्रस्तुत किया गया है जो इनपुट और आउटपुट दोनों की लंबाई बढ़ा सकता है
मौजूदा approaches की सीमाएँ
- मौजूदा LLM, context window limits के कारण लंबे इनपुट में प्रदर्शन के तेज गिरने वाली context rot समस्या दिखाते हैं
- context compaction तकनीकें एक निश्चित लंबाई के बाद summarization को दोहराती हैं, लेकिन ऐसे tasks जिनमें बारीक जानकारी तक पहुंच ज़रूरी हो उनके लिए उपयुक्त नहीं हैं
- RLM प्रॉम्प्ट को बाहरी object की तरह संभालकर इनपुट आकार को मॉडल की सीमाओं से आगे बढ़ा सकता है
प्रयोग सेटअप
- मूल्यांकन मॉडल: GPT-5 (OpenAI, 2025) और Qwen3-Coder-480B-A35B (Team, 2025)
- तुलना के लिए:
- बेसिक LLM direct call
- Summary agent
- CodeAct + BM25 retrieval-based agent
- RLM (REPL environment सहित) और RLM (REPL, recursive calls के बिना)
- GPT-5 प्रयोगों में recursive calls के लिए GPT-5-mini और root model के लिए GPT-5 का उपयोग किया गया, ताकि performance और cost का संतुलन बना रहे
मूल्यांकन tasks
- S-NIAH: एकल ‘needle-in-a-haystack’ समस्या, जिसमें इनपुट लंबाई से अलग processing cost स्थिर रहती है
- BrowseComp-Plus: कई दस्तावेज़ों में जाने वाला multi-hop question answering task, जिसमें 1000 दस्तावेज़ों में सही उत्तर शामिल होता है
- OOLONG: ऐसा long-context reasoning task जिसमें इनपुट की लगभग सभी items को semantic रूप से transform और integrate करना पड़ता है, और processing cost इनपुट लंबाई के साथ रैखिक रूप से बढ़ती है
- OOLONG-Pairs: OOLONG का एक variant, जिसमें जोड़ी-स्तरीय जानकारी का संयोजन ज़रूरी है और processing cost इनपुट लंबाई के वर्ग के अनुपात में बढ़ती है
- LongBench-v2 CodeQA: code repository की समझ मांगने वाला multiple-choice task, जो नवीनतम मॉडलों के लिए भी कठिन है
प्रमुख परिणाम
- RLM में GPT-5 की तुलना में लंबे context पर भी प्रदर्शन में लगभग कोई गिरावट नहीं दिखी
- GPT-5 में इनपुट लंबाई और task complexity बढ़ने पर प्रदर्शन तेज़ी से गिरा
- RLM ने 272K token सीमा से बड़े इनपुट (अधिकतम 10M+ tokens) को भी प्रभावी ढंग से प्रोसेस किया
- सभी long-context tasks में RLM ने अन्य तरीकों की तुलना में दो अंकों का performance improvement दिखाया
- cost efficiency भी बनी रही, और प्रति query लागत मौजूदा approaches के समान या उससे कम रही
long-context tasks का complexity analysis
- LLM की व्यावहारिक context window भौतिक सीमा से भी task complexity के अनुसार और छोटी हो सकती है
- सरल NIAH समस्या 1M+ tokens पर भी हल की जा सकती है
- जटिल OOLONG-प्रकार के tasks में इससे कहीं कम लंबाई पर भी प्रदर्शन गिरने लगता है
- इसलिए task की information density और input length के संबंध को साथ में देखना ज़रूरी है
निष्कर्ष
- RLM, LLM की reasoning क्षमता को recursively विस्तारित करके ऐसे अत्यंत लंबे इनपुट को संभालने में सक्षम बनाता है जिन्हें मौजूदा मॉडल प्रोसेस नहीं कर सकते
- प्रॉम्प्ट को environment object की तरह मानने वाला डिज़ाइन इसकी मुख्य नवाचार है, जो long-context processing की संरचनात्मक सीमाओं को हल करता है
- इसे विभिन्न मॉडलों और tasks में performance, cost और scalability का संतुलन हासिल करने वाले सामान्य reasoning framework के रूप में प्रस्तुत किया गया है
अभी कोई टिप्पणी नहीं है.