- बड़े भाषा मॉडल (LLM) मल्टी-टर्न बातचीत में परफॉर्मेंस गिरावट और विश्वसनीयता में कमी दिखाते हैं
- सिंगल-टर्न की तुलना में मल्टी-टर्न स्थितियों में औसतन 39% परफॉर्मेंस गिरावट प्रयोगों में देखी गई
- मुख्य कारण मामूली aptitude में कमी और बहुत बड़ी reliability में गिरावट, यानी नतीजों में निरंतरता की कमी है
- LLM शुरुआती चरण में गलत मान्यताएँ बना लेते हैं, या अंतिम उत्तर देने की कोशिश बहुत जल्दी करने लगते हैं
- नतीजतन, बातचीत की शुरुआत में गलती होने पर LLM उबर नहीं पाते और बातचीत की दिशा खो देते हैं
ABSTRACT
- बड़े भाषा मॉडल (LLM) एक conversational interface के रूप में ऐसे सिस्टम हैं जिनमें यह क्षमता है कि जब उपयोगकर्ता अपनी जरूरतें पूरी तरह स्पष्ट न कर पाए, तब भी वे मल्टी-टर्न बातचीत के जरिए जरूरतों को धीरे-धीरे परिभाषित, खोज और संशोधित करने में मदद कर सकें
- लेकिन अधिकांश LLM मूल्यांकन केवल सिंगल-टर्न पूर्ण-विवरण वाले निर्देश वाले वातावरण पर केंद्रित रहे हैं, जबकि वास्तविक बातचीत लॉग के विश्लेषण में underspecification बार-बार दिखाई देता है
- इस अध्ययन में सिंगल-टर्न और मल्टी-टर्न (underspecified) वातावरणों में LLM के प्रदर्शन की बड़े पैमाने पर simulation करके तुलना की गई
- परिणामस्वरूप, 15 प्रमुख LLM में मल्टी-टर्न बातचीत के दौरान औसतन 39% प्रदर्शन गिरावट देखी गई, जिसे aptitude में हल्की कमी और reliability में तेज गिरावट के रूप में विश्लेषित किया गया
- जब LLM बातचीत की शुरुआत में गलत रास्ता चुन लेते हैं, तो बाद में वे उबर नहीं पाते और दिशा खोकर भटकते रहते हैं
Introduction
- आधुनिक LLM (जैसे ChatGPT, Gemini, Claude आदि) मल्टी-टर्न बातचीत सक्षम इंटरफेस हैं
- उपयोगकर्ता अगर शुरुआत में अपनी सारी जरूरतें साफ़-साफ़ न भी बताए, तो भी दोहराए जाने वाले प्रश्नोत्तर (underspecified → refined) के जरिए जरूरतों को धीरे-धीरे अधिक स्पष्ट बनाया जा सकता है
- वास्तविक दुनिया में कई उपयोगकर्ता बातचीत की शुरुआत में अस्पष्ट अनुरोध देते हैं, फिर भी अधिकांश मूल्यांकन केवल सिंगल-टर्न पूर्ण-विवरण वातावरण में किए जाते हैं
- कुछ पूर्व शोधों ने मल्टी-टर्न मूल्यांकन की कोशिश की है, लेकिन वे अक्सर बातचीत के हर turn को अलग episode की तरह मानते हैं, जिससे वास्तविक मानवीय संवाद में आम अस्पष्टता के प्रभाव को कम करके आँका जाता है
- इस अंतर को कम करने के लिए, यह अध्ययन sharded simulation (जानकारी को कई टुकड़ों में बाँटकर हर turn में केवल एक टुकड़ा उजागर करना) नामक एक सेटअप प्रस्तावित करता है, जो मल्टी-टर्न और अस्पष्ट निर्देशों वाली स्थितियों का अधिक सटीक simulation करता है
प्रमुख शोध निष्कर्षों का सार
- सिंगल-टर्न में जब LLM को पूरा निर्देश एक साथ दिया गया, तो 90% प्रदर्शन मिला, लेकिन मल्टी-टर्न अस्पष्ट निर्देश में यह 65% तक गिर गया (औसतन 25 पॉइंट की गिरावट)
- यह घटना केवल दो turn की बातचीत के बाद भी दिखाई देती है, और open/open-weight, closed, बड़े और छोटे सभी LLM में समान रूप से देखी गई
- परफॉर्मेंस गिरावट के कारणों के विश्लेषण से दो बातें सामने आईं: (1) aptitude loss और (2) unreliability में तेज वृद्धि
- सिंगल-टर्न में उच्च aptitude वाले मॉडल अधिक reliable भी थे, लेकिन मल्टी-टर्न में aptitude से अलग होकर reliability कम हो गई
- यानी, मल्टी-टर्न बातचीत के दौरान LLM अगर गलत दिशा में मुड़ जाएँ, तो रिकवरी संभव नहीं होती — इसे “lost in conversation” नाम दिया गया है
- मुख्य कारण
- लंबे-चौड़े जवाब और अंतिम उत्तर देने की जल्दबाज़ी
- अस्पष्ट जानकारी के आधार पर गलत मान्यताएँ
- पहले किए गए गलत प्रयासों पर अत्यधिक निर्भरता
- वास्तविक LLM उपयोग और मॉडल मूल्यांकन के तरीकों के बीच बड़ा अंतर मौजूद है
- खासकर नए उपयोगकर्ता शुरुआत में अधूरे निर्देश देते हैं, इसलिए यह घटना वास्तविक उपयोग में अपनाने को कठिन बनाने वाले प्रमुख कारणों में से एक है
- पेपर की संरचना: पूर्व शोध का सार, simulation वातावरण का विवरण, 6 generation tasks और evaluation metrics, 15 LLM पर बड़े पैमाने के प्रयोग और परिणाम, तथा practical/product application के लिए संकेत और ठोस सिफारिशें
Background and Related Work
- पिछली पीढ़ी के भाषा मॉडल (जैसे BART, GPT-2, T5) वास्तव में मल्टी-टर्न बातचीत को अच्छी तरह संभाल नहीं पाते थे, इसलिए उनका मूल्यांकन मुख्यतः सिंगल-टर्न पर हुआ
- ChatGPT के आने के बाद मल्टी-टर्न मूल्यांकन में रुचि बढ़ी, और MT-bench जैसे crowdsourced evaluation सामने आए
- लेकिन अधिकांश मूल्यांकन ढाँचे अभी भी episodic conversation (हर turn का अलग मूल्यांकन) तक सीमित हैं, इसलिए वास्तविक अस्पष्ट बातचीत की निरंतरता पर पर्याप्त ध्यान नहीं दिया जाता
- वास्तविक दुनिया में “न्यूनतम प्रयास के सिद्धांत” के अनुसार लोग अक्सर अस्पष्ट निर्देश देते हैं (a.k.a. underspecification), और LLM भी जानकारी की कमी में जल्दी निष्कर्ष निकालने तथा अनुकूलन की कमी जैसी वजहों से प्रदर्शन खो देते हैं
- यह अध्ययन ऐसे मूल्यांकन की ओर उन्मुख है जो अस्पष्टता-केंद्रित वास्तविक वातावरण के अधिक करीब हो
Simulating Underspecified, Multi-Turn Conversation
3.1 Sharding Process
- मूल पूर्ण-विवरण निर्देश को कई shard (जानकारी के टुकड़े) में बाँटा जाता है
- उदाहरण: एक ही वाक्य में सारी शर्तें देने के बजाय, हर turn में केवल एक सूचना (स्थिति, संख्या, शर्त आदि) दी जाती है
- पहला shard हमेशा निर्देश के उच्च-स्तरीय लक्ष्य को बताता है, और उसके बाद के shard हर turn में अतिरिक्त जानकारी (context, constraints आदि) धीरे-धीरे देते हैं
- यह sharding प्रक्रिया LLM (GPT-4o) के प्रस्ताव+सत्यापन और मैनुअल सुधार के जरिए उच्च-गुणवत्ता वाला मल्टी-टर्न instruction dataset बनाती है
- हर task के लिए 90–120 sharded instructions बनाए गए (कई घंटों की मैनुअल समीक्षा के साथ)
3.2 Simulating Sharded Conversations
- बातचीत simulation में 3 भूमिकाएँ होती हैं: मूल्यांकनाधीन LLM (assistant), सभी shard जानने वाला user simulator, और response classification व scoring system
- पहला turn: user simulator केवल पहला shard assistant को देता है → assistant जवाब देता है → उसकी रणनीति (स्पष्टीकरण, प्रश्न, उत्तर देने की कोशिश आदि) वर्गीकृत की जाती है और उत्तर निकाला जाता है → फिर उसका मूल्यांकन होता है
- अगले turn में: बचे हुए shard में से केवल एक और दिया जाता है, और यही प्रक्रिया दोहराई जाती है / हर turn में assistant स्वतंत्र रूप से जवाब दे सकता है
- बातचीत समाप्ति: (1) evaluator सही उत्तर तय कर दे, या (2) देने के लिए कोई shard न बचे
- user simulator को LLM (GPT-4o-mini) से बनाया गया है, जिससे shard को स्वाभाविक ढंग से देना और स्वत: rephrase करना संभव होता है
- पूरे प्रयोग में सहायक LLM की misclassification या extraction errors 5% से कम थीं, और assistant के लिए प्रतिकूल मामले 2% से कम थे
- assistant का मूल्यांकन इस वातावरण के बारे में कोई विशेष जानकारी दिए बिना default state में किया गया (यानी वास्तविक उपयोग की तरह उसे scenario की अतिरिक्त जानकारी नहीं दी गई)
3.3 Simulation Types
- FULLY-SPECIFIED (FULL): सिंगल-टर्न में पूरा निर्देश देना, baseline performance मापने के लिए
- SHARDED: हर turn में केवल एक जानकारी का टुकड़ा उजागर करना, यही मल्टी-टर्न अस्पष्ट बातचीत पर इस अध्ययन का मुख्य प्रयोग है
- CONCAT: पूरे sharded instruction को एक साथ bullet-point के रूप में देना, ताकि केवल instruction information loss का प्रभाव मापा जा सके
- RECAP: sharded बातचीत के बाद अंत में सभी shard का सार/पुनर्प्रस्तुति, simple agent-like intervention के एक रूप के रूप में
- SNOWBALL: हर turn में नया shard जोड़ने के साथ पहले दिए गए सभी shard को दोहराना, ताकि assistant कोई जानकारी न छोड़े और उसे बार-बार याद दिलाया जाए (memory reinforcement experiment)
Task and Metric Selection
4.1 Task Selection
- कुल 6 tasks: programming (Code), database (SQL generation), API function calling (Actions), math, table-to-text (Data-to-Text), और question-answer style summarization (Summary)
- उदाहरण: Python function लिखना, natural language → SQL query conversion आदि
- हर task के लिए उच्च-गुणवत्ता benchmark से 90~120 निर्देश चुने गए, फिर sharding के बाद उनका मैनुअल सत्यापन किया गया
- ये 6 tasks programming और non-programming दोनों तरह के प्रतिनिधि परिदृश्यों को कवर करते हैं, जिनमें long context माँगने वाला Summary जैसे मामले भी शामिल हैं
4.2 Metric Selection
- मूल्यांकन मेट्रिक्स
- औसत प्रदर्शन (P): कई simulations में प्राप्त औसत स्कोर (0~100)
- aptitude (A90): शीर्ष 10% simulation परिणामों का मान (90th percentile, best-case)
- reliability (U90_10): शीर्ष 90% और निचले 10% स्कोर का अंतर (परिणामों की निरंतरता/विविधता का माप)
- उदाहरण: box-plot में सबसे ऊपर aptitude दर्शाता है, और ऊपर-नीचे का फैलाव reliability को
- सभी 6 tasks में एकसमान पैमाने पर स्कोरिंग की गई (सही उत्तर/समानता/BLEU आदि)
- सभी प्रयोग पैरामीटर, उदाहरण, sampling आदि की विस्तृत विधि और code भी appendix में दिए गए हैं
Simulation Scale and Parameters
- कुल 600 instructions को 6 tasks के लिए तैयार किया गया, और FULL/CONCAT/SHARDED scenarios पर प्रयोग किए गए
- 15 LLM (GPT-4, Claude, Gemini आदि) पर हर संयोजन के लिए 10-10 simulations चलाए गए, जिससे 2 लाख से अधिक experimental data points बने
- सभी प्रयोग temperature 1 (sampling) पर किए गए, और अतिरिक्त प्रयोग (7.2) में temperature के प्रभाव का भी विश्लेषण किया गया
- इस बड़े simulation dataset से LLM के मल्टी-टर्न underspecified बातचीत में व्यवहार और प्रदर्शन गिरावट के प्रमुख कारणों और पैटर्न को समझना संभव हुआ
Lost in Conversation Experiment
- आगे पेपर में experiment setup, individual model results, performance गिरावट के कारणों का विश्लेषण, mitigation techniques (RECAP/SNOWBALL) के प्रयास, और व्यावहारिक संकेतों व ठोस सिफारिशों का विस्तार से वर्णन किया गया है
1 टिप्पणियां
Hacker News टिप्पणियाँ
यह देखकर खुशी हुई कि एक पेपर ने वही बात पुष्टि की, जिसे LLM tools को वास्तव में इस्तेमाल करने वाला हर व्यक्ति अनुभव से जानता है। “बातचीत” की अवधारणा प्रोडक्ट इंटरफ़ेस से बनी है। context को साफ़ रखना महत्वपूर्ण है। context दूषित हो जाए तो वह रिकवर नहीं होता, इसलिए नई बातचीत से फिर शुरू करना पड़ता है
यह LLMs की जानी-पहचानी overconfidence प्रवृत्ति, self-reflection की कमी, और उस समय अधिक जानकारी माँगने की ज़रूरत को न पहचान पाने से पैदा होने वाली समस्या है। reasoning models के outputs को देखें, तो confusion की स्थिति में LLM अतिरिक्त स्पष्टीकरण माँगने के बजाय सिर्फ़ अंदाज़ा लगाता रहता है कि user का मतलब क्या रहा होगा। यह “मानव programmers को replace कर देंगे” जैसी सोच की वास्तविक सीमाएँ दिखाता है। असली कठिन हिस्सा तो stakeholders के साथ interaction के ज़रिए अस्पष्ट requirements को स्पष्ट बनाना होता है
मुझे यह तकनीक पसंद है कि अब तक की चर्चा को LLM से concise prompt format में summarize करवाऊँ, फिर उसे खुद modify/edit करके नई conversation शुरू करूँ। यह काफ़ी असरदार रही है, और मुझे लगता है जल्द ही automate हो जाएगी
/compactcommand है, जो conversation summarize करके token usage कम करता हैमैंने खुद TSCE (Two-Step Contextual Enrichment) बनाया। GPT-35-turbo के साथ 300 tasks पर इस्तेमाल करने से performance +30pp बढ़ी। यह open framework है और मुक्त उपयोग के लिए उपलब्ध है। gpt-4.1 के साथ 300 अतिरिक्त experiments भी किए। baseline में em-dash हटाने में 149/300 बार विफलता हुई, TSCE में 18/300 बार। पूरा data और scripts भी प्रकाशित हैं
text.replace("—", "-")जैसा कुछ आज़माया है?मुझे दो systems (LMM + automatic curator) के साथ समस्याएँ हल करने का अनुभव है। एक खुद LLM, दूसरा “thought curator” जो context के हिस्सों को गतिशील रूप से बदलता और manage करता है। यह स्पष्ट नियमों के बजाय LLM की fill-in क्षमता पर आधारित है। यह problem को छोटे हिस्सों में बाँटकर हल करवाने में मदद करता है, और वे नतीजे मिलकर अंतिम लक्ष्य तक पहुँचते हैं
यह अजीब है कि main chat tools में branching/forking डिफ़ॉल्ट नहीं है। जवाबों को edit तो किया जा सकता है, लेकिन उस स्थिति में बहुत-सा दूसरा context खो जाता है। मेरा workflow है 1. plan 2. build 3. branch 4. repeat. मुझे लगता है prompt pruning/branching, LLM उपयोग का मुख्य tool होना चाहिए
जब LLM interfaces को single-turn conversation केंद्रित बनाकर डिज़ाइन किया जाता है, तो समस्याएँ आती हैं। ज़्यादातर users linear बातचीत की अपेक्षा करते हैं। इसलिए मैंने Telegram bot experai_bot बनाया, ताकि वह LLM के लिए universal UI बन सके, और “reply नहीं तो नई बातचीत” वाला approach इस्तेमाल किया। context बनाए रखना है, तो reply tree structure में ही आगे बढ़ना चाहिए। non-experts को इस तरीके को समझने में दिक्कत होती है। साथ ही OpenAI models (3.5, 4o के आधार पर) में एक ही सवाल दोहराने पर whitespace या options छोटे होते जाते हैं और नतीजे धीरे-धीरे कम सटीक होने लगते हैं। system message को न्यूनतम रखने पर results अपेक्षाकृत स्थिर रहते हैं। ज़रूरत हो तो option के रूप में system message जोड़ा जा सकता है
promptdown बनाने का मेरा मुख्य कारण यही था कि पूरी chat history को हर turn पर पूरी तरह edit किया जा सके। standard interfaces की ‘append-only’ संरचना इसे कठिन बना देती है
इस समय LLM क्षेत्र ऐसा लगता है जैसे हर कोई वही समस्या बार-बार हल कर रहा है
LLM सचमुच बोतल वाले जिन्न जैसा है। तीन सवालों तक जवाब देता है, उसके बाद अजीब बातें करने लगता है