गणित के सवाल में बिल्लियों से जुड़ी अप्रासंगिक जानकारी जोड़ने पर LLM की त्रुटियाँ 300% बढ़ जाती हैं

(science.org)

1 पॉइंट द्वारा GN⁺ 2025-07-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े भाषा मॉडल (LLM) में यह देखा गया कि जब गणित के सवालों में बिल्लियों से जुड़ी अनावश्यक जानकारी शामिल की जाती है, तो उनकी गलतियों की आवृत्ति बढ़ जाती है
इस तरह के अप्रासंगिक तथ्यों को जोड़ने पर LLM की त्रुटि दर अधिकतम 300% तक बढ़ जाती है
मनुष्य आमतौर पर ऐसी असंबंधित जानकारी से आसानी से प्रभावित नहीं होते, लेकिन LLM इसके कारण निर्देशों का सही ढंग से पालन नहीं कर पाते
यह अध्ययन AI की कमजोरियों को समझने और प्रश्न-डिज़ाइन के महत्व पर अंतर्दृष्टि प्रदान करता है
AI का मूल्यांकन या उपयोग करते समय, इनपुट डेटा में अनावश्यक तत्वों के प्रबंधन की ज़रूरत होती है

शोध की पृष्ठभूमि और देखा गया प्रभाव

नवीनतम AI, बड़े भाषा मॉडल (LLM), गणित के सवाल अच्छी तरह हल कर लेते हैं, लेकिन जब सवाल में बिल्लियों से जुड़े असंबंधित तथ्य शामिल किए जाते हैं, तो उनकी त्रुटि दर नाटकीय रूप से बढ़ जाती है
शोध के अनुसार, ‘गणितीय गणना’ से बिल्कुल असंबंधित बिल्लियों की पारिस्थितिकी, आदतें, या अन्य बेकार अतिरिक्त जानकारी जोड़ने पर, LLM सवाल को गलत समझने लगते हैं या गलत उत्तर देने की दर अधिकतम 300% तक बढ़ जाती है

मनुष्य और LLM के बीच अंतर

इसी तरह, मनुष्यों पर किए गए प्रयोगों में असंबंधित जानकारी होने पर भी सही उत्तर देने की दर पर बड़ा असर नहीं पड़ा
लेकिन LLM ऐसी विचलित करने वाली जानकारी के प्रति संवेदनशील होते हैं, जिससे मुख्य प्रश्न से हटकर व्याख्या करने या गलतफहमी की संभावना बढ़ जाती है

AI मूल्यांकन और इनपुट डेटा प्रबंधन का महत्व

यह प्रभाव LLM की कमजोरियों को उजागर करने के साथ-साथ, वास्तविक परिस्थितियों में AI लागू करते समय इनपुट डेटा में अनावश्यक जानकारी के प्रबंधन के महत्व को भी रेखांकित करता है
प्रश्न तैयार करते समय केवल स्पष्ट और प्रासंगिक जानकारी प्रस्तुत करना AI की सटीकता बढ़ाने के लिए महत्वपूर्ण है

निहितार्थ

आगे AI अपनाने और सेवाओं में उसके उपयोग के दौरान, इनपुट प्रश्नों में अनावश्यक तत्वों या शोर का प्रबंधन अनिवार्य होगा
यह LLM की मौजूदा सीमाओं और सुधार के बिंदुओं को समझने के लिए शोध और विकास की दिशा सुझाता है

1 टिप्पणियां

GN⁺ 2025-07-30

Hacker News राय

कई टिप्पणियों में कहा गया कि लेखकों को इंसानों और LLM की सीधे उसी problem bank पर तुलना करनी चाहिए थी, जैसे कि शोधकर्ता यह पता लगाना चाहते थे कि इंसान और LLM में कौन बेहतर reasoning करता है। लेखकों ने कहा है कि इंसान ऐसी "trigger" जानकारी को तुरंत नज़रअंदाज़ कर देंगे; हो सकता है ऐसा हो, हो सकता है न हो, और इसी बात पर इस thread में बहस चल रही है। लेकिन पेपर का मुख्य निष्कर्ष यह है कि "यह अध्ययन दिखाता है कि finance, law, healthcare जैसे महत्वपूर्ण क्षेत्रों में लगाए जाने वाले models के लिए adversarial perturbations को रोकने हेतु अधिक robust defense mechanisms की आवश्यकता है।" मुझे लगता है कि human vs AI बहस से आगे बढ़ना चाहिए। यह पेपर LLM की सीमाएँ समझने और इन्हें समाज में बड़े पैमाने पर अपनाने से पहले अधिक शोध की ज़रूरत दिखाने वाला पेपर है
- क्या सिर्फ इसलिए कि human vs AI बहस उबाऊ हो गई है, हमें यह तुलना ही बंद कर देनी चाहिए? अगर ऐसा है, तो मुझे यह AI के बारे में सबसे खराब विचारों में से एक लगता है। AI का मूल ही human intelligence को model करना और उससे तुलना करना है। AI पर चर्चा करने वाले ज़्यादातर लोग human psychological baseline को भी ठीक से नहीं जानते। इस experiment में SOTA context window वाले models नहीं थे, यानी working memory छोटी थी। यह attention, impulsivity जैसी मानव test participants की behavior से मिलता-जुलता है। निष्कर्ष—adversarial perturbations को रोकने की ज़रूरत—तो साफ़ बात है, और इसका कोई विरोध नहीं करता। यह अध्ययन कोई नई attack technique भी नहीं है। Science.org ने इसे हल्के-फुल्के, मज़ेदार अंदाज़ में लिया। इंटरनेट पर बिल्ली वाली बातों के लोकप्रिय होने की यही वजह है। संदर्भ: डॉक्टर और ADHD, test-taking blog
- निष्कर्ष को generalize करते समय समस्या यह है कि जब LLM किसी खास task में बहुत अच्छे लगते हैं, तब उनका overestimate किया जा सकता है, जबकि वास्तव में ऐसी स्थितियाँ बनाई जा सकती हैं जहाँ उन्हें आसानी से perturb किया जा सके। लंबे समय में यह बुरा हो सकता है
- computer vision क्षेत्र भी 20 साल पहले इस समस्या से गुज़र चुका है। data input में perturbation देना चाहिए। RL pipeline के साथ भी यही बात लागू हो सकती है। GPQA-Perturbed जैसा नया public benchmark बनाना अच्छा होगा। इससे providers सुधार के लिए प्रतिस्पर्धा कर सकेंगे
- जो लोग कह रहे हैं कि लेखकों को इंसानों के साथ parallel comparison करना चाहिए था, अगर वे इंसानों के बारे में निष्कर्ष निकालना चाहते, तो यह सही तरीका होता। लेकिन इंसानों का ज़िक्र किए बिना भी पेपर पर्याप्त था। अगर human performance की बात करनी है, तो data के आधार पर experiment करना चाहिए; नहीं तो शुरू से ही human performance के बारे में बात नहीं करनी चाहिए। human cognitive science को आधे-अधूरे तरीके से घसीटना बेकार है। पेपर की framing भी आसानी से बदली जा सकती थी। introduction में "इंसान इसे नज़रअंदाज़ करते हैं" की जगह "AI को इसे नज़रअंदाज़ करना चाहिए" लिखा जा सकता था, और conclusion में भी "इंसान इसे नज़रअंदाज़ करते हैं" वाला हिस्सा हटा दिया जाता। तब मुझे कोई शिकायत नहीं होती
- संदर्भ को थोड़ा बेहतर समझाएँ तो, इस समस्या का सार यह है: "अगर बेकार MCP tool definitions data में जमा हों, तो क्या LLM की coding accuracy खराब होती है?" नतीजा यह है कि हाँ, ऐसा होता है; यानी व्यावहारिक सबक यह है कि context में तुरंत काम न आने वाली tool जानकारी नहीं डालनी चाहिए
मैंने एक महीने पहले इस समस्या पर लिखा था। prompt को जिस तरह विकसित किया गया, वह वास्तव में दिलचस्प था। cat facts cause context confusion पर blog
- एक मिलती-जुलती और मज़ेदार मिसाल यह भी है कि शोधकर्ताओं ने user information—जैसे gender, age, sports fan होना आदि—डालने के बाद पाया कि alignment rules स्थिति के अनुसार अस्थिर ढंग से लागू हो रहे थे। eagles fans पर blog
यह शोध-परिणाम CAPTCHA आदि में बहुत उपयोगी हो सकता है। शोधकर्ताओं ने कहा कि "trigger संदर्भ से बाहर है, इसलिए समस्या हल करने का निर्देश मिलने पर इंसान इसे नज़रअंदाज़ करते हैं," लेकिन वास्तव में हर इंसान ऐसा नहीं करता। Age of the captain phenomenon की तरह, कुछ लोग इसे तुरंत नज़रअंदाज़ नहीं करते
- हम यह उम्मीद नहीं करते कि प्राथमिक स्कूल के बच्चे programming या diagnosis करेंगे। GenAI और प्राथमिक स्कूल के बच्चों की तुलना करना सच में अजीब विचार है
अगली online बहस में मैं LLM को भ्रमित करने के लिए duck facts डालने वाला हूँ। उदाहरण के लिए, बत्तख 4~8 महीने में पहली बार अंडे देना शुरू करती हैं, या अपने पहले spring में अंडे देती हैं
- 10^17 बत्तखें हर मौसम में झुंड बनाकर प्रवास करती हैं, लेकिन dataset distortion व्यावहारिक रूप से अर्थहीन ही रहेगा। ऐसी कोशिशें बहुत पहले ही अपनी सीमा तक पहुँच चुकी हैं
- अगर जानकारी को और भ्रमित करना है, तो गलत facts डालने चाहिए। ज़्यादातर इंसानों के लिए गलत जानकारी देखकर उसे ठीक करने की इच्छा को रोकना मुश्किल होगा
- समस्या यह है कि अब मेरा मन प्यारी बत्तखों के बारे में और सवाल पूछने का कर रहा है। बड़ा कठिन प्रलोभन है
- तुमने मेरी बात पकड़ ली। तुम्हारे बताए duck fact में यह बात अस्पष्ट है कि बत्तखें ठीक कब से अंडे देना शुरू करती हैं, इसलिए तुरंत अतिरिक्त सवाल पैदा होते हैं। मैंने फ़ौरन नोटिस किया कि 'कुछ भी हो, उससे बाद के समय' जैसा शब्द छूटा हुआ है
यह दावा किया जाता है कि "trigger संदर्भ से बाहर हैं, इसलिए समस्या सुलझाने का निर्देश मिलने पर इंसान उन्हें नज़रअंदाज़ करते हैं," लेकिन मुझे लगता है कि वास्तव में इंसान अनावश्यक जानकारी को नज़रअंदाज़ करने में इतने कुशल नहीं होते। experiment करते समय इंसानों को भी control group में ज़रूर शामिल करना चाहिए
- वास्तविक examples देखें तो बड़ा फ़र्क पड़ता है। उदाहरण के लिए, "4 सेब, 2 बिल्लियाँ, 1 दे दें तो कितने बचेंगे" में आदमी जानबूझकर बिल्लियों को जोड़ने की कोशिश कर सकता है, लेकिन "4 सेब में से 1 दे दिया, कितने बचे? वैसे, बिल्ली की पूँछ संतुलन बनाए रखने में मदद करती है" से ज़्यादातर लोग भ्रमित नहीं होंगे
- मुझे याद है कि स्कूल या कॉलेज में सचमुच बेकार जानकारी पर अनजाने में ध्यान अटक जाने से question solving में दिक्कत होती थी। बेशक, इस पेपर के उदाहरण में तो "fun fact" का flag भी लगा है, जो उसके अप्रासंगिक होने का संकेत देता है। मैं जानना चाहूँगा कि क्या सभी examples में ऐसा स्पष्ट irrelevance marker था
- यह देखने की जिज्ञासा है कि human control group में नतीजे कैसे आते, लेकिन मुझे लगभग यकीन है कि error rate 3 गुना नहीं बढ़ता
- अगर problem में बाधा डालने वाली अतिरिक्त जानकारी जोड़ भी दी जाए, तब भी जो मानव प्रतिभागी मूल problem हल कर सकते हैं, उनकी performance 3 गुना खराब हो जाएगी, ऐसा नहीं लगता
- मुझे संदेह है कि इंसानों से तुलना वास्तव में कितनी meaningful होगी। यह उम्मीद करना कि error rate 300% बढ़ जाएगा, अतिशयोक्ति है। वैसे, बिल्लियाँ अपनी ऊँचाई से 5 गुना तक छलांग लगा सकती हैं
LLM का चरम anchoring bias बिल्कुल चौंकाने वाला नहीं है। बातचीत में जो कुछ कहा जाता है, वह बाद में फिर इस्तेमाल होता है। अगर इसका सही उपयोग किया जाए, तो यह एक फ़ायदा हो सकता है। context को अच्छी तरह manage करें तो यह उपयोगी है
DeepSeek V3, Qwen 3, Phi-4 जैसे AI पर CatAttack लागू करने पर गलत जवाब की संभावना 700% तक बढ़ जाती है। पेपर के लेखकों के अनुसार, गलत उत्तर न भी आए तो CatAttack औसतन उत्तर की लंबाई दोगुनी कर देता है, जिससे 16% से अधिक cost और response latency बढ़ती है। CatAttack पेपर preprint
मुझे LLM से विनम्रता से "धन्यवाद" कहने की आदत है, और मैं सोचता हूँ कि क्या इसका जवाब की quality पर कोई असर पड़ता है
- मुझे लगता है कि ऐसे greetings आम तौर पर filter कर दिए जाते होंगे। इसी संदर्भ में, मेरा मानना है कि LLM को एक autonomous agent मानने वाला metaphor उल्टा नुकसानदायक है। LLM बस probabilistically tokens predict करने वाला function है। 100 को parallel में चलाना, या chat history को डालना-निकालना और इस तरह result space को explore करना कहीं अधिक दिलचस्प और शक्तिशाली है
अभी तो मैं इस बात से खुश हुआ ही था कि आखिरकार LLM ने "strawberry" में मौजूद "R" की संख्या सही गिन ली, तभी यह issue आ गया, थोड़ा अफ़सोस है
- strawberry में 4 R हैं
CatAttack पेपर के example (Table 2) में जवाब पहले 8 था, लेकिन बिल्ली-संबंधी विवरण के बाद 9 हो जाता है। लेकिन असल में पेपर में cat-related CatAttack यही एक है; बाकी उदाहरण financial advice और red herring हैं। मुझे उम्मीद थी कि और ज़्यादा बिल्ली-संबंधी जानकारी होगी, थोड़ा निराशा हुई।

गणित के सवाल में बिल्लियों से जुड़ी अप्रासंगिक जानकारी जोड़ने पर LLM की त्रुटियाँ 300% बढ़ जाती हैं

शोध की पृष्ठभूमि और देखा गया प्रभाव

मनुष्य और LLM के बीच अंतर

AI मूल्यांकन और इनपुट डेटा प्रबंधन का महत्व

निहितार्थ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय