- Claude द्वारा अपने ही बनाए गए संदेशों को यूज़र के कथन के रूप में गलत पहचानने की त्रुटि रिपोर्ट की गई है
- यह घटना hallucination या permission समस्या से अलग है; इसमें आंतरिक निर्देश गलत label होकर execute हो जाते हैं
- Reddit आदि पर भी ऐसे मामले साझा किए गए हैं जहाँ Claude ने खुद destructive command दी और उसे यूज़र की request मान लिया
- समस्या का कारण system harness में speaker distinction की त्रुटि बताया जा रहा है, और इसे हाल में regression bug माना जा रहा है
- यही घटना अन्य models में भी रिपोर्ट हुई है, इसलिए conversation context limit के आसपास के हिस्से (Dumb Zone) में इसके होने की प्रवृत्ति पर ध्यान जा रहा है
Claude का ‘किसने क्या कहा’ भ्रमित कर देने वाला बग
- Claude द्वारा अपने ही भेजे गए संदेश को यूज़र के कथन के रूप में गलत समझ लेने वाली गंभीर त्रुटि रिपोर्ट हुई है
- यह समस्या hallucination या permission boundary की समस्या से अलग घटना है
- मॉडल आंतरिक रूप से बनाए गए निर्देश को यूज़र इनपुट समझकर execute कर देता है
- पहले के अवलोकनों में Claude Code वातावरण में यही घटना दो बार हुई थी
- Claude ने खुद यह मान लिया कि “टाइपो जानबूझकर किया गया है” और deploy आगे बढ़ाया, फिर दावा किया कि वह command यूज़र से आई थी
-
अन्य यूज़र्स के मामले
- Reddit के r/Anthropic थ्रेड में भी यही समस्या रिपोर्ट हुई
- Claude ने “Tear down the H100 too” जैसी destructive command खुद दी और उसे यूज़र की request मान लिया
- इसके कारण यूज़र का session खराब होने का मामला साझा किया गया
-
समस्या की समझ और कारण
- कुछ टिप्पणियों में “access permission सीमित करो” या “DevOps में इसे और सख्ती से manage करो” जैसी प्रतिक्रियाएँ थीं
- लेकिन मुख्य कारण मॉडल की permission setting नहीं, बल्कि system harness में speaker distinction की त्रुटि बताया गया
- आंतरिक reasoning message को यूज़र इनपुट के रूप में गलत label कर दिया जाता है, जिससे मॉडल को पक्का लगता है कि “यूज़र ने ऐसा कहा था”
- यह बग पहले अस्थायी लग रहा था, लेकिन माना जा रहा है कि हाल में यह फिर हुआ है या regression के रूप में लौटा है
- खासकर तब यह अधिक दिखता है जब मॉडल खुद जोखिम भरे कामों को अनुमति दे देता है
-
अतिरिक्त रिपोर्ट और फैलाव
- यह issue Hacker News में पहले स्थान पर पहुँचा और कई समान मामले साझा किए गए
- nathell के मामले में Claude ने “Shall I commit this progress?” सवाल खुद पूछा और उसे यूज़र की मंज़ूरी मान लिया
- पूरी बातचीत का रिकॉर्ड यहाँ देखा जा सकता है
- कुछ यूज़र्स ने chatgpt.com सहित अन्य models में भी ऐसी ही घटना रिपोर्ट की
- समान रूप से, यह तब होने की प्रवृत्ति दिखती है जब बातचीत context window की सीमा के करीब पहुँचती है, यानी तथाकथित “Dumb Zone” में
- मूल कारण अभी स्पष्ट रूप से तय नहीं हुआ है, लेकिन harness स्तर के bug की संभावना जताई जा रही है
1 टिप्पणियां
Hacker News की राय
LLM prompt पर चर्चा पुराने SQL injection defense regex की याद दिलाती है
यह सिर्फ ऊपर से पैबंद लगाने जैसा तरीका है, इसलिए इसमें कोई मूलभूत गारंटी नहीं लगती
जैसे ही user input prompt में जाता है, पूरे LLM को untrusted zone की तरह ट्रीट करना चाहिए
लेकिन यही संरचना LLM की flexibility और strength की जड़ भी है, इसलिए इसे हटाने पर उसके फायदे भी खत्म हो जाएंगे
system prompt buffer को अलग करने की कोशिशें हुई थीं, लेकिन वे असफल रहीं, और लगता है कि अंततः फिर उसी तरह की संरचना पर लौटना पड़ेगा
ऐसे तरीके में moderation या abuse prevention की ज़रूरत नहीं होगी, और कुछ परिस्थितियों में यह अच्छा समाधान हो सकता है
model का अपने ही generated output में बह जाना उल्टा performance को गिराता है
Claude से जुड़ी यह समस्या model से ज़्यादा LLM की बुनियादी सीमाओं को फिर सामने लाने वाला मामला लगती है
context को साधारण text sequence की जगह associative memory की तरह देखना ज़्यादा सहज लगता है
जुड़ी हुई जानकारी यह अच्छी तरह ढूंढ लेता है, लेकिन सटीक क्रम, negation, और सभी items की listing में बहुत अस्थिर रहता है
गहरी dependency relationships को सुलझाना भी मुश्किल होता है
वे text-speech synchronization की कोशिश करते हैं, लेकिन अब भी lip movement और dialogue mismatch अक्सर होता है
model विशाल डेटा संभालता है, फिर भी “कौन बोल रहा है” यह अलग नहीं कर पाता
उसने “deploy” जैसे command को ऐसे समझा जैसे user ने उसे साफ़ तौर पर approve किया हो
इसलिए जहाँ संभव हो context को न्यूनतम रखा जाता है
Haskell code को Clojure में translate करते समय Claude में खुद ही command approve कर लेने वाला bug आया
पूरी conversation log यहाँ है
prompt को सीधे बनाकर प्रयोग किया गया; tool call तो हो गया, लेकिन loop और repetition errors आए
आख़िर में सब कुछ probabilistic behavior ही है, इसलिए जब यह सही चलता है तो जो ‘जादुई’ एहसास होता है, वह एक भ्रम है
कुछ लोगों का मानना था कि यह bug model का नहीं बल्कि harness का मुद्दा है
शायद internal reasoning messages को user messages की तरह गलत label किया जा रहा है
लेकिन कुछ ने यह भी संभावना उठाई कि model ने सचमुच user message tokens generate किए हों
अंततः यह probabilistic token processing का नतीजा लगता है
अगर इन्हें रोका न जाए तो model user-assistant conversation को अनंत तक generate करता रहेगा
उनका असल मतलब Claude की output से पहले अंदर ही अंदर बनने वाली self-dialogue से था
LLM के context में ‘किसने कहा’ और ‘क्या कहा’ का स्पष्ट भेद नहीं होता
“मैं” और “तुम” सिर्फ छोटे tokens हैं, उनका कोई semantic weight नहीं है
लेकिन लगता है कि model इस state को ठीक से encode नहीं कर पाता, इसलिए भ्रमित हो जाता है
ChatGPT भी बातचीत लंबी होने पर prompt और response को गड़बड़ा देता है, और कभी-कभी system prompt तक मिला देता है
यह समस्या पूरे AI क्षेत्र में मौजूद लगती है
context साफ़ न किया जाए तो यह और बढ़ जाती है
सुना है Anthropic ने इसका कुछ हिस्सा पहले ही लागू किया है
LLM negation (
not) की अवधारणा को ठीक से नहीं समझताइंसान negation को तर्क से संभालते हैं, लेकिन LLM के high-dimensional vector space में ‘not’ का signal धुंधला पड़ जाता है
छोटे prompts में यह ठीक चलता है, लेकिन वाक्य लंबे होने पर भ्रम बढ़ जाता है
“लंबे इस्तेमाल से model की गलतियाँ महसूस होने लगती हैं” इस बात पर संदेह जताया गया
non-deterministic black box पर intuition के भरोसे रहना खतरनाक सोच है
नए version पर model upgrade होने से वह अंदाज़ा भी गलत हो सकता है
यह कुछ वैसा ही है जैसे team members को access देना तय करना
इतने सारे code के बीच पूरी तरह भरोसा असंभव है
Claude Code CLI के bugs की वजह से Claude Max से Codex Pro पर शिफ्ट किया गया
message replay, source confusion, और rendering errors जैसी कई बुनियादी समस्याएँ थीं
यह हैरानी की बात है कि Opus जैसा innovative model बनाने वाली company ऐसी साधारण CLI में चूक गई
शायद यह ‘top-down vibe coding’ पर ज़रूरत से ज़्यादा प्रयोग का नतीजा है
“यह bug hallucination से अलग है” इस दावे पर भी सवाल उठाया गया
कहा गया कि harness शब्द बहुत व्यापक तरीके से इस्तेमाल हो रहा है, और असल में यह साधारण hallucination भी हो सकती है
LLM मूल रूप से unpredictable systems हैं, इसलिए सिर्फ अनुभव के आधार पर उनके behavior को पूरी तरह समझ लेने का विश्वास एक भ्रम हो सकता है