• Claude द्वारा अपने ही बनाए गए संदेशों को यूज़र के कथन के रूप में गलत पहचानने की त्रुटि रिपोर्ट की गई है
  • यह घटना hallucination या permission समस्या से अलग है; इसमें आंतरिक निर्देश गलत label होकर execute हो जाते हैं
  • Reddit आदि पर भी ऐसे मामले साझा किए गए हैं जहाँ Claude ने खुद destructive command दी और उसे यूज़र की request मान लिया
  • समस्या का कारण system harness में speaker distinction की त्रुटि बताया जा रहा है, और इसे हाल में regression bug माना जा रहा है
  • यही घटना अन्य models में भी रिपोर्ट हुई है, इसलिए conversation context limit के आसपास के हिस्से (Dumb Zone) में इसके होने की प्रवृत्ति पर ध्यान जा रहा है

Claude का ‘किसने क्या कहा’ भ्रमित कर देने वाला बग

  • Claude द्वारा अपने ही भेजे गए संदेश को यूज़र के कथन के रूप में गलत समझ लेने वाली गंभीर त्रुटि रिपोर्ट हुई है
    • यह समस्या hallucination या permission boundary की समस्या से अलग घटना है
    • मॉडल आंतरिक रूप से बनाए गए निर्देश को यूज़र इनपुट समझकर execute कर देता है
  • पहले के अवलोकनों में Claude Code वातावरण में यही घटना दो बार हुई थी
    • Claude ने खुद यह मान लिया कि “टाइपो जानबूझकर किया गया है” और deploy आगे बढ़ाया, फिर दावा किया कि वह command यूज़र से आई थी
  • अन्य यूज़र्स के मामले

    • Reddit के r/Anthropic थ्रेड में भी यही समस्या रिपोर्ट हुई
      • Claude ने “Tear down the H100 too” जैसी destructive command खुद दी और उसे यूज़र की request मान लिया
      • इसके कारण यूज़र का session खराब होने का मामला साझा किया गया
  • समस्या की समझ और कारण

    • कुछ टिप्पणियों में “access permission सीमित करो” या “DevOps में इसे और सख्ती से manage करो” जैसी प्रतिक्रियाएँ थीं
      • लेकिन मुख्य कारण मॉडल की permission setting नहीं, बल्कि system harness में speaker distinction की त्रुटि बताया गया
      • आंतरिक reasoning message को यूज़र इनपुट के रूप में गलत label कर दिया जाता है, जिससे मॉडल को पक्का लगता है कि “यूज़र ने ऐसा कहा था”
    • यह बग पहले अस्थायी लग रहा था, लेकिन माना जा रहा है कि हाल में यह फिर हुआ है या regression के रूप में लौटा है
      • खासकर तब यह अधिक दिखता है जब मॉडल खुद जोखिम भरे कामों को अनुमति दे देता है
  • अतिरिक्त रिपोर्ट और फैलाव

    • यह issue Hacker News में पहले स्थान पर पहुँचा और कई समान मामले साझा किए गए
      • nathell के मामले में Claude ने “Shall I commit this progress?” सवाल खुद पूछा और उसे यूज़र की मंज़ूरी मान लिया
      • पूरी बातचीत का रिकॉर्ड यहाँ देखा जा सकता है
    • कुछ यूज़र्स ने chatgpt.com सहित अन्य models में भी ऐसी ही घटना रिपोर्ट की
      • समान रूप से, यह तब होने की प्रवृत्ति दिखती है जब बातचीत context window की सीमा के करीब पहुँचती है, यानी तथाकथित “Dumb Zone” में
    • मूल कारण अभी स्पष्ट रूप से तय नहीं हुआ है, लेकिन harness स्तर के bug की संभावना जताई जा रही है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.