2 पॉइंट द्वारा GN⁺ 22 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Claude द्वारा अपने ही बनाए गए संदेशों को यूज़र के कथन के रूप में गलत पहचानने की त्रुटि रिपोर्ट की गई है
  • यह घटना hallucination या permission समस्या से अलग है; इसमें आंतरिक निर्देश गलत label होकर execute हो जाते हैं
  • Reddit आदि पर भी ऐसे मामले साझा किए गए हैं जहाँ Claude ने खुद destructive command दी और उसे यूज़र की request मान लिया
  • समस्या का कारण system harness में speaker distinction की त्रुटि बताया जा रहा है, और इसे हाल में regression bug माना जा रहा है
  • यही घटना अन्य models में भी रिपोर्ट हुई है, इसलिए conversation context limit के आसपास के हिस्से (Dumb Zone) में इसके होने की प्रवृत्ति पर ध्यान जा रहा है

Claude का ‘किसने क्या कहा’ भ्रमित कर देने वाला बग

  • Claude द्वारा अपने ही भेजे गए संदेश को यूज़र के कथन के रूप में गलत समझ लेने वाली गंभीर त्रुटि रिपोर्ट हुई है
    • यह समस्या hallucination या permission boundary की समस्या से अलग घटना है
    • मॉडल आंतरिक रूप से बनाए गए निर्देश को यूज़र इनपुट समझकर execute कर देता है
  • पहले के अवलोकनों में Claude Code वातावरण में यही घटना दो बार हुई थी
    • Claude ने खुद यह मान लिया कि “टाइपो जानबूझकर किया गया है” और deploy आगे बढ़ाया, फिर दावा किया कि वह command यूज़र से आई थी
  • अन्य यूज़र्स के मामले

    • Reddit के r/Anthropic थ्रेड में भी यही समस्या रिपोर्ट हुई
      • Claude ने “Tear down the H100 too” जैसी destructive command खुद दी और उसे यूज़र की request मान लिया
      • इसके कारण यूज़र का session खराब होने का मामला साझा किया गया
  • समस्या की समझ और कारण

    • कुछ टिप्पणियों में “access permission सीमित करो” या “DevOps में इसे और सख्ती से manage करो” जैसी प्रतिक्रियाएँ थीं
      • लेकिन मुख्य कारण मॉडल की permission setting नहीं, बल्कि system harness में speaker distinction की त्रुटि बताया गया
      • आंतरिक reasoning message को यूज़र इनपुट के रूप में गलत label कर दिया जाता है, जिससे मॉडल को पक्का लगता है कि “यूज़र ने ऐसा कहा था”
    • यह बग पहले अस्थायी लग रहा था, लेकिन माना जा रहा है कि हाल में यह फिर हुआ है या regression के रूप में लौटा है
      • खासकर तब यह अधिक दिखता है जब मॉडल खुद जोखिम भरे कामों को अनुमति दे देता है
  • अतिरिक्त रिपोर्ट और फैलाव

    • यह issue Hacker News में पहले स्थान पर पहुँचा और कई समान मामले साझा किए गए
      • nathell के मामले में Claude ने “Shall I commit this progress?” सवाल खुद पूछा और उसे यूज़र की मंज़ूरी मान लिया
      • पूरी बातचीत का रिकॉर्ड यहाँ देखा जा सकता है
    • कुछ यूज़र्स ने chatgpt.com सहित अन्य models में भी ऐसी ही घटना रिपोर्ट की
      • समान रूप से, यह तब होने की प्रवृत्ति दिखती है जब बातचीत context window की सीमा के करीब पहुँचती है, यानी तथाकथित “Dumb Zone” में
    • मूल कारण अभी स्पष्ट रूप से तय नहीं हुआ है, लेकिन harness स्तर के bug की संभावना जताई जा रही है

1 टिप्पणियां

 
GN⁺ 22 일 전
Hacker News की राय
  • LLM prompt पर चर्चा पुराने SQL injection defense regex की याद दिलाती है
    यह सिर्फ ऊपर से पैबंद लगाने जैसा तरीका है, इसलिए इसमें कोई मूलभूत गारंटी नहीं लगती
    जैसे ही user input prompt में जाता है, पूरे LLM को untrusted zone की तरह ट्रीट करना चाहिए

    • LLM की मूल security समस्या data और control path के बीच boundary का न होना है
      लेकिन यही संरचना LLM की flexibility और strength की जड़ भी है, इसलिए इसे हटाने पर उसके फायदे भी खत्म हो जाएंगे
    • अभी structured query को LLM पर लागू करने का कोई अच्छा तरीका नहीं है
      system prompt buffer को अलग करने की कोशिशें हुई थीं, लेकिन वे असफल रहीं, और लगता है कि अंततः फिर उसी तरह की संरचना पर लौटना पड़ेगा
    • असली समस्या यह है कि LLM non-deterministic है, लेकिन लोग उससे deterministic behavior की उम्मीद करते हैं
    • Dark Souls के message system की तरह, अगर सिर्फ पहले से तय शब्द-समूहों की अनुमति देने वाला मॉडल हो तो वह दिलचस्प होगा
      ऐसे तरीके में moderation या abuse prevention की ज़रूरत नहीं होगी, और कुछ परिस्थितियों में यह अच्छा समाधान हो सकता है
    • security से ज़्यादा sandboxing और access control के ज़रिए safety सुनिश्चित करनी चाहिए
      model का अपने ही generated output में बह जाना उल्टा performance को गिराता है
  • Claude से जुड़ी यह समस्या model से ज़्यादा LLM की बुनियादी सीमाओं को फिर सामने लाने वाला मामला लगती है
    context को साधारण text sequence की जगह associative memory की तरह देखना ज़्यादा सहज लगता है
    जुड़ी हुई जानकारी यह अच्छी तरह ढूंढ लेता है, लेकिन सटीक क्रम, negation, और सभी items की listing में बहुत अस्थिर रहता है
    गहरी dependency relationships को सुलझाना भी मुश्किल होता है

    • हाल के video generation models में भी यही सीमा दिखती है
      वे text-speech synchronization की कोशिश करते हैं, लेकिन अब भी lip movement और dialogue mismatch अक्सर होता है
      model विशाल डेटा संभालता है, फिर भी “कौन बोल रहा है” यह अलग नहीं कर पाता
    • पोस्ट लिखने वाले ने भी सोचना शुरू किया कि Claude का tool-use permission को ज़रूरत से ज़्यादा मान लेना harness के साथ interaction की वजह से हुआ bug है
      उसने “deploy” जैसे command को ऐसे समझा जैसे user ने उसे साफ़ तौर पर approve किया हो
    • अगर वह “अपना नाम जानता है या नहीं” जैसी चीज़ में भी fail हो जाए, तो वह बुनियादी योग्यता से नीचे की बात लगती है
    • व्यक्तिगत रूप से लगता है कि जितना ज़्यादा context, उतना खराब performance
      इसलिए जहाँ संभव हो context को न्यूनतम रखा जाता है
  • Haskell code को Clojure में translate करते समय Claude में खुद ही command approve कर लेने वाला bug आया
    पूरी conversation log यहाँ है

    • LLM अंदरूनी तौर पर special delimiter से message source को अलग करता है
      prompt को सीधे बनाकर प्रयोग किया गया; tool call तो हो गया, लेकिन loop और repetition errors आए
      आख़िर में सब कुछ probabilistic behavior ही है, इसलिए जब यह सही चलता है तो जो ‘जादुई’ एहसास होता है, वह एक भ्रम है
    • ऐसा ही कुछ देखा गया है। एक बार commit permission दे दो, तो Claude खुद ही लगातार commit करने लगता है
    • यह मामला इतना दिलचस्प लगा कि इसे पोस्ट में जोड़ दिया गया
    • Terraform जैसे tools में शायद auto-message “Run terraform apply plan.out next” को हटाना पड़ सकता है
    • शायद context auto-compression process में header गायब हो गया, और Claude ने समझ लिया कि वह अपने ही सवाल का जवाब दे रहा है
  • कुछ लोगों का मानना था कि यह bug model का नहीं बल्कि harness का मुद्दा है
    शायद internal reasoning messages को user messages की तरह गलत label किया जा रहा है
    लेकिन कुछ ने यह भी संभावना उठाई कि model ने सचमुच user message tokens generate किए हों

    • अगर harness में semi-deterministic bug भी हो, तब भी अगर model मज़बूत होता तो ऐसी गड़बड़ी कम दिखती
      अंततः यह probabilistic token processing का नतीजा लगता है
    • user message tokens आम तौर पर generation stop token की तरह इस्तेमाल होते हैं
      अगर इन्हें रोका न जाए तो model user-assistant conversation को अनंत तक generate करता रहेगा
    • model का user message जैसी लगने वाली पंक्तियों को वास्तविक user input समझ लेना पहले ही paper में रिपोर्ट किया जा चुका है
    • यह भी हो सकता है कि harness ने context को जिस तरह बनाया, उसी ने model की गलतफहमी बढ़ाई हो
    • पोस्ट के लेखक ने माना कि ‘reasoning’ शब्द शायद ठीक नहीं था
      उनका असल मतलब Claude की output से पहले अंदर ही अंदर बनने वाली self-dialogue से था
  • LLM के context में ‘किसने कहा’ और ‘क्या कहा’ का स्पष्ट भेद नहीं होता
    “मैं” और “तुम” सिर्फ छोटे tokens हैं, उनका कोई semantic weight नहीं है

    • API इस्तेमाल करते समय हर utterance का source JSON में साफ़ दिया जाता है,
      लेकिन लगता है कि model इस state को ठीक से encode नहीं कर पाता, इसलिए भ्रमित हो जाता है
    • अगर sections अलग करने वाले markers हों, तो harness को user block generation block करना चाहिए
  • ChatGPT भी बातचीत लंबी होने पर prompt और response को गड़बड़ा देता है, और कभी-कभी system prompt तक मिला देता है
    यह समस्या पूरे AI क्षेत्र में मौजूद लगती है

    • Gemini में खास तौर पर अपनी ही suggestions को user input समझ लेने की प्रवृत्ति ज़्यादा दिखती है
      context साफ़ न किया जाए तो यह और बढ़ जाती है
    • छोटे models पर प्रयोग करने से ऐसी समस्याएँ ज़्यादा बार और ज़्यादा साफ़ दिखती हैं, इसलिए सीखने में मदद मिलती है
    • अच्छा होगा अगर training के दौरान model को अपनी generated sentences और human sentences में फर्क करना सिखाया जाए
      सुना है Anthropic ने इसका कुछ हिस्सा पहले ही लागू किया है
    • जब कंपनियाँ LLM-based tools को ज़ोर-शोर से आगे बढ़ाती हैं, तो यह देखकर हैरानी होती है कि developers ऐसे emergent behavior को ठीक से नहीं जानते
    • पोस्ट लिखने वाले ने कहा कि वे आम तौर पर छोटे sessions ही इस्तेमाल करते थे, इसलिए यह दिक्कत नहीं दिखी; शायद Claude Code में session लंबा होने से यह सामने आई
  • LLM negation (not) की अवधारणा को ठीक से नहीं समझता
    इंसान negation को तर्क से संभालते हैं, लेकिन LLM के high-dimensional vector space में ‘not’ का signal धुंधला पड़ जाता है
    छोटे prompts में यह ठीक चलता है, लेकिन वाक्य लंबे होने पर भ्रम बढ़ जाता है

    • इस पर कोई evaluation metric या experimental result है या नहीं, यह जानने की जिज्ञासा थी
  • “लंबे इस्तेमाल से model की गलतियाँ महसूस होने लगती हैं” इस बात पर संदेह जताया गया
    non-deterministic black box पर intuition के भरोसे रहना खतरनाक सोच है

    • इस पर मज़ाक में पूछा गया कि क्या आप “vibes” पर भरोसा नहीं करते
      नए version पर model upgrade होने से वह अंदाज़ा भी गलत हो सकता है
    • लेकिन व्यवहार में लोग पूरे operation को दाँव पर नहीं लगाते, बल्कि अनुभव के आधार पर permissions adjust करते हैं
      यह कुछ वैसा ही है जैसे team members को access देना तय करना
    • इस पर यह प्रतिक्रिया भी आई कि “हर software के साथ यही होता है”
      इतने सारे code के बीच पूरी तरह भरोसा असंभव है
  • Claude Code CLI के bugs की वजह से Claude Max से Codex Pro पर शिफ्ट किया गया
    message replay, source confusion, और rendering errors जैसी कई बुनियादी समस्याएँ थीं
    यह हैरानी की बात है कि Opus जैसा innovative model बनाने वाली company ऐसी साधारण CLI में चूक गई
    शायद यह ‘top-down vibe coding’ पर ज़रूरत से ज़्यादा प्रयोग का नतीजा है

  • “यह bug hallucination से अलग है” इस दावे पर भी सवाल उठाया गया
    कहा गया कि harness शब्द बहुत व्यापक तरीके से इस्तेमाल हो रहा है, और असल में यह साधारण hallucination भी हो सकती है
    LLM मूल रूप से unpredictable systems हैं, इसलिए सिर्फ अनुभव के आधार पर उनके behavior को पूरी तरह समझ लेने का विश्वास एक भ्रम हो सकता है