7 पॉइंट द्वारा ragingwind 6 일 전 | 13 टिप्पणियां | WhatsApp पर शेयर करें

पिछले एक महीने में कुछ उपयोगकर्ताओं ने रिपोर्ट किया कि Claude की response quality कम हो गई थी। Anthropic ने इसकी जांच के बाद पुष्टि की कि इसका कारण तीन अलग-अलग बदलाव थे, जिन्होंने Claude Code, Claude Agent SDK, और Claude Cowork को प्रभावित किया। API खुद प्रभावित नहीं हुई थी, और कंपनी ने कहा कि 20 अप्रैल 2025 (v2.1.116) तक सभी समस्याएँ हल कर दी गई थीं। इस पोस्टमॉर्टम में समस्या के कारण, किए गए fixes, और दोबारा ऐसा न हो इसके लिए उठाए गए कदम शामिल हैं.

तीन आउटेज के कारण और क्रम

  • reasoning effort का default कम करना (4 मार्च): Claude Code का default reasoning effort level high से medium कर दिया गया था। इसका उद्देश्य लंबे wait time को कम करना था, जिससे UI रुका हुआ लग सकता था, लेकिन उपयोगकर्ताओं ने response quality में गिरावट महसूस की, और अंततः 7 अप्रैल को इसे वापस पहले जैसा कर दिया गया। अभी Opus 4.7 में xhigh और बाकी models में high default के रूप में सेट है।
  • caching optimization bug की वजह से reasoning history हटना (26 मार्च): 1 घंटे से ज़्यादा idle रहे session को फिर से शुरू करते समय, पिछले reasoning (thinking) history को सिर्फ एक बार साफ करने के लिए बनाया गया फीचर एक bug की वजह से उसके बाद हर conversation turn पर बार-बार delete होने लगा। इससे Claude यह याद नहीं रख पा रहा था कि उसने कोई खास काम क्यों किया था, और यही उपयोगकर्ताओं द्वारा देखी गई "भूलने" की समस्या, दोहराए गए responses, और असामान्य tool selection का कारण बना। cache miss (यानी saved data न मिलना) बार-बार होने से usage limit भी उम्मीद से जल्दी खत्म होने का side effect हुआ। इसे 10 अप्रैल को ठीक किया गया।
  • system prompt में जरूरत से ज़्यादा संक्षिप्तता का निर्देश (16 अप्रैल): Opus 4.7 के verbose output को कम करने के लिए system prompt में यह जोड़ा गया: "tool calls के बीच text 25 शब्दों के भीतर हो, और final response 100 शब्दों के भीतर हो।" internal testing में कोई समस्या नहीं दिखी, लेकिन बाद में यह पुष्टि हुई कि इससे वास्तविक coding quality पर नकारात्मक असर पड़ रहा था, इसलिए 20 अप्रैल को इसे हटा दिया गया।

समस्या देर से क्यों पकड़ी गई

  • तीनों बदलाव अलग-अलग समय पर और अलग-अलग traffic range पर लागू किए गए थे, इसलिए यह कुल मिलाकर एक व्यापक लेकिन असंगत quality drop जैसा दिखा, और अलग-अलग कारणों की पहचान करना मुश्किल था।
  • internal test environment और वास्तविक user environment में अंतर था। caching bug के मामले में, अंदर चल रहे अलग experiment और UI display के फर्क की वजह से इसे reproduce करना आसान नहीं था।
  • मौजूदा eval suite पर्याप्त व्यापक नहीं था। system prompt बदलाव का असर और ज़्यादा विविध evaluations चलाने के बाद ही 3% performance drop के रूप में सामने आया।

दोबारा ऐसा न हो, इसके लिए उपाय

  • आंतरिक कर्मचारियों के लिए वास्तविक public build का उपयोग अनिवार्य किया जाएगा, ताकि internal testing build और public build के बीच का अंतर कम हो।
  • system prompt बदलावों पर नियंत्रण मजबूत किया जाएगा। हर बदलाव पर model-specific व्यापक evaluations किए जाएंगे, हर line के प्रभाव का अलग ablation analysis होगा, और gradual rollout के साथ पर्याप्त verification period (soak period) रखा जाएगा।
  • Code Review tools में सुधार किया जाएगा। इस बात से प्रेरित होकर कि Opus 4.7 को पूरे संबंधित code repository का context देने पर वह caching bug ढूंढ सका था, code review के दौरान refer की जा सकने वाली repository range बढ़ाई जाएगी।
  • उपयोगकर्ता संचार चैनल (@ClaudeDevs) शुरू किया गया है, ताकि product decisions की पृष्ठभूमि पारदर्शी तरीके से साझा की जा सके।

"जानबूझकर quality कम नहीं की गई" इस दावे पर

  • Anthropic का कहना है कि उसने कभी model की quality को जानबूझकर कम नहीं किया, और उसने यह भी पुष्टि की कि API और inference layer प्रभावित नहीं हुए थे। हालांकि, product layer (Claude Code) में settings changes और bug के संयुक्त प्रभाव से उपयोगकर्ताओं को महसूस होने वाली quality वास्तव में गिर गई थी। इसके साथ कंपनी ने सभी subscribers की usage limits reset करने की घोषणा भी की।

13 टिप्पणियां

 
crawler 6 일 전

तीनों आउटेज के कारण सीधे-सीधे cost cutting से कैसे जुड़े हुए हैं lol
लगता है performance गिरने लगे, इस हद तक GPU resources की सच में बहुत ज़्यादा कमी है.....

 
colus001 6 일 전

यही सही जवाब है, लेकिन बहाने बहुत लंबे हैं lol

 
youknowone 6 일 전

लगता है उन्होंने इस बात पर लंबा-चौड़ा लिख दिया है कि इतने समय तक उन्होंने public build को टेस्ट भी नहीं किया, deploy कर दिया, और deploy के बाद भी टेस्ट नहीं किया। मैंने तो 26 मार्च को ही तुरंत इस bug से टकरा गया था, तो क्या उन्हें अंदरूनी तौर पर इसकी पुष्टि करने में 3 हफ्ते लगना समझ में आता है...

 
youknowone 6 일 전

पैच लगते ही वह 5 घंटे का quota, जिसे खत्म करने में पहले 3-4 घंटे लगते थे, 30 मिनट में ही खत्म होने लगा। लेकिन कर्मचारियों के accounts में शायद 5 घंटे का quota था ही नहीं, या कम से कम इतना कम नहीं था कि हर बार /usage देखते हुए काम करना पड़े, इसलिए इसे नोटिस करने में काफ़ी समय लग गया होगा।

 
amond 5 일 전

SWE-Bench-Pro daily benchmark (curated set) में Claude Code को देखें तो एक दिलचस्प बात दिखती है

4/10~4/20 के दौरान runtime आधा (653s→345s), tool call आधे (3.3K→1.8K), और token −18% कम हुए, लेकिन pass rate उल्टा +16pp बढ़ गया। इन चारों metrics का एक साथ अच्छे दिशा में बढ़ना आम पैटर्न नहीं है

उस प्रक्रिया में हुई 3 घटनाओं का postmortem 4/23 वाला है, और देखें तो सबकी वजह यही थी कि "token/latency कम करने की कोशिश में" वे हुए

वहीं codex (gpt-5.4-xhigh) में उसी अवधि के दौरान आंकड़े लगभग हिले ही नहीं। pass rate करीब 56% पर स्थिर रहा, और token/runtime/tool call भी Claude Code के मुकाबले लगभग दोगुने स्तर पर वैसे ही बने रहे

 
colus001 6 일 전

क्या यह आउटेज postmortem नहीं, बल्कि cost cutting postmortem नहीं है?

 
sudoeng 6 일 전

आंतरिक कर्मचारियों के लिए वास्तविक public build का उपयोग अनिवार्य किया जाता है, ताकि internal testing build के साथ अंतर कम हो।
हाहाहा

 
lim8603 4 일 전

लगता है उन्होंने Opus 4.7 को YAGNI सिखा दिया है। हर बार आर्किटेक्चर फ़ैसलों में YAGNI के हिसाब से क्रमिक बदलाव का तर्क दिया जाता था, तो लगा ठीक ही होगा, लेकिन आखिरकार गड़बड़ हो ही गई। जिसकी मेमोरी भी लंबी नहीं है, उसमें बातें टालते रहने की आदत पड़ जाए तो बड़ी मुसीबत है।

 
tazuya 5 일 전

क्या सिर्फ मुझे ही ऐसा लगता है कि जब शुरुआत में समस्या उठाई गई थी तब वे ज़िद कर रहे थे कि कोई दिक्कत नहीं है, लेकिन अब मुद्दा इतना बड़ा हो गया है कि उसे दबा नहीं सकते, इसलिए इसे सार्वजनिक कर रहे हैं?

 
unsure4000 6 일 전

claude.ai वेब की usability भी थोड़ा-थोड़ा करके खराब हुई लग रही है... टोकन बचाने के लिए मैंने memory भी बंद कर दी।

 
xguru 6 일 전

यह सूचना देखने के बाद तो मुझे Anthropic पर और भी कम भरोसा होने लगा।

ऊपर इससे संबंधित 2 पोस्ट हैं, और दोनों पोस्टों के बीच 7 महीने का अंतर है। समस्या वही 3 हैं।

Claude की गुणवत्ता में हालिया तीन गिरावटों का पोस्टमॉर्टम 2025-09-19
हालिया Claude Code गुणवत्ता रिपोर्ट पर अपडेट 2026-04-24

 
skageektp 6 일 전

मैं $5 क्रेडिट जितना गुस्से में हूँ!!

 
wedding 6 일 전

बहुत लंबी बात कर रहा है..