Anthropic का Claude Code आउटेज पोस्टमॉर्टम: 23 अप्रैल 2026
(anthropic.com)पिछले एक महीने में कुछ उपयोगकर्ताओं ने रिपोर्ट किया कि Claude की response quality गिर गई थी। Anthropic ने इसकी जांच के बाद पुष्टि की कि Claude Code, Claude Agent SDK, और Claude Cowork को प्रभावित करने वाले तीन अलग-अलग बदलाव इसकी वजह थे। API पर इसका कोई असर नहीं पड़ा था, और कंपनी ने कहा कि 20 अप्रैल 2026 (v2.1.116) तक सभी समस्याएं ठीक कर दी गई थीं। इस पोस्टमॉर्टम में समस्या के कारण, किए गए सुधार, और दोबारा ऐसा न हो इसके लिए उठाए गए कदम शामिल हैं.
तीन आउटेज के कारण और उनका क्रम
- reasoning effort का default कम करना (4 मार्च): Claude Code का default reasoning effort level
highसेmediumकर दिया गया था। इसका उद्देश्य लंबे wait time को कम करना था, जिससे UI अटका हुआ लग सकता था, लेकिन उपयोगकर्ताओं को response quality में गिरावट महसूस हुई, और आखिरकार 7 अप्रैल को इसे वापस पहले जैसा कर दिया गया। अभी Opus 4.7 के लिएxhighऔर बाकी models के लिएhighdefault है। - caching optimization bug की वजह से reasoning history का हटना (26 मार्च): 1 घंटे से ज़्यादा idle रहने वाले session को फिर से शुरू करते समय, पहले की reasoning (
thinking) history को केवल एक बार साफ़ करने के लिए बनाई गई सुविधा एक bug की वजह से उसके बाद हर conversation turn पर बार-बार history हटाती रही। इससे Claude यह याद नहीं रख पाया कि उसने कोई खास काम क्यों किया था, और यही उपयोगकर्ताओं द्वारा देखी गई "भूलने" की समस्या, दोहराए गए जवाब, और असामान्य tool selection का कारण बना। cache miss (यानी stored data न मिलना) बार-बार होने से usage limit भी उम्मीद से तेज़ खत्म होने का side effect हुआ। इसे 10 अप्रैल को ठीक किया गया। - system prompt में जरूरत से ज़्यादा संक्षिप्तता का निर्देश (16 अप्रैल): Opus 4.7 के बहुत लंबे output को कम करने के लिए system prompt में यह जोड़ा गया: "tool call के बीच का text 25 शब्दों के भीतर हो, और final response 100 शब्दों के भीतर।" internal testing में कोई समस्या नहीं दिखी, लेकिन बाद में पुष्टि हुई कि इससे वास्तविक coding quality पर नकारात्मक असर पड़ रहा था, इसलिए 20 अप्रैल को इसे हटा दिया गया।
समस्या का पता देर से क्यों चला
- तीनों बदलाव अलग-अलग समय और अलग-अलग traffic range पर लागू किए गए थे, इसलिए यह एक समग्र लेकिन असंगत quality drop जैसा दिखा, और हर वजह को अलग से पहचानना मुश्किल था।
- internal test environment और वास्तविक user environment में अंतर था। caching bug के मामले में, अंदर चल रहे एक अलग experiment और UI display के फर्क की वजह से इसे reproduce करना भी आसान नहीं था।
- मौजूदा eval suite पर्याप्त व्यापक नहीं था। system prompt बदलाव का असर ज़्यादा विविध evaluation चलाने के बाद ही सामने आया, जहां performance में 3% गिरावट दिखी।
दोबारा ऐसा न हो इसके लिए कदम
- internal staff के लिए वास्तविक public build का उपयोग अनिवार्य किया जाएगा, ताकि internal testing build और public build के बीच का अंतर कम हो।
- system prompt बदलावों पर नियंत्रण कड़ा किया जाएगा। हर बदलाव पर model-wise व्यापक evaluation किया जाएगा, हर line के असर का अलग से analysis (ablation) होगा, और gradual rollout के साथ पर्याप्त validation period (soak period) रखा जाएगा।
- Code Review tool को बेहतर बनाया जाएगा। कंपनी ने यह देखा कि जब Opus 4.7 को पूरे संबंधित code repository का context दिया गया, तब वह caching bug पकड़ सका; इसी आधार पर code review के दौरान देखे जा सकने वाले repository scope को बढ़ाया जाएगा।
- user communication channel (@ClaudeDevs) शुरू किया जाएगा, ताकि product decisions के पीछे की पृष्ठभूमि पारदर्शी तरीके से साझा की जा सके।
"जानबूझकर quality कम नहीं की गई थी" इस दावे पर
- Anthropic का कहना है कि उसने model की quality को कभी जानबूझकर कम नहीं किया, और यह भी पुष्टि की कि API और inference layer पर कोई असर नहीं पड़ा था। हालांकि, product layer (Claude Code) में configuration changes और bugs के संयुक्त असर से उपयोगकर्ताओं द्वारा महसूस की गई quality वास्तव में गिर गई थी। कंपनी ने यह भी घोषणा की कि सभी subscribers की usage limits reset की जाएंगी।
13 टिप्पणियां
तीनों आउटेज के कारण सीधे-सीधे cost cutting से कैसे जुड़े हुए हैं lol
लगता है performance गिरने लगे, इस हद तक GPU resources की सच में बहुत ज़्यादा कमी है.....
यही सही जवाब है, लेकिन बहाने बहुत लंबे हैं lol
लगता है उन्होंने इस बात पर लंबा-चौड़ा लिख दिया है कि इतने समय तक उन्होंने public build को टेस्ट भी नहीं किया, deploy कर दिया, और deploy के बाद भी टेस्ट नहीं किया। मैंने तो 26 मार्च को ही तुरंत इस bug से टकरा गया था, तो क्या उन्हें अंदरूनी तौर पर इसकी पुष्टि करने में 3 हफ्ते लगना समझ में आता है...
पैच लगते ही वह 5 घंटे का quota, जिसे खत्म करने में पहले 3-4 घंटे लगते थे, 30 मिनट में ही खत्म होने लगा। लेकिन कर्मचारियों के accounts में शायद 5 घंटे का quota था ही नहीं, या कम से कम इतना कम नहीं था कि हर बार
/usageदेखते हुए काम करना पड़े, इसलिए इसे नोटिस करने में काफ़ी समय लग गया होगा।SWE-Bench-Pro daily benchmark (curated set) में Claude Code को देखें तो एक दिलचस्प बात दिखती है
4/10~4/20 के दौरान runtime आधा (653s→345s), tool call आधे (3.3K→1.8K), और token −18% कम हुए, लेकिन pass rate उल्टा +16pp बढ़ गया। इन चारों metrics का एक साथ अच्छे दिशा में बढ़ना आम पैटर्न नहीं है
उस प्रक्रिया में हुई 3 घटनाओं का postmortem 4/23 वाला है, और देखें तो सबकी वजह यही थी कि "token/latency कम करने की कोशिश में" वे हुए
वहीं codex (gpt-5.4-xhigh) में उसी अवधि के दौरान आंकड़े लगभग हिले ही नहीं। pass rate करीब 56% पर स्थिर रहा, और token/runtime/tool call भी Claude Code के मुकाबले लगभग दोगुने स्तर पर वैसे ही बने रहे
क्या यह आउटेज postmortem नहीं, बल्कि cost cutting postmortem नहीं है?
आंतरिक कर्मचारियों के लिए वास्तविक public build का उपयोग अनिवार्य किया जाता है, ताकि internal testing build के साथ अंतर कम हो।
हाहाहा
लगता है उन्होंने Opus 4.7 को YAGNI सिखा दिया है। हर बार आर्किटेक्चर फ़ैसलों में YAGNI के हिसाब से क्रमिक बदलाव का तर्क दिया जाता था, तो लगा ठीक ही होगा, लेकिन आखिरकार गड़बड़ हो ही गई। जिसकी मेमोरी भी लंबी नहीं है, उसमें बातें टालते रहने की आदत पड़ जाए तो बड़ी मुसीबत है।
क्या सिर्फ मुझे ही ऐसा लगता है कि जब शुरुआत में समस्या उठाई गई थी तब वे ज़िद कर रहे थे कि कोई दिक्कत नहीं है, लेकिन अब मुद्दा इतना बड़ा हो गया है कि उसे दबा नहीं सकते, इसलिए इसे सार्वजनिक कर रहे हैं?
claude.ai वेब की usability भी थोड़ा-थोड़ा करके खराब हुई लग रही है... टोकन बचाने के लिए मैंने memory भी बंद कर दी।
यह सूचना देखने के बाद तो मुझे Anthropic पर और भी कम भरोसा होने लगा।
ऊपर इससे संबंधित 2 पोस्ट हैं, और दोनों पोस्टों के बीच 7 महीने का अंतर है। समस्या वही 3 हैं।
Claude की गुणवत्ता में हालिया तीन गिरावटों का पोस्टमॉर्टम 2025-09-19
हालिया Claude Code गुणवत्ता रिपोर्ट पर अपडेट 2026-04-24
मैं $5 क्रेडिट जितना गुस्से में हूँ!!
बहुत लंबी बात कर रहा है..