7 पॉइंट द्वारा ragingwind 2026-04-24 | 13 टिप्पणियां | WhatsApp पर शेयर करें

पिछले एक महीने में कुछ उपयोगकर्ताओं ने रिपोर्ट किया कि Claude की response quality गिर गई थी। Anthropic ने इसकी जांच के बाद पुष्टि की कि Claude Code, Claude Agent SDK, और Claude Cowork को प्रभावित करने वाले तीन अलग-अलग बदलाव इसकी वजह थे। API पर इसका कोई असर नहीं पड़ा था, और कंपनी ने कहा कि 20 अप्रैल 2026 (v2.1.116) तक सभी समस्याएं ठीक कर दी गई थीं। इस पोस्टमॉर्टम में समस्या के कारण, किए गए सुधार, और दोबारा ऐसा न हो इसके लिए उठाए गए कदम शामिल हैं.

तीन आउटेज के कारण और उनका क्रम

  • reasoning effort का default कम करना (4 मार्च): Claude Code का default reasoning effort level high से medium कर दिया गया था। इसका उद्देश्य लंबे wait time को कम करना था, जिससे UI अटका हुआ लग सकता था, लेकिन उपयोगकर्ताओं को response quality में गिरावट महसूस हुई, और आखिरकार 7 अप्रैल को इसे वापस पहले जैसा कर दिया गया। अभी Opus 4.7 के लिए xhigh और बाकी models के लिए high default है।
  • caching optimization bug की वजह से reasoning history का हटना (26 मार्च): 1 घंटे से ज़्यादा idle रहने वाले session को फिर से शुरू करते समय, पहले की reasoning (thinking) history को केवल एक बार साफ़ करने के लिए बनाई गई सुविधा एक bug की वजह से उसके बाद हर conversation turn पर बार-बार history हटाती रही। इससे Claude यह याद नहीं रख पाया कि उसने कोई खास काम क्यों किया था, और यही उपयोगकर्ताओं द्वारा देखी गई "भूलने" की समस्या, दोहराए गए जवाब, और असामान्य tool selection का कारण बना। cache miss (यानी stored data न मिलना) बार-बार होने से usage limit भी उम्मीद से तेज़ खत्म होने का side effect हुआ। इसे 10 अप्रैल को ठीक किया गया।
  • system prompt में जरूरत से ज़्यादा संक्षिप्तता का निर्देश (16 अप्रैल): Opus 4.7 के बहुत लंबे output को कम करने के लिए system prompt में यह जोड़ा गया: "tool call के बीच का text 25 शब्दों के भीतर हो, और final response 100 शब्दों के भीतर।" internal testing में कोई समस्या नहीं दिखी, लेकिन बाद में पुष्टि हुई कि इससे वास्तविक coding quality पर नकारात्मक असर पड़ रहा था, इसलिए 20 अप्रैल को इसे हटा दिया गया।

समस्या का पता देर से क्यों चला

  • तीनों बदलाव अलग-अलग समय और अलग-अलग traffic range पर लागू किए गए थे, इसलिए यह एक समग्र लेकिन असंगत quality drop जैसा दिखा, और हर वजह को अलग से पहचानना मुश्किल था।
  • internal test environment और वास्तविक user environment में अंतर था। caching bug के मामले में, अंदर चल रहे एक अलग experiment और UI display के फर्क की वजह से इसे reproduce करना भी आसान नहीं था।
  • मौजूदा eval suite पर्याप्त व्यापक नहीं था। system prompt बदलाव का असर ज़्यादा विविध evaluation चलाने के बाद ही सामने आया, जहां performance में 3% गिरावट दिखी।
विज्ञापन

दोबारा ऐसा न हो इसके लिए कदम

  • internal staff के लिए वास्तविक public build का उपयोग अनिवार्य किया जाएगा, ताकि internal testing build और public build के बीच का अंतर कम हो।
  • system prompt बदलावों पर नियंत्रण कड़ा किया जाएगा। हर बदलाव पर model-wise व्यापक evaluation किया जाएगा, हर line के असर का अलग से analysis (ablation) होगा, और gradual rollout के साथ पर्याप्त validation period (soak period) रखा जाएगा।
  • Code Review tool को बेहतर बनाया जाएगा। कंपनी ने यह देखा कि जब Opus 4.7 को पूरे संबंधित code repository का context दिया गया, तब वह caching bug पकड़ सका; इसी आधार पर code review के दौरान देखे जा सकने वाले repository scope को बढ़ाया जाएगा।
  • user communication channel (@ClaudeDevs) शुरू किया जाएगा, ताकि product decisions के पीछे की पृष्ठभूमि पारदर्शी तरीके से साझा की जा सके।

"जानबूझकर quality कम नहीं की गई थी" इस दावे पर

  • Anthropic का कहना है कि उसने model की quality को कभी जानबूझकर कम नहीं किया, और यह भी पुष्टि की कि API और inference layer पर कोई असर नहीं पड़ा था। हालांकि, product layer (Claude Code) में configuration changes और bugs के संयुक्त असर से उपयोगकर्ताओं द्वारा महसूस की गई quality वास्तव में गिर गई थी। कंपनी ने यह भी घोषणा की कि सभी subscribers की usage limits reset की जाएंगी।

13 टिप्पणियां

 
crawler 2026-04-24

तीनों आउटेज के कारण सीधे-सीधे cost cutting से कैसे जुड़े हुए हैं lol
लगता है performance गिरने लगे, इस हद तक GPU resources की सच में बहुत ज़्यादा कमी है.....

 
colus001 2026-04-24

यही सही जवाब है, लेकिन बहाने बहुत लंबे हैं lol

 
youknowone 2026-04-24

लगता है उन्होंने इस बात पर लंबा-चौड़ा लिख दिया है कि इतने समय तक उन्होंने public build को टेस्ट भी नहीं किया, deploy कर दिया, और deploy के बाद भी टेस्ट नहीं किया। मैंने तो 26 मार्च को ही तुरंत इस bug से टकरा गया था, तो क्या उन्हें अंदरूनी तौर पर इसकी पुष्टि करने में 3 हफ्ते लगना समझ में आता है...

 
youknowone 2026-04-24

पैच लगते ही वह 5 घंटे का quota, जिसे खत्म करने में पहले 3-4 घंटे लगते थे, 30 मिनट में ही खत्म होने लगा। लेकिन कर्मचारियों के accounts में शायद 5 घंटे का quota था ही नहीं, या कम से कम इतना कम नहीं था कि हर बार /usage देखते हुए काम करना पड़े, इसलिए इसे नोटिस करने में काफ़ी समय लग गया होगा।

 
amond 2026-04-24

SWE-Bench-Pro daily benchmark (curated set) में Claude Code को देखें तो एक दिलचस्प बात दिखती है

4/10~4/20 के दौरान runtime आधा (653s→345s), tool call आधे (3.3K→1.8K), और token −18% कम हुए, लेकिन pass rate उल्टा +16pp बढ़ गया। इन चारों metrics का एक साथ अच्छे दिशा में बढ़ना आम पैटर्न नहीं है

उस प्रक्रिया में हुई 3 घटनाओं का postmortem 4/23 वाला है, और देखें तो सबकी वजह यही थी कि "token/latency कम करने की कोशिश में" वे हुए

वहीं codex (gpt-5.4-xhigh) में उसी अवधि के दौरान आंकड़े लगभग हिले ही नहीं। pass rate करीब 56% पर स्थिर रहा, और token/runtime/tool call भी Claude Code के मुकाबले लगभग दोगुने स्तर पर वैसे ही बने रहे

 
colus001 2026-04-24

क्या यह आउटेज postmortem नहीं, बल्कि cost cutting postmortem नहीं है?

 
sudoeng 2026-04-24

आंतरिक कर्मचारियों के लिए वास्तविक public build का उपयोग अनिवार्य किया जाता है, ताकि internal testing build के साथ अंतर कम हो।
हाहाहा

 
lim8603 2026-04-25

लगता है उन्होंने Opus 4.7 को YAGNI सिखा दिया है। हर बार आर्किटेक्चर फ़ैसलों में YAGNI के हिसाब से क्रमिक बदलाव का तर्क दिया जाता था, तो लगा ठीक ही होगा, लेकिन आखिरकार गड़बड़ हो ही गई। जिसकी मेमोरी भी लंबी नहीं है, उसमें बातें टालते रहने की आदत पड़ जाए तो बड़ी मुसीबत है।

 
tazuya 2026-04-24

क्या सिर्फ मुझे ही ऐसा लगता है कि जब शुरुआत में समस्या उठाई गई थी तब वे ज़िद कर रहे थे कि कोई दिक्कत नहीं है, लेकिन अब मुद्दा इतना बड़ा हो गया है कि उसे दबा नहीं सकते, इसलिए इसे सार्वजनिक कर रहे हैं?

 
unsure4000 2026-04-24

claude.ai वेब की usability भी थोड़ा-थोड़ा करके खराब हुई लग रही है... टोकन बचाने के लिए मैंने memory भी बंद कर दी।

 
xguru 2026-04-24

यह सूचना देखने के बाद तो मुझे Anthropic पर और भी कम भरोसा होने लगा।

ऊपर इससे संबंधित 2 पोस्ट हैं, और दोनों पोस्टों के बीच 7 महीने का अंतर है। समस्या वही 3 हैं।

Claude की गुणवत्ता में हालिया तीन गिरावटों का पोस्टमॉर्टम 2025-09-19
हालिया Claude Code गुणवत्ता रिपोर्ट पर अपडेट 2026-04-24

 
skageektp 2026-04-24

मैं $5 क्रेडिट जितना गुस्से में हूँ!!

 
wedding 2026-04-24

बहुत लंबी बात कर रहा है..