homebrew ने postinstall को डिफ़ॉल्ट रूप से disable करके सिर्फ़ अपवादस्वरूप allow करने वाला बदलाव कर दिया है। इसे किस्मत कहें शायद, मैं npm देखे बिना repo tag से update करता हूँ, इसलिए इस बार का version बच गया। हाल में npm cooldown भी लागू हुआ है, इसलिए शायद npm देखा भी होता तो भी यह publish नहीं हुआ होता।
क्या सिर्फ मुझे ही ऐसा लगता है कि जब शुरुआत में समस्या उठाई गई थी तब वे ज़िद कर रहे थे कि कोई दिक्कत नहीं है, लेकिन अब मुद्दा इतना बड़ा हो गया है कि उसे दबा नहीं सकते, इसलिए इसे सार्वजनिक कर रहे हैं?
SWE-Bench-Pro daily benchmark (curated set) में Claude Code को देखें तो एक दिलचस्प बात दिखती है
4/10~4/20 के दौरान runtime आधा (653s→345s), tool call आधे (3.3K→1.8K), और token −18% कम हुए, लेकिन pass rate उल्टा +16pp बढ़ गया। इन चारों metrics का एक साथ अच्छे दिशा में बढ़ना आम पैटर्न नहीं है
उस प्रक्रिया में हुई 3 घटनाओं का postmortem 4/23 वाला है, और देखें तो सबकी वजह यही थी कि "token/latency कम करने की कोशिश में" वे हुए
वहीं codex (gpt-5.4-xhigh) में उसी अवधि के दौरान आंकड़े लगभग हिले ही नहीं। pass rate करीब 56% पर स्थिर रहा, और token/runtime/tool call भी Claude Code के मुकाबले लगभग दोगुने स्तर पर वैसे ही बने रहे
इसे इस्तेमाल करने वाला कोई नहीं है, फिर भी मैं अकेले ही अपने पालतू npm लाइब्रेरी को लगन से develop कर रहा हूँ और उसकी performance optimize कर रहा हूँ.
मैंने जो hypothesis सोची थीं, benchmark चलाकर देखने पर उनमें से ज़्यादातर काम नहीं करतीं—ऐसा निष्कर्ष निकला, इसलिए अब इससे performance optimization के कुछ अतिरिक्त तरीके निकलवाकर देखना पड़ेगा।
तीनों आउटेज के कारण सीधे-सीधे cost cutting से कैसे जुड़े हुए हैं lol
लगता है performance गिरने लगे, इस हद तक GPU resources की सच में बहुत ज़्यादा कमी है.....
homebrew ने
postinstallको डिफ़ॉल्ट रूप से disable करके सिर्फ़ अपवादस्वरूप allow करने वाला बदलाव कर दिया है। इसे किस्मत कहें शायद, मैं npm देखे बिना repo tag से update करता हूँ, इसलिए इस बार का version बच गया। हाल में npm cooldown भी लागू हुआ है, इसलिए शायद npm देखा भी होता तो भी यह publish नहीं हुआ होता।क्या सिर्फ मुझे ही ऐसा लगता है कि जब शुरुआत में समस्या उठाई गई थी तब वे ज़िद कर रहे थे कि कोई दिक्कत नहीं है, लेकिन अब मुद्दा इतना बड़ा हो गया है कि उसे दबा नहीं सकते, इसलिए इसे सार्वजनिक कर रहे हैं?
मैं
gstackका अच्छा-खासा इस्तेमाल कर रहा हूँ। spec को तराशने में लगने वाला समय काफ़ी कम हो जाता है।यह दावा कि Codex SOTA नहीं है, सिर्फ वही लोग कर सकते हैं जिन्होंने इसे इस्तेमाल नहीं किया है या जिन्हें इस क्षेत्र में दिलचस्पी नहीं है।
कम से कम कोई फ़्लैग तो होना ही काफ़ी ज़्यादा उपयोगी लगेगा। सिर्फ़ सबसे अधिक बार आने वाले मान और बाकी को अलग-अलग दिखा दे, तो भी अच्छा नहीं होगा क्या।
बस 2 घंटे इस्तेमाल करें, आप रंगांध हो जाएंगे।
डैविल्स एडवोकेट जैसी चीज़ें अगर Gemini के Gems जैसे फीचर में पहले से सेट करके रखी जाएँ, तो काफ़ी सुविधाजनक रहेगा।
SWE-Bench-Pro daily benchmark (curated set) में Claude Code को देखें तो एक दिलचस्प बात दिखती है
4/10~4/20 के दौरान runtime आधा (653s→345s), tool call आधे (3.3K→1.8K), और token −18% कम हुए, लेकिन pass rate उल्टा +16pp बढ़ गया। इन चारों metrics का एक साथ अच्छे दिशा में बढ़ना आम पैटर्न नहीं है
उस प्रक्रिया में हुई 3 घटनाओं का postmortem 4/23 वाला है, और देखें तो सबकी वजह यही थी कि "token/latency कम करने की कोशिश में" वे हुए
वहीं codex (gpt-5.4-xhigh) में उसी अवधि के दौरान आंकड़े लगभग हिले ही नहीं। pass rate करीब 56% पर स्थिर रहा, और token/runtime/tool call भी Claude Code के मुकाबले लगभग दोगुने स्तर पर वैसे ही बने रहे
इसे इस्तेमाल करने वाला कोई नहीं है, फिर भी मैं अकेले ही अपने पालतू npm लाइब्रेरी को लगन से develop कर रहा हूँ और उसकी performance optimize कर रहा हूँ.
मैंने जो hypothesis सोची थीं, benchmark चलाकर देखने पर उनमें से ज़्यादातर काम नहीं करतीं—ऐसा निष्कर्ष निकला, इसलिए अब इससे performance optimization के कुछ अतिरिक्त तरीके निकलवाकर देखना पड़ेगा।
"करना चाहिए" से ज़्यादा "ऐसा करना बेहतर होगा~" जैसा कहना ठीक नहीं होगा क्या?
claude.ai वेब की usability भी थोड़ा-थोड़ा करके खराब हुई लग रही है... टोकन बचाने के लिए मैंने memory भी बंद कर दी।
यह सूचना देखने के बाद तो मुझे Anthropic पर और भी कम भरोसा होने लगा।
ऊपर इससे संबंधित 2 पोस्ट हैं, और दोनों पोस्टों के बीच 7 महीने का अंतर है। समस्या वही 3 हैं।
Claude की गुणवत्ता में हालिया तीन गिरावटों का पोस्टमॉर्टम 2025-09-19
हालिया Claude Code गुणवत्ता रिपोर्ट पर अपडेट 2026-04-24
क्या यह आउटेज postmortem नहीं, बल्कि cost cutting postmortem नहीं है?
यही सही जवाब है, लेकिन बहाने बहुत लंबे हैं lol
मैं $5 क्रेडिट जितना गुस्से में हूँ!!
opus4.6 ही..
तीनों आउटेज के कारण सीधे-सीधे cost cutting से कैसे जुड़े हुए हैं lol
लगता है performance गिरने लगे, इस हद तक GPU resources की सच में बहुत ज़्यादा कमी है.....
आंतरिक कर्मचारियों के लिए वास्तविक public build का उपयोग अनिवार्य किया जाता है, ताकि internal testing build के साथ अंतर कम हो।
हाहाहा
SOTA की जगह ढूँढे हुए काफ़ी समय हो गया है..
वीडियो में इस्तेमाल किया गया टूल https://www.conductor.build/