- Claude Code Opus 4.5 के SWE कार्य performance को हर दिन मापकर सांख्यिकीय रूप से महत्वपूर्ण performance degradation का पता लगाने वाला tracking system
- SWE-Bench-Pro के चुने हुए subset का उपयोग करके हर दिन 50 test instances का मूल्यांकन किया जाता है, और परिणाम CLI environment में सीधे चलाए गए वास्तविक model performance को दर्शाते हैं
- पिछले 30 दिनों में औसत pass rate 54% रहा, और baseline 58% की तुलना में सांख्यिकीय रूप से महत्वपूर्ण 4.1% गिरावट दर्ज की गई
- दैनिक और साप्ताहिक परिणामों का विश्लेषण 95% confidence interval और significance threshold (±14.0%, ±5.6%) के आधार पर किया जाता है, ताकि अल्पकालिक उतार-चढ़ाव और दीर्घकालिक रुझानों में फर्क किया जा सके
- एक स्वतंत्र third-party organization द्वारा संचालित, यह model या execution environment में बदलाव से होने वाले performance degradation का जल्दी पता लगाने का टूल है
अवलोकन
- इस tracker का उद्देश्य Claude Code Opus 4.5 के SWE कार्य performance में सांख्यिकीय रूप से महत्वपूर्ण गिरावट का पता लगाना है
- हर दिन SWE-Bench-Pro के contamination-resistant subset का उपयोग करके evaluation किया जाता है
- इसे सीधे Claude Code CLI में चलाया जाता है, किसी अलग custom harness के बिना, ताकि वास्तविक user environment को दर्शाया जा सके
- यह एक स्वतंत्र third-party organization है, जिसका frontier model providers के साथ कोई affiliation नहीं है
- सितंबर 2025 में Anthropic के performance degradation से जुड़े postmortem के बाद, भविष्य में ऐसे मामलों का जल्दी पता लगाने के लिए इसे resource के रूप में चलाया जा रहा है
performance सारांश
- baseline pass rate: 58%
- पिछले 30 दिनों का pass rate: 54% (655 evaluations के आधार पर)
- पिछले 7 दिनों का pass rate: 53% (250 evaluations के आधार पर)
- पिछले 1 दिन का pass rate: 50% (50 evaluations के आधार पर)
- 30 दिनों की performance गिरावट p < 0.05 स्तर पर सांख्यिकीय रूप से महत्वपूर्ण है
- 30-दिन का परिवर्तन: -4.1%
- significance threshold: ±3.4%
- 1 दिन (-8.0%) और 7 दिन (-4.8%) के परिवर्तन सांख्यिकीय रूप से महत्वपूर्ण नहीं हैं
दैनिक और साप्ताहिक रुझान
- दैनिक रुझान (Daily Trend)
- पिछले 30 दिनों के दैनिक pass rate को visualize किया जाता है
- baseline 58%, significance threshold range ±14.0%
- 95% confidence interval भी दिखाया जा सकता है; sample size जितना छोटा होगा, interval उतना चौड़ा होगा
- साप्ताहिक रुझान (Weekly Trend)
- 7-दिन moving average के जरिए दैनिक volatility को कम करके trend दिखाया जाता है
- baseline 58%, significance threshold range ±5.6%
- इसी तरह 95% confidence interval भी दिखाया जा सकता है
परिवर्तन अवलोकन (Change Overview)
- 1-दिन परिवर्तन (कल की तुलना में): -8.0%, सांख्यिकीय रूप से महत्वपूर्ण नहीं
- 50 evaluations के आधार पर, ±14.0% परिवर्तन आवश्यक (p < 0.05)
- 7-दिन परिवर्तन (पिछले सप्ताह की तुलना में): -4.8%, सांख्यिकीय रूप से महत्वपूर्ण नहीं
- 250 evaluations के आधार पर, ±5.6% परिवर्तन आवश्यक (p < 0.05)
- 30-दिन परिवर्तन (पिछले महीने की तुलना में): -4.1%, सांख्यिकीय रूप से महत्वपूर्ण
- 655 evaluations के आधार पर, ±3.4% परिवर्तन आवश्यक (p < 0.05)
कार्यप्रणाली (Methodology)
- हर test को Bernoulli random variable के रूप में model किया जाता है, और 95% confidence interval की गणना की जाती है
- दैनिक, साप्ताहिक और मासिक pass rate के सांख्यिकीय अंतर का विश्लेषण करके महत्वपूर्ण performance degradation है या नहीं यह रिपोर्ट किया जाता है
- हर दिन 50 test instances के साथ evaluation किया जाता है, इसलिए अल्पकालिक volatility मौजूद रहती है
- साप्ताहिक और मासिक aggregate results अधिक स्थिर estimates प्रदान करते हैं
- model changes या execution harness changes से होने वाले performance degradation, दोनों का पता लगाया जा सकता है
अलर्ट सुविधा
- जब performance degradation सांख्यिकीय रूप से detect हो जाए तो email alert भेजा जाता है
- उपयोगकर्ता अपना email address दर्ज करके subscribe कर सकते हैं
- subscription confirmation के बाद alerts प्राप्त किए जा सकते हैं; त्रुटि होने पर retry guidance दी जाती है
2 टिप्पणियां
Claude Code बेवकूफ़ नहीं हुआ है… बल्कि शायद ऐसा हो कि उसे इस्तेमाल करने वाला व्यक्ति Claude का और बेहतर इस्तेमाल करना सीख गया हो…
Hacker News की राय
मैं Claude Code टीम से Thariq हूँ
26 जनवरी को हुई harness समस्या को ठीक कर दिया गया था। 28 जनवरी को तुरंत rollback भी पूरा कर दिया गया, इसलिए
claude updateकमांड से latest version में update करने की सलाह हैमैं SWE-bench का सह-लेखक हूँ
अभी test शायद केवल 50 tasks पर दिन में एक बार चल रहा है। accuracy बढ़ानी है तो 300 tasks पर दिन में 5~10 बार test करके average निकालना चाहिए। server load जैसे random factors का परिणामों पर बड़ा असर पड़ सकता है
मैं यह बताता हूँ कि मुझे क्यों नहीं लगता कि Anthropic जानबूझकर users को खराब model दे रहा है
statistical methodology अजीब है
वे सिर्फ पुराने values के confidence interval को देखते हैं और यह जाँचते हैं कि नया value उसके बाहर है या नहीं, लेकिन यह difference की statistical significance जाँचने का सही तरीका नहीं है। दोनों measurements में uncertainty होती है, इसलिए difference का confidence interval निकालना चाहिए। साथ ही, अगर monthly comparison करना है तो 60~31 दिन पहले के data की तुलना 30 दिन पहले से कल तक के data से करनी चाहिए, इसलिए graph में कम से कम दो महीने का data दिखना चाहिए
लगभग एक हफ्ते पहले Claude करीब एक घंटे के लिए down था। restore होने के तुरंत बाद शायद users कम होने की वजह से speed 3 गुना से भी ज़्यादा तेज़ हो गई। उस एक घंटे में मैं सामान्यतः आधे दिन का काम निपटा सका। ऐसा लगा जैसे resource constraints के बिना भविष्य की एक झलक देखी हो
user prompts में गालियों की आवृत्ति मापी जाए तो model performance गिरने पर user hostility बढ़ना पकड़ा जा सकता है
समय के साथ model को धीरे-धीरे quantize किया जा रहा हो सकता है। इससे scalability और cost reduction आसान हो जाती है, और नया version तुलनात्मक रूप से ज़्यादा “बेहतर” भी दिख सकता है
API mode में Claude एक निश्चित token count पार करते ही अचानक बेवकूफ़ हो जाता है, और “line 23 में bug है” कहकर पूरी functionality मिटा देता है जैसी अजीब हरकतें करता है। ChatGPT 3.5 से भी हो सकने वाली simple fixes तक fail हो जाती हैं। समझ नहीं आता ऐसा क्यों होता है
पिछले एक हफ्ते में Claude की code quality साफ़ तौर पर खराब हुई है। उदाहरण के लिए, Enum पर
frozenइस्तेमाल करने को कहता है, या जिस function में पहले सेurlparseइस्तेमाल हो रहा है उसमें फिर सेurlparseसुझाता है। पहले वह ऐसी बुनियादी गलतियाँ नहीं करता थाLLM providers में reasoning consistency की कमी एक बड़ी शिकायत है। ChatGPT में भी यही है; 45k tokens से ऊपर input देने पर intelligence तेज़ी से गिर जाती है या input cut हो जाता है। कम से कम “refusal” message देना बेहतर होगा; चुपचाप downgrade हो जाना भरोसा तोड़ देता है। transparency सच में बहुत महत्वपूर्ण है