- Claude Code Opus 4.5 के SWE कार्य performance को हर दिन मापकर सांख्यिकीय रूप से महत्वपूर्ण performance degradation का पता लगाने वाला tracking system
- SWE-Bench-Pro के चुने हुए subset का उपयोग करके हर दिन 50 test instances का मूल्यांकन किया जाता है, और परिणाम CLI environment में सीधे चलाए गए वास्तविक model performance को दर्शाते हैं
- पिछले 30 दिनों में औसत pass rate 54% रहा, और baseline 58% की तुलना में सांख्यिकीय रूप से महत्वपूर्ण 4.1% गिरावट दर्ज की गई
- दैनिक और साप्ताहिक परिणामों का विश्लेषण 95% confidence interval और significance threshold (±14.0%, ±5.6%) के आधार पर किया जाता है, ताकि अल्पकालिक उतार-चढ़ाव और दीर्घकालिक रुझानों में फर्क किया जा सके
- एक स्वतंत्र third-party organization द्वारा संचालित, यह model या execution environment में बदलाव से होने वाले performance degradation का जल्दी पता लगाने का टूल है
अवलोकन
- इस tracker का उद्देश्य Claude Code Opus 4.5 के SWE कार्य performance में सांख्यिकीय रूप से महत्वपूर्ण गिरावट का पता लगाना है
- हर दिन SWE-Bench-Pro के contamination-resistant subset का उपयोग करके evaluation किया जाता है
- इसे सीधे Claude Code CLI में चलाया जाता है, किसी अलग custom harness के बिना, ताकि वास्तविक user environment को दर्शाया जा सके
- यह एक स्वतंत्र third-party organization है, जिसका frontier model providers के साथ कोई affiliation नहीं है
- सितंबर 2025 में Anthropic के performance degradation से जुड़े postmortem के बाद, भविष्य में ऐसे मामलों का जल्दी पता लगाने के लिए इसे resource के रूप में चलाया जा रहा है
performance सारांश
- baseline pass rate: 58%
- पिछले 30 दिनों का pass rate: 54% (655 evaluations के आधार पर)
- पिछले 7 दिनों का pass rate: 53% (250 evaluations के आधार पर)
- पिछले 1 दिन का pass rate: 50% (50 evaluations के आधार पर)
- 30 दिनों की performance गिरावट p < 0.05 स्तर पर सांख्यिकीय रूप से महत्वपूर्ण है
- 30-दिन का परिवर्तन: -4.1%
- significance threshold: ±3.4%
- 1 दिन (-8.0%) और 7 दिन (-4.8%) के परिवर्तन सांख्यिकीय रूप से महत्वपूर्ण नहीं हैं
दैनिक और साप्ताहिक रुझान
- दैनिक रुझान (Daily Trend)
- पिछले 30 दिनों के दैनिक pass rate को visualize किया जाता है
- baseline 58%, significance threshold range ±14.0%
- 95% confidence interval भी दिखाया जा सकता है; sample size जितना छोटा होगा, interval उतना चौड़ा होगा
- साप्ताहिक रुझान (Weekly Trend)
- 7-दिन moving average के जरिए दैनिक volatility को कम करके trend दिखाया जाता है
- baseline 58%, significance threshold range ±5.6%
- इसी तरह 95% confidence interval भी दिखाया जा सकता है
परिवर्तन अवलोकन (Change Overview)
- 1-दिन परिवर्तन (कल की तुलना में): -8.0%, सांख्यिकीय रूप से महत्वपूर्ण नहीं
- 50 evaluations के आधार पर, ±14.0% परिवर्तन आवश्यक (p < 0.05)
- 7-दिन परिवर्तन (पिछले सप्ताह की तुलना में): -4.8%, सांख्यिकीय रूप से महत्वपूर्ण नहीं
- 250 evaluations के आधार पर, ±5.6% परिवर्तन आवश्यक (p < 0.05)
- 30-दिन परिवर्तन (पिछले महीने की तुलना में): -4.1%, सांख्यिकीय रूप से महत्वपूर्ण
- 655 evaluations के आधार पर, ±3.4% परिवर्तन आवश्यक (p < 0.05)
कार्यप्रणाली (Methodology)
- हर test को Bernoulli random variable के रूप में model किया जाता है, और 95% confidence interval की गणना की जाती है
- दैनिक, साप्ताहिक और मासिक pass rate के सांख्यिकीय अंतर का विश्लेषण करके महत्वपूर्ण performance degradation है या नहीं यह रिपोर्ट किया जाता है
- हर दिन 50 test instances के साथ evaluation किया जाता है, इसलिए अल्पकालिक volatility मौजूद रहती है
- साप्ताहिक और मासिक aggregate results अधिक स्थिर estimates प्रदान करते हैं
- model changes या execution harness changes से होने वाले performance degradation, दोनों का पता लगाया जा सकता है
अलर्ट सुविधा
- जब performance degradation सांख्यिकीय रूप से detect हो जाए तो email alert भेजा जाता है
- उपयोगकर्ता अपना email address दर्ज करके subscribe कर सकते हैं
- subscription confirmation के बाद alerts प्राप्त किए जा सकते हैं; त्रुटि होने पर retry guidance दी जाती है
अभी कोई टिप्पणी नहीं है.