Simon Willison की Claude 4.5 Opus समीक्षा

(simonwillison.net)

8 पॉइंट द्वारा laeyoung 2025-11-26 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Claude Opus 4.5, और क्यों नए LLM का मूल्यांकन करना लगातार कठिन होता जा रहा है

कीमत काफ़ी संतोषजनक है

इनपुट के लिए प्रति मिलियन डॉलर 5, और आउटपुट के लिए प्रति मिलियन डॉलर 25
पहले के Opus के 15 डॉलर/75 डॉलर की तुलना में यह काफ़ी सस्ता है
साथ ही GPT-5.1 family (1.25 डॉलर/10 डॉलर) और Gemini 3 Pro (2 डॉलर/12 डॉलर, या 2 लाख से अधिक tokens खरीदने पर 4 डॉलर/18 डॉलर) की तुलना में भी यह प्रतिस्पर्धी है

Opus 4.5 में कुछ दिलचस्प बदलाव

Opus 4.5 में एक नया effort parameter जोड़ा गया है, जो default रूप से high पर सेट है
यह बेहतर Computer use को support करता है, खासकर zoom उपलब्ध कराता है ताकि स्क्रीन के बड़े किए गए हिस्सों की जांच करने के लिए कहा जा सके
पिछले सहायक turn के thinking blocks, पहले की तरह नहीं, अब default रूप से model context में सुरक्षित रहते हैं

मूल्यांकन की कठिनाई

frontier LLMs के प्रदर्शन में अंतर करना अब और कठिन हो गया है
SWE-bench Verified जैसे benchmarks में models के बीच केवल single-digit percentage points का अंतर दिखता है
लेकिन यह नहीं बताता कि वास्तविक समस्याएँ हल करने की कोशिश में इसका क्या मतलब निकलेगा, या यह अंतर व्यवहार में क्या परिणाम देगा
फिलहाल साइकिल चलाता pelican बनाना जारी है.

2 टिप्पणियां

youknowone 2025-11-26

अनुवाद: https://rosettalens.com/s/ko/claude-opus

laeyoung 2025-11-26

Anthropic का Opus 4.5 benchmark graph

अगर इसे सामान्य तरीके से बनाया जाता, तो ऊंचाई लगभग एक जैसी दिखती, इसलिए graph के Y-axis के 0-70 हिस्से को संक्षिप्त किया गया है.