Simon Willison की Claude 4.5 Opus समीक्षा
(simonwillison.net)Claude Opus 4.5, और क्यों नए LLM का मूल्यांकन करना लगातार कठिन होता जा रहा है
कीमत काफ़ी संतोषजनक है
- इनपुट के लिए प्रति मिलियन डॉलर 5, और आउटपुट के लिए प्रति मिलियन डॉलर 25
- पहले के Opus के 15 डॉलर/75 डॉलर की तुलना में यह काफ़ी सस्ता है
- साथ ही GPT-5.1 family (1.25 डॉलर/10 डॉलर) और Gemini 3 Pro (2 डॉलर/12 डॉलर, या 2 लाख से अधिक tokens खरीदने पर 4 डॉलर/18 डॉलर) की तुलना में भी यह प्रतिस्पर्धी है
Opus 4.5 में कुछ दिलचस्प बदलाव
- Opus 4.5 में एक नया
effortparameter जोड़ा गया है, जो default रूप से high पर सेट है - यह बेहतर Computer use को support करता है, खासकर
zoomउपलब्ध कराता है ताकि स्क्रीन के बड़े किए गए हिस्सों की जांच करने के लिए कहा जा सके - पिछले सहायक turn के thinking blocks, पहले की तरह नहीं, अब default रूप से model context में सुरक्षित रहते हैं
मूल्यांकन की कठिनाई
- frontier LLMs के प्रदर्शन में अंतर करना अब और कठिन हो गया है
- SWE-bench Verified जैसे benchmarks में models के बीच केवल single-digit percentage points का अंतर दिखता है
- लेकिन यह नहीं बताता कि वास्तविक समस्याएँ हल करने की कोशिश में इसका क्या मतलब निकलेगा, या यह अंतर व्यवहार में क्या परिणाम देगा
- फिलहाल साइकिल चलाता pelican बनाना जारी है.
2 टिप्पणियां
अनुवाद: https://rosettalens.com/s/ko/claude-opus
Anthropic का Opus 4.5 benchmark graph