8 पॉइंट द्वारा laeyoung 2025-11-26 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Claude Opus 4.5, और क्यों नए LLM का मूल्यांकन करना लगातार कठिन होता जा रहा है

कीमत काफ़ी संतोषजनक है

  • इनपुट के लिए प्रति मिलियन डॉलर 5, और आउटपुट के लिए प्रति मिलियन डॉलर 25
  • पहले के Opus के 15 डॉलर/75 डॉलर की तुलना में यह काफ़ी सस्ता है
  • साथ ही GPT-5.1 family (1.25 डॉलर/10 डॉलर) और Gemini 3 Pro (2 डॉलर/12 डॉलर, या 2 लाख से अधिक tokens खरीदने पर 4 डॉलर/18 डॉलर) की तुलना में भी यह प्रतिस्पर्धी है

Opus 4.5 में कुछ दिलचस्प बदलाव

  • Opus 4.5 में एक नया effort parameter जोड़ा गया है, जो default रूप से high पर सेट है
  • यह बेहतर Computer use को support करता है, खासकर zoom उपलब्ध कराता है ताकि स्क्रीन के बड़े किए गए हिस्सों की जांच करने के लिए कहा जा सके
  • पिछले सहायक turn के thinking blocks, पहले की तरह नहीं, अब default रूप से model context में सुरक्षित रहते हैं

मूल्यांकन की कठिनाई

  • frontier LLMs के प्रदर्शन में अंतर करना अब और कठिन हो गया है
  • SWE-bench Verified जैसे benchmarks में models के बीच केवल single-digit percentage points का अंतर दिखता है
  • लेकिन यह नहीं बताता कि वास्तविक समस्याएँ हल करने की कोशिश में इसका क्या मतलब निकलेगा, या यह अंतर व्यवहार में क्या परिणाम देगा
  • फिलहाल साइकिल चलाता pelican बनाना जारी है.

2 टिप्पणियां

 
youknowone 2025-11-26
 
laeyoung 2025-11-26

Anthropic का Opus 4.5 benchmark graph

  • अगर इसे सामान्य तरीके से बनाया जाता, तो ऊंचाई लगभग एक जैसी दिखती, इसलिए graph के Y-axis के 0-70 हिस्से को संक्षिप्त किया गया है.