Anthropic ने Claude Opus 4.1 जारी किया
(anthropic.com)- Claude Opus 4.1 एक ऐसा अपग्रेडेड वर्ज़न है जिसमें रियल-टाइम कोडिंग, एजेंटिक वर्क और रीज़निंग क्षमता और बेहतर हो गई है
- SWE-bench Verified में इसने 74.5% की सर्वोच्च कोड परफॉर्मेंस हासिल की और बड़े कोडबेस में सटीक डिबगिंग, मल्टी-फाइल रिफैक्टरिंग जैसे कामों में शानदार नतीजे दिखाए
- वास्तविक Rakuten, GitHub, Windsurf जैसे उपयोगकर्ताओं से कोड सुधार की सटीकता, रोज़मर्रा की डिबगिंग में एफिशिएंसी और जूनियर डेवलपर बेंचमार्क में स्पष्ट सुधार के लिए सकारात्मक फीडबैक मिला
- मल्टी-फाइल रिफैक्टरिंग और डिटेल्ड कोड सुधारों में वास्तविक डेवलपमेंट एनवायरनमेंट के लिए और अधिक परिशुद्ध प्रदर्शन दिखा
- यदि आप पहले से Opus 4 यूज़र हैं, तो बिना अतिरिक्त खर्च के API, Claude Code, Amazon Bedrock, Google Vertex AI पर तुरंत उपयोग कर सकते हैं
Claude Opus 4.1 के मुख्य फीचर्स
- पहले के Claude Opus 4 की तुलना में agentic वर्क, वास्तविक कोड जनरेशन और कॉम्प्लेक्स रीज़निंग में परफॉर्मेंस बेहतर हुई है
- आने वाले कुछ हफ्तों में मॉडल में और भी बड़े स्केल के सुधार घोषित हैं
मुख्य सुधार
- SWE-bench Verified में 74.5% कोड परफॉर्मेंस हासिल
- डीप रिसर्च और डेटा एनालिसिस क्षमता में, खासकर डिटेल ट्रैकिंग और agentic खोज में, उल्लेखनीय उन्नति देखी गई
- बड़े ओपन-सोर्स रिपॉज़िटरी में बग फिक्स़ करने वाले वास्तविक कोड-बेस्ड बेंचमार्क पर बहुत अच्छा स्कोर
- मल्टी-फाइल रिफैक्टरिंग, बड़े कोडबेस के अंदर प्रिसाइज़ डिबगिंग आदि परफॉर्मेंस वास्तविक डेवलपर वर्क में ऑप्टिमाइज़ की गई
- GitHub पर Opus 4.1 ने अधिकांश फीचर्स में पुराने Opus 4 से बेहतर परिणाम दिए, और खासकर मल्टी-फाइल कोड रिफैक्टरिंग में सबसे मजबूत सुधार दिखा
- Rakuten Group ने कहा कि Opus 4.1 विशाल कोडबेस में सिर्फ़ वही हिस्से बदलता है जो ज़रूरी हों, बिना अनावश्यक बदलाव या नए बग के और कोड स्टाइल भी बरकरार रखता है
- Windsurf के अनुसार उनके जूनियर डेवलपर बेंचमार्क में Opus 4.1 ने Opus 4 की तुलना में लगभग एक स्टैण्डर्ड डिविएशन सुधार दिखाया, और इसे Sonnet 3.7 से Sonnet 4 पर जाने जैसी बड़ी परफॉर्मेंस छलांग के बराबर माना
मुख्य बेंचमार्क-वार तुलना
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- पूर्ववर्ती Claude(Opus 4): 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → वास्तविक ओपन-सोर्स कोड मॉडिफिकेशन वर्क में सर्वाधिक सटीक परिणाम
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (शीर्ष)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (शीर्ष)
- Gemini 2.5 Pro: 86.4% (शीर्ष)
- Agentic tool use (TAU-bench)
- Retail परिदृश्य: Claude Opus 4.1 82.4% (शीर्ष), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Airline परिदृश्य: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro ने इस कैटेगरी का स्कोर प्रकाशित नहीं किया
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (शीर्ष)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: उपलब्ध नहीं
- Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (शीर्ष)
- Gemini 2.5 Pro: 82% (शीर्ष)
- High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (शीर्ष)
- Gemini 2.5 Pro: 88% (शीर्ष)
-
बेंचमार्क सारांश
- Claude Opus 4.1 ने पिछले संस्करण के मुकाबले हर क्षेत्र में स्थिर सुधार दिखाया और वास्तविक कोड ऑटोमेशन, मल्टी-फाइल रिफैक्टरिंग, मल्टीलिंगुअल QA और टूल उपयोग जैसे प्रैक्टिकल वर्कलोड में शीर्ष स्कोर दर्ज किया
- गणित, विज़ुअल रीज़निंग और हाई-लेवल रीज़निंग (GPQA) में OpenAI o3, Gemini 2.5 Pro कुछ मामलों में आगे हैं, जबकि वास्तविक कोड प्रोडक्टिविटी और मल्टी-लैंग्वेज QA में Claude Opus 4.1 सबसे आगे है
- Airline परिदृश्य (Agentic tool use) में हल्की गिरावट, और विज़ुअल रीज़निंग व गणित में अन्य मॉडल मामूली बढ़त में हैं
वास्तविक उपयोग और डिप्लॉयमेंट परिदृश्य
- मौजूदा Opus 4 उपयोगकर्ताओं को API पर
claude-opus-4-1-20250805में सीधे अपग्रेड करने की सलाह दी गई है - API, Claude Code, Amazon Bedrock, Google Vertex AI जैसे कई चैनल्स से तैनाती और उपयोग संभव है
- Opus 4 के समान ही प्राइसिंग पॉलिसी लागू, मौजूदा यूज़र्स को तुरंत अपग्रेड करने की सलाह
- सिस्टम कार्ड, मॉडल विवरण, प्राइसिंग, ऑफ़िशियल डॉक्यूमेंट्स के साथ विस्तृत बेंचमार्क और इवैल्यूएशन मेथड भी सार्वजनिक किए गए
भविष्य की योजनाएँ
- Opus 4.1 को कोडिंग और रीज़निंग क्षेत्रों के हालिया सुधारों को समेटने वाला एक माइल्ड अपग्रेड बताया गया है, और आने वाले कुछ हफ्तों में बड़ी छलांगों की उम्मीद जताई गई है
- यूज़र फीडबैक के आधार पर लगातार परफॉर्मेंस इम्प्रूवमेंट और फीचर एक्सटेंशन करने की योजना है
संदर्भ
- OpenAI o3, Gemini 2.5 Pro जैसे अन्य कंपनियों के नए मॉडलों के साथ तुलना डेटा स्रोत, बेंचमार्क परिणाम, और प्रत्येक मॉडल में एक्स्टेंडेड थिंकिंग उपयोग स्थिति तक को पारदर्शी तरीके से दिखाया गया
1 टिप्पणियां
Hacker News टिप्पणियाँ
तीन बड़े लैब्स ने कुछ घंटों के अंतर से लगभग एक साथ कुछ न कुछ लॉन्च कर दिया—यह किसी ऐनिमेशन के पागलपन भरे मोड़ जैसा लगा.
Opus 4(.1) सच में बहुत महंगा है लिंक, Sonnet भी OpenRouter + Codename Goose लिंक से करीब $5/घंटा पड़ता है; जो चौंकाने वाली बात है कि Sonnet 3.5 भी लिंक में लगभग वही कीमत रखता है, Gemini Flash लिंक अपेक्षाकृत सस्ता लगता है, लेकिन फिर भी मैं सही फैसला नहीं कर पाता और उलझा रहता हूँ; OpenAI बुरा नहीं, पर Claude की performance तक नहीं पहुँचता; हाँ, Claude में बीच में CTRL-C दबाने पर API से 400 error वापस आती है, जिससे झंझट होता है। मुझे cost efficiency ज्यादा महत्वपूर्ण लगती है और value-for-money में OpenAI ChatGPT 4.1 mini लिंक सबसे बेहतर लगा, क्योंकि इसमें बेकार token खर्च नहीं होता और API भी हमेशा ठीक से चलता है; कभी-कभी यह उलझता है, लेकिन किसी तरह हल कर देता है
Opus को coding में लगभग हर पहलू पर बेहतर बताया गया, लेकिन practically मुझे तो Sonnet ही कहीं ज्यादा बेहतर लगता है; क्या किसी ने पूरी तरह Sonnet से Opus पर switch किया है, या सिर्फ कुछ कामों में Opus use करता है?
Opus 4.1 Opus 4 जैसा ही महसूस होता है, बल्कि token खर्च करने की गति और तेज़ हो गई है; अगर usage दिखाई दे तो अच्छा होगा। कम से कम Sonnet 4 अभी भी कामचलाऊ है, मगर outputs धीरे-धीरे धुंधले हो रहे हैं; आज सुबह मैंने अपने कई घंटे Claude Code में waste कर दिए—सोचता हूँ कि सीधे खुद करता तो बेहतर होता.
नए मॉडल के साथ Claude Plays Pokemon स्ट्रीम फिर से शुरू हो गई लिंक, पहले मैं Team Rocket के छिपे हुए स्थान में कई हफ्तों से फँसा हुआ था.
आर्टिकल में लाइन थी कि “कुछ हफ्तों में मॉडल में बड़ा सुधार आएगा”; हमारे product में Sonnet 4 सबसे उपयुक्त था, लेकिन Haiku 4 (या 4.1) की कीमत कम लग रही है इसलिए इसे एक बार जरूर try करना चाहता हूँ; Anthropic का इस बार Haiku 4 पर बिल्कुल भी mention न करना सच में unexpected लगा.
आज Claude के साथ मेरा शायद अब तक का सबसे खराब दिन रहा, बस सब कुछ गड़बड़ था। पता नहीं यह आज की deployment की वजह थी या नहीं, लेकिन docs में गालियाँ दिखीं और कई घंटों तक घूमने के बाद भी bug नहीं सुलझा.
मुझे आर्टिकल की उस लाइन में सबसे ज्यादा दिलचस्पी है कि “कुछ हफ्तों में मॉडल में बड़ा सुधार” होगा.
इस अपडेट में उनके हिसाब से भी लगभग कोई सुधार नहीं है; बुरा नहीं है, लेकिन शायद कोई भी clear difference महसूस नहीं करेगा.
अगर Opus और Sonnet दोनों ही महंगे हैं, तो मुझे लगता है कि Opus consumption कभी भी Sonnet को cross नहीं कर पाएगा। OpenRouter रैंकिंग लिंक देखें तो Sonnet 3.7 और 4 मिलकर Opus 4 से लगभग 17x ज्यादा tokens process कर रहे हैं.