- Claude Opus 4.1 एक ऐसा अपग्रेडेड वर्ज़न है जिसमें रियल-टाइम कोडिंग, एजेंटिक वर्क और रीज़निंग क्षमता और बेहतर हो गई है
- SWE-bench Verified में इसने 74.5% की सर्वोच्च कोड परफॉर्मेंस हासिल की और बड़े कोडबेस में सटीक डिबगिंग, मल्टी-फाइल रिफैक्टरिंग जैसे कामों में शानदार नतीजे दिखाए
- वास्तविक Rakuten, GitHub, Windsurf जैसे उपयोगकर्ताओं से कोड सुधार की सटीकता, रोज़मर्रा की डिबगिंग में एफिशिएंसी और जूनियर डेवलपर बेंचमार्क में स्पष्ट सुधार के लिए सकारात्मक फीडबैक मिला
- मल्टी-फाइल रिफैक्टरिंग और डिटेल्ड कोड सुधारों में वास्तविक डेवलपमेंट एनवायरनमेंट के लिए और अधिक परिशुद्ध प्रदर्शन दिखा
- यदि आप पहले से Opus 4 यूज़र हैं, तो बिना अतिरिक्त खर्च के API, Claude Code, Amazon Bedrock, Google Vertex AI पर तुरंत उपयोग कर सकते हैं
Claude Opus 4.1 के मुख्य फीचर्स
- पहले के Claude Opus 4 की तुलना में agentic वर्क, वास्तविक कोड जनरेशन और कॉम्प्लेक्स रीज़निंग में परफॉर्मेंस बेहतर हुई है
- आने वाले कुछ हफ्तों में मॉडल में और भी बड़े स्केल के सुधार घोषित हैं
मुख्य सुधार
- SWE-bench Verified में 74.5% कोड परफॉर्मेंस हासिल
- डीप रिसर्च और डेटा एनालिसिस क्षमता में, खासकर डिटेल ट्रैकिंग और agentic खोज में, उल्लेखनीय उन्नति देखी गई
- बड़े ओपन-सोर्स रिपॉज़िटरी में बग फिक्स़ करने वाले वास्तविक कोड-बेस्ड बेंचमार्क पर बहुत अच्छा स्कोर
- मल्टी-फाइल रिफैक्टरिंग, बड़े कोडबेस के अंदर प्रिसाइज़ डिबगिंग आदि परफॉर्मेंस वास्तविक डेवलपर वर्क में ऑप्टिमाइज़ की गई
- GitHub पर Opus 4.1 ने अधिकांश फीचर्स में पुराने Opus 4 से बेहतर परिणाम दिए, और खासकर मल्टी-फाइल कोड रिफैक्टरिंग में सबसे मजबूत सुधार दिखा
- Rakuten Group ने कहा कि Opus 4.1 विशाल कोडबेस में सिर्फ़ वही हिस्से बदलता है जो ज़रूरी हों, बिना अनावश्यक बदलाव या नए बग के और कोड स्टाइल भी बरकरार रखता है
- Windsurf के अनुसार उनके जूनियर डेवलपर बेंचमार्क में Opus 4.1 ने Opus 4 की तुलना में लगभग एक स्टैण्डर्ड डिविएशन सुधार दिखाया, और इसे Sonnet 3.7 से Sonnet 4 पर जाने जैसी बड़ी परफॉर्मेंस छलांग के बराबर माना
मुख्य बेंचमार्क-वार तुलना
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- पूर्ववर्ती Claude(Opus 4): 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → वास्तविक ओपन-सोर्स कोड मॉडिफिकेशन वर्क में सर्वाधिक सटीक परिणाम
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (शीर्ष)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (शीर्ष)
- Gemini 2.5 Pro: 86.4% (शीर्ष)
- Agentic tool use (TAU-bench)
- Retail परिदृश्य: Claude Opus 4.1 82.4% (शीर्ष), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Airline परिदृश्य: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro ने इस कैटेगरी का स्कोर प्रकाशित नहीं किया
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (शीर्ष)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: उपलब्ध नहीं
- Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (शीर्ष)
- Gemini 2.5 Pro: 82% (शीर्ष)
- High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (शीर्ष)
- Gemini 2.5 Pro: 88% (शीर्ष)
-
बेंचमार्क सारांश
- Claude Opus 4.1 ने पिछले संस्करण के मुकाबले हर क्षेत्र में स्थिर सुधार दिखाया और वास्तविक कोड ऑटोमेशन, मल्टी-फाइल रिफैक्टरिंग, मल्टीलिंगुअल QA और टूल उपयोग जैसे प्रैक्टिकल वर्कलोड में शीर्ष स्कोर दर्ज किया
- गणित, विज़ुअल रीज़निंग और हाई-लेवल रीज़निंग (GPQA) में OpenAI o3, Gemini 2.5 Pro कुछ मामलों में आगे हैं, जबकि वास्तविक कोड प्रोडक्टिविटी और मल्टी-लैंग्वेज QA में Claude Opus 4.1 सबसे आगे है
- Airline परिदृश्य (Agentic tool use) में हल्की गिरावट, और विज़ुअल रीज़निंग व गणित में अन्य मॉडल मामूली बढ़त में हैं
वास्तविक उपयोग और डिप्लॉयमेंट परिदृश्य
- मौजूदा Opus 4 उपयोगकर्ताओं को API पर
claude-opus-4-1-20250805 में सीधे अपग्रेड करने की सलाह दी गई है
- API, Claude Code, Amazon Bedrock, Google Vertex AI जैसे कई चैनल्स से तैनाती और उपयोग संभव है
- Opus 4 के समान ही प्राइसिंग पॉलिसी लागू, मौजूदा यूज़र्स को तुरंत अपग्रेड करने की सलाह
- सिस्टम कार्ड, मॉडल विवरण, प्राइसिंग, ऑफ़िशियल डॉक्यूमेंट्स के साथ विस्तृत बेंचमार्क और इवैल्यूएशन मेथड भी सार्वजनिक किए गए
भविष्य की योजनाएँ
- Opus 4.1 को कोडिंग और रीज़निंग क्षेत्रों के हालिया सुधारों को समेटने वाला एक माइल्ड अपग्रेड बताया गया है, और आने वाले कुछ हफ्तों में बड़ी छलांगों की उम्मीद जताई गई है
- यूज़र फीडबैक के आधार पर लगातार परफॉर्मेंस इम्प्रूवमेंट और फीचर एक्सटेंशन करने की योजना है
संदर्भ
- OpenAI o3, Gemini 2.5 Pro जैसे अन्य कंपनियों के नए मॉडलों के साथ तुलना डेटा स्रोत, बेंचमार्क परिणाम, और प्रत्येक मॉडल में एक्स्टेंडेड थिंकिंग उपयोग स्थिति तक को पारदर्शी तरीके से दिखाया गया
अभी कोई टिप्पणी नहीं है.