7 पॉइंट द्वारा GN⁺ 2025-08-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Claude Opus 4.1 एक ऐसा अपग्रेडेड वर्ज़न है जिसमें रियल-टाइम कोडिंग, एजेंटिक वर्क और रीज़निंग क्षमता और बेहतर हो गई है
  • SWE-bench Verified में इसने 74.5% की सर्वोच्च कोड परफॉर्मेंस हासिल की और बड़े कोडबेस में सटीक डिबगिंग, मल्टी-फाइल रिफैक्टरिंग जैसे कामों में शानदार नतीजे दिखाए
  • वास्तविक Rakuten, GitHub, Windsurf जैसे उपयोगकर्ताओं से कोड सुधार की सटीकता, रोज़मर्रा की डिबगिंग में एफिशिएंसी और जूनियर डेवलपर बेंचमार्क में स्पष्ट सुधार के लिए सकारात्मक फीडबैक मिला
  • मल्टी-फाइल रिफैक्टरिंग और डिटेल्ड कोड सुधारों में वास्तविक डेवलपमेंट एनवायरनमेंट के लिए और अधिक परिशुद्ध प्रदर्शन दिखा
  • यदि आप पहले से Opus 4 यूज़र हैं, तो बिना अतिरिक्त खर्च के API, Claude Code, Amazon Bedrock, Google Vertex AI पर तुरंत उपयोग कर सकते हैं

Claude Opus 4.1 के मुख्य फीचर्स

  • पहले के Claude Opus 4 की तुलना में agentic वर्क, वास्तविक कोड जनरेशन और कॉम्प्लेक्स रीज़निंग में परफॉर्मेंस बेहतर हुई है
  • आने वाले कुछ हफ्तों में मॉडल में और भी बड़े स्केल के सुधार घोषित हैं

मुख्य सुधार

  • SWE-bench Verified में 74.5% कोड परफॉर्मेंस हासिल
    • डीप रिसर्च और डेटा एनालिसिस क्षमता में, खासकर डिटेल ट्रैकिंग और agentic खोज में, उल्लेखनीय उन्नति देखी गई
    • बड़े ओपन-सोर्स रिपॉज़िटरी में बग फिक्स़ करने वाले वास्तविक कोड-बेस्ड बेंचमार्क पर बहुत अच्छा स्कोर
  • मल्टी-फाइल रिफैक्टरिंग, बड़े कोडबेस के अंदर प्रिसाइज़ डिबगिंग आदि परफॉर्मेंस वास्तविक डेवलपर वर्क में ऑप्टिमाइज़ की गई
    • GitHub पर Opus 4.1 ने अधिकांश फीचर्स में पुराने Opus 4 से बेहतर परिणाम दिए, और खासकर मल्टी-फाइल कोड रिफैक्टरिंग में सबसे मजबूत सुधार दिखा
    • Rakuten Group ने कहा कि Opus 4.1 विशाल कोडबेस में सिर्फ़ वही हिस्से बदलता है जो ज़रूरी हों, बिना अनावश्यक बदलाव या नए बग के और कोड स्टाइल भी बरकरार रखता है
    • Windsurf के अनुसार उनके जूनियर डेवलपर बेंचमार्क में Opus 4.1 ने Opus 4 की तुलना में लगभग एक स्टैण्डर्ड डिविएशन सुधार दिखाया, और इसे Sonnet 3.7 से Sonnet 4 पर जाने जैसी बड़ी परफॉर्मेंस छलांग के बराबर माना

मुख्य बेंचमार्क-वार तुलना

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • पूर्ववर्ती Claude(Opus 4): 72.5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • वास्तविक ओपन-सोर्स कोड मॉडिफिकेशन वर्क में सर्वाधिक सटीक परिणाम
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (शीर्ष)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • Graduate-level reasoning (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (शीर्ष)
    • Gemini 2.5 Pro: 86.4% (शीर्ष)
  • Agentic tool use (TAU-bench)
    • Retail परिदृश्य: Claude Opus 4.1 82.4% (शीर्ष), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • Airline परिदृश्य: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro ने इस कैटेगरी का स्कोर प्रकाशित नहीं किया
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (शीर्ष)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: उपलब्ध नहीं
  • Visual reasoning (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (शीर्ष)
    • Gemini 2.5 Pro: 82% (शीर्ष)
  • High school math competition (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (शीर्ष)
    • Gemini 2.5 Pro: 88% (शीर्ष)
  • बेंचमार्क सारांश

    • Claude Opus 4.1 ने पिछले संस्करण के मुकाबले हर क्षेत्र में स्थिर सुधार दिखाया और वास्तविक कोड ऑटोमेशन, मल्टी-फाइल रिफैक्टरिंग, मल्टीलिंगुअल QA और टूल उपयोग जैसे प्रैक्टिकल वर्कलोड में शीर्ष स्कोर दर्ज किया
    • गणित, विज़ुअल रीज़निंग और हाई-लेवल रीज़निंग (GPQA) में OpenAI o3, Gemini 2.5 Pro कुछ मामलों में आगे हैं, जबकि वास्तविक कोड प्रोडक्टिविटी और मल्टी-लैंग्वेज QA में Claude Opus 4.1 सबसे आगे है
    • Airline परिदृश्य (Agentic tool use) में हल्की गिरावट, और विज़ुअल रीज़निंग व गणित में अन्य मॉडल मामूली बढ़त में हैं

वास्तविक उपयोग और डिप्लॉयमेंट परिदृश्य

  • मौजूदा Opus 4 उपयोगकर्ताओं को API पर claude-opus-4-1-20250805 में सीधे अपग्रेड करने की सलाह दी गई है
  • API, Claude Code, Amazon Bedrock, Google Vertex AI जैसे कई चैनल्स से तैनाती और उपयोग संभव है
  • Opus 4 के समान ही प्राइसिंग पॉलिसी लागू, मौजूदा यूज़र्स को तुरंत अपग्रेड करने की सलाह
  • सिस्टम कार्ड, मॉडल विवरण, प्राइसिंग, ऑफ़िशियल डॉक्यूमेंट्स के साथ विस्तृत बेंचमार्क और इवैल्यूएशन मेथड भी सार्वजनिक किए गए

भविष्य की योजनाएँ

  • Opus 4.1 को कोडिंग और रीज़निंग क्षेत्रों के हालिया सुधारों को समेटने वाला एक माइल्ड अपग्रेड बताया गया है, और आने वाले कुछ हफ्तों में बड़ी छलांगों की उम्मीद जताई गई है
  • यूज़र फीडबैक के आधार पर लगातार परफॉर्मेंस इम्प्रूवमेंट और फीचर एक्सटेंशन करने की योजना है

संदर्भ

  • OpenAI o3, Gemini 2.5 Pro जैसे अन्य कंपनियों के नए मॉडलों के साथ तुलना डेटा स्रोत, बेंचमार्क परिणाम, और प्रत्येक मॉडल में एक्स्टेंडेड थिंकिंग उपयोग स्थिति तक को पारदर्शी तरीके से दिखाया गया

1 टिप्पणियां

 
GN⁺ 2025-08-06
Hacker News टिप्पणियाँ
  • तीन बड़े लैब्स ने कुछ घंटों के अंतर से लगभग एक साथ कुछ न कुछ लॉन्च कर दिया—यह किसी ऐनिमेशन के पागलपन भरे मोड़ जैसा लगा.

    • शायद इसी वजह से PR टीमें अस्तित्व में हैं; HN की मुख्य पेज या किसी न्यूज़ साइट पर नज़र आना बेहद ज़रूरी है, क्योंकि अगर नंबर 1 न भी मिल सके तो भी प्रतिस्पर्धियों का फोकस बाँटना पड़ता है।
    • GPT-5 की अफ़वाहों को देखें तो अभी तो अभी-अभी अगस्त की शुरुआत ही लगी है.
    • ऐसे समय में जीना ही हैरान करने वाला लगता है.
    • लगता है प्रतिस्पर्धी पहले announce करें और फिर साथ में launch करके मार्केट को यह तय करने दें कि क्या सबसे अच्छा है.
    • मुझे लगता है यह निश्चित रूप से कोई संयोग नहीं है.
  • Opus 4(.1) सच में बहुत महंगा है लिंक, Sonnet भी OpenRouter + Codename Goose लिंक से करीब $5/घंटा पड़ता है; जो चौंकाने वाली बात है कि Sonnet 3.5 भी लिंक में लगभग वही कीमत रखता है, Gemini Flash लिंक अपेक्षाकृत सस्ता लगता है, लेकिन फिर भी मैं सही फैसला नहीं कर पाता और उलझा रहता हूँ; OpenAI बुरा नहीं, पर Claude की performance तक नहीं पहुँचता; हाँ, Claude में बीच में CTRL-C दबाने पर API से 400 error वापस आती है, जिससे झंझट होता है। मुझे cost efficiency ज्यादा महत्वपूर्ण लगती है और value-for-money में OpenAI ChatGPT 4.1 mini लिंक सबसे बेहतर लगा, क्योंकि इसमें बेकार token खर्च नहीं होता और API भी हमेशा ठीक से चलता है; कभी-कभी यह उलझता है, लेकिन किसी तरह हल कर देता है

    • बड़े मॉडल को मैं मॉडल क्वेरी के लिए और छोटे मॉडल को context query के लिए सोचता हूँ; सही niche में Opus लगाओ तो यह भी सस्ता पड़ सकता है.
    • Claude Code को subscription पर इस्तेमाल करने से बहुत ज्यादा आसान pricing मिलती है; मैं Max subscription पर दिनभर Claude Code चलाता हूँ फिर भी पिछले दो हफ्तों में सिर्फ दो बार usage limit hit हुई है.
    • हर बार जब भी मैंने मूल्य तुलना की, Claude API ही हमेशा सबसे सस्ता निकला; context cache को सही तरीके से चलाने पर input cost लगभग 90% तक कम हो सकती है, और यह बड़ा बदलाव है.
    • GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5 जैसे विकल्प भी हैं—बस मैं यह mention करना चाहता हूँ.
  • Opus को coding में लगभग हर पहलू पर बेहतर बताया गया, लेकिन practically मुझे तो Sonnet ही कहीं ज्यादा बेहतर लगता है; क्या किसी ने पूरी तरह Sonnet से Opus पर switch किया है, या सिर्फ कुछ कामों में Opus use करता है?

    • Opus तकनीकी रूप से बेहतर हो सकता है, लेकिन वास्तविक उपयोग में बड़ा अंतर महसूस नहीं होता। एक ही कोशिश में किसी मुश्किल implementation को LLM से ठीक करवाना लगभग असंभव है क्योंकि चीज़ें बहुत ज़्यादा बतानी पड़ती हैं; अंत में सही उत्तर को पहचानने के लिए मुझे खुद code में digging करके देखना पड़ता है। Opus चाहे कितना ही चकाचौंध करने वाला जवाब दे दे, मुझे समझना पड़ता है कि ऐसा क्यों हुआ और यह मेरे context में क्यों सही है। मेरे काम का अधिकतर हिस्सा छोटे-छोटे iterative steps का होता है, इसलिए Sonnet काफी पर्याप्त है.
    • Sonnet जब अचानक अजीब हो जाए (दिन में एक-दो बार), Opus पर switch करने से issue जल्दी ठीक होता लगता है; निश्चित तौर पर यह अनवैज्ञानिक अनुभव है, और शायद किसी भी मॉडल बदलने से ही फर्क दिखता हो।
    • “Sonnet बेहतर है” वाली बात इसलिए ज्यादा घूमती दिखती है क्योंकि इसके पीछे scientific proof नहीं, जबकि बड़ा मॉडल अच्छा होगा यह तो obvious है इसलिए शायद लोग उसे बोलते नहीं। उल्टा “छोटा मॉडल बेहतर हो सकता है” वाला advice जैसा लगता है। मैंने कल थोड़ा खोजा था; लोगों की राय अलग थी। असली takeaway बस यह है कि Max प्लान में Opus से थोड़ी देर Sonnet पर गिरने पर भी quality drop को लेकर ज्यादा चिंता करने की जरूरत नहीं.
    • Opus शायद जटिल, multi-step समस्या समाधान और लंबी context tracking वाले कामों में बेहतर है, इसलिए कठिन केस में मैं सिर्फ Opus इस्तेमाल करता हूँ और बाकी Sonnet पर छोड़ देता हूँ; आमतौर पर पर्याप्त रहता है और token limits से भी कम टकराव होता है.
    • मेरे केस में Max plan पर Opus की output quality Sonnet से थोड़ी बेहतर लगती है, पर यह तभी जब Opus उपलब्ध हो। मज़ेदार यह कि Max plan में होने के बाद भी usage limit जल्दी लग जाती है; कल ऑफिस पहुंचते ही कुछ मिनटों में ही quota पूरी हो गई थी.
  • Opus 4.1 Opus 4 जैसा ही महसूस होता है, बल्कि token खर्च करने की गति और तेज़ हो गई है; अगर usage दिखाई दे तो अच्छा होगा। कम से कम Sonnet 4 अभी भी कामचलाऊ है, मगर outputs धीरे-धीरे धुंधले हो रहे हैं; आज सुबह मैंने अपने कई घंटे Claude Code में waste कर दिए—सोचता हूँ कि सीधे खुद करता तो बेहतर होता.

    • मैं भी महसूस कर रहा हूँ कि Sonnet की performance गिर रही है: उत्तर लंबे होते जा रहे हैं, fillers बढ़ गए हैं, हर चीज़ को सूची में बदलने की कोशिश करता है, और कभी-कभी इतना सहमत हो जाता है कि लगता है competitors को खुश करने की आदत पड़ गई है.
    • लगता है project बड़ा हो गया है; Claude Code को 2,000 लाइन से बढ़कर 100,000+ लाइन वाला प्रोजेक्ट ट्रैक करते हुए शायद naturally भारी लगता है.
    • नया Opus 4.1 पहली बातचीत में ही पूरा web app बना देने पर उतर आता है, लेकिन पुराने jammed bot से अलग यह context जल्दी पकड़ता है, सही सवाल पूछकर update docs भी पूरा कर देता है। पहले हर chat में वही explanation दोहराना पड़ता था जो बहुत irritate करता था, अब नहीं होता। हाँ, token burn-rate निश्चित रूप से तेज़ है, इसलिए पहले की तरह कई घंटे chat करना मुश्किल हो गया। खैर, अगर यह अंतिम task को token खत्म होने से पहले पूरा कर दे तो मैं happy हूँ.
    • “आज सुबह Claude Code में बर्बाद हो गई” वाली लाइन पर Welcome to the machine
  • नए मॉडल के साथ Claude Plays Pokemon स्ट्रीम फिर से शुरू हो गई लिंक, पहले मैं Team Rocket के छिपे हुए स्थान में कई हफ्तों से फँसा हुआ था.

  • आर्टिकल में लाइन थी कि “कुछ हफ्तों में मॉडल में बड़ा सुधार आएगा”; हमारे product में Sonnet 4 सबसे उपयुक्त था, लेकिन Haiku 4 (या 4.1) की कीमत कम लग रही है इसलिए इसे एक बार जरूर try करना चाहता हूँ; Anthropic का इस बार Haiku 4 पर बिल्कुल भी mention न करना सच में unexpected लगा.

  • आज Claude के साथ मेरा शायद अब तक का सबसे खराब दिन रहा, बस सब कुछ गड़बड़ था। पता नहीं यह आज की deployment की वजह थी या नहीं, लेकिन docs में गालियाँ दिखीं और कई घंटों तक घूमने के बाद भी bug नहीं सुलझा.

  • मुझे आर्टिकल की उस लाइन में सबसे ज्यादा दिलचस्पी है कि “कुछ हफ्तों में मॉडल में बड़ा सुधार” होगा.

    • मुझे लगता है यह basically लोगों को यह कहने का तरीका है कि अभी सीधे GPT-5 पर jump मत करिए.
  • इस अपडेट में उनके हिसाब से भी लगभग कोई सुधार नहीं है; बुरा नहीं है, लेकिन शायद कोई भी clear difference महसूस नहीं करेगा.

    • शायद यह ज्यादातर vibe का फर्क है, पर मुझे लगता है वह भी important है; official benchmark में नहीं दिखता, लेकिन Opus 4.1 ने Junior Developer benchmark में Opus 4 से लगभग 1 standard deviation की performance बढ़ाई, जो Sonnet 3.7 से Sonnet 4 तक के jump जैसा स्तर है.
    • मैंने अभी proper टेस्ट नहीं किया, लेकिन output quality में स्पष्ट अंतर नहीं दिखा; हाँ, दिए गए document और instructions को बेहतर follow करता महसूस होता है, बस अभी इसे quantify या objective तरीके से verify नहीं किया। Opus 4.1 सिर्फ needles-in-the-haystack खोजने में ही नहीं, बिना सीधे कहे भी ऐसे चीज़ों को बेहतर follow करता लगता है.
    • इसलिए शायद नाम 4.1 रखा गया है, 4.5 नहीं.
    • लगता है आगे 10 और models लॉन्च करने की जगह छोड़ रखी है; अगर benchmarks को 100% कर दिया जाए तो नए model की जरूरत नहीं पड़ेगी, इसलिए शायद deliberate score-tuning जैसा थोड़ा marketing feel आता है। वैसे भी training dataset लगभग वही समस्याएं हल करता है, इसलिए पूरी तरह नए प्रश्नों पर कमज़ोर रहना तय है.
    • Scorecard image में सिर्फ Opus 4.1 को highlight किया गया था—यह मज़ेदार लगा। Opus 4.1 सिर्फ लगभग आधे benchmarks में top score पर था, बाकी में नहीं, या कुछ में तो Opus 4.0 से नीचे भी था, जबकि rival models के scores दिखाए ही नहीं गए.
  • अगर Opus और Sonnet दोनों ही महंगे हैं, तो मुझे लगता है कि Opus consumption कभी भी Sonnet को cross नहीं कर पाएगा। OpenRouter रैंकिंग लिंक देखें तो Sonnet 3.7 और 4 मिलकर Opus 4 से लगभग 17x ज्यादा tokens process कर रहे हैं.