- कोड लिखने, कंप्यूटर उपयोग, लंबी अवधि की reasoning, agent planning, knowledge work, design आदि सभी क्षेत्रों में प्रदर्शन बेहतर हुआ Anthropic के नवीनतम Sonnet मॉडल में
- 1M token context window को सपोर्ट करता है, और Sonnet 4.5 की तुलना में consistency, instruction following, और code quality में बड़ा सुधार हुआ है
- Opus 4.5 स्तर की intelligence को कम लागत पर उपलब्ध कराता है, और वास्तविक कार्य, दस्तावेज़ समझ, front-end design आदि में मानव-स्तर के परिणाम दिखाता है
- OSWorld benchmark में कंप्यूटर उपयोग क्षमता लगातार बेहतर हुई है, और prompt injection defense भी मजबूत हुई है
- मुख्य बात यह है कि अब developer और enterprise उच्च-लागत मॉडल के बिना भी frontier-grade reasoning और code quality का उपयोग कर सकते हैं
Claude Sonnet 4.6 अवलोकन
- Sonnet 4.6, Anthropic का सबसे शक्तिशाली Sonnet series model है, जिसमें coding, computer use, long-horizon reasoning, knowledge work, design आदि की समग्र क्षमता अपग्रेड की गई है
- 1M token context window (beta) को सपोर्ट करता है, जिससे बड़े codebase या लंबे दस्तावेज़ एक बार में प्रोसेस किए जा सकते हैं
- Free और Pro plan उपयोगकर्ताओं के लिए default model के रूप में लागू, और कीमत Sonnet 4.5 जैसी ही प्रति 10 लाख token $3/$15 रखी गई है
- शुरुआती उपयोगकर्ताओं ने Sonnet 4.6 को Sonnet 4.5 से भारी रूप से अधिक पसंद किया, और कुछ ने Opus 4.5 से भी अधिक पसंद किया
- सुरक्षा मूल्यांकन के परिणाम के अनुसार, यह पिछले मॉडल से अधिक सुरक्षित या कम से कम समान स्तर पर है, और इसे “warm, honest, and prosocial personality” वाला माना गया
कंप्यूटर उपयोग क्षमता
- Sonnet 4.6 एक ऐसे मॉडल के रूप में विकसित हुआ है जो मानव की तरह कंप्यूटर संचालित कर सकता है
- Chrome, LibreOffice, VS Code जैसे वास्तविक software को virtual environment में ऑपरेट करते हुए OSWorld benchmark से इसका मूल्यांकन किया गया
- 16 महीनों के लगातार प्रदर्शन सुधार के साथ, जटिल spreadsheet navigation और multi-step web form filling जैसे कार्यों में मानव-स्तर की क्षमता देखी गई
- अभी भी यह सबसे उच्च-कुशल मानव से पीछे है, लेकिन कार्य दक्षता में सुधार की गति बहुत तेज़ है
- prompt injection attacks के खिलाफ रक्षा Sonnet 4.5 की तुलना में काफी बेहतर हुई है, जिससे Opus 4.6 के समान स्तर की सुरक्षा मिली है
प्रदर्शन मूल्यांकन और benchmark
- Sonnet 4.6 Opus-स्तर की intelligence को कम लागत पर उपलब्ध कराता है, और विभिन्न benchmark में समग्र सुधार दिखाता है
- Claude Code test में 70% उपयोगकर्ताओं ने Sonnet 4.6 को पसंद किया, खासकर code edits के दौरान context understanding और duplication को कम करने की क्षमता के लिए
- Opus 4.5 की तुलना में 59% preference, overengineering और laziness जैसे व्यवहार कम हुए, और instruction following accuracy बेहतर हुई
- Vending-Bench Arena में लंबी अवधि के business simulation के दौरान शुरुआती निवेश के बाद बाद के लाभ पर फोकस करने की रणनीति से इसने प्रतिस्पर्धी मॉडलों को पीछे छोड़ा
- OfficeQA में Opus 4.6 के बराबर document understanding, और Financial Services Benchmark में answer match rate बढ़ी
- insurance benchmark में 94% accuracy, और Box test में 15% बेहतर deep reasoning performance दर्ज की गई
- Rakuten AI test में उच्च-स्तरीय iOS code generation, modern tooling के उपयोग और architecture quality में सुधार देखा गया
प्रोडक्ट और प्लेटफ़ॉर्म अपडेट
- Claude Developer Platform में adaptive thinking, extended thinking, context compaction(beta) का सपोर्ट
- पुराने context को अपने आप summarize करके effective context length बढ़ाई जाती है
- API tool updates:
- web search और fetch स्वतः code लिखते और चलाते हैं ताकि search results को फ़िल्टर किया जा सके
- code execution, memory, programmatic tool calling, tool search जैसी सुविधाएँ अब सामान्य रूप से उपलब्ध हैं
- Claude in Excel add-in में MCP connector सपोर्ट, जिससे S&P Global, LSEG, PitchBook जैसे बाहरी data के साथ integration संभव है
- Sonnet 4.6 extended thinking के बिना भी उच्च प्रदर्शन बनाए रखता है, और Sonnet 4.5 उपयोगकर्ताओं को migration की सिफारिश की गई है
- Opus 4.6 अभी भी उन कार्यों के लिए अधिक उपयुक्त है जहाँ सबसे गहरी reasoning चाहिए, जैसे code refactoring, multi-agent coordination आदि
उपलब्धता के मार्ग
- Sonnet 4.6 सभी Claude plans, Claude Cowork, Claude Code, API, और प्रमुख cloud platforms पर उपलब्ध है
- free plan भी Sonnet 4.6 में अपग्रेड, जिसमें file creation, connectors, skills, और compaction features शामिल हैं
- developer
claude-sonnet-4-6 model name के जरिए Claude API में तुरंत उपयोग कर सकते हैं
प्रमुख आँकड़े और मूल्यांकन संकेतक (footnote summary)
- OSWorld: वास्तविक software-आधारित कंप्यूटर कार्य मूल्यांकन, Sonnet 4.6 को ‘thinking off’ स्थिति में मापा गया
- SWE-bench Verified: 10 बार के औसत में 80.2% स्कोर
- ARC-AGI-2: maximum effort mode में 60.4% हासिल
- MMMU-Pro: evaluation method में सुधार के बाद score समायोजित किया गया
- Humanity’s Last Exam, BrowseComp सहित विभिन्न प्रयोगों में tool use, web search, context compaction features enabled स्थिति में परीक्षण किया गया
अभी कोई टिप्पणी नहीं है.