- बेहतर coding capabilities और long-term task persistence के साथ Anthropic का नवीनतम AI मॉडल, जो beta में 1M token context window को support करता है
- प्रमुख benchmarks में industry-leading score दर्ज करते हुए, GPT-5.2 पर लगभग 144 Elo points की बढ़त
- code review·debugging, large-scale codebase handling, financial analysis·document writing जैसे practical work-focused tasks में performance बेहतर हुई
- Adaptive thinking, context compaction, effort control जैसी developer control features जोड़ी गईं, जिससे long-running agents को चलाना आसान हुआ
- safety evaluation में भी कम errors·misuse·over-refusal rate के परिणाम दिखे, इसलिए इसे high performance और safety दोनों हासिल करने वाला मॉडल माना जा रहा है
Claude Opus 4.6 के प्रमुख सुधार
- Opus 4.6, पिछले version की तुलना में planning ability, agent persistence, code quality management में बेहतर मॉडल है
- बड़े codebase में अधिक स्थिरता से काम करता है, और अपनी errors को पहचानने व ठीक करने की क्षमता मजबूत हुई है
- 1M token context window (beta) के साथ long-form और complex tasks को संभाल सकता है
- दैनिक काम में उपयोगिता भी बढ़ी है, जिससे financial analysis, research, documents, spreadsheets, presentations generation जैसे कई तरह के काम किए जा सकते हैं
- Cowork environment में multitasking को autonomously पूरा कर सकता है, और user की ओर से complex work संभाल सकता है
Benchmark और performance evaluation
- Terminal-Bench 2.0 में सर्वोच्च score, और Humanity’s Last Exam में भी सभी frontier models में शीर्ष स्थान
- GDPval-AA evaluation में GPT-5.2 से लगभग 144 Elo points और Opus 4.5 से 190 points बेहतर performance
- BrowseComp test में भी सर्वोच्च performance दर्ज, जिससे online information search capability मजबूत हुई
- MRCR v2 (1M variant) में 76% score, जो Sonnet 4.5 के 18.5% की तुलना में बड़ा सुधार है
- लंबे context को बनाए रखने और information tracking की क्षमता बेहतर हुई, जिससे context rot की समस्या कम हुई
शुरुआती उपयोग अनुभव और partner feedback
- internal engineering tests में complex problem-solving और judgment बेहतर पाए गए
- कठिन समस्याओं में यह गहराई से बार-बार सोचकर बेहतर परिणाम निकालता है
- सरल tasks में कभी-कभी अधिक सोचने के कारण देरी हो सकती है, जिसे
/effort parameter से adjust किया जा सकता है
- शुरुआती partners ने Opus 4.6 को autonomous execution ability, complex request handling, team collaboration support में उत्कृष्ट बताया
- बड़े codebase की खोज, parallel subtask execution, blocker identification जैसे कामों में सटीक performance
- legal, finance, और technical content analysis में उच्च accuracy (उदाहरण: BigLaw Bench 90.2%)
- वास्तविक tests में 40 में से 38 cybersecurity investigations में Opus 4.5 से बेहतर परिणाम
- लाखों lines के code migration को आधे समय में पूरा करने के case report किए गए
Safety और security मजबूती
- automated behavior audit में deception, sycophancy, misuse cooperation जैसे misaligned behavior का अनुपात कम रहा
- over-refusal rate सबसे कम वाला Claude मॉडल
- user welfare, risky request refusal, और covert harmful behavior detection जैसे नए safety evaluations किए गए
- interpretability research के जरिए मॉडल के अंदरूनी कामकाज के कारणों का विश्लेषण और संभावित समस्याओं की पहचान
- cybersecurity capability enhancement के साथ 6 नए security probes जोड़े गए, ताकि misuse detection और मजबूत हो
- defensive use के रूप में open source vulnerabilities की पहचान और patch support, तथा भविष्य में real-time misuse blocking की योजना
Product और API updates
- Claude Developer Platform में निम्न features जोड़े गए
- Adaptive thinking: मॉडल स्थिति के अनुसार खुद तय करता है कि गहराई से सोचना है या नहीं
- Effort level: low, medium, high (default), max — चार स्तर उपलब्ध
- Context compaction (beta): बातचीत लंबी होने पर पुराने context को summarize और replace करता है
- 1M token context (beta) और 128k output tokens support
- US-only inference option उपलब्ध (1.1x pricing)
- Claude Code में agent teams feature जोड़ा गया, जिससे कई agents parallel collaboration कर सकते हैं
- Claude in Excel में unstructured data structuring और multi-step change handling की क्षमता बेहतर हुई
- Claude in PowerPoint (research preview) slides templates, fonts, layouts को पहचानकर brand consistency बनाए रखता है
Access और pricing
- Opus 4.6 अब claude.ai, API, और प्रमुख cloud platforms पर तुरंत उपलब्ध है
- API model name
claude-opus-4-6 है, और pricing $5/$25 per million tokens पहले जैसी ही है
- 200k tokens से बड़े prompts पर premium pricing ($10/$37.50 per million tokens) लागू होगी
निष्कर्ष
- Claude Opus 4.6 ने long-context handling, autonomous agent work, advanced reasoning में बड़ी छलांग लगाई है
- performance, safety, और developer controllability तीनों को मजबूत करने वाले मॉडल के रूप में, यह practical AI tools के लिए एक नया मानक पेश करता है
अभी कोई टिप्पणी नहीं है.