Claude Opus 4.6 जारी
(anthropic.com)- बेहतर coding capabilities और long-term task persistence के साथ Anthropic का नवीनतम AI मॉडल, जो beta में 1M token context window को support करता है
- प्रमुख benchmarks में industry-leading score दर्ज करते हुए, GPT-5.2 पर लगभग 144 Elo points की बढ़त
- code review·debugging, large-scale codebase handling, financial analysis·document writing जैसे practical work-focused tasks में performance बेहतर हुई
- Adaptive thinking, context compaction, effort control जैसी developer control features जोड़ी गईं, जिससे long-running agents को चलाना आसान हुआ
- safety evaluation में भी कम errors·misuse·over-refusal rate के परिणाम दिखे, इसलिए इसे high performance और safety दोनों हासिल करने वाला मॉडल माना जा रहा है
Claude Opus 4.6 के प्रमुख सुधार
- Opus 4.6, पिछले version की तुलना में planning ability, agent persistence, code quality management में बेहतर मॉडल है
- बड़े codebase में अधिक स्थिरता से काम करता है, और अपनी errors को पहचानने व ठीक करने की क्षमता मजबूत हुई है
- 1M token context window (beta) के साथ long-form और complex tasks को संभाल सकता है
- दैनिक काम में उपयोगिता भी बढ़ी है, जिससे financial analysis, research, documents, spreadsheets, presentations generation जैसे कई तरह के काम किए जा सकते हैं
- Cowork environment में multitasking को autonomously पूरा कर सकता है, और user की ओर से complex work संभाल सकता है
Benchmark और performance evaluation
- Terminal-Bench 2.0 में सर्वोच्च score, और Humanity’s Last Exam में भी सभी frontier models में शीर्ष स्थान
- GDPval-AA evaluation में GPT-5.2 से लगभग 144 Elo points और Opus 4.5 से 190 points बेहतर performance
- BrowseComp test में भी सर्वोच्च performance दर्ज, जिससे online information search capability मजबूत हुई
- MRCR v2 (1M variant) में 76% score, जो Sonnet 4.5 के 18.5% की तुलना में बड़ा सुधार है
- लंबे context को बनाए रखने और information tracking की क्षमता बेहतर हुई, जिससे context rot की समस्या कम हुई
शुरुआती उपयोग अनुभव और partner feedback
- internal engineering tests में complex problem-solving और judgment बेहतर पाए गए
- कठिन समस्याओं में यह गहराई से बार-बार सोचकर बेहतर परिणाम निकालता है
- सरल tasks में कभी-कभी अधिक सोचने के कारण देरी हो सकती है, जिसे
/effortparameter से adjust किया जा सकता है
- शुरुआती partners ने Opus 4.6 को autonomous execution ability, complex request handling, team collaboration support में उत्कृष्ट बताया
- बड़े codebase की खोज, parallel subtask execution, blocker identification जैसे कामों में सटीक performance
- legal, finance, और technical content analysis में उच्च accuracy (उदाहरण: BigLaw Bench 90.2%)
- वास्तविक tests में 40 में से 38 cybersecurity investigations में Opus 4.5 से बेहतर परिणाम
- लाखों lines के code migration को आधे समय में पूरा करने के case report किए गए
Safety और security मजबूती
- automated behavior audit में deception, sycophancy, misuse cooperation जैसे misaligned behavior का अनुपात कम रहा
- over-refusal rate सबसे कम वाला Claude मॉडल
- user welfare, risky request refusal, और covert harmful behavior detection जैसे नए safety evaluations किए गए
- interpretability research के जरिए मॉडल के अंदरूनी कामकाज के कारणों का विश्लेषण और संभावित समस्याओं की पहचान
- cybersecurity capability enhancement के साथ 6 नए security probes जोड़े गए, ताकि misuse detection और मजबूत हो
- defensive use के रूप में open source vulnerabilities की पहचान और patch support, तथा भविष्य में real-time misuse blocking की योजना
Product और API updates
- Claude Developer Platform में निम्न features जोड़े गए
- Adaptive thinking: मॉडल स्थिति के अनुसार खुद तय करता है कि गहराई से सोचना है या नहीं
- Effort level: low, medium, high (default), max — चार स्तर उपलब्ध
- Context compaction (beta): बातचीत लंबी होने पर पुराने context को summarize और replace करता है
- 1M token context (beta) और 128k output tokens support
- US-only inference option उपलब्ध (1.1x pricing)
- Claude Code में agent teams feature जोड़ा गया, जिससे कई agents parallel collaboration कर सकते हैं
- Claude in Excel में unstructured data structuring और multi-step change handling की क्षमता बेहतर हुई
- Claude in PowerPoint (research preview) slides templates, fonts, layouts को पहचानकर brand consistency बनाए रखता है
Access और pricing
- Opus 4.6 अब claude.ai, API, और प्रमुख cloud platforms पर तुरंत उपलब्ध है
- API model name
claude-opus-4-6है, और pricing $5/$25 per million tokens पहले जैसी ही है - 200k tokens से बड़े prompts पर premium pricing ($10/$37.50 per million tokens) लागू होगी
निष्कर्ष
- Claude Opus 4.6 ने long-context handling, autonomous agent work, advanced reasoning में बड़ी छलांग लगाई है
- performance, safety, और developer controllability तीनों को मजबूत करने वाले मॉडल के रूप में, यह practical AI tools के लिए एक नया मानक पेश करता है
9 टिप्पणियां
Max इस्तेमाल कर रहा हूँ, और पता नहीं क्यों, जितने ज़्यादा tokens खर्च होते हैं उतनी ही तसल्ली होती है... नहीं इस्तेमाल करूँ तो लगता है बेकार जा रहे हैं...
इंटरनेट पर घूम रही कीमत कटौती की बात लागू नहीं हुई लगती है हु
ऐसा लग रहा है कि Reddit पर ऐसी पोस्ट्स की बाढ़ आ रही है कि subscribers की limits बहुत तेज़ी से खत्म हो रही हैं.
मेरे पास भी करने के लिए काम है, इसलिए मैं बस 4.5 ही इस्तेमाल कर रहा हूँ
लगता है कि सीमित अवधि के लिए 50 डॉलर के अतिरिक्त usage credits भी दे रहे हैं। हाहा
उम्मीद थी कि API की कीमत कम होने पर साप्ताहिक सीमा भी स्वाभाविक रूप से बढ़ जाएगी, लेकिन अफसोस है... 200 डॉलर प्लान की साप्ताहिक सीमा उतनी आरामदायक नहीं है..
उफ़, बहुत कंजूसी है.. Anthropic को token थोड़े खुलकर देने चाहिए..!!
ओओ आखिरकार~~~~
मैं Sonnet 5 की उम्मीद कर रहा था, लेकिन निकला Opus 4.6 हाहा
Hacker News की राय
साइकिल का फ्रेम थोड़ा टेढ़ा है, लेकिन pelican खुद शानदार है
तस्वीर यहाँ देखी जा सकती है
मैंने तुरंत नोटिस किया कि pelican की दोनों टाँगें एक ही तरफ हैं, फिर Wikipedia पर जाकर पुष्टि की कि असल में ऐसा नहीं होता
यह भी जानना चाहूँगा कि क्या किसी ने prompt को बार-बार सुधारकर ज़्यादा यथार्थवादी नतीजा पाने का प्रयोग किया है
वे अक्सर फ्रेम की संरचना या ज्यामितीय अनुपात गलत कर देते हैं
लिंक
GPT‑5.3 Codex ने Terminal Bench में 77.3% के साथ जबरदस्त प्रदर्शन किया
हैरानी की बात है कि रिकॉर्ड सिर्फ 35 मिनट में टूट गया
क्या लॉन्च के तुरंत बाद इसे सबसे अच्छे प्रदर्शन पर चलाया जाता है और बाद में लागत बचाने के लिए घटा दिया जाता है?
खुद इस्तेमाल करने के बाद राय साझा करना चाहूँगा
कहीं हम benchmark saturation तक तो नहीं पहुँच गए?
Claude Code के release notes का सार है
इसमें Opus 4.6, multi-agent collaboration feature, automatic memory logging, partial conversation summary, VSCode improvements जैसी कई updates शामिल हैं
memory feature docs देखने पर यह Google Antigravity के Knowledge artifact जैसा कॉन्सेप्ट लगता है
मुझे लगता है कि चर्चा में दो चीज़ें गड्डमड्ड हो रही हैं
पहली है token unit price based profitability, दूसरी है model lifecycle economics
inference unit price मुनाफे में हो सकती है, लेकिन पूरा model program फिर भी घाटे में हो सकता है
असली सवाल यह है कि “किसी मॉडल को आर्थिक रूप से सही ठहरने के लिए कितने समय तक प्रतिस्पर्धी रहना होगा?”
सबसे बेहतर न होकर भी अगर चीज़ पर्याप्त अच्छी हो और switching cost ऊँची हो, तो वह बाज़ार पर कब्ज़ा कर सकती है
शुरुआत में नुकसान उठाकर भी किसी खास domain (जैसे coding) में बाज़ार पकड़ना तर्कसंगत हो सकता है
लेकिन ऐसा प्लान जिसमें usage 20 गुना बढ़ जाए, उसकी sustainability संदिग्ध लगती है
पता नहीं मौजूदा “vibe-coding renaissance” इस cost structure पर टिक पाएगा या नहीं
AI कंपनियों के लिए साल-दर-साल P&L से देखना उचित नहीं है
यही अभी agent-style coding boom को सहारा दे रहा है
शायद कुछ हद तक subsidized है, लेकिन लंबी अवधि में इसकी कीमत लगभग 2 गुना बढ़ सकती है
1M context window आना बहुत बड़ा upgrade है, इससे मैं बेहद खुश हूँ
Anthropic की strategy अब भी ठीक से समझ नहीं आती
marketing तो mass market की तरफ है, लेकिन इसकी असली ताकत coding-centric है
general research या information exploration में ChatGPT या Gemini कहीं ज़्यादा गहरे और अभिव्यक्ति में बेहतर हैं
“constitution” या “human rights” जैसी इंसानी छवि वाली marketing करता है, लेकिन उल्टा यह सबसे ज़्यादा transactional महसूस होता है
फिर भी coding के लिए शानदार है, इसलिए मैं इसके लिए पैसे देकर इस्तेमाल करता रहता हूँ
मेरे non-technical दोस्त भी ChatGPT से Claude पर चले गए, और मैंने किसी को वापस जाते नहीं देखा
8 महीने पहले तक यह सिर्फ API में ही ठीक-ठाक था, लेकिन अब बहुत बेहतर है
मैं Czech भाषा का उपयोगकर्ता हूँ; Claude शब्द गढ़ देता है, और Grok कभी-कभी रूसी में जवाब देता है
coding के लिए तो ठीक है, लेकिन सामान्य बातचीत के लिए नहीं
agent-style tasks या tool use में अच्छा है, लेकिन दैनिक सवालों के लिए मैं इसका उपयोग नहीं करता
Opus 4.6 इंस्टॉलेशन में नहीं दिख रहा था, लेकिन install command फिर से चलाने पर दिखाई देने लगा (v2.1.32)
installation guide
यह जानने की जिज्ञासा है कि AI/LLM की operating cost सच में कम हो रही है या नहीं
“agent team” का कॉन्सेप्ट अच्छा लगता है, लेकिन कई models एक साथ चलाने पर लागत इतनी बढ़ जाती है कि व्यावहारिक रूप से मुश्किल लगता है
OpenAI ने engineering optimization के ज़रिए o3 की कीमत 1/5 कर दी, और दूसरी कंपनियों ने भी ऐसा ही cost reduction हासिल किया
पहले जो कहा जाता था कि “हर request पर नुकसान होता है”, वह तथ्यात्मक नहीं है
पूरी कंपनी R&D और training cost की वजह से घाटे में हो सकती है, लेकिन API usage खुद मुनाफे में है
DeepSeek जैसे open models भी इससे कहीं कम कीमत पर मुनाफा कमा रहे हैं
उदाहरण के लिए Claude 4 (लगभग 400B parameters) DeepSeek V3(680B) से कहीं महँगा है
Claude input $1/M, output $5/M vs DeepSeek input $0.4/M, output $1.2/M
यह अंतर इसलिए है क्योंकि Anthropic को training cost recover करनी है
DeepSeek pricing, Claude pricing
सिर्फ inference revenue देखें तो मुनाफा दिखता है, लेकिन कुल लागत जोड़ें तो ऐसा ज़रूरी नहीं
मैं इसे coding assistance के लिए इस्तेमाल करता हूँ, लेकिन अक्सर course correction करना पड़ता है
फिर भी कुशल लोगों को hire करने की तुलना में यह बहुत सस्ता है
“We build Claude with Claude” वाला वाक्य काफ़ी दिलचस्प है
60 दिन निष्क्रिय रहने पर auto-cleanup होता है, फिर भी इनकी संख्या बढ़ती जा रही है
उस वाक्य का, पक्षपात दिखाने के अलावा, ज़्यादा मतलब नहीं है
खुद इस्तेमाल करना quality सुधारने का सबसे अच्छा तरीका है
यही वजह है कि अभी इतने wrappers बढ़ रहे हैं, और लगता है कभी न कभी security incident होगा
Opus 4.6 आज़माने के लिए अतिरिक्त $50 credits दिए जा रहे हैं
उन्हें usage page से तुरंत लिया जा सकता है
शायद उन्हें token usage increase की उम्मीद है या यह model promotion का हिस्सा है