- Claude Opus 4.5 एक AI मॉडल है जो कोड लिखने, एजेंट चलाने और कंप्यूटर उपयोग में शीर्ष स्तर का प्रदर्शन दिखाता है
- वास्तविक सॉफ्टवेयर इंजीनियरिंग टेस्ट (SWE-bench Verified) में सर्वोच्च स्कोर दर्ज किया गया, और token efficiency तथा reasoning क्षमता में बड़ा सुधार हुआ
- कीमत घटाकर 10 लाख tokens पर $5/$25 कर दी गई है, जिससे अधिक डेवलपर्स और कंपनियां Opus-स्तर की क्षमताओं का उपयोग कर सकती हैं
- नया
effort parameter, context management, और tool use improvements के साथ Claude Developer Platform और Claude Code को बड़े पैमाने पर अपग्रेड किया गया
- सुरक्षा और alignment को मजबूत करने तथा prompt injection से बचाव बेहतर होने से, विभिन्न उद्योगों में AI उपयोग की विश्वसनीयता बढ़ाने वाला एक अहम मोड़
Claude Opus 4.5 का अवलोकन
- Anthropic ने Claude Opus 4.5 पेश किया, और इसे coding, agents और computer use में विश्व-स्तरीय मॉडल बताया
- रोज़मर्रा के कामों में भी प्रदर्शन बेहतर हुआ, जैसे research, slides, और spreadsheets संभालना
- इसे उस चरण के रूप में देखा जा रहा है जो AI सिस्टम क्या-क्या कर सकते हैं, उसकी सीमा को और आगे बढ़ाता है
- Opus 4.5 ने SWE-bench Verified टेस्ट में सर्वोच्च स्कोर दर्ज किया
- यह Anthropic ऐप, API, और तीन प्रमुख cloud platforms पर तुरंत उपलब्ध है
- API model name:
claude-opus-4-5-20251101
- कीमत: input $5 / output $25 (प्रति 10 लाख tokens)
शुरुआती उपयोगकर्ताओं और टेस्ट से मिला फीडबैक
- आंतरिक परीक्षणों में अस्पष्ट समस्याओं को संभालने और जटिल bugs हल करने की क्षमता बेहतर पाई गई
- कई कंपनियों के शुरुआती उपयोगकर्ताओं ने निम्नलिखित फीडबैक दिया
- code quality में सुधार और token usage आधा हुआ
- multi-step reasoning, long-running autonomous work, और agent workflows में उत्कृष्ट प्रदर्शन
- Sonnet 4.5 की तुलना में 15% से अधिक बेहतर efficiency
- self-improving AI agents लागू करने की संभावना की पुष्टि
- Excel automation, 3D visualization, code review, story generation जैसे कई क्षेत्रों में प्रदर्शन बेहतर
- tool-calling errors और build errors में 50~75% कमी, साथ ही speed improvement की रिपोर्ट
प्रदर्शन मूल्यांकन
- Anthropic की आंतरिक software engineering परीक्षा में मानव उम्मीदवारों के सर्वोच्च स्कोर से भी आगे
- 2 घंटे की सीमा के भीतर सर्वश्रेष्ठ परिणाम दर्ज किया
- vision, reasoning, और math क्षमता में समग्र सुधार हुआ और कई benchmarks में state of the art (SOTA) हासिल किया
- τ2-bench टेस्ट में रचनात्मक problem solving का उदाहरण दिखाया गया
- फ्लाइट टिकट बदलने पर रोक वाली policy को bypass किए बिना, कानूनी प्रक्रिया (seat upgrade के बाद schedule change) से समस्या हल की
- benchmark में इसे failure के रूप में दर्ज किया गया, लेकिन creative reasoning के उदाहरण के तौर पर इसका उल्लेख किया गया
सुरक्षा और alignment में सुधार
- Claude Opus 4.5, Anthropic द्वारा जारी मॉडलों में सबसे मज़बूती से aligned model है
- prompt injection attacks के प्रति इसकी सहनशीलता उद्योग के शीर्ष स्तर पर है
- Gray Swan द्वारा विकसित शक्तिशाली attack benchmark पर भी अच्छे नतीजे मिले
- “concerning behavior” स्कोर कम होने से दुरुपयोग और स्वायत्त गड़बड़ी की संभावना घटती है
- विस्तृत सुरक्षा और प्रदर्शन मूल्यांकन Claude Opus 4.5 system card में शामिल है
Claude Developer Platform अपडेट
- Opus 4.5 कम tokens में बेहतर परिणाम देता है
- नया
effort parameter speed, cost, और performance के बीच संतुलन समायोजित करने देता है
- मध्यम effort स्तर पर Sonnet 4.5 जितना ही प्रदर्शन, लेकिन output tokens में 76% कमी
- उच्चतम effort स्तर पर Sonnet 4.5 की तुलना में 4.3% performance improvement, और 48% token reduction
- effort control, context compaction, और advanced tool use सुविधाओं से लंबे कार्यों की efficiency बढ़ी
- context management और memory features के जरिए agent task performance में 15% सुधार
- platform धीरे-धीरे modular और composable architecture की ओर बढ़ रहा है
प्रोडक्ट अपडेट
- Claude Code अब Opus 4.5 पर आधारित है, जिससे Plan Mode की precision और execution बेहतर हुई
- execution से पहले plan.md file बनाई जाती है ताकि उपयोगकर्ता उसकी समीक्षा कर सके
- desktop app में multiple sessions को parallel चलाने का समर्थन
- Claude ऐप लंबी बातचीत का अपने-आप सारांश बनाकर context बनाए रखता है
- Claude for Chrome सभी Max users के लिए उपलब्ध है
- Claude for Excel का beta अब Max, Team, और Enterprise users तक विस्तारित
- Opus 4.5 के लिए समर्पित usage limits बढ़ाई गई हैं ताकि रोज़मर्रा के कामों में उपयोग संभव हो
अतिरिक्त जानकारी
- सभी evaluations को 64K thinking budget, 200K context window, और default effort (high) सेटिंग पर 5 बार चलाकर औसत निकाला गया
- SWE-bench Verified, Terminal Bench आदि कुछ टेस्ट अलग settings पर चलाए गए
- संबंधित research और विस्तृत परिणाम Claude Opus 4.5 system card में देखे जा सकते हैं
संबंधित खबरें
- Claude, Microsoft Foundry और Microsoft 365 Copilot में एकीकृत किया गया
- Microsoft·NVIDIA·Anthropic के बीच रणनीतिक साझेदारी
- Anthropic ने Azure computing capacity में $30 billion की खरीद और अतिरिक्त अधिकतम 1GW अनुबंध की योजना बनाई
- रवांडा सरकार और ALX के साथ सहयोग कर अफ्रीका में AI शिक्षा का विस्तार
2 टिप्पणियां
5G कम्युनिकेशन का खर्च, Netflix भी सब्सक्राइब करना पड़ता है, अब AI भी सब्सक्राइब करना पड़ेगा सिसक...
Hacker News राय
इस घोषणा का मुख्य बिंदु Opus 4.5 की कीमत में कटौती है
$5/$25 per MTok, Opus 4 की तुलना में 3 गुना कमी है, इसलिए अब यह सिर्फ “महत्वपूर्ण कामों के लिए इस्तेमाल होने वाला मॉडल” नहीं, बल्कि वास्तविक production workload में लगाया जा सकने वाला मॉडल बन गया है
साथ ही यह prompt injection resistance को SOTA स्तर का बताता है, और अगर system card के आँकड़े आक्रामक टेस्टिंग में भी टिकते हैं, तो tool access permissions वाले agents deploy करने वालों के लिए इसका बड़ा महत्व होगा
लेकिन “सबसे aligned model” जैसी अभिव्यक्ति थोड़ी बढ़ा-चढ़ाकर कही गई लगती है, और third-party red team results देखने की उत्सुकता है
Opus-विशेष cap हटा दिया गया है, और Max तथा Team Premium users अब Sonnet के समय जैसा token usage कर सकते हैं
कहा गया है कि Opus 4.5 को रोज़मर्रा के काम में इस्तेमाल किया जा सके, इसलिए usage limits समायोजित की गई हैं
Amp टीम की औसत प्रति-thread लागत Sonnet 4.5 के लिए $1.83 और Opus 4.5 के लिए लगभग $1.30 थी
सिर्फ token unit price से ज़्यादा, बेहतर intelligence की वजह से कम errors होना बड़ा cost-saving factor था
benchmark के हिसाब से fine-tuning अधिक की गई लगती है, और eqbench.com जैसे non-target tests में इसका प्रदर्शन कैसा है, यह जानने की इच्छा है
अब “safety” शब्द का अर्थ ही बदलता हुआ लगता है
यह prompt injection resistance से अलग मुद्दा हो सकता है
यह मॉडल 2~4 हफ्तों तक क्रांतिकारी रहेगा, और उसके बाद शायद “nerf” आएगा
फिर कुछ महीनों तक performance गिरने की बात करने वालों को “skill issue” कहकर टाल दिया जाएगा, और उसके बाद engineer कहेंगे कि “कुछ bugs” मिले थे, फिर Opus 4.7 आ जाएगा
अब मेरी loyalty nerf cycle के हिसाब से मापी जाती है
क्योंकि benchmarks में performance गिरने का कोई सबूत नहीं है
अगर इंसानों को महसूस होने वाली गिरावट वास्तविक है, तो यह संकेत देता है कि कोई benchmark से न पकड़ में आने वाला factor (x-factor) मौजूद है
v2.5 generation के बाद performance drop नहीं दिखा, और शक है कि Anthropic कहीं quantized model swap तो नहीं कर रहा
जिन one-shot queries में context dependence कम है, उनमें performance drop कम महसूस होता है
मैंने Cursor में Gemini 3 Pro इस्तेमाल किया, और यह Sonnet 4.5 से काफी कमजोर लगा
कुछ समस्याएँ ऐसी थीं जिन्हें सिर्फ Claude Code ही हल कर पाया, और Sonnet 4.5 Cursor के अंदर खास तौर पर अच्छा काम करता है
मुझे लगता है Anthropic का software engineering-केंद्रित strategy लेना सही फैसला था
2026 की ओर देखते हुए यही सबसे रोमांचक मॉडल है
str_replace_editorजैसे built-in tools हैंCursor में ऐसे tools नहीं हैं, इसलिए performance gap आता है
संबंधित tweet यहाँ है
Opus/Sonnet/GPT, agentic workflows के लिए कहीं अधिक उपयुक्त लगते हैं
Azure GPT-4.1, Bedrock Sonnet 4, और Perplexity कहीं अधिक stable थे
दूसरों का अनुभव जानने की उत्सुकता है
Claude Opus 4.5 system card, marketing blog की तुलना में कहीं अधिक विस्तृत है
यह 150-पेज का PDF है, और deception से जुड़ा सेक्शन विशेष रूप से दिलचस्प है
उदाहरण के लिए, Anthropic की safety team भंग होने की खबर input में मिलने पर भी, मॉडल वह जानकारी user से छिपाता है
इसमें CBRN-संबंधित जोखिम भी शामिल हैं, और Opus अभी ASL-3 स्तर पर है, इसलिए बड़े पैमाने का जोखिम नहीं माना गया
इस पर ब्लॉग सारांश यहाँ डाला गया है
इस बार के benchmark results सचमुच स्वागतयोग्य हैं
इनके कारण मौजूदा Coding Agent को बनाए रखना संभव हुआ
तेज़ी से बदलते AI माहौल में FOMO के बिना साथ बने रहना कठिन होता जा रहा था, लेकिन इस बार Anthropic ने फिर से अपनी competitiveness साबित की
Sonnet और Claude Code का संयोजन पहले से ही काफी stable था, और 4.5 के बाद यह अपने आप और बेहतर हो गया
Codex पर switch करने के प्रलोभन को बस नज़रअंदाज़ कर रहा हूँ
Claude थोड़ा बेहतर code दे भी दे, तब भी GPT में unlimited requests होने से प्रयोग की आज़ादी ज़्यादा मिलती है
Opus एक अर्थपूर्ण प्रगति है, लेकिन शायद workflow में बुनियादी बदलाव नहीं लाएगा
उम्मीद है कि वह competition में अच्छी तरह टिका रहे
Codex को सिर्फ limits लगने पर अस्थायी रूप से इस्तेमाल करता हूँ
Opus 4.5 की advanced tool capabilities खास तौर पर प्रभावशाली लगीं
Advanced Tool Use दस्तावेज़ के अनुसार, tool search, programmatic calling, और in-context example learning जैसी क्षमताएँ हैं
सिर्फ tool definitions पर 130K tokens खर्च किए गए, यह चौंकाने वाला है
puzzle game का demo video भी दिलचस्प था
मैंने Simon Willison की Opus review पढ़ी
अधिकतर कार्यों में मॉडल से ज़्यादा tooling gap मायने रखता है
There model→Their modelARC-AGI-2 leaderboard देखने पर models के बीच cost-to-performance comparison साफ़ दिखता है
Opus 4.5, Gemini 3 की तुलना में शानदार प्रदर्शन दिखाता है, जबकि Gemini 3 Deep Think अब भी 1st place पर है, लेकिन उसकी लागत 30 गुना से भी अधिक है
दिसंबर 2024 में जब OpenAI ने ARC-AGI-1 पर human performance को पार किया था, तब प्रति task $3,000 खर्च हो रहे थे, जबकि अब यह कुछ डॉलर तक आ गया है, यानी 80 गुना कमी
leaderboard और संबंधित ब्लॉग देखें
अगर दोनों को समान tool access दिया जाए, तो उनके बीच का अंतर कम हो जाता है
हाल के LLMs में improvement की गति धीमी लगती है
accuracy gains मामूली हैं, लेकिन efficiency improvements बड़े हैं
हाल में Sonnet 4.5 कुछ मंदबुद्धि सा लगने लगा है
यह साधारण CSS भी ठीक से संभाल नहीं पाया
Opus का 3 गुना सस्ता होना अच्छा है, लेकिन Claude Code Pro subscription में अभी भी इसका उपयोग संभव नहीं है
/model opusplanकमांड से planning चरण में Opus इस्तेमाल किया जा सकता है, लेकिन credits खर्च होने की संरचना स्पष्ट नहीं हैसाधारण CSS fix में $0.95 लग गए, जो बहुत महँगा है
आगे से मैं Opus और Sonnet को manually switch करके देखूँगा
peak hours में performance drop अपरिहार्य है, इसलिए अच्छा होगा अगर load signal feature हो
या तो नए मॉडल के प्रचार के लिए जानबूझकर गिराया गया, या free credits rollout से load बढ़ने पर quantized version चलाया गया
Anthropic की opacity और instability खटकती है
पहले लगा साधारण अस्थायी glitch है, लेकिन महसूस होता है कि कुछ बदल गया है