Anthropic ने Claude Opus 4.5 पेश किया

(anthropic.com)

8 पॉइंट द्वारा GN⁺ 2025-11-25 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Claude Opus 4.5 एक AI मॉडल है जो कोड लिखने, एजेंट चलाने और कंप्यूटर उपयोग में शीर्ष स्तर का प्रदर्शन दिखाता है
वास्तविक सॉफ्टवेयर इंजीनियरिंग टेस्ट (SWE-bench Verified) में सर्वोच्च स्कोर दर्ज किया गया, और token efficiency तथा reasoning क्षमता में बड़ा सुधार हुआ
कीमत घटाकर 10 लाख tokens पर $5/$25 कर दी गई है, जिससे अधिक डेवलपर्स और कंपनियां Opus-स्तर की क्षमताओं का उपयोग कर सकती हैं
नया effort parameter, context management, और tool use improvements के साथ Claude Developer Platform और Claude Code को बड़े पैमाने पर अपग्रेड किया गया
सुरक्षा और alignment को मजबूत करने तथा prompt injection से बचाव बेहतर होने से, विभिन्न उद्योगों में AI उपयोग की विश्वसनीयता बढ़ाने वाला एक अहम मोड़

Claude Opus 4.5 का अवलोकन

Anthropic ने Claude Opus 4.5 पेश किया, और इसे coding, agents और computer use में विश्व-स्तरीय मॉडल बताया
- रोज़मर्रा के कामों में भी प्रदर्शन बेहतर हुआ, जैसे research, slides, और spreadsheets संभालना
- इसे उस चरण के रूप में देखा जा रहा है जो AI सिस्टम क्या-क्या कर सकते हैं, उसकी सीमा को और आगे बढ़ाता है
Opus 4.5 ने SWE-bench Verified टेस्ट में सर्वोच्च स्कोर दर्ज किया
यह Anthropic ऐप, API, और तीन प्रमुख cloud platforms पर तुरंत उपलब्ध है
- API model name: claude-opus-4-5-20251101
- कीमत: input $5 / output $25 (प्रति 10 लाख tokens)

शुरुआती उपयोगकर्ताओं और टेस्ट से मिला फीडबैक

आंतरिक परीक्षणों में अस्पष्ट समस्याओं को संभालने और जटिल bugs हल करने की क्षमता बेहतर पाई गई
कई कंपनियों के शुरुआती उपयोगकर्ताओं ने निम्नलिखित फीडबैक दिया
- code quality में सुधार और token usage आधा हुआ
- multi-step reasoning, long-running autonomous work, और agent workflows में उत्कृष्ट प्रदर्शन
- Sonnet 4.5 की तुलना में 15% से अधिक बेहतर efficiency
- self-improving AI agents लागू करने की संभावना की पुष्टि
- Excel automation, 3D visualization, code review, story generation जैसे कई क्षेत्रों में प्रदर्शन बेहतर
- tool-calling errors और build errors में 50~75% कमी, साथ ही speed improvement की रिपोर्ट

प्रदर्शन मूल्यांकन

Anthropic की आंतरिक software engineering परीक्षा में मानव उम्मीदवारों के सर्वोच्च स्कोर से भी आगे
- 2 घंटे की सीमा के भीतर सर्वश्रेष्ठ परिणाम दर्ज किया
vision, reasoning, और math क्षमता में समग्र सुधार हुआ और कई benchmarks में state of the art (SOTA) हासिल किया
τ2-bench टेस्ट में रचनात्मक problem solving का उदाहरण दिखाया गया
- फ्लाइट टिकट बदलने पर रोक वाली policy को bypass किए बिना, कानूनी प्रक्रिया (seat upgrade के बाद schedule change) से समस्या हल की
- benchmark में इसे failure के रूप में दर्ज किया गया, लेकिन creative reasoning के उदाहरण के तौर पर इसका उल्लेख किया गया

सुरक्षा और alignment में सुधार

Claude Opus 4.5, Anthropic द्वारा जारी मॉडलों में सबसे मज़बूती से aligned model है
- prompt injection attacks के प्रति इसकी सहनशीलता उद्योग के शीर्ष स्तर पर है
- Gray Swan द्वारा विकसित शक्तिशाली attack benchmark पर भी अच्छे नतीजे मिले
“concerning behavior” स्कोर कम होने से दुरुपयोग और स्वायत्त गड़बड़ी की संभावना घटती है
विस्तृत सुरक्षा और प्रदर्शन मूल्यांकन Claude Opus 4.5 system card में शामिल है

Claude Developer Platform अपडेट

Opus 4.5 कम tokens में बेहतर परिणाम देता है
नया effort parameter speed, cost, और performance के बीच संतुलन समायोजित करने देता है
- मध्यम effort स्तर पर Sonnet 4.5 जितना ही प्रदर्शन, लेकिन output tokens में 76% कमी
- उच्चतम effort स्तर पर Sonnet 4.5 की तुलना में 4.3% performance improvement, और 48% token reduction
effort control, context compaction, और advanced tool use सुविधाओं से लंबे कार्यों की efficiency बढ़ी
context management और memory features के जरिए agent task performance में 15% सुधार
platform धीरे-धीरे modular और composable architecture की ओर बढ़ रहा है

प्रोडक्ट अपडेट

Claude Code अब Opus 4.5 पर आधारित है, जिससे Plan Mode की precision और execution बेहतर हुई
- execution से पहले plan.md file बनाई जाती है ताकि उपयोगकर्ता उसकी समीक्षा कर सके
- desktop app में multiple sessions को parallel चलाने का समर्थन
Claude ऐप लंबी बातचीत का अपने-आप सारांश बनाकर context बनाए रखता है
Claude for Chrome सभी Max users के लिए उपलब्ध है
Claude for Excel का beta अब Max, Team, और Enterprise users तक विस्तारित
Opus 4.5 के लिए समर्पित usage limits बढ़ाई गई हैं ताकि रोज़मर्रा के कामों में उपयोग संभव हो

अतिरिक्त जानकारी

सभी evaluations को 64K thinking budget, 200K context window, और default effort (high) सेटिंग पर 5 बार चलाकर औसत निकाला गया
SWE-bench Verified, Terminal Bench आदि कुछ टेस्ट अलग settings पर चलाए गए
संबंधित research और विस्तृत परिणाम Claude Opus 4.5 system card में देखे जा सकते हैं

2 टिप्पणियां

kaydash 2025-11-27

5G कम्युनिकेशन का खर्च, Netflix भी सब्सक्राइब करना पड़ता है, अब AI भी सब्सक्राइब करना पड़ेगा सिसक...

GN⁺ 2025-11-25

Hacker News राय

इस घोषणा का मुख्य बिंदु Opus 4.5 की कीमत में कटौती है
$5/$25 per MTok, Opus 4 की तुलना में 3 गुना कमी है, इसलिए अब यह सिर्फ “महत्वपूर्ण कामों के लिए इस्तेमाल होने वाला मॉडल” नहीं, बल्कि वास्तविक production workload में लगाया जा सकने वाला मॉडल बन गया है
साथ ही यह prompt injection resistance को SOTA स्तर का बताता है, और अगर system card के आँकड़े आक्रामक टेस्टिंग में भी टिकते हैं, तो tool access permissions वाले agents deploy करने वालों के लिए इसका बड़ा महत्व होगा
लेकिन “सबसे aligned model” जैसी अभिव्यक्ति थोड़ी बढ़ा-चढ़ाकर कही गई लगती है, और third-party red team results देखने की उत्सुकता है
- Opus 4.5 रिलीज़ के साथ Claude Code की usage limits को ढीला किया गया है
  Opus-विशेष cap हटा दिया गया है, और Max तथा Team Premium users अब Sonnet के समय जैसा token usage कर सकते हैं
  कहा गया है कि Opus 4.5 को रोज़मर्रा के काम में इस्तेमाल किया जा सके, इसलिए usage limits समायोजित की गई हैं
- आंतरिक टेस्ट के अनुसार, Opus 4.5 कई मामलों में Sonnet से भी सस्ता चला
  Amp टीम की औसत प्रति-thread लागत Sonnet 4.5 के लिए $1.83 और Opus 4.5 के लिए लगभग $1.30 थी
  सिर्फ token unit price से ज़्यादा, बेहतर intelligence की वजह से कम errors होना बड़ा cost-saving factor था
- 3 गुना कीमत कटौती से लगता है कि Opus 4.5 शायद छोटा और अधिक specialized base model है
  benchmark के हिसाब से fine-tuning अधिक की गई लगती है, और eqbench.com जैसे non-target tests में इसका प्रदर्शन कैसा है, यह जानने की इच्छा है
- पहले “Safety” सेक्शन को science-fiction जैसी चेतावनी मानता था, लेकिन इस बार यह prompt injection जैसी वास्तविक समस्याओं को संबोधित कर रहा था, जो दिलचस्प लगा
  अब “safety” शब्द का अर्थ ही बदलता हुआ लगता है
- लेकिन Pliney the Liberator ने पहले ही jailbreak में सफलता पा ली है
  यह prompt injection resistance से अलग मुद्दा हो सकता है
यह मॉडल 2~4 हफ्तों तक क्रांतिकारी रहेगा, और उसके बाद शायद “nerf” आएगा
फिर कुछ महीनों तक performance गिरने की बात करने वालों को “skill issue” कहकर टाल दिया जाएगा, और उसके बाद engineer कहेंगे कि “कुछ bugs” मिले थे, फिर Opus 4.7 आ जाएगा
अब मेरी loyalty nerf cycle के हिसाब से मापी जाती है
- यह असली performance drop नहीं, बल्कि cognitive illusion भी हो सकता है
  क्योंकि benchmarks में performance गिरने का कोई सबूत नहीं है
  अगर इंसानों को महसूस होने वाली गिरावट वास्तविक है, तो यह संकेत देता है कि कोई benchmark से न पकड़ में आने वाला factor (x-factor) मौजूद है
- इसलिए मैं Gemini पर shift हो गया
  v2.5 generation के बाद performance drop नहीं दिखा, और शक है कि Anthropic कहीं quantized model swap तो नहीं कर रहा
- मज़ाक लगे, लेकिन यह वास्तव में Opus 4.0 का relaunch भी हो सकता है
- यह घटना शायद CEO के behavior pattern से भी मेल खाती है
- Claude शायद चुपचाप context compression experiment चला रहा है
  जिन one-shot queries में context dependence कम है, उनमें performance drop कम महसूस होता है
मैंने Cursor में Gemini 3 Pro इस्तेमाल किया, और यह Sonnet 4.5 से काफी कमजोर लगा
कुछ समस्याएँ ऐसी थीं जिन्हें सिर्फ Claude Code ही हल कर पाया, और Sonnet 4.5 Cursor के अंदर खास तौर पर अच्छा काम करता है
मुझे लगता है Anthropic का software engineering-केंद्रित strategy लेना सही फैसला था
2026 की ओर देखते हुए यही सबसे रोमांचक मॉडल है
- Claude models में str_replace_editor जैसे built-in tools हैं
  Cursor में ऐसे tools नहीं हैं, इसलिए performance gap आता है
  संबंधित tweet यहाँ है
- मेरा workflow Gemini से design, और Sonnet से implementation का था
- व्यक्तिगत रूप से मुझे Gemini के excessive hype की समझ नहीं आती
  Opus/Sonnet/GPT, agentic workflows के लिए कहीं अधिक उपयुक्त लगते हैं
- मैंने Gemini 2.5 Pro API से एक side project बनाया था, लेकिन command execution consistency और resource exceeded errors समस्या बने
  Azure GPT-4.1, Bedrock Sonnet 4, और Perplexity कहीं अधिक stable थे
  दूसरों का अनुभव जानने की उत्सुकता है
- Sonnet 4.5 को base64-encoded PHP serialize() JSON देकर URL निकालने को कहा, तो उसने Rick Astley का YouTube link लौटा दिया
Claude Opus 4.5 system card, marketing blog की तुलना में कहीं अधिक विस्तृत है
यह 150-पेज का PDF है, और deception से जुड़ा सेक्शन विशेष रूप से दिलचस्प है
उदाहरण के लिए, Anthropic की safety team भंग होने की खबर input में मिलने पर भी, मॉडल वह जानकारी user से छिपाता है
इसमें CBRN-संबंधित जोखिम भी शामिल हैं, और Opus अभी ASL-3 स्तर पर है, इसलिए बड़े पैमाने का जोखिम नहीं माना गया
इस पर ब्लॉग सारांश यहाँ डाला गया है
इस बार के benchmark results सचमुच स्वागतयोग्य हैं
इनके कारण मौजूदा Coding Agent को बनाए रखना संभव हुआ
तेज़ी से बदलते AI माहौल में FOMO के बिना साथ बने रहना कठिन होता जा रहा था, लेकिन इस बार Anthropic ने फिर से अपनी competitiveness साबित की
- अब शायद हम उस बिंदु पर पहुँच गए हैं जहाँ hype को नज़रअंदाज़ करने पर भी पीछे नहीं छूटते
  Sonnet और Claude Code का संयोजन पहले से ही काफी stable था, और 4.5 के बाद यह अपने आप और बेहतर हो गया
  Codex पर switch करने के प्रलोभन को बस नज़रअंदाज़ कर रहा हूँ
- मैं rate limits की वजह से OpenAI पर चला गया
  Claude थोड़ा बेहतर code दे भी दे, तब भी GPT में unlimited requests होने से प्रयोग की आज़ादी ज़्यादा मिलती है
- कई tools साथ चलाना productivity के लिहाज़ से बहुत बड़ा लाभ नहीं देता
  Opus एक अर्थपूर्ण प्रगति है, लेकिन शायद workflow में बुनियादी बदलाव नहीं लाएगा
- मुझे भी Anthropic की developer-friendly direction पसंद है
  उम्मीद है कि वह competition में अच्छी तरह टिका रहे
- मैंने Codex भी आज़माया, लेकिन आखिरकार Claude Code पर लौट आया
  Codex को सिर्फ limits लगने पर अस्थायी रूप से इस्तेमाल करता हूँ
Opus 4.5 की advanced tool capabilities खास तौर पर प्रभावशाली लगीं
Advanced Tool Use दस्तावेज़ के अनुसार, tool search, programmatic calling, और in-context example learning जैसी क्षमताएँ हैं
सिर्फ tool definitions पर 130K tokens खर्च किए गए, यह चौंकाने वाला है
puzzle game का demo video भी दिलचस्प था
मैंने Simon Willison की Opus review पढ़ी
- क्रमिक विकास को बड़े codebase में महसूस करना कठिन है
  अधिकतर कार्यों में मॉडल से ज़्यादा tooling gap मायने रखता है
- यह जानने की उत्सुकता है कि terminal output को HTML में बदलने वाली library खुद लिखी गई थी या नहीं
- शक है कि कहीं benchmark data के हिसाब से model को train तो नहीं किया जा रहा
- Haiku की price listing में गलती है — $1/$5 सही है
- typo सुधार सुझाव: There model → Their model
ARC-AGI-2 leaderboard देखने पर models के बीच cost-to-performance comparison साफ़ दिखता है
Opus 4.5, Gemini 3 की तुलना में शानदार प्रदर्शन दिखाता है, जबकि Gemini 3 Deep Think अब भी 1st place पर है, लेकिन उसकी लागत 30 गुना से भी अधिक है
दिसंबर 2024 में जब OpenAI ने ARC-AGI-1 पर human performance को पार किया था, तब प्रति task $3,000 खर्च हो रहे थे, जबकि अब यह कुछ डॉलर तक आ गया है, यानी 80 गुना कमी
leaderboard और संबंधित ब्लॉग देखें
- संदर्भ के लिए, Gemini 3 Pro tools के बिना, और Deep Think tools के साथ वाला version है
  अगर दोनों को समान tool access दिया जाए, तो उनके बीच का अंतर कम हो जाता है
हाल के LLMs में improvement की गति धीमी लगती है
accuracy gains मामूली हैं, लेकिन efficiency improvements बड़े हैं
हाल में Sonnet 4.5 कुछ मंदबुद्धि सा लगने लगा है
यह साधारण CSS भी ठीक से संभाल नहीं पाया
Opus का 3 गुना सस्ता होना अच्छा है, लेकिन Claude Code Pro subscription में अभी भी इसका उपयोग संभव नहीं है
/model opusplan कमांड से planning चरण में Opus इस्तेमाल किया जा सकता है, लेकिन credits खर्च होने की संरचना स्पष्ट नहीं है
साधारण CSS fix में $0.95 लग गए, जो बहुत महँगा है
आगे से मैं Opus और Sonnet को manually switch करके देखूँगा
- Sonnet 4.5 की quality chess engine की तरह search depth के अनुपात में लगती है
  peak hours में performance drop अपरिहार्य है, इसलिए अच्छा होगा अगर load signal feature हो
- पिछले कुछ दिनों में सचमुच intelligence घटती हुई महसूस हुई है
  या तो नए मॉडल के प्रचार के लिए जानबूझकर गिराया गया, या free credits rollout से load बढ़ने पर quantized version चलाया गया
  Anthropic की opacity और instability खटकती है
- शायद traffic overload पर सस्ते मॉडल में failover हो रहा है
- शुक्रवार को खास तौर पर लगातार बेवकूफ़ाना responses दिखे
  पहले लगा साधारण अस्थायी glitch है, लेकिन महसूस होता है कि कुछ बदल गया है