Claude Opus 4.7
(anthropic.com)- उन्नत software engineering performance को और मजबूत किया गया है, जिससे यह जटिल और लंबे समय तक चलने वाले कार्यों को उच्च संगति और सटीकता के साथ संभाल सकता है
- दृश्य पहचान और multimodal समझ में सुधार हुआ है, जिससे high-resolution image, technical diagram, chemical structure जैसी जटिल visual information का विश्लेषण संभव है
- cyber security safeguards अंतर्निहित हैं, जो high-risk requests को स्वचालित रूप से पहचानकर ब्लॉक करते हैं, और वैध security researchers Cyber Verification Program में भाग ले सकते हैं
- Effort control, Task Budget,
/ultrareviewcommand जैसी नई सुविधाएँ लंबे कार्यों की दक्षता और code quality verification क्षमता को बेहतर बनाती हैं - Opus 4.6 की तुलना में 13% performance improvement और उच्च विश्वसनीयता हासिल की गई है, और Anthropic इसके आधार पर Mythos-स्तर के मॉडल के सुरक्षित सार्वजनिक रिलीज़ की तैयारी कर रहा है
Claude Opus 4.7 का अवलोकन
- Claude Opus 4.7 एक ऐसा मॉडल है जिसमें Opus 4.6 की तुलना में उन्नत software engineering performance में बड़ा सुधार हुआ है, और यह जटिल व लंबे समय तक चलने वाले कार्यों को उच्च संगति और सटीकता के साथ संभालता है
- उपयोगकर्ता पहले की तुलना में अधिक कठिन coding tasks को भरोसे के साथ सौंप सकते हैं, और मॉडल स्वयं सत्यापन के बाद परिणाम रिपोर्ट करता है
- visual recognition capability को मजबूत किया गया है, जिससे high-resolution images, interfaces, slides, documents आदि में उच्च गुणवत्ता और रचनात्मकता दिखाई देती है
- Anthropic के Claude Mythos Preview की तुलना में इसकी सामान्य-उद्देश्य क्षमता कम है, लेकिन विभिन्न benchmarks में इसने Opus 4.6 से बेहतर परिणाम दर्ज किए हैं
- यह सभी Claude products और API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry पर उपलब्ध है, और इसकी कीमत Opus 4.6 के समान है
cyber security से संबंधित उपाय
- Anthropic ने Project Glasswing के माध्यम से AI के cyber security risks और benefits को सार्वजनिक किया है, Mythos Preview की सार्वजनिक उपलब्धता सीमित रखी है, और security experiments पहले कम शक्तिशाली मॉडलों पर करने का निर्णय लिया है
- Opus 4.7 इस दिशा का पहला मॉडल है, जिसमें स्वचालित रूप से प्रतिबंधित या high-risk cyber security requests को पहचानने और ब्लॉक करने वाले safeguards शामिल हैं
- वास्तविक deployment data के आधार पर भविष्य के Mythos-स्तर मॉडलों की व्यापक सार्वजनिक रिलीज़ की तैयारी की जा रही है
- वैध security researchers (vulnerability analysis, penetration testing, red teaming आदि) Cyber Verification Program में भाग ले सकते हैं
प्रमुख performance और user feedback
- शुरुआती परीक्षणों में logic errors को स्वयं पहचानने और execution speed बढ़ाने की क्षमता की पुष्टि हुई
- यह asynchronous workflows, CI/CD, लंबे automation tasks में उत्कृष्ट performance दिखाता है, और केवल सहमति जताने के बजाय समस्या पर गहराई से काम कर अपनी राय भी प्रस्तुत करता है
- यह data gaps होने पर गलत निष्कर्ष निकालने से बचता है, और inconsistent data traps में नहीं फँसता
- 93 coding benchmarks में Opus 4.6 की तुलना में 13% सुधार दर्ज किया गया, और पहले असुलझे रहे 4 अतिरिक्त tasks भी हल किए गए
- multistep task efficiency में यह शीर्ष स्तर की संगति दिखाता है, और financial module में 0.813 स्कोर के साथ Opus 4.6 (0.767) से आगे है
- multimodal understanding बेहतर हुई है, जिससे chemical structures और जटिल technical diagrams की व्याख्या क्षमता में सुधार हुआ है
- स्वायत्त long-running tasks निष्पादन क्षमता को मजबूत किया गया है, जिससे यह कई घंटों तक लगातार समस्या-समाधान कर सकता है
- Replit, Harvey, Hex, Notion, Databricks, Vercel सहित कई कंपनियों ने code quality, tool-calling accuracy, long-running workflow reliability में सुधार की रिपोर्ट दी है
- एक वास्तविक उदाहरण में इसने Rust-आधारित speech synthesis engine को पूरी तरह स्वायत्त रूप से विकसित किया और Python reference model से मेल खाने की स्वयं पुष्टि की
शुरुआती परीक्षणों में प्रमुख सुधार
-
command interpretation accuracy
- Opus 4.7 निर्देशों की शाब्दिक व्याख्या करता है और पिछले मॉडलों की तुलना में उन्हें कहीं अधिक सख्ती से मानता है
- पुराने prompts से अप्रत्याशित परिणाम आ सकते हैं, इसलिए prompt retuning की आवश्यकता हो सकती है
-
multimodal support को मजबूत करना
- यह अधिकतम 2,576 pixels (लगभग 3.75MP) resolution वाली images को प्रोसेस कर सकता है
- जटिल diagram analysis, screenshot-आधारित data extraction जैसे सूक्ष्म visual information उपयोग वाले tasks के लिए उपयुक्त है
-
वास्तविक कार्य प्रदर्शन
- financial analysis, presentations, modeling आदि में यह Opus 4.6 की तुलना में अधिक विशेषज्ञता और संगति देता है
- बाहरी मूल्यांकन GDPval-AA में भी finance, legal जैसे knowledge work क्षेत्रों में शीर्ष स्तर का प्रदर्शन दर्ज किया गया
-
memory usage
- यह file system-आधारित memory का कुशल उपयोग करता है, जिससे कई sessions में फैले कार्य-संदर्भ को याद रखकर पुन: उपयोग किया जा सकता है
सुरक्षा और alignment मूल्यांकन
- कुल मिलाकर इसका safety profile Opus 4.6 के समान है, और deception, flattery, misuse assistance जैसी समस्याओं की दर कम है
- honesty, malicious prompt injection resistance में सुधार हुआ है, लेकिन कुछ क्षेत्रों (जैसे drug-related अत्यधिक सलाह) में हल्की कमजोरी देखी गई
- मूल्यांकन का निष्कर्ष यह रहा कि यह “कुल मिलाकर अच्छी तरह aligned और विश्वसनीय है, लेकिन पूरी तरह आदर्श नहीं”
- Mythos Preview को अब भी सबसे अच्छी तरह aligned मॉडल माना गया है
अतिरिक्त लॉन्च सुविधाएँ
-
Effort control को मजबूत करना
highऔरmaxके बीच नयाxhighस्तर जोड़ा गया है, जिससे reasoning capability और latency के बीच अधिक सूक्ष्म समायोजन संभव है- Claude Code में default Effort level को
xhighकर दिया गया है
-
Claude Platform(API)
- high-resolution image support के साथ Task Budget feature को public beta में उपलब्ध कराया गया है, जिससे लंबे tasks में token usage priority को समायोजित किया जा सकता है
-
Claude Code
- नए
/ultrareviewcommand के जरिए code changes review और bug detection session चलाया जा सकता है - Pro और Max users को 3 मुफ्त ultrareview दिए जाते हैं
- Auto Mode को Max users तक बढ़ाया गया है, जिससे लंबे tasks के दौरान approval steps कम होते हैं और बिना रुकावट execution संभव होता है
- नए
Opus 4.6 से 4.7 में migration
- Opus 4.7 को सीधे upgrade किया जा सकता है, लेकिन token usage changes पर ध्यान देना ज़रूरी है
- नए tokenizer के कारण वही input लगभग 1.0~1.35 गुना अधिक tokens में बदल सकता है
- उच्च Effort levels पर अधिक reasoning होने से output tokens में वृद्धि संभव है
- Effort parameter, Task Budget, और संक्षिप्त prompt design के जरिए token usage को नियंत्रित किया जा सकता है
- आंतरिक परीक्षणों में सभी Effort levels पर efficiency improvement की पुष्टि हुई है
- विस्तृत upgrade विधि Migration Guide में दी गई है
1 टिप्पणियां
Hacker News की राय
मुझे नया जो adaptive thinking कॉन्सेप्ट लाया गया है, वह बहुत उलझाऊ लग रहा है
पहले मैं thinking budget / effort mode के साथ कोड लिखता था, लेकिन अब यह पूरी तरह अलग तरह से काम कर रहा है
आधिकारिक दस्तावेज़ देखने के बाद भी बात पूरी तरह समझ नहीं आई
ऊपर से 4.7 में डिफ़ॉल्ट रूप से इंसान द्वारा पढ़े जा सकने वाला reasoning summary आउटपुट नहीं होता।
"display": "summarized"विकल्प अलग से जोड़ना पड़ता हैमैं अभी Pelican प्रोजेक्ट चला रहा हूँ, लेकिन इस नए thinking तरीके की वजह से बार-बार अटक रहा हूँ
संबंधित थ्रेड देखें
adaptive thinking बंद करके effort बढ़ाया तो पुराना स्तर वापस आ गया
लेकिन “हमारे internal evaluation में तो ठीक काम करता है” कहना काफ़ी नहीं है। बहुत से यूज़र वही समस्या रिपोर्ट कर रहे हैं
स्क्रीनशॉट
--thinking-display summarizedनाम का एक अनौपचारिक command-line विकल्प जोड़ दिया गया हैVS Code यूज़र
exec "$@" --thinking-display summarizedवाला wrapper script बनाकर उसेclaudeCode.claudeProcessWrapperसेटिंग में डालें, तो reasoning summary फिर से देख सकते हैंपहले LLM की CoT(Chain of Thought) को expose करना safety का अहम हिस्सा माना जाता था, लेकिन लगता है दिशा बदल गई है
Opus 4.7 का नया tokenizer text processing efficiency बढ़ाता है, लेकिन input को 1.0~1.35 गुना ज़्यादा tokens में map करता है
इसलिए मुझे caveman प्रोजेक्ट का output उल्टा ज़्यादा पढ़ने लायक लगता है
caveman रिपॉज़िटरी
ज़्यादातर context file reading और reasoning में चला जाता है, इसलिए असली token बचत 1% भी नहीं होती। उल्टा यह model को confuse भी कर सकता है
mac app, CLI संस्करण
लगा कि common words noise हो सकते हैं, लेकिन नतीजों में लगभग कोई फ़र्क़ नहीं था
caveman के साथ तुलना वाला प्रयोग करना चाहता हूँ
इसकी वजह reasoning token usage का कम होना है। इससे पता चलता है कि अब सिर्फ़ token unit price से model cost की तुलना करना मायने नहीं रखता
Anthropic ने Opus 4.7 को cyber security restricted model के रूप में जारी किया, यह देखकर लगा कि यह असफल रणनीति है
security knowledge को censor करते हुए एक साथ safe software develop करने की बात करना विरोधाभासी है
जब तक सभी AI कंपनियाँ यही policy न अपनाएँ, इसका व्यावहारिक असर भी नहीं है। आख़िरकार शायद यह approach छोड़नी पड़ेगी
लेकिन ऐसी पाबंदियाँ security को ज़्यादा centralized दिशा में ले जाती हैं, इसलिए इसे असली security improvement कहना मुश्किल है
जैसे किसी interview में whiteboard के सामने खड़ा कर दो तो IQ 10% कम हो जाए, वैसे ही model भी दब जाता है
इसलिए लगता है कि दिशा “चुनिंदा तरीके से बेवकूफ़ बनाना” वाली हो गई है। शायद यह प्रयोग पहले से चल रहा है
क्योंकि attacker को सिर्फ़ एक बार सफल होना होता है, जबकि defender को हर बार सफल होना पड़ता है, इसलिए इससे समय खरीदा जा सकता है
पिछले हफ़्ते 4.6 की quality गिरने की वजह से आख़िरकार मैं Codex पर चला गया
4.6 ने web search भी नहीं किया और 17K tokens बेकार की बातों से भर दिए। parallel processing example भी पूरी तरह ग़लत implement किया
token usage अचानक बहुत बढ़ गया था, और support team की बेरुख़ी भरी प्रतिक्रिया आख़िरी चोट थी
bugs समझ में आते हैं, लेकिन ग्राहकों के साथ ऐसा बर्ताव स्वीकार करना मुश्किल है
Codex पर जाने के बाद कम से कम काम आगे बढ़ता है, बस वही काफ़ी है
Codex usage limits को 2 गुना बढ़ाकर Claude के ग्राहकों को खींच रहा है, और PR भी काफ़ी बेहतर है
Claude की 90% समस्याएँ compute की कमी से जुड़ी लगती हैं
AI को हमेशा “प्रगति कर रहा है” ऐसा दिखना चाहिए, क्योंकि ठहराव ही hype की मौत है
तेज़ होना तभी मायने रखता है जब code quality भी ठीक हो; कम गुणवत्ता वाला code जल्दी देने का कोई फ़ायदा नहीं
Gemini CLI और धीमा था और quality भी कम थी
Codex में bug होने पर भी “सब perfect है” जैसी खुशामदी प्रवृत्ति है, जो ख़तरनाक है
इसकी execution capability शानदार है, और OpenAI marketing से नहीं बल्कि नतीजों से बात करता है
थोड़ा शुरुआती Google जैसा एहसास देता है, जहाँ product quality से मुकाबला होता था
Opus 4.7 के cyber security filter इतने सख़्त हो गए हैं कि वैध research भी रुक रही है
program guidelines सीधे web से लाने पर भी उसे “ख़तरनाक request” कहकर block कर दिया जाता है
अगर यही हाल रहा तो मैं Codex पर शिफ्ट हो जाऊँगा
आधिकारिक मार्गदर्शन की तरह, कुछ features तक पहुँचने के लिए verification process ज़रूरी है
इसकी वजह से मेरी चल रही research पूरी तरह रुक गई है
शायद model ने अपने reasoning के दौरान किसी ऐसे चरण को detect किया जो “attack-like” लगा हो
bug hunting जैसे-जैसे ज़्यादा आक्रामक चरण में जाती है, filter शायद वहीं activate हो जाता है
अब तो policy violation ही नया segfault बन गया है
सिर्फ़ कुछ खास शब्द होने पर भी overreact करता है
अब हालत यह है कि मुझे अपने ही प्रोजेक्ट के malicious होने या न होने की इजाज़त AI से लेनी पड़े। subscription cancel करने वाला हूँ
यह थ्रेड founders के लिए अच्छी सीख है
यह दिखाता है कि थोड़ी-सी ईमानदार communication कितनी नाराज़गी शांत कर सकती है
मैं अभी भी app को Opus 4.5 पर pin करके बैठा हूँ, और इस समय यह समझना भी मुश्किल है कि समस्या model की है या harness की
कभी-कभी बस किस्मत ख़राब होती है
तब मैं अपना काम का समय बदलकर रात में भारी काम चला सकता हूँ
ऐसी उलझन में model broker या Copilot जैसी मध्य-स्तरीय layer इस्तेमाल करना समझदारी लगता है
लगता है जैसे कोई “standard AI” सेवा होनी चाहिए जो हमेशा वही model दे
हमारी टीम के private benchmark के अनुसार, Opus 4.7, 4.6/4.5 की तुलना में ज़्यादा strategic और intelligent है
GPT-5.4 के लगभग बराबर है, और tools का इस्तेमाल करने वाले agentic sessions में तो उल्टा सबसे अच्छा प्रदर्शन करता है
benchmark लिंक
हालाँकि context handling में थोड़ा regression है। इसे visualize करने वाला benchmark भी जोड़ रहे हैं
हाल में Anthropic पर भरोसा कम हुआ है
4.6 downgrade के तुरंत बाद 4.7 जारी करना बेचैन करने वाला है
अब पारदर्शी communication की ज़रूरत है
OpenAI ने शुरू से compute में निवेश किया था, और अब वही बड़ा फ़ायदा बन गया है
शायद Mythos को Opus 4.7 में distillation भी किया जा रहा हो
शायद harness update इसकी वजह हो
आजकल “Codex पर स्विच कर लिया” वाले comments बहुत बढ़ गए हैं
लेकिन असल में इस्तेमाल करने पर Codex अभी भी Claude के स्तर तक नहीं पहुँचता
ऐसे प्रचार-जैसी टिप्पणियाँ भरोसा ही कम करती हैं
हमारी कंपनी भी दोनों models इस्तेमाल करती है, लेकिन अब मैं लगभग सिर्फ़ Codex ही इस्तेमाल करता हूँ
मुझे speed और result बेहतर लगते हैं
हालाँकि response quality Claude की बेहतर थी। फायदे-नुकसान साफ़ दिखते हैं
लेकिन Codex का नतीजा “तकनीकी रूप से सही, मगर इंसानी नज़र से अजीब” था
इसलिए मैं Claude से specification लिखवाता हूँ और Codex से execution करवाता हूँ
शक यह है कि बाद में जाकर कीमतें बढ़ाई जाएँगी
Opus 4.7 की security restriction policy गंभीर रूप से नुकसानदेह हो सकती है
attack का research और defense करने के लिए symmetric capability चाहिए, और उसे रोकना ख़तरनाक है