- उन्नत software engineering performance को और मजबूत किया गया है, जिससे यह जटिल और लंबे समय तक चलने वाले कार्यों को उच्च संगति और सटीकता के साथ संभाल सकता है
- दृश्य पहचान और multimodal समझ में सुधार हुआ है, जिससे high-resolution image, technical diagram, chemical structure जैसी जटिल visual information का विश्लेषण संभव है
- cyber security safeguards अंतर्निहित हैं, जो high-risk requests को स्वचालित रूप से पहचानकर ब्लॉक करते हैं, और वैध security researchers Cyber Verification Program में भाग ले सकते हैं
- Effort control, Task Budget,
/ultrareview command जैसी नई सुविधाएँ लंबे कार्यों की दक्षता और code quality verification क्षमता को बेहतर बनाती हैं
- Opus 4.6 की तुलना में 13% performance improvement और उच्च विश्वसनीयता हासिल की गई है, और Anthropic इसके आधार पर Mythos-स्तर के मॉडल के सुरक्षित सार्वजनिक रिलीज़ की तैयारी कर रहा है
Claude Opus 4.7 का अवलोकन
- Claude Opus 4.7 एक ऐसा मॉडल है जिसमें Opus 4.6 की तुलना में उन्नत software engineering performance में बड़ा सुधार हुआ है, और यह जटिल व लंबे समय तक चलने वाले कार्यों को उच्च संगति और सटीकता के साथ संभालता है
- उपयोगकर्ता पहले की तुलना में अधिक कठिन coding tasks को भरोसे के साथ सौंप सकते हैं, और मॉडल स्वयं सत्यापन के बाद परिणाम रिपोर्ट करता है
- visual recognition capability को मजबूत किया गया है, जिससे high-resolution images, interfaces, slides, documents आदि में उच्च गुणवत्ता और रचनात्मकता दिखाई देती है
- Anthropic के Claude Mythos Preview की तुलना में इसकी सामान्य-उद्देश्य क्षमता कम है, लेकिन विभिन्न benchmarks में इसने Opus 4.6 से बेहतर परिणाम दर्ज किए हैं
- यह सभी Claude products और API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry पर उपलब्ध है, और इसकी कीमत Opus 4.6 के समान है
cyber security से संबंधित उपाय
- Anthropic ने Project Glasswing के माध्यम से AI के cyber security risks और benefits को सार्वजनिक किया है, Mythos Preview की सार्वजनिक उपलब्धता सीमित रखी है, और security experiments पहले कम शक्तिशाली मॉडलों पर करने का निर्णय लिया है
- Opus 4.7 इस दिशा का पहला मॉडल है, जिसमें स्वचालित रूप से प्रतिबंधित या high-risk cyber security requests को पहचानने और ब्लॉक करने वाले safeguards शामिल हैं
- वास्तविक deployment data के आधार पर भविष्य के Mythos-स्तर मॉडलों की व्यापक सार्वजनिक रिलीज़ की तैयारी की जा रही है
- वैध security researchers (vulnerability analysis, penetration testing, red teaming आदि) Cyber Verification Program में भाग ले सकते हैं
प्रमुख performance और user feedback
- शुरुआती परीक्षणों में logic errors को स्वयं पहचानने और execution speed बढ़ाने की क्षमता की पुष्टि हुई
- यह asynchronous workflows, CI/CD, लंबे automation tasks में उत्कृष्ट performance दिखाता है, और केवल सहमति जताने के बजाय समस्या पर गहराई से काम कर अपनी राय भी प्रस्तुत करता है
- यह data gaps होने पर गलत निष्कर्ष निकालने से बचता है, और inconsistent data traps में नहीं फँसता
- 93 coding benchmarks में Opus 4.6 की तुलना में 13% सुधार दर्ज किया गया, और पहले असुलझे रहे 4 अतिरिक्त tasks भी हल किए गए
- multistep task efficiency में यह शीर्ष स्तर की संगति दिखाता है, और financial module में 0.813 स्कोर के साथ Opus 4.6 (0.767) से आगे है
- multimodal understanding बेहतर हुई है, जिससे chemical structures और जटिल technical diagrams की व्याख्या क्षमता में सुधार हुआ है
- स्वायत्त long-running tasks निष्पादन क्षमता को मजबूत किया गया है, जिससे यह कई घंटों तक लगातार समस्या-समाधान कर सकता है
- Replit, Harvey, Hex, Notion, Databricks, Vercel सहित कई कंपनियों ने code quality, tool-calling accuracy, long-running workflow reliability में सुधार की रिपोर्ट दी है
- एक वास्तविक उदाहरण में इसने Rust-आधारित speech synthesis engine को पूरी तरह स्वायत्त रूप से विकसित किया और Python reference model से मेल खाने की स्वयं पुष्टि की
शुरुआती परीक्षणों में प्रमुख सुधार
-
command interpretation accuracy
- Opus 4.7 निर्देशों की शाब्दिक व्याख्या करता है और पिछले मॉडलों की तुलना में उन्हें कहीं अधिक सख्ती से मानता है
- पुराने prompts से अप्रत्याशित परिणाम आ सकते हैं, इसलिए prompt retuning की आवश्यकता हो सकती है
-
multimodal support को मजबूत करना
- यह अधिकतम 2,576 pixels (लगभग 3.75MP) resolution वाली images को प्रोसेस कर सकता है
- जटिल diagram analysis, screenshot-आधारित data extraction जैसे सूक्ष्म visual information उपयोग वाले tasks के लिए उपयुक्त है
-
वास्तविक कार्य प्रदर्शन
- financial analysis, presentations, modeling आदि में यह Opus 4.6 की तुलना में अधिक विशेषज्ञता और संगति देता है
- बाहरी मूल्यांकन GDPval-AA में भी finance, legal जैसे knowledge work क्षेत्रों में शीर्ष स्तर का प्रदर्शन दर्ज किया गया
-
memory usage
- यह file system-आधारित memory का कुशल उपयोग करता है, जिससे कई sessions में फैले कार्य-संदर्भ को याद रखकर पुन: उपयोग किया जा सकता है
सुरक्षा और alignment मूल्यांकन
- कुल मिलाकर इसका safety profile Opus 4.6 के समान है, और deception, flattery, misuse assistance जैसी समस्याओं की दर कम है
- honesty, malicious prompt injection resistance में सुधार हुआ है, लेकिन कुछ क्षेत्रों (जैसे drug-related अत्यधिक सलाह) में हल्की कमजोरी देखी गई
- मूल्यांकन का निष्कर्ष यह रहा कि यह “कुल मिलाकर अच्छी तरह aligned और विश्वसनीय है, लेकिन पूरी तरह आदर्श नहीं”
- Mythos Preview को अब भी सबसे अच्छी तरह aligned मॉडल माना गया है
अतिरिक्त लॉन्च सुविधाएँ
-
Effort control को मजबूत करना
high और max के बीच नया xhigh स्तर जोड़ा गया है, जिससे reasoning capability और latency के बीच अधिक सूक्ष्म समायोजन संभव है
- Claude Code में default Effort level को
xhigh कर दिया गया है
-
Claude Platform(API)
- high-resolution image support के साथ Task Budget feature को public beta में उपलब्ध कराया गया है, जिससे लंबे tasks में token usage priority को समायोजित किया जा सकता है
-
Claude Code
- नए
/ultrareview command के जरिए code changes review और bug detection session चलाया जा सकता है
- Pro और Max users को 3 मुफ्त ultrareview दिए जाते हैं
- Auto Mode को Max users तक बढ़ाया गया है, जिससे लंबे tasks के दौरान approval steps कम होते हैं और बिना रुकावट execution संभव होता है
Opus 4.6 से 4.7 में migration
- Opus 4.7 को सीधे upgrade किया जा सकता है, लेकिन token usage changes पर ध्यान देना ज़रूरी है
- नए tokenizer के कारण वही input लगभग 1.0~1.35 गुना अधिक tokens में बदल सकता है
- उच्च Effort levels पर अधिक reasoning होने से output tokens में वृद्धि संभव है
- Effort parameter, Task Budget, और संक्षिप्त prompt design के जरिए token usage को नियंत्रित किया जा सकता है
- आंतरिक परीक्षणों में सभी Effort levels पर efficiency improvement की पुष्टि हुई है
- विस्तृत upgrade विधि Migration Guide में दी गई है
अभी कोई टिप्पणी नहीं है.