4 पॉइंट द्वारा GN⁺ 2026-04-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • उन्नत software engineering performance को और मजबूत किया गया है, जिससे यह जटिल और लंबे समय तक चलने वाले कार्यों को उच्च संगति और सटीकता के साथ संभाल सकता है
  • दृश्य पहचान और multimodal समझ में सुधार हुआ है, जिससे high-resolution image, technical diagram, chemical structure जैसी जटिल visual information का विश्लेषण संभव है
  • cyber security safeguards अंतर्निहित हैं, जो high-risk requests को स्वचालित रूप से पहचानकर ब्लॉक करते हैं, और वैध security researchers Cyber Verification Program में भाग ले सकते हैं
  • Effort control, Task Budget, /ultrareview command जैसी नई सुविधाएँ लंबे कार्यों की दक्षता और code quality verification क्षमता को बेहतर बनाती हैं
  • Opus 4.6 की तुलना में 13% performance improvement और उच्च विश्वसनीयता हासिल की गई है, और Anthropic इसके आधार पर Mythos-स्तर के मॉडल के सुरक्षित सार्वजनिक रिलीज़ की तैयारी कर रहा है

Claude Opus 4.7 का अवलोकन

  • Claude Opus 4.7 एक ऐसा मॉडल है जिसमें Opus 4.6 की तुलना में उन्नत software engineering performance में बड़ा सुधार हुआ है, और यह जटिल व लंबे समय तक चलने वाले कार्यों को उच्च संगति और सटीकता के साथ संभालता है
  • उपयोगकर्ता पहले की तुलना में अधिक कठिन coding tasks को भरोसे के साथ सौंप सकते हैं, और मॉडल स्वयं सत्यापन के बाद परिणाम रिपोर्ट करता है
  • visual recognition capability को मजबूत किया गया है, जिससे high-resolution images, interfaces, slides, documents आदि में उच्च गुणवत्ता और रचनात्मकता दिखाई देती है
  • Anthropic के Claude Mythos Preview की तुलना में इसकी सामान्य-उद्देश्य क्षमता कम है, लेकिन विभिन्न benchmarks में इसने Opus 4.6 से बेहतर परिणाम दर्ज किए हैं
  • यह सभी Claude products और API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry पर उपलब्ध है, और इसकी कीमत Opus 4.6 के समान है

cyber security से संबंधित उपाय

  • Anthropic ने Project Glasswing के माध्यम से AI के cyber security risks और benefits को सार्वजनिक किया है, Mythos Preview की सार्वजनिक उपलब्धता सीमित रखी है, और security experiments पहले कम शक्तिशाली मॉडलों पर करने का निर्णय लिया है
  • Opus 4.7 इस दिशा का पहला मॉडल है, जिसमें स्वचालित रूप से प्रतिबंधित या high-risk cyber security requests को पहचानने और ब्लॉक करने वाले safeguards शामिल हैं
  • वास्तविक deployment data के आधार पर भविष्य के Mythos-स्तर मॉडलों की व्यापक सार्वजनिक रिलीज़ की तैयारी की जा रही है
  • वैध security researchers (vulnerability analysis, penetration testing, red teaming आदि) Cyber Verification Program में भाग ले सकते हैं

प्रमुख performance और user feedback

  • शुरुआती परीक्षणों में logic errors को स्वयं पहचानने और execution speed बढ़ाने की क्षमता की पुष्टि हुई
  • यह asynchronous workflows, CI/CD, लंबे automation tasks में उत्कृष्ट performance दिखाता है, और केवल सहमति जताने के बजाय समस्या पर गहराई से काम कर अपनी राय भी प्रस्तुत करता है
  • यह data gaps होने पर गलत निष्कर्ष निकालने से बचता है, और inconsistent data traps में नहीं फँसता
  • 93 coding benchmarks में Opus 4.6 की तुलना में 13% सुधार दर्ज किया गया, और पहले असुलझे रहे 4 अतिरिक्त tasks भी हल किए गए
  • multistep task efficiency में यह शीर्ष स्तर की संगति दिखाता है, और financial module में 0.813 स्कोर के साथ Opus 4.6 (0.767) से आगे है
  • multimodal understanding बेहतर हुई है, जिससे chemical structures और जटिल technical diagrams की व्याख्या क्षमता में सुधार हुआ है
  • स्वायत्त long-running tasks निष्पादन क्षमता को मजबूत किया गया है, जिससे यह कई घंटों तक लगातार समस्या-समाधान कर सकता है
  • Replit, Harvey, Hex, Notion, Databricks, Vercel सहित कई कंपनियों ने code quality, tool-calling accuracy, long-running workflow reliability में सुधार की रिपोर्ट दी है
  • एक वास्तविक उदाहरण में इसने Rust-आधारित speech synthesis engine को पूरी तरह स्वायत्त रूप से विकसित किया और Python reference model से मेल खाने की स्वयं पुष्टि की

शुरुआती परीक्षणों में प्रमुख सुधार

  • command interpretation accuracy

    • Opus 4.7 निर्देशों की शाब्दिक व्याख्या करता है और पिछले मॉडलों की तुलना में उन्हें कहीं अधिक सख्ती से मानता है
    • पुराने prompts से अप्रत्याशित परिणाम आ सकते हैं, इसलिए prompt retuning की आवश्यकता हो सकती है
  • multimodal support को मजबूत करना

    • यह अधिकतम 2,576 pixels (लगभग 3.75MP) resolution वाली images को प्रोसेस कर सकता है
    • जटिल diagram analysis, screenshot-आधारित data extraction जैसे सूक्ष्म visual information उपयोग वाले tasks के लिए उपयुक्त है
  • वास्तविक कार्य प्रदर्शन

    • financial analysis, presentations, modeling आदि में यह Opus 4.6 की तुलना में अधिक विशेषज्ञता और संगति देता है
    • बाहरी मूल्यांकन GDPval-AA में भी finance, legal जैसे knowledge work क्षेत्रों में शीर्ष स्तर का प्रदर्शन दर्ज किया गया
  • memory usage

    • यह file system-आधारित memory का कुशल उपयोग करता है, जिससे कई sessions में फैले कार्य-संदर्भ को याद रखकर पुन: उपयोग किया जा सकता है

सुरक्षा और alignment मूल्यांकन

  • कुल मिलाकर इसका safety profile Opus 4.6 के समान है, और deception, flattery, misuse assistance जैसी समस्याओं की दर कम है
  • honesty, malicious prompt injection resistance में सुधार हुआ है, लेकिन कुछ क्षेत्रों (जैसे drug-related अत्यधिक सलाह) में हल्की कमजोरी देखी गई
  • मूल्यांकन का निष्कर्ष यह रहा कि यह “कुल मिलाकर अच्छी तरह aligned और विश्वसनीय है, लेकिन पूरी तरह आदर्श नहीं
  • Mythos Preview को अब भी सबसे अच्छी तरह aligned मॉडल माना गया है

अतिरिक्त लॉन्च सुविधाएँ

  • Effort control को मजबूत करना

    • high और max के बीच नया xhigh स्तर जोड़ा गया है, जिससे reasoning capability और latency के बीच अधिक सूक्ष्म समायोजन संभव है
    • Claude Code में default Effort level को xhigh कर दिया गया है
  • Claude Platform(API)

    • high-resolution image support के साथ Task Budget feature को public beta में उपलब्ध कराया गया है, जिससे लंबे tasks में token usage priority को समायोजित किया जा सकता है
  • Claude Code

    • नए /ultrareview command के जरिए code changes review और bug detection session चलाया जा सकता है
    • Pro और Max users को 3 मुफ्त ultrareview दिए जाते हैं
    • Auto Mode को Max users तक बढ़ाया गया है, जिससे लंबे tasks के दौरान approval steps कम होते हैं और बिना रुकावट execution संभव होता है

Opus 4.6 से 4.7 में migration

  • Opus 4.7 को सीधे upgrade किया जा सकता है, लेकिन token usage changes पर ध्यान देना ज़रूरी है
    • नए tokenizer के कारण वही input लगभग 1.0~1.35 गुना अधिक tokens में बदल सकता है
    • उच्च Effort levels पर अधिक reasoning होने से output tokens में वृद्धि संभव है
  • Effort parameter, Task Budget, और संक्षिप्त prompt design के जरिए token usage को नियंत्रित किया जा सकता है
  • आंतरिक परीक्षणों में सभी Effort levels पर efficiency improvement की पुष्टि हुई है
  • विस्तृत upgrade विधि Migration Guide में दी गई है

1 टिप्पणियां

 
GN⁺ 2026-04-17
Hacker News की राय
  • मुझे नया जो adaptive thinking कॉन्सेप्ट लाया गया है, वह बहुत उलझाऊ लग रहा है
    पहले मैं thinking budget / effort mode के साथ कोड लिखता था, लेकिन अब यह पूरी तरह अलग तरह से काम कर रहा है
    आधिकारिक दस्तावेज़ देखने के बाद भी बात पूरी तरह समझ नहीं आई
    ऊपर से 4.7 में डिफ़ॉल्ट रूप से इंसान द्वारा पढ़े जा सकने वाला reasoning summary आउटपुट नहीं होता। "display": "summarized" विकल्प अलग से जोड़ना पड़ता है
    मैं अभी Pelican प्रोजेक्ट चला रहा हूँ, लेकिन इस नए thinking तरीके की वजह से बार-बार अटक रहा हूँ

    • मेरी bug report पर Boris का जवाब था, “लगता है adaptive thinking ठीक से काम नहीं कर रहा,” लेकिन उसके बाद से कोई खबर नहीं आई
      संबंधित थ्रेड देखें
      adaptive thinking बंद करके effort बढ़ाया तो पुराना स्तर वापस आ गया
      लेकिन “हमारे internal evaluation में तो ठीक काम करता है” कहना काफ़ी नहीं है। बहुत से यूज़र वही समस्या रिपोर्ट कर रहे हैं
    • “pelican को अच्छे से निकालना चाहता हूँ” वाली बात को p-hacking (सांख्यिकीय हेरफेर) जैसा बताकर मज़ाक किया गया। यहाँ p का मतलब pelican का p है, ऐसा शब्दों का खेल है
    • Claude Opus 4.6 ने मुझे सच में बहुत हास्यास्पद नतीजे दिए
      स्क्रीनशॉट
    • Claude Code में शायद --thinking-display summarized नाम का एक अनौपचारिक command-line विकल्प जोड़ दिया गया है
      VS Code यूज़र exec "$@" --thinking-display summarized वाला wrapper script बनाकर उसे claudeCode.claudeProcessWrapper सेटिंग में डालें, तो reasoning summary फिर से देख सकते हैं
    • अब क्या Claude पूरा reasoning नहीं दिखाता और सिर्फ़ summary ही दिखाता है, यह जानने की जिज्ञासा है
      पहले LLM की CoT(Chain of Thought) को expose करना safety का अहम हिस्सा माना जाता था, लेकिन लगता है दिशा बदल गई है
  • Opus 4.7 का नया tokenizer text processing efficiency बढ़ाता है, लेकिन input को 1.0~1.35 गुना ज़्यादा tokens में map करता है
    इसलिए मुझे caveman प्रोजेक्ट का output उल्टा ज़्यादा पढ़ने लायक लगता है
    caveman रिपॉज़िटरी

    • caveman दरअसल लगभग मज़ाकिया प्रोजेक्ट जैसा है
      ज़्यादातर context file reading और reasoning में चला जाता है, इसलिए असली token बचत 1% भी नहीं होती। उल्टा यह model को confuse भी कर सकता है
    • caveman मज़ेदार है, लेकिन अगर सच में token बचत चाहिए तो headroom बेहतर है
      mac app, CLI संस्करण
    • मैंने prompt से सबसे आम 100~1000 अंग्रेज़ी शब्द हटाने का प्रयोग किया था
      लगा कि common words noise हो सकते हैं, लेकिन नतीजों में लगभग कोई फ़र्क़ नहीं था
      caveman के साथ तुलना वाला प्रयोग करना चाहता हूँ
    • rtk-ai/rtk जैसी approach कैसी रहेगी, यह सुझाव दिया गया
    • मेरे internal oil & gas benchmark में Opus 4.7 ने 80% स्कोर किया, जो Opus 4.6(64%) और GPT-5.4(76%) से ऊपर था
      इसकी वजह reasoning token usage का कम होना है। इससे पता चलता है कि अब सिर्फ़ token unit price से model cost की तुलना करना मायने नहीं रखता
  • Anthropic ने Opus 4.7 को cyber security restricted model के रूप में जारी किया, यह देखकर लगा कि यह असफल रणनीति है
    security knowledge को censor करते हुए एक साथ safe software develop करने की बात करना विरोधाभासी है
    जब तक सभी AI कंपनियाँ यही policy न अपनाएँ, इसका व्यावहारिक असर भी नहीं है। आख़िरकार शायद यह approach छोड़नी पड़ेगी

    • मैं security expert नहीं हूँ, लेकिन open source प्रोजेक्ट build करते समय vulnerability verification में मदद करने वाला AI चाहिए
      लेकिन ऐसी पाबंदियाँ security को ज़्यादा centralized दिशा में ले जाती हैं, इसलिए इसे असली security improvement कहना मुश्किल है
    • मुझे लगता है कि training stage पर ज़रूरत से ज़्यादा safety guardrails सामान्य बुद्धिमत्ता को कम कर देते हैं
      जैसे किसी interview में whiteboard के सामने खड़ा कर दो तो IQ 10% कम हो जाए, वैसे ही model भी दब जाता है
    • अभी models hacking में बहुत ज़्यादा स्मार्ट हैं, लेकिन आर्थिक कामों में अभी भी कमज़ोर हैं
      इसलिए लगता है कि दिशा “चुनिंदा तरीके से बेवकूफ़ बनाना” वाली हो गई है। शायद यह प्रयोग पहले से चल रहा है
    • फिर भी short term में यह ठीक कदम हो सकता है
      क्योंकि attacker को सिर्फ़ एक बार सफल होना होता है, जबकि defender को हर बार सफल होना पड़ता है, इसलिए इससे समय खरीदा जा सकता है
  • पिछले हफ़्ते 4.6 की quality गिरने की वजह से आख़िरकार मैं Codex पर चला गया
    4.6 ने web search भी नहीं किया और 17K tokens बेकार की बातों से भर दिए। parallel processing example भी पूरी तरह ग़लत implement किया

    • मैंने भी इसी वजह से Pro subscription cancel कर दी
      token usage अचानक बहुत बढ़ गया था, और support team की बेरुख़ी भरी प्रतिक्रिया आख़िरी चोट थी
      bugs समझ में आते हैं, लेकिन ग्राहकों के साथ ऐसा बर्ताव स्वीकार करना मुश्किल है
      Codex पर जाने के बाद कम से कम काम आगे बढ़ता है, बस वही काफ़ी है
    • बहुत लोगों ने कहा था कि OpenAI ज़्यादा compute खर्च करके डूब जाएगा, लेकिन अब वही उल्टा रणनीतिक बढ़त बन गया है
      Codex usage limits को 2 गुना बढ़ाकर Claude के ग्राहकों को खींच रहा है, और PR भी काफ़ी बेहतर है
      Claude की 90% समस्याएँ compute की कमी से जुड़ी लगती हैं
    • यह मेरी साज़िश वाली थ्योरी है, लेकिन लगता है नए model release से पहले जानबूझकर performance गिराई जाती है ताकि अगला version ज़्यादा बेहतर दिखे
      AI को हमेशा “प्रगति कर रहा है” ऐसा दिखना चाहिए, क्योंकि ठहराव ही hype की मौत है
    • मैंने Codex इस्तेमाल किया, लेकिन मेरे काम के लिए वह काफ़ी कमज़ोर था
      तेज़ होना तभी मायने रखता है जब code quality भी ठीक हो; कम गुणवत्ता वाला code जल्दी देने का कोई फ़ायदा नहीं
      Gemini CLI और धीमा था और quality भी कम थी
      Codex में bug होने पर भी “सब perfect है” जैसी खुशामदी प्रवृत्ति है, जो ख़तरनाक है
    • फिर भी Codex ने मेरी toolkit में जगह बना ली है
      इसकी execution capability शानदार है, और OpenAI marketing से नहीं बल्कि नतीजों से बात करता है
      थोड़ा शुरुआती Google जैसा एहसास देता है, जहाँ product quality से मुकाबला होता था
  • Opus 4.7 के cyber security filter इतने सख़्त हो गए हैं कि वैध research भी रुक रही है
    program guidelines सीधे web से लाने पर भी उसे “ख़तरनाक request” कहकर block कर दिया जाता है
    अगर यही हाल रहा तो मैं Codex पर शिफ्ट हो जाऊँगा

    • अब शायद Identity Verification भी माँगी जा सकती है
      आधिकारिक मार्गदर्शन की तरह, कुछ features तक पहुँचने के लिए verification process ज़रूरी है
    • API में सचमुच “Usage Policy violation” error आता है, और साथ में Cyber Verification Program के लिए apply करने का लिंक भी दिखता है
      इसकी वजह से मेरी चल रही research पूरी तरह रुक गई है
    • मेरे साथ session के बीच में block हुआ, जबकि input वही था
      शायद model ने अपने reasoning के दौरान किसी ऐसे चरण को detect किया जो “attack-like” लगा हो
      bug hunting जैसे-जैसे ज़्यादा आक्रामक चरण में जाती है, filter शायद वहीं activate हो जाता है
      अब तो policy violation ही नया segfault बन गया है
    • इससे भी बुरा यह है कि अपना खुद का code लिखते समय भी यह अपने आप “यह malware नहीं है” जैसी पंक्तियाँ आउटपुट करने लगा
      सिर्फ़ कुछ खास शब्द होने पर भी overreact करता है
      अब हालत यह है कि मुझे अपने ही प्रोजेक्ट के malicious होने या न होने की इजाज़त AI से लेनी पड़े। subscription cancel करने वाला हूँ
    • PDF को printer पर भेजने जैसे साधारण काम भी मना कर दिए जाते हैं
  • यह थ्रेड founders के लिए अच्छी सीख है
    यह दिखाता है कि थोड़ी-सी ईमानदार communication कितनी नाराज़गी शांत कर सकती है
    मैं अभी भी app को Opus 4.5 पर pin करके बैठा हूँ, और इस समय यह समझना भी मुश्किल है कि समस्या model की है या harness की

    • ऐसे थ्रेड्स में हमेशा “Anthropic ने model को nerf कर दिया” जैसी अंधविश्वासी बातें होती हैं
      कभी-कभी बस किस्मत ख़राब होती है
    • अगर load की वजह से model को जानबूझकर धीमा किया गया है, तो यह साफ़-साफ़ बताना ज़रूरी है
      तब मैं अपना काम का समय बदलकर रात में भारी काम चला सकता हूँ
    • Opus 4.5 काफ़ी consistent था, लेकिन 4.6 बहुत uneven था
    • मैं नया developer हूँ और अलग-अलग models के फ़र्क सीख रहा हूँ
      ऐसी उलझन में model broker या Copilot जैसी मध्य-स्तरीय layer इस्तेमाल करना समझदारी लगता है
    • इस तरह की अस्थिरता की वजह से यूज़र शक़ी होते जा रहे हैं
      लगता है जैसे कोई “standard AI” सेवा होनी चाहिए जो हमेशा वही model दे
  • हमारी टीम के private benchmark के अनुसार, Opus 4.7, 4.6/4.5 की तुलना में ज़्यादा strategic और intelligent है
    GPT-5.4 के लगभग बराबर है, और tools का इस्तेमाल करने वाले agentic sessions में तो उल्टा सबसे अच्छा प्रदर्शन करता है
    benchmark लिंक
    हालाँकि context handling में थोड़ा regression है। इसे visualize करने वाला benchmark भी जोड़ रहे हैं

    • यह जानने की जिज्ञासा है कि Opus 4.7 की success rate Sonnet 4.6 से कम है, लेकिन average percentile ज़्यादा क्यों है
    • सवाल उठा कि क्या 4.6 या 4.5 ने शुरुआती release के बाद performance regression झेला था
  • हाल में Anthropic पर भरोसा कम हुआ है
    4.6 downgrade के तुरंत बाद 4.7 जारी करना बेचैन करने वाला है
    अब पारदर्शी communication की ज़रूरत है

    • समस्या की जड़ compute shortage है
      OpenAI ने शुरू से compute में निवेश किया था, और अब वही बड़ा फ़ायदा बन गया है
    • संभव है Mythos को train करते समय Opus की performance गिरी हो
      शायद Mythos को Opus 4.7 में distillation भी किया जा रहा हो
    • यह भी जिज्ञासा है कि Bedrock आधारित Claude भी साथ में सुस्त क्यों हो रहा है
      शायद harness update इसकी वजह हो
    • Persona ID verification integration आख़िरी झटका था। उसके बाद मैं चला गया
    • समझ नहीं आता कि इस तरह कब तक टिके रहना संभव है
  • आजकल “Codex पर स्विच कर लिया” वाले comments बहुत बढ़ गए हैं
    लेकिन असल में इस्तेमाल करने पर Codex अभी भी Claude के स्तर तक नहीं पहुँचता
    ऐसे प्रचार-जैसी टिप्पणियाँ भरोसा ही कम करती हैं

    • लेकिन सच यह भी है कि बहुत से developers Codex को पसंद करते हैं
      हमारी कंपनी भी दोनों models इस्तेमाल करती है, लेकिन अब मैं लगभग सिर्फ़ Codex ही इस्तेमाल करता हूँ
      मुझे speed और result बेहतर लगते हैं
    • मैंने भी छोटा pilot किया था, जिसमें Codex ने Claude की तुलना में 4 गुना तेज़ी से समस्या हल की
      हालाँकि response quality Claude की बेहतर थी। फायदे-नुकसान साफ़ दिखते हैं
    • एक ही refactoring task देने पर Codex ने 5 मिनट लिए, Claude ने 20 मिनट
      लेकिन Codex का नतीजा “तकनीकी रूप से सही, मगर इंसानी नज़र से अजीब” था
      इसलिए मैं Claude से specification लिखवाता हूँ और Codex से execution करवाता हूँ
    • “Java सबसे श्रेष्ठ है” जैसी तंज़ भरी बात के साथ कहा गया कि यह बहस आख़िरकार programming language wars जैसी ही है
    • OpenAI पर अत्यधिक subsidy strategy से market share बढ़ाने का आरोप लगाया गया
      शक यह है कि बाद में जाकर कीमतें बढ़ाई जाएँगी
  • Opus 4.7 की security restriction policy गंभीर रूप से नुकसानदेह हो सकती है
    attack का research और defense करने के लिए symmetric capability चाहिए, और उसे रोकना ख़तरनाक है

    • शायद यह Mythos product positioning के लिए उठाया गया कदम है
    • अब वैध security research करने के लिए भी model को trick करना पड़ रहा है
    • अगर ऐसी policy जारी रही तो platform छोड़ने का इरादा है
    • “गंभीर” कहना शायद अतिशयोक्ति है, लेकिन asymmetry कहाँ से आती है, यह पूछने वाली राय भी है
    • लगता है आख़िरकार ऐसा दौर आ सकता है जहाँ सिर्फ़ Anthropic या सरकार द्वारा approved software को ही safe माना जाएगा