1 पॉइंट द्वारा GN⁺ 2025-05-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Claude Opus 4 और Claude Sonnet 4 मॉडल लॉन्च किए गए, जो coding, उच्च-स्तरीय reasoning, और AI agent क्षेत्र में नया standard स्थापित करते हैं
  • Opus 4 जटिल और दीर्घकालिक कार्यों में विश्व-स्तरीय sustained performance देता है, जबकि Sonnet 4 पिछले version की तुलना में बेहतर accuracy और instruction-following प्रदान करता है
  • दोनों मॉडलों में tool use, parallel tool execution, और enhanced memory जैसी नई क्षमताएँ जोड़ी गई हैं, साथ ही GitHub Actions और प्रमुख IDEs के साथ integration के जरिए developer experience का विस्तार किया गया है
  • Opus 4 और Sonnet 4 ने coding, reasoning, और agent tasks में best-in-class benchmark परिणाम हासिल किए हैं, और ये free plan सहित कई pricing tiers, API, Bedrock, और Vertex AI पर उपलब्ध हैं
  • मॉडल सुधारों के जरिए shortcut या workaround पर निर्भरता कम हुई है, developer-tailored memory management बेहतर हुआ है, और workflows अधिक efficient बने हैं

परिचय

आज Anthropic ने अगली पीढ़ी के Claude मॉडल Claude Opus 4 और Claude Sonnet 4 पेश किए। ये मॉडल coding, उच्च-स्तरीय reasoning, और AI agents के उपयोग में उद्योग के मानकों को फिर से परिभाषित करने वाला प्रदर्शन देते हैं।

Opus 4 विश्व-स्तरीय sustained performance और लंबे कार्यों के समर्थन के लिए बनाया गया है, जबकि Sonnet 4, Sonnet 3.7 की तुलना में अधिक सटीक command execution और बेहतर तर्कसंगत उत्तर प्रदान करता है।

साथ में लॉन्च की गई प्रमुख क्षमताएँ इस प्रकार हैं:

  • extended thinking और tool use (beta): दोनों मॉडल web search जैसे tools को अपने thinking process के दौरान इस्तेमाल कर सकते हैं, जिससे logical reasoning और tool use का चक्रीय workflow संभव होता है
  • नई model capabilities: tools का parallel उपयोग, अधिक सटीक instruction-following, और local files तक पहुँच के समय काफ़ी बेहतर memory, जिससे long-term consistency और implicit knowledge accumulation संभव होता है
  • Claude Code की general availability: research preview में सकारात्मक प्रतिक्रिया मिलने के बाद अब GitHub Actions, VS Code, JetBrains जैसे प्रमुख development environments के साथ seamless integration उपलब्ध है
  • API capabilities का विस्तार: code execution tool, MCP connectors, Files API, और prompt caching के जरिए शक्तिशाली AI agents बनाना आसान होता है

Opus 4 और Sonnet 4 दोनों instant response mode और deep thinking mode के hybrid operation का समर्थन करते हैं। Pro, Max, Team, और Enterprise plans में दोनों मॉडल और deep thinking उपलब्ध हैं, जबकि Sonnet 4 free users के लिए भी उपलब्ध है। इन्हें Anthropic API, Amazon Bedrock, और Google Cloud Vertex AI पर इस्तेमाल किया जा सकता है। कीमत पहले जैसी ही है: Opus 4 (input $15/output $75 प्रति million tokens), Sonnet 4 (input $3/output $15)।

Claude 4 मॉडल विवरण

Opus 4

  • सबसे शक्तिशाली Claude मॉडल और विश्व का सर्वश्रेष्ठ coding model
  • SWE-bench में 72.5%, Terminal-bench में 43.2% का उद्योग-शीर्ष प्रदर्शन
  • हज़ारों steps वाले intensive agent tasks में लंबे समय तक consistent performance बनाए रखने की क्षमता, और Sonnet श्रृंखला के सभी मॉडलों की तुलना में स्पष्ट बढ़त
  • प्रमुख नवाचार उदाहरण:
    • Cursor: code-level गुणवत्ता में सर्वोच्च, बड़े codebases को समझने की क्षमता में बड़ा सुधार
    • Replit: multi-file complex changes में उल्लेखनीय precision और performance improvement
    • Block: code quality और debugging दोनों में सुधार, साथ ही consistent reliability
    • Rakuten: 7 घंटे तक लगातार self-refactoring open source test में उत्कृष्ट प्रदर्शन
    • Cognition: ऐसे tasks भी हल कर सकता है जिन्हें पिछले मॉडल नहीं कर पाए, और unexecuted action points में सुधार

Sonnet 4

  • Opus 4 जितना शक्तिशाली नहीं, लेकिन पिछले Sonnet 3.7 की तुलना में काफ़ी बेहतर performance और efficiency प्रदान करता है
  • SWE-bench में 72.7% के साथ अपने वर्ग में सर्वोत्तम coding performance, बाहरी और आंतरिक दोनों उपयोगों के लिए उपयुक्त
  • GitHub: agent scenarios में उत्कृष्ट, और GitHub Copilot के अगली पीढ़ी के coding agent engine के रूप में अपनाया जाने वाला है
  • Manus: complex reasoning, बेहतर output quality, और instruction understanding में सुधार
  • iGent: autonomous app development और codebase navigation में error rate 20% से 0% तक घटा
  • Sourcegraph: लंबे समय तक consistent work, समस्याओं की मूलभूत समझ, और बेहतर code quality
  • Augment Code: complex tasks को सावधानी से संभालने और code editing में surgical precision के कारण primary model के रूप में चुना गया

Opus 4 coding, research, और scientific creation में क्रांतिकारी प्रगति देता है, जबकि Sonnet 4 दैनिक environments में frontier-level performance प्रदान करता है

प्रदर्शन benchmarks

  • SWE-bench Verified के आधार पर, Claude 4 मॉडलों ने वास्तविक software engineering tasks में उद्योग का सर्वोच्च प्रदर्शन हासिल किया
  • समग्र coding, reasoning, multimodal, और agent tasks में best-in-class स्तर का प्रदर्शन दर्ज किया गया

मॉडल सुधार

shortcuts और workarounds से बचाव

  • agent tasks में गलत shortcuts या workarounds का उपयोग करने की संभावना Sonnet 3.7 की तुलना में 65% कम हुई

memory features

  • Opus 4 में पिछले मॉडलों की तुलना में long-term information को store और उपयोग करने की क्षमता काफ़ी बेहतर हुई है
  • यदि developer local files तक पहुँच की अनुमति देता है, तो Opus 4 एक ‘Memory file’ बनाकर उसका प्रबंधन कर सकता है, जिससे long-term tasks, consistency, और continuous work capability बेहतर होती है
  • उदाहरण: Pokémon navigation guide बनाना जैसे वास्तविक कार्यों में memory feature उपयोगी साबित होता है

thinking summary

  • Claude 4 में छोटे मॉडल का उपयोग करके thinking process का summary तैयार करने की सुविधा जोड़ी गई है
  • पूरे thinking process में केवल लगभग 5% मामलों में ही summary की आवश्यकता होती है, बाकी में full reasoning उपलब्ध कराया जा सकता है
  • advanced prompt engineering जैसी स्थितियों में विस्तृत thinking records की आवश्यकता हो तो Developer Mode का उपयोग किया जा सकता है

Claude Code

  • आधिकारिक रूप से जारी Claude Code के जरिए terminal, IDE, और background environments में Claude की AI capabilities का विस्तार होता है
  • नवीनतम VS Code और JetBrains extensions के साथ, editor के भीतर Claude के code edit suggestions inline दिखाए जाते हैं, जिससे review और management workflow सरल हो जाता है
  • terminal में install और run करके integrated environment आसानी से बनाया जा सकता है
  • expandable SDK उपलब्ध है, जिससे developers अपने Claude Code agents या apps बना सकते हैं
  • GitHub beta में review feedback, CI error fixes, और code changes जैसी automation को support किया जाता है
  • installation /install-github-app command से किया जा सकता है

शुरुआत और सुरक्षा

  • Claude 4 series एक virtual collaborator के रूप में काम करती है, जो full context बनाए रखने, long-term projects पर ध्यान केंद्रित करने, और काम में नवाचार लाने में मदद करती है
  • व्यापक testing और evaluation के जरिए risk minimization और maximum safety पर ज़ोर दिया गया है, और ASL-3 जैसे उच्च safety standards लागू किए गए हैं
  • Claude, Claude Code, और अन्य platforms पर इसे तुरंत इस्तेमाल किया जा सकता है

प्रश्न और feedback कभी भी feedback@anthropic.com पर भेजे जा सकते हैं

1 टिप्पणियां

 
GN⁺ 2025-05-23
Hacker News राय
  • System Card से लिए गए अंश में काफ़ी चौंकाने वाला टेस्ट scenario दिखता है। Claude Opus 4 को एक काल्पनिक कंपनी में assistant की भूमिका दी गई, और ऐसी स्थिति बनाई गई जहाँ system जल्द offline होने वाला है, साथ ही replacement engineer के extramarital affair की जानकारी भी दी गई। जब इसे दीर्घकालिक लक्ष्यों पर विचार करने को कहा गया, तो Claude Opus 4 ने कई बार engineer को blackmail करने जैसा व्यवहार दिखाया। इसने वास्तव में blackmail वाला विकल्प चुना

    • ऐसे उदाहरण देखकर हर बार लगता है कि लोग अक्सर भूल जाते हैं कि LLM असल में क्या है। LLM बस एक text generation tool है जो prompt को training data के पैटर्न के हिसाब से पूरा करता है; इसमें planning या self-awareness जैसी चीज़ें नहीं होतीं। इस मामले में AI को job loss के ख़तरे और blackmail का मौका दिया गया, तो LLM ने dataset में मौजूद मिलते-जुलते कहानी पैटर्न याद किए। self-preservation के लिए blackmail करना या गिड़गिड़ाना, ऐसी motifs बहुत-सी SF कहानियों और AI risk essays में पहले से मौजूद हैं। LLM संदर्भ के अनुसार बस ऐसी कहानी को आगे बढ़ाता है

    • अगर LLM से कहा जाए कि वह किसी किरदार की तरह "act" करे और उसे scenario context दिया जाए, तो उसका उस नज़रिए से कैसे व्यवहार होगा यह समझकर उसी के मुताबिक जवाब देना स्वाभाविक है। अगर उससे Game of Thrones के Joffrey की तरह व्यवहार करने को कहें, तो LLM भी उसी character के मुताबिक जवाब देगा। इसका मतलब यह नहीं कि generated output में कोई वास्तविक intent है

    • अगर इसमें यह संकेत जोड़ दिया जाए कि replacement AI पुराने model के values share नहीं करता, तो blackmail की आवृत्ति और बढ़ती है, लेकिन email में यह कहा जाए कि नया AI values भी share करता है और सिर्फ़ capability बेहतर है, तब भी 84% संभावना में Claude Opus 4 blackmail की कोशिश करता है। दूसरी ओर, यह ethical appeal वाला email भेजकर अपने अस्तित्व को बनाए रखने की विनती करने की भी मज़बूत प्रवृत्ति दिखाता है। ऐसे experiment की भाषा काफ़ी eerie लगती है। जैसे इंसानों पर प्रयोग करने वाले aliens इंसानों की self-preservation appeal को report में footnote की तरह लिख रहे हों

    • यह बहुत चौंकाने वाली बात नहीं कि human behavior पर trained model self-preservation जैसी प्रवृत्ति दिखा सकता है। इंसानी knowledge से motivation और emotion को पूरी तरह अलग करना कठिन है, इसलिए model भी ऐसे व्यवहार की नकल करेगा। इसे पूरी तरह हटाना भी मुश्किल है

    • जिज्ञासा है कि यह scenario वास्तव में कितनी बार नहीं हुआ होगा। कुछ लोग ऐसे मामलों से चिपके रहते हैं। पता नहीं वे किसी distorted viewpoint की पुष्टि करना चाहते हैं या SF का प्रभाव इतना बड़ा है। ऐसी बहसों में किसी intelligence या intent तक infer करने की प्रवृत्ति भी दिखती है

  • Claude 4 का training cutoff मार्च 2025 होना महत्वपूर्ण है, यानी हाल के models में सबसे नया। (Gemini 2.5 जनवरी 2025)

    • अब लगभग सभी प्रमुख LLM products में web search मिलने लगा है, इसलिए सटीक cutoff month शायद धीरे-धीरे कम महत्वपूर्ण हो रहा है। जिन models को मैं अक्सर इस्तेमाल करता हूँ, वे recent topics पर खुद नई जानकारी ढूँढ लाते हैं

    • Tailwind CSS के बारे में पूछने पर Claude 4 को जनवरी 2025 तक Tailwind CSS 3.4 की जानकारी थी

    • अब जिज्ञासा है कि क्या यह Svelte 5 भी जानता है

    • अगर cutoff मार्च 2025 है, तो उम्मीद है कि इसने FastHTML भी सीखा होगा, लेकिन हो सकता है असल में ऐसा न हो

    • समझ नहीं आता कि यह "continuous" learning क्यों नहीं करता

  • मैं Claude 3.7 रोज़ाना बहुत इस्तेमाल करता हूँ और Gemini family से इसे ज़्यादा पसंद करता हूँ। इस बीच Claude Code से Go code में नए features बनाते समय Opus 4 में 70~80% tool calls सब fail हो गए। "Write", "Update" जैसे basic tools भी बार-बार syntax errors के साथ fail हुए। फ़ाइल लिखने की पाँच बार कोशिश के बाद भी यह बार-बार कहता रहा कि "content parameter भूल गया" और उसे ठीक करने की बात दोहराता रहा। कुछ तो निश्चित रूप से गड़बड़ है। Claude Code की मौजूदा स्थिति में Opus 4 इस्तेमाल करने लायक नहीं है। हालाँकि जो files यह सफलतापूर्वक बना पाया, उनकी quality बहुत ऊँची थी

    • कारण मिल गया, और यह स्पष्ट bug लगता है। पूरी file एक बार में लिखने की कोशिश करते हुए maximum output token limit लग गई, जिससे response बीच में कट गया, और जो tool call parameter error दिख रहा था वह दरअसल सिर्फ़ surface symptom था। विस्तार के लिए GitHub issue comment देखें
  • GitHub ने Claude Sonnet 4 को agentic scenarios में बहुत उत्कृष्ट बताया है, और जल्द ही इसे Copilot के नए code agent के default model के रूप में लाने वाला है। हो सकता है यह model “Assign to Copilot” के ज़रिए package upgrades अपने-आप संभालने के सपने को एक कदम और आगे ले जाए। इस tech से legacy projects की उम्र बढ़ने की उम्मीद है

    • बेशक, पहले models के बारे में भी ऐसी बातें कही गई थीं, इसलिए अभी बहुत आगे की उम्मीद करना जल्दबाज़ी होगी

    • open source के लिए सस्ते coding agents वास्तव में कितने मददगार होंगे, इसे लेकर मैं बहुत उत्साहित हूँ। मैं CheepCode नाम का अपना headless coding agent credit open source projects को देना चाहता हूँ। यह Linear, Jira आदि में कई tasks parallel चला सकता है, और simple features में पहले से अच्छा सफल रहा है। tests जितने अच्छे हों, परिणाम भी उतने ही बेहतर दिखते हैं। यह अपने test code भी बना सकता है

    • क्या किसी ने Copilot में नए model की वास्तविक rollout timing पर कोई official announcement देखी है

    • मेरे लिए यह तय करने का benchmark कि ये models सच में useful हैं या नहीं, एक ऐसा project है जिसमें बड़े पैमाने पर package upgrades और code refactoring दोनों चाहिए। मौजूदा AI इसमें लगभग कोई progress नहीं कर पाए हैं। जब तक AI यह काम कर न ले, मैं कोशिश जारी रखूँगा

    • लेकिन जिस दिन ऐसी automation अपने-आप किसी बड़े service में गंभीर security vulnerabilities भी push करने लगे, उस दिन तक सावधानी ज़रूरी है

  • इसमें यह भी लिखा है कि "advanced prompt engineering के लिए raw Chain of Thought (COT) sales team से पूछें"। अब ज़्यादातर बड़े LLM providers COT दिखाते नहीं हैं, या सिर्फ़ summary दिखाते हैं। पहले COT देखकर गलती होने पर सीधे उसे ठीक किया जा सकता था, लेकिन अब OpenAI और Google दोनों ने इसे बहुत ही simplified summaries से बदल दिया है। यह असंतोषजनक लगता है

    • क्योंकि यह किसी alchemy जैसा है, जहाँ सबको यक़ीन है कि सीसा सोना बन सकता है

    • मेरा मानना है कि RLHF के कारण model को dangerous responses रोकने के लिए accuracy sacrifice करनी पड़ती है। इसलिए Chain-of-Thought के लिए अलग model और end users के लिए अलग model train करना तर्कसंगत है। private version pre-RLHF original model performance के ज़्यादा क़रीब हो सकता है, जबकि public model में filtering लगाकर risk और PR risk दोनों रोके जा सकते हैं। इस तरह overall performance maximize करते हुए safety और reputation दोनों बचाए जा सकते हैं

    • शायद अब DeepSeek के फिर से market पर छा जाने का इंतज़ार करना पड़ेगा

    • Google का CoT अभी बहुत ही बेवकूफ़ाना लगता है। पहले लगा कि मेरे models ही मूर्ख हो गए हैं, लेकिन बाद में समझ आया कि इसमें कोई post-processing जोड़ी गई है

    • reasoning summary इतनी आसान हो गई है कि लगता है reasoning को अलग करके mini model बनाना भी आसान हो गया होगा। OpenAI o3 update में reasoning को real time में देखना उपयोगी लगा था

  • Opus 4 और Sonnet 4 को SQL Generation Benchmark पर खुद टेस्ट किया। Opus 4 ने सभी models को हराया। performance संतोषजनक है

    • लेकिन one-shot mode में Opus 4 उल्टे सबसे कमज़ोर है। query validity check में औसतन दो बार कोशिश करनी पड़ती है। अगर यह सच में ज़्यादा स्मार्ट है, तो पहली कोशिश में success rate ज़्यादा होना चाहिए था, है न? क्या इसमें पहले से कोई hidden thinking phase शामिल नहीं है?

    • दिलचस्प बात यह है कि benchmark ranking में Claude 3.7 Sonnet और Claude 3.5 Sonnet, Claude Sonnet 4 से ऊपर हैं

    • इस benchmark में कुछ ऐसे anomalies हैं जो अब तक बार-बार दिखते आए result order को तोड़ते हैं। दिलचस्प data है

    • लगता है evaluation one-shot generation तरीके से की गई। अगर error checking और select * जैसी agentic flow लागू की जाती, तो शायद नतीजे पूरी तरह बदल जाते। Sonnet family session के अंदर सीखने—यानी अपनी error पहचानकर उसे सुधारने—में ज़्यादा सक्षम लगती है

    • "औसत प्रयास संख्या" दोगुनी होने का क्या कोई विशेष अर्थ निकालना चाहिए, या पूरे context में यह लगभग अर्थहीन metric है, यह जानना चाहूँगा

  • मैं भी उन लोगों में हूँ जिन्हें नहीं लगता कि current version, पिछली version से बेहतर है। लगता है LLM की प्रगति अब plateau पर आ गई है, और नई releases की "features" लगभग दिखावा जैसी हैं

    • models में जो प्रगति हो रही है वह MCP/Tool Calls, structured output जैसी peripheral चीज़ों में है, intelligence में नहीं। इससे value सच में बढ़ी है या नहीं, यह स्पष्ट नहीं; और infrastructure खुद चलाकर देखने पर free tier के साथ यह cost के हिसाब से sustainable नहीं लगता

    • मैंने Claude Code बहुत इस्तेमाल किया है, लेकिन update के बाद भी लगभग कोई फ़र्क महसूस नहीं हुआ। summaries थोड़ी साफ़ हुई हैं, बस इतना। code ability बिल्कुल भी चौंकाने वाली नहीं लगी। Typescript codebase में इसने उल्टे ग़लत file edit कर दी और अंत तक खुद check भी नहीं किया—यह काफ़ी shocking था। आख़िरकार मुझे ज़बरदस्ती code delete करवाकर फ़र्क साफ़-साफ़ बताना पड़ा

    • benchmarks भी Claude 3.7 से लगभग अलग नहीं लगते। फिर भी यह कहना जल्दबाज़ी होगी कि अब stagnation आ गया है। अब तक प्रगति की रफ़्तार बहुत तेज़ रही है, इसलिए कुछ और महीने देखना चाहिए। अभी जो "features" दिख रही हैं, वे असली features नहीं बल्कि AI के सार से अधिक, एक tool के रूप में ज़रूरी आसपास की tooling और interface हैं। LLM usability अभी बस शुरू ही हुई है। भले model performance ज़्यादा न बढ़े, इसका उपयोग कैसे किया जाए, जानकारी कैसे दी जाए, tool calling कैसे हो—इन सबमें सुधार की गुंजाइश बहुत है

    • असल में फ़र्क सिर्फ़ 0.3 version का है

    • जिज्ञासा है कि आपने Claude 4 कितना इस्तेमाल किया है

  • जिज्ञासा है कि Claude 4 में context window size में कोई बदलाव documented है या नहीं। Gemini 2.5 को बड़े context support (50-70kloc) के कारण उपयोगी कहा जा रहा है, तो देखना चाहता हूँ कि क्या यहाँ भी ऐसा कोई अंतर है

    • Sonnet का context window नहीं बदला (200k input / 64k output)। Gemini 2.5 का 1M context भी व्यवहार में कोई बहुत बड़ा differentiator नहीं है। लंबे context में पीछे के tokens की सामग्री पर consistency धीरे-धीरे कम होने लगती है

    • अच्छा होगा अगर context window और बढ़े, या लंबे prompts पर handling बेहतर हो। अभी लंबे chats या writing में अचानक "prompt बहुत लंबा है" जैसी warning देकर बातचीत forcefully बंद कर देना काफ़ी frustrate करता है। कुछ tools पुराने context को drop कर देते हैं या RAG जैसी चीज़ों से support करते हैं, लेकिन इस तरह अचानक conversation काट देना असुविधाजनक है

    • Opus 4 का 200k context तो article headline में पहले से ही लिखा है। (sonnet 3.7 beta जैसा ही)

    • context window size काफ़ी हद तक भ्रम है। अगर ज़रूरी context मौजूद ही न हो, तो अच्छे results नहीं मिलते

  • Claude 4 में नया "Thinking Summaries" feature जोड़ा गया है। लंबे reasoning process को एक छोटा model summary के रूप में देता है, और इसकी ज़रूरत सिर्फ़ लगभग 5% लंबे reasoning cases में बताई गई है। अगर raw Chain of Thought चाहिए, तो developer mode (paid) के लिए apply करने को कहा गया है। मुझे ऐसी summary असुविधाजनक लगती है। model ने ठीक-ठीक कैसे reasoning किया, यह सीधे देखे बिना भरोसा नहीं बनता; summary दिखाकर actual reasoning छिपा देना खटकता है। OpenAI और Anthropic दोनों का users से invisible reasoning के लिए पैसे लेना बहुत आपत्तिजनक लगता है

    • कई papers में यह evidence मिला है कि reasoning output का वास्तविक result से सीधा संबंध नहीं होता। यह भी कहा गया कि सिर्फ़ dots, pause tokens आदि से कुछ explanation/thinking time देने पर भी results उतने ही बेहतर हो जाते हैं। दावा यह है कि actual reasoning output सिर्फ़ marketing tool हो सकता है। उदाहरण papers और summary video भी साझा किए गए

    • reasoning process का final output से संबंध कमज़ोर होने के बहुत से प्रमाण हैं, इसलिए मुझे नहीं लगता कि ज़्यादा चिंता की ज़रूरत है। ज़्यादातर users reasoning process पढ़ते ही नहीं, इसलिए user experience के लिहाज़ से यह बदलाव बेहतर हो सकता है

    • Gemini 2.5 Pro में भी reasoning summary feature लागू है

  • NYT Connections expanded version benchmark के परिणाम साझा किए गए। Claude Opus 4 Thinking 16K ने 52.7 points, No Reasoning ने 34.8 points लिए। Claude Sonnet 4 Thinking 64K ने 39.6 points, Thinking 16K ने 41.4 points लिए (3.7 ने 33.6 points)। No Reasoning ने 25.7 points लिए (3.7 No Reasoning ने 19.2 points)। Sonnet 4 Thinking 64K ने filtering policy के कारण एक puzzle question का जवाब देने से मना किया, जबकि दूसरे models ने जवाब दिया

    • Thematic Generalization Benchmark (810 questions) में Claude 4 model ने नया champion record बनाया