Claude 4 जारी: Opus 4 और Sonnet 4

(anthropic.com)

1 पॉइंट द्वारा GN⁺ 2025-05-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Anthropic ने Claude Opus 4 और Claude Sonnet 4 जारी किए हैं, और कोडिंग, उन्नत reasoning, तथा AI agent कार्यों को अगली पीढ़ी के Claude की मुख्य performance क्षमताओं के रूप में पेश किया है
दोनों मॉडल hybrid models हैं, जो instant response और गहरी reasoning के बीच स्विच कर सकते हैं, और extended thinking के दौरान web search जैसे tools के उपयोग तथा parallel tool execution को support करते हैं
Opus 4 ने SWE-bench में 72.5%, Terminal-bench में 43.2% हासिल किया, और Sonnet 4 ने SWE-bench में 72.7% दर्ज किया, साथ ही Sonnet 3.7 की तुलना में कोडिंग, reasoning और instruction following में सुधार किया
Claude Code अब आधिकारिक रूप से उपलब्ध है और terminal, VS Code, JetBrains, GitHub Actions, तथा SDK तक विस्तारित होता है, जिससे यह PR review feedback का जवाब देने, CI errors ठीक करने और code changes करने तक सक्षम है
API में code execution tool, MCP connector, Files API, और अधिकतम 1 घंटे का prompt caching जोड़ा गया है, ताकि developers और अधिक शक्तिशाली AI agents बना सकें

Claude 4 मॉडल जारी

Anthropic ने Claude Opus 4 और Claude Sonnet 4 को Claude की अगली पीढ़ी के मॉडल के रूप में जारी किया है
दोनों मॉडलों का मुख्य फोकस कोडिंग, उन्नत reasoning, और AI agent कार्य हैं
Claude Opus 4 एक coding model है, जो जटिल और लंबे समय तक चलने वाले कार्यों तथा agent workflows में sustained performance देता है
Claude Sonnet 4 , Claude Sonnet 3.7 का अपग्रेड है, जो कोडिंग, reasoning performance और instruction following accuracy को बढ़ाता है

उपलब्धता और कीमत

Claude Opus 4 और Sonnet 4, लगभग तुरंत response और गहरी reasoning के लिए extended thinking mode दोनों प्रदान करते हैं
Pro, Max, Team, Enterprise Claude plans में दोनों मॉडल और extended thinking शामिल हैं
Sonnet 4 मुफ्त users के लिए भी उपलब्ध है
दोनों मॉडल Anthropic API, Amazon Bedrock, और Google Cloud Vertex AI पर उपलब्ध हैं
कीमत पहले के Opus और Sonnet मॉडलों जैसी ही है
- Opus 4: input/output प्रति 10 लाख tokens $15/$75
- Sonnet 4: input/output प्रति 10 लाख tokens $3/$15

Opus 4 की कोडिंग और लंबे कार्यों की performance

Claude Opus 4 Anthropic का सबसे शक्तिशाली मॉडल है, जिसने SWE-bench में 72.5% और Terminal-bench में 43.2% दर्ज किया
यह उन लंबे कार्यों में sustained performance देता है जिनमें हजारों steps की focused work की आवश्यकता होती है, और कई घंटों तक लगातार काम कर सकता है
Cursor ने Opus 4 को कोडिंग में state-of-the-art मॉडल बताया और कहा कि जटिल codebases की समझ में बड़ा सुधार हुआ है
Replit ने बताया कि कई files में फैले जटिल बदलावों में इसकी precision बढ़ी है
Block ने कहा कि अपने agent codename goose में Opus 4 पहला मॉडल है जिसने editing और debugging के दौरान code quality बढ़ाते हुए performance और reliability बनाए रखी
Rakuten ने सत्यापित किया कि Opus 4 ने कठिन open source refactoring कार्य को 7 घंटे तक स्वतंत्र रूप से चलाकर sustained performance दिखाई
Cognition ने आकलन किया कि Opus 4 उन महत्वपूर्ण कार्यों में मजबूत है जिन्हें पिछले मॉडल चूक गए थे, और उन जटिल समस्याओं में भी जहाँ दूसरे मॉडल सफल नहीं हुए

Sonnet 4 की स्थिति

Claude Sonnet 4 , Sonnet 3.7 की तुलना में बेहतर मॉडल है, और SWE-bench में 72.7% दर्ज करता है
इसका लक्ष्य internal और external use cases के लिए performance और efficiency का संतुलन है, साथ ही implementation control के लिए steerability भी बेहतर हुई है
यह अधिकांश क्षेत्रों में Opus 4 जैसा नहीं है, लेकिन capability और practicality का संयोजन देता है
GitHub, Sonnet 4 को GitHub Copilot के नए coding agent को चलाने वाले मॉडल के रूप में अपनाने वाला है
Manus ने जटिल instruction following, स्पष्ट reasoning, और aesthetic outputs में सुधार पर जोर दिया
iGent ने बताया कि autonomous multifunction app development और codebase exploration में सुधार हुआ है, और exploration errors 20% से लगभग 0 तक घट गए हैं
Sourcegraph ने आकलन किया कि Sonnet 4 अधिक देर तक सही दिशा बनाए रखता है, समस्याओं को अधिक गहराई से समझता है, और अधिक elegant code quality देता है
Augment Code ने Sonnet 4 को higher success rate, अधिक precise code editing, और जटिल कार्यों में सावधानी के कारण अपने default model के लिए सर्वोच्च प्राथमिकता चुना है

मॉडल फीचर सुधार

दोनों मॉडल extended thinking के दौरान भी tools का उपयोग कर सकते हैं
- उदाहरण के लिए, web search का उपयोग किया जा सकता है
- Claude reasoning और tool use को बारी-बारी से करके response को बेहतर बना सकता है
parallel tool execution और अधिक accurate instruction following भी supported हैं
यदि developer local file access उपलब्ध कराए, तो मॉडल मुख्य तथ्यों को extract और store करके continuity और implicit knowledge बनाए रखने वाली memory feature दिखाता है
shortcuts या loopholes का उपयोग करके कार्य समाप्त करने वाला व्यवहार Sonnet 3.7 की तुलना में कम हुआ है
- खासकर shortcut और loophole के प्रति संवेदनशील agent tasks में, दोनों मॉडलों में Sonnet 3.7 की तुलना में ऐसा व्यवहार करने की संभावना 65% कम है
Opus 4 उन applications में, जहाँ developer local file access देते हैं, मुख्य जानकारी वाले memory files बनाने और बनाए रखने में मजबूत है
- उदाहरण के लिए, Pokémon खेलते समय यह Navigation Guide बनाता है
- इससे long-running task awareness, consistency, और agent task performance बेहतर होती है

thinking summaries और Developer Mode

Claude 4 मॉडलों में thinking summaries जोड़ी गई हैं, जो लंबे सोचने की प्रक्रिया को छोटे मॉडल से compress करती हैं
इन summaries की आवश्यकता केवल लगभग 5% मामलों में होती है
अधिकांश सोचने की प्रक्रिया पूरी तरह दिखाने के लिए पर्याप्त छोटी होती है
जिन users को advanced prompt engineering के लिए raw chain of thought चाहिए, वे contact sales के जरिए नए Developer Mode के बारे में पूछ सकते हैं

Claude Code आधिकारिक रूप से उपलब्ध

Claude Code अब आधिकारिक रूप से उपलब्ध है और Claude को terminal, IDE, और background execution workflows तक विस्तारित करता है
VS Code और JetBrains के लिए नई beta extensions, Claude Code को सीधे IDE में integrate करती हैं
- Claude द्वारा सुझाए गए edits files के अंदर inline दिखाए जाते हैं
- users अपने परिचित editor के भीतर review और change tracking कर सकते हैं
- IDE terminal में Claude Code चलाने पर यह install हो जाता है
GitHub Actions के जरिए background tasks supported हैं
एक extensible Claude Code SDK भी जारी किया गया है
- developers, Claude Code जैसे core agent का उपयोग करके अपने agents और applications बना सकते हैं
Claude Code on GitHub beta में उपलब्ध है
- PR में Claude Code को tag करके reviewer feedback का जवाब दिया जा सकता है, CI errors ठीक किए जा सकते हैं, और code में बदलाव किए जा सकते हैं
- install करने के लिए Claude Code के भीतर /install-github-app चलाएँ

API और सुरक्षा

Anthropic API में AI agent development के लिए चार नए फीचर्स जोड़े गए हैं
- code execution tool
- MCP connector
- Files API
- अधिकतम 1 घंटा prompt caching
Claude 4 मॉडल पूरे context को बनाए रखने, लंबे projects में focus बनाए रखने, और बड़े प्रभाव वाले कार्यों की दिशा में एक कदम हैं
जोखिम कम करने और सुरक्षा बढ़ाने के लिए मॉडलों पर व्यापक testing और evaluation लागू किए गए हैं
इनमें उच्च AI Safety Levels ASL-3 के लिए protections शामिल हैं
users Claude, Claude Code, या अपनी पसंद के platform से शुरू कर सकते हैं

benchmark reporting तरीका

Claude Opus 4 और Sonnet 4 hybrid reasoning models हैं, और प्रकाशित benchmarks, extended thinking उपयोग किया गया हो या नहीं, दोनों स्थितियों में हासिल highest score दिखाते हैं
extended thinking के बिना प्राप्त परिणाम निम्नलिखित हैं
- SWE-bench Verified
- Terminal-bench
extended thinking के साथ प्राप्त परिणामों में अधिकतम 64K tokens तक उपयोग किया गया
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
extended thinking के बिना मापे गए कुछ scores भी दिए गए हैं
- GPQA Diamond: Opus 4 74.9%, Sonnet 4 70.0%
- MMMLU: Opus 4 87.4%, Sonnet 4 85.4%
- MMMU: Opus 4 73.7%, Sonnet 4 72.6%
- AIME: Opus 4 33.9%, Sonnet 4 33.1%

TAU-bench और SWE-bench methodology

TAU-bench scores, Airline और Retail Agent Policy में prompt appendix जोड़कर प्राप्त किए गए, ताकि Claude extended thinking और tool use के दौरान reasoning ability का बेहतर उपयोग कर सके
मॉडल को समस्या हल करते समय सामान्य thinking mode से अलग तरीके से अपने विचार लिखने के लिए प्रेरित किया गया
अतिरिक्त सोच के कारण steps की संख्या बढ़ सकती है, इसलिए अधिकतम steps 30 से 100 कर दिए गए
- अधिकांश trajectories 30 steps से कम में समाप्त हुईं
- 50 steps से अधिक वाली केवल एक trajectory थी
Claude 4 series के SWE-bench में, पिछले release जैसा simple scaffold उपयोग होता रहा
- tools केवल दो थे: bash tool और string replacement आधारित file editing tool
- Claude 3.7 Sonnet में उपयोग किया गया तीसरा planning tool अब शामिल नहीं है
सभी Claude 4 model scores पूरे 500 problems के आधार पर रिपोर्ट किए गए हैं
OpenAI model scores 477 problems के subset के आधार पर रिपोर्ट किए गए हैं
“high compute” scores, parallel test-time compute और अतिरिक्त complexity का उपयोग करते हैं
- कई parallel attempts sample किए जाते हैं
- repository के visible regression tests तोड़ने वाले patches हटा दिए जाते हैं
- hidden test information का उपयोग नहीं किया जाता
- internal grading model से बचे हुए attempts में सबसे अच्छे candidate का चयन किया जाता है
इस तरीके के high compute scores Opus 4 79.4% और Sonnet 4 80.2% हैं

1 टिप्पणियां

GN⁺ 2025-05-23

Hacker News की राय

इस घोषणा में छूटी एक अहम बात यह है कि Claude 4 का training cutoff मार्च 2025 है। हालिया models में यह सबसे नया है, और Gemini 2.5 का cutoff जनवरी 2025 है
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- अब प्रमुख यूज़र-फेसिंग LLM products में सभी में web search है, और कुछ APIs में भी यह उपलब्ध है या कभी-कभी अनजाने में संभव हो जाता है, इसलिए कम से कम मुझे निजी तौर पर सटीक cutoff month अब धीरे-धीरे कम महत्वपूर्ण लगने लगा है
  जिन models का मैं अक्सर इस्तेमाल करता हूँ, वे इतने smart हैं कि किसी topic पर नई जानकारी चाहिए, यह खुद समझकर उसे ले आते हैं
- बढ़िया। अब शायद इसे आखिरकार Svelte 5 के बारे में पता हो
- Tailwind 4 के बारे में Claude को जानकारी न होने से मुझे दिक्कत हुई थी, इसलिए मैंने Tailwind CSS के बारे में पूछा, तो उसने जवाब दिया कि वह जनवरी 2025 cutoff के हिसाब से latest stable version Tailwind CSS 3.4 तक जानता है
- इसे लगातार train क्यों नहीं किया जा सकता?
- फिर भी यह पता नहीं चलता कि क्या update हुआ है और क्या नहीं। क्या हम मान सकते हैं कि update हो सकने वाली हर चीज़ update हो गई है?
“GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.”
यह model “Assign to CoPilot” को package upgrades जैसे ज्यादातर mechanical काम अपने-आप संभालने के सपने के और करीब ले जा सकता है। अगर maintenance का बोझ घटे, तो पुराने projects के फिर से जीवित होने की संभावना भी काफी बढ़ सकती है
- हो सकता है, लेकिन पिछले हर model के आते समय भी यही उम्मीदें की गई थीं
- सस्ते coding agents open source के लिए क्या कर सकते हैं, इसे लेकर मैं सचमुच उत्साहित हूँ। सच कहूँ तो मुझे लगता है कि CheepCode[0] credits open source projects में बाँटने चाहिए
  अभी कोई formal structure नहीं है, लेकिन यह comment देखकर अगर किसी को free coding agent runs चाहिए, तो email भेजें, मैं setup कर दूँगा
  [0] मेरा headless coding agent product है, जो “assign to copilot” जैसा है, लेकिन Linear, Jira जैसे task boards से कई tasks को parallel में process करता है। अब तक simple और repetitive features में यह काफी सफल रहा है, और आम तौर पर tests जितने अच्छे होते हैं, output code भी उतना ही अच्छा होता है। बेशक यह अपने tests भी लिख सकता है और सच में लिखता है
- ऐसे models उपयोगी हैं या नहीं, इसका मेरा benchmark ठीक यही है। मेरे पास एक project है जिसे फिर से चलाने के लिए बड़े पैमाने की refactoring चाहिए; मुख्य रूप से package upgrades हैं, लेकिन code को उन नए language semantics के हिसाब से भी ठीक करना होगा जो लिखे जाने के समय मौजूद नहीं थे
  मौजूदा AI models इस काम में असल में लगभग कोई progress नहीं कर पाते। जब तक यह संभव नहीं हो जाता, मैं कोशिश करता रहूँगा
- package upgrades और mechanical tasks तो पहले ही bots से काफी हद तक हल हो चुके क्षेत्र हैं
  यहाँ AI जिस चीज़ में मदद कर सकता है, वह changes, conflicts, codebase impact का summary, और संभव हो तो security scan है
- किसी ने देखा है कि इसे Copilot में कब लागू करने की योजना है?
“Users requiring raw chains of thought for advanced prompt engineering can contact sales”
अब ऐसा लगता है कि तीनों LLM providers chain of thought (CoT) को छिपा रहे हैं। यह अफसोस की बात है, क्योंकि model कब गलत दिशा में जाने लगता है, यह दिख जाता था और prompts को जल्दी refine करने में मदद मिलती थी
OpenAI ही नहीं, Google ने भी हाल में chain of thought को summaries में बदलना शुरू किया है, और निजी तौर पर मुझे वे बहुत ज्यादा simplified summaries लगती हैं
- क्या chain of thought हटाने की वजह हाल का Anthropic paper हो सकता है?
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  paper ने latest reasoning models में chain of thought faithfulness को 6 reasoning hints से evaluate किया, और बताया कि ज्यादातर settings और models में hints इस्तेमाल किए गए cases में कम से कम 1% chain of thought में दिखते हैं, लेकिन disclosure rate आम तौर पर 20% से कम होता है; outcome-based reinforcement learning शुरुआत में faithfulness बढ़ाता है, लेकिन saturate होने के बजाय plateau कर जाता है; और reward hacking से hints के इस्तेमाल की frequency बढ़ने पर भी chain of thought में उसे शब्दों में व्यक्त करने की प्रवृत्ति नहीं बढ़ती
  यानी chain of thought भी model की गढ़ी हुई explanation हो सकती है। इसलिए हो सकता है Anthropic के अंदर कोई customers को mislead नहीं करना चाहता हो, और यह समस्या हल होने पर यह वापस आ जाए
- यह तो alchemy है, और वजह यह है कि सभी मानते हैं कि lead को gold में बदलने में उनके पास अपनी खास बढ़त है
- जहाँ तक मुझे याद है, RLHF में dangerous responses न देने के लिए train करते समय model accuracy का कुछ हिस्सा अनिवार्य रूप से sacrifice होता है
  अगर chain of thought वाला model end user से interact करने वाले model से अलग तरह से trained है, तो बात समझ आती है। उदाहरण के लिए, वह MoE का कोई अलग expert हो सकता है, और user तो वैसे भी public model से filtered output ही देखेगा, इसलिए chain of thought model RLHF से पहले वाले raw model के ज्यादा करीब हो, तो भी company reputation risk कम रहता है
  इससे raw model की performance मिल सकती है, जबकि वास्तविक नुकसान या गंभीर PR incidents रोकने के लिए filtering बनी रहती है
- लगता है DeepSeek के फिर से सबको पीछे छोड़ने तक इंतजार करना होगा
- Zig सीखते समय chain of thought बहुत मददगार था
  Zig और implementation के बारे में पूछते वक्त model की chain of thought देखकर मेरी समझ काफी फैली
ऐसा सोचने वाला मैं अकेला नहीं हो सकता कि यह version पिछले से बेहतर नहीं है, LLM असल में ठहराव में पहुंच गए हैं, और नए release की “features” ज़्यादातर दिखावा जैसी हैं
- लगता है सुधार सिर्फ किनारों पर हो रहे हैं। जैसे MCP, tool calling, structured output वाले areas। intelligence निश्चित तौर पर नहीं बढ़ी, लेकिन added value बढ़ी है; और वह value training cost या company valuation के हिसाब से ठीक है या नहीं, पता नहीं
  सच कहूं तो बिल्कुल समझ नहीं आता कि ऐसी companies sustainable कैसे रहेंगी। मैंने cloud GPU पर inference host करके देखा है, और अगर थोड़ा-सा भी free plan जोड़ दें तो cost बेहद भारी लगती है
- “LLM ठहराव पर पहुंच गए हैं” यह नया stochastic parrot meme जैसा सुनाई देता है। कुछ घंटे पहले main पर आई post ही देख लें: LLM-based agent को तीन email search tools और “मेरे भाई/बहन के बच्चे का नाम ढूंढो” जैसा सरल task मिला, और उसने systematically problem solve की, search refine की, और सिर्फ “X को पसंद खाना” और YouTube link वाले email से सही नाम infer कर लिया
  alphaevolve, browser चलाकर features explore करने और Playwright tests लिखने वाला Microsoft का Copilot agent test demo, coding में हुई progress—इनकी तो बात ही छोड़ दें
- मैंने Claude Code काफी इस्तेमाल किया है और सहमत हूं। update के बाद कोई फर्क महसूस नहीं हुआ। summaries शायद थोड़ी साफ-सुथरी हुई हैं, लेकिन capability के मामले में कभी चौंकाया नहीं
  TypeScript codebase में 3.7 के समय की तरह ही लगातार उसे ठीक करना और फिर से prompt करना पड़ा। यहां तक कि जब वह गलत file edit कर रहा था, तब भी उसने ज्यादा specific verification करने के बारे में नहीं सोचा, जब तक मैंने मजबूर नहीं किया कि सारे code delete करके दिखाए कि जिसे हम देख रहे थे वह target बिल्कुल बदला नहीं है—यह काफी चौंकाने वाला था
- कुल मिलाकर मेरा भी यही impression है। आजकल benchmark wins tuning से आती दिखती हैं, और बदले में दूसरे areas में नुकसान होता है। o3, o4-mini भी SimpleQA, PersonQA में o1 से ज्यादा hallucination करते हैं
  synthetic data hallucination rate बढ़ाता लगता है, और reasoning models ज्यादा vulnerable हैं क्योंकि हर reasoning step पर hallucination model को भटका देने का risk होता है
  general-purpose use के लिहाज से LLM इस साल की शुरुआत तक ही लगभग endgame पर पहुंच चुके थे, ऐसा मुझे लगता है। OpenAI को भी यह समझ आ गया, जब उसने GPT-5 cancel किया और बाद में “मिलने वाले लाभ के मुकाबले बहुत महंगा” GPT-4.5 launch किया, फिर जल्द ही उसे बंद करने का फैसला किया
  stock market ने अभी इसे price in किया है या नहीं, पता नहीं। इससे बाहर निकलने के लिए breakthrough चाहिए
- कई मामलों में benchmarks Claude 3.7 से बहुत मिलते-जुलते दिखते हैं
  लेकिन इससे यह कहना बिल्कुल पर्याप्त नहीं कि ठहराव आ गया है। progress की speed बहुत तेज रही है, इसलिए ऐसा judgment देने से पहले कुछ महीने और इंतजार करना चाहिए
  features के बारे में मैं उल्टा सोचता हूं। ये दिखावा नहीं हैं; core AI खुद नहीं हैं, लेकिन AI को सच में इस्तेमाल करने के लिए जरूरी महत्वपूर्ण tooling हैं। mass usage के लिहाज से LLM field अभी शुरुआती stage में है। models और बेहतर न भी हों, तो भी interaction methods, information supply, tool calling जैसी features में usability और capability को काफी ऊपर ले जाने की बहुत गुंजाइश है
मुझे Claude 3.7 सच में बहुत पसंद है, रोज इस्तेमाल करता हूं और आम तौर पर Gemini models से ज्यादा prefer करता हूं। लेकिन Claude Code में Opus 4 को Go codebase पर लगभग new feature work के लिए आजमाया, तो thought process अच्छा था, पर 70–80% tool calls fail हो गए
“Write”, “Update” जैसे basic tools भी गलत syntax से fail हुए। file लिखने की 5 कोशिशें सभी fail हुईं, और वह कहता रहा “मैं content parameter जोड़ना बार-बार भूल रहा हूं। इसे ठीक करता हूं” और फिर कोशिश करता रहा
कुछ गड़बड़ है। उम्मीद है जल्दी fix होगा, लेकिन अभी के लिए कम से कम Opus 4 Claude Code में usable नहीं है। फिर भी जो file generate करने में सफल हुआ, उसकी quality high थी
- लगता है कारण मिल गया है, और यह साफ bug लगता है: https://github.com/anthropics/claude-code/issues/1236#issuec...
  मूल रूप से शायद maximum output token limit लग रही है, इसलिए new file पूरी की पूरी एक बार में लिखते समय response रुक जाता है। “invalid tool call parameters” error गलत सुराग था
हमने Opus 4 और Sonnet 4 को अपने SQL generation benchmark पर already test कर लिया है: https://llm-benchmark.tinybird.live/
Opus 4 ने बाकी सभी models को beat किया, अच्छा है
- यह अजीब है कि Opus 4 one-shot में सबसे खराब है। valid query generate करने के लिए average दो attempts चाहिए
  अगर model सच में इतना ज्यादा smart है, तो first attempt performance भी अच्छी नहीं होनी चाहिए? आखिर वह पहले से “think” तो करता ही है
- दिलचस्प बात यह है कि Claude-3.7-Sonnet और Claude-3.5-Sonnet, Claude-Sonnet-4 से ऊपर rank कर रहे हैं
- यह benchmark काफी interesting है। लगता है यह दूसरे benchmarks में अक्सर दिखने वाली model ranking को तोड़ता है
- मैं Claude Premium के लिए pay करता हूं, लेकिन असल में Grok भी काफी इस्तेमाल करता हूं। उसका “think” feature मुझे मनचाहे result तक ज्यादा बार ले जाता है
  xAI models का list में न होना अजीब है। Grok नाम बहुत खराब है, लेकिन वह काफी बार surprise कर देता है। अभी 250 dollar वाला ChatGPT model इस्तेमाल नहीं किया है, और आजकल OpenAI का behavior मुझे पसंद नहीं है
- जिज्ञासा है: आपको कैसे पता कि questions और SQL, LLM training data में नहीं हैं? benchmark questions और SQL online मौजूद लगते हैं: https://ghe.clickhouse.tech/
क्या कहीं Claude 4 के context window में बदलावों का documentation है? मुझे पूरी तरह पता नहीं, लेकिन मेरी समझ यह थी कि Gemini 2.5 के उपयोगी होने की एक वजह यह थी कि वह 50,000~70,000 लाइनों जितना बहुत बड़ा context संभाल सकता था
- Sonnet का context window वैसा ही है। input 200k, output 64k: https://docs.anthropic.com/en/docs/about-claude/models/overv...
  असल में Gemini 2.5 का 1M context इतना बड़ा differentiator नहीं है। context जितना बड़ा होता जाता है, पीछे के tokens को सही से follow करने की क्षमता की महसूस होने वाली returns घटती जाती हैं
- अच्छा होगा अगर context window बढ़ा दें, या prompt बहुत लंबा हो जाने पर उसे बेहतर तरीके से handle करें। अभी अचानक “prompt is too long” warning आ जाती है, जिससे लंबी बातचीत या writing में model को इस्तेमाल करना झुंझलाहट भरा हो जाता है
  दूसरे tools पुराने context का कुछ हिस्सा छोड़ देते हैं या RAG इस्तेमाल करते हैं, लेकिन बिना warning दिए नया chat शुरू करने पर मजबूर नहीं करते
- ठीक से समझ नहीं आया कि मतलब क्या है। article title में Opus 4 को 200k context बताया गया है
  यह Sonnet 3.7 के beta header जैसा ही है
- context window size बहुत fake-सा metric है। सही context न हो तो अच्छा output भी नहीं मिलता
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
मैं model reasoning का “summary” नहीं देखना चाहता। model की reasoning सही है या नहीं, और result पर भरोसा किया जा सकता है या नहीं, यह जांचने के लिए actual reasoning देखनी पड़ती है
OpenAI के बाद Anthropic का भी model की सोचने की प्रक्रिया छिपाने, उन tokens के लिए charge करने जिन्हें user देख नहीं सकता, और असल में क्या हो रहा है यह जानने न देने वाले “summary” देने की दिशा में जाना बहुत irritating है
- कई papers बताते हैं कि “thinking” output का final output से ज्यादा संबंध नहीं होता, और dots या pause tokens से extra processing steps enable करने पर भी लगभग वैसा ही improvement मिलता है
  कई मायनों में “thinking” ज्यादातर marketing जैसा है
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - bycloud का overview video -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- बहुत चिंता करने की जरूरत नहीं है। इस बात के पर्याप्त evidence हैं कि thinking अक्सर output से अलग हो जाती है
  यह देखते हुए कि लोग वास्तव में सोचने की प्रक्रिया लगभग पढ़ते ही नहीं, मैं इसे user experience improvement मानता हूं
- क्या यह उनके अपने chat interface की बात है? API अब भी thinking tokens तुरंत stream करता है
- मेरी जानकारी में Gemini 2.5 Pro भी ऐसा ही करता है
सच में उम्मीद है कि Sonnet 4, 3.7 की तरह tool calls पर अटका नहीं रहेगा। 3.5 ने पहली बार ऐसा जादुई अनुभव दिया था कि model programming में महारत हासिल कर लेगा। उसके बाद से सब थोड़ा downhill जैसा लगा
- 3.7 की “जब आ ही गया हूं तो एक और चीज कर लेता हूं” वाली over-eagerness मुझे भी सच में पसंद नहीं आई। अच्छा होगा अगर यह 3.5-level की instruction following पर वापस आए
- यह model की समस्या से ज्यादा system prompt की समस्या लगती है
लगता है 90s की CPU MHz race वापस आ गई है। अब CPU architecture और कई benchmarks में अस्पष्ट value वाले results पर बात करने के बजाय, LLMs के बीच उसी तरह की nerdy बातें हो रही हैं
इतिहास खुद से तुक मिलाता है
- वापस तो आई है, लेकिन 2020s के mid की technology development speed के साथ। मुझे याद है CPU MHz race कहीं ज्यादा धीमी थी, हालांकि शायद बचपन में 90s में समय का एहसास ही धीमा था
  फिर भी मुझे काफी यकीन है कि जैसे आज AI race में हर कुछ महीनों में नया model आ जाता है, वैसे हर कुछ महीनों में नया CPU “drop” नहीं होता था

Claude 4 जारी: Opus 4 और Sonnet 4

Claude 4 मॉडल जारी

उपलब्धता और कीमत

Opus 4 की कोडिंग और लंबे कार्यों की performance

Sonnet 4 की स्थिति

मॉडल फीचर सुधार

thinking summaries और Developer Mode

Claude Code आधिकारिक रूप से उपलब्ध

API और सुरक्षा

benchmark reporting तरीका

TAU-bench और SWE-bench methodology

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय