Opus 4.6 और Sonnet 4.6 में 1M context अब सामान्य रूप से उपलब्ध

(claude.com)

1 पॉइंट द्वारा GN⁺ 2026-03-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Claude Opus 4.6 और Sonnet 4.6 अब 10 लाख token (1M) context window को standard pricing पर support करते हैं, और पूरे दायरे का उपयोग बिना किसी अलग premium के किया जा सकता है
कीमत वही unit rate पर लागू होगी: Opus 4.6 के लिए $5/$25, Sonnet 4.6 के लिए $3/$15 (input/output के आधार पर), और 9K हो या 900K request, billing उसी अनुपात में होगी
media input limit 6 गुना बढ़ाई गई है, जिससे एक बार में अधिकतम 600 images या PDF pages process किए जा सकते हैं, और यह Azure Foundry·Google Vertex AI आदि पर भी तुरंत उपलब्ध है
Claude Code के Max, Team, Enterprise users अब अपने-आप 1M context का उपयोग कर सकते हैं, जिससे session compaction कम होता है और बातचीत की निरंतरता बेहतर होती है
इसे बड़े codebase, contracts, operational logs जैसे जटिल और लंबे context को बनाए रखते हुए accuracy और efficiency बढ़ाने वाली क्षमता के रूप में देखा जा रहा है

1M context की सामान्य उपलब्धता का अवलोकन

Opus 4.6 और Sonnet 4.6 अब Claude Platform पर 1M context window को standard pricing के साथ उपलब्ध कराते हैं
- Opus 4.6 की कीमत प्रति 10 लाख token $5 (input)/$25 (output), जबकि Sonnet 4.6 की $3/$15 है
- request size के आधार पर कोई अलग pricing tier नहीं है
long-context premium हटा दिया गया है, और हर context length पर वही throughput बनाए रखा गया है
media input limit 6 गुना बढ़ी: अधिकतम 600 images या PDF pages support
beta header की जरूरत नहीं, और 200K token से बड़े requests भी अपने-आप handle किए जाएंगे

Claude Code एकीकरण

Claude Code के Max, Team, Enterprise plans में Opus 4.6 इस्तेमाल करने पर 1M context अपने-आप enable हो जाएगा
- session के भीतर conversation compaction कम होगा
- पहले इसके लिए अतिरिक्त usage की जरूरत थी, लेकिन अब यह base offering में शामिल है

मॉडल performance और accuracy

Opus 4.6 ने MRCR v2 पर 78.3% स्कोर किया है, जो इसी context length वाले मॉडलों में सबसे बेहतर प्रदर्शन है
1M context पर भी accuracy बनी रहती है और long-context retrieval performance बेहतर होती है
बड़े codebase, contracts, long-term agent logs आदि को पूरा context जस का तस रखते हुए process किया जा सकता है
- summary या context reset के बिना पूरी बातचीत बनाए रखी जा सकती है

वास्तविक उपयोग के उदाहरण

वैज्ञानिक शोध: सैकड़ों papers, mathematical frameworks और simulation code को एक साथ जोड़कर analyze किया जा सकता है (Alex Wissner-Gross)
कानूनी काम: 100-page contracts के कई versions की तुलना एक ही session में की जा सकती है (Bardia Pourvakil)
operations system analysis: incident response के दौरान सभी signals और hypotheses को एक साथ सामने रखा जा सकता है (Mayank Agarwal)
AI research और code review: बड़े diff files को एक बार में process करके quality सुधारी जा सकती है (Adhyyan Sekhsaria)
data analysis और debugging: Datadog, database और source code search के दौरान बिना details खोए context बनाए रखा जा सकता है (Anton Biryukov)
agent efficiency में सुधार: context compaction events में 15% कमी, और लंबे sessions में भी शुरुआती जानकारी बनी रहती है (Jon Bell)

उपलब्ध प्लेटफ़ॉर्म और शुरुआत कैसे करें

1M context अभी Claude Platform, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry पर तुरंत उपलब्ध है
Opus 4.6 आधारित Claude Code Max, Team, Enterprise users को डिफ़ॉल्ट रूप से 1M context मिलेगा
अधिक जानकारी आधिकारिक documentation और pricing pages में देखी जा सकती है

1 टिप्पणियां

GN⁺ 2026-03-14

Hacker News की राय

Opus 4.6 वाकई हैरान कर देने वाला है
फ्रंटएंड, बैकएंड, एल्गोरिद्म—जो भी काम दो, यह अच्छी तरह संभाल लेता है
PRD से शुरू करके चरण-दर-चरण योजना बनाओ और एक-एक करके लागू करो, तो कुछ ही घंटों में सचमुच काम करने वाला परिणाम मिल जाता है
यह पहला AI था जिसके बारे में मुझे लगा, “यह शायद मुझसे ज़्यादा स्मार्ट है”
और मौजूदा टेक के साथ अब 1k tokens प्रति सेकंड की रफ़्तार से कई agents एक साथ चलाना भी संभव है
- मैं भी ऐसा अनुभव करना चाहता था
  मैंने Opus 4.6 आधारित Claude Code से React कोड refactor करवाया, जहाँ useState/useEffect → useMemo में बदलना था
  योजना शानदार थी, लेकिन कुछ कोड में variable declaration गलत जगह रख देने से undefined reference बन गया
  जब उसे ठीक करने की कोशिश की, तो वह उल्टा structure को बहुत ज़्यादा बदलने लगा, इसलिए आखिर में मुझे हाथ से ठीक करना पड़ा
  फिर भी कुल मिलाकर समय बचा, लेकिन अनुभव काफ़ी झुंझलाने वाला था
- जानना चाहूँगा कि आप क्या बना रहे हैं
  मैंने Opus 4.6 से database diff tool test harness बनवाने की कोशिश की, लेकिन उसने किसी और पुराने tool के लिए tests बना दिए
  test code ने असली function को call ही नहीं किया और खुद logic implement कर दिया
  4 घंटे और $75 खर्च करने के बाद बस किसी तरह चलने लायक चीज़ मिली, लेकिन quality अच्छी नहीं थी
  कंपनी में भी Claude के लिए बजट बढ़ाने को कहा गया था, लेकिन सब लोग लगभग ऐसी ही दिक्कतें झेल रहे हैं
  अभी VS Studio में partial edits या debugging के लिए इसका इस्तेमाल कहीं ज़्यादा असरदार है
- मैं एक बार AI loop में फँस गया था
  मामला terrain water tank में sediment जमा होने की गणना का था, और Opus तीन परस्पर विरोधी explanations बार-बार दोहराता रहा
  तीन बार कोशिश करने पर भी वही loop चलता रहा, तो आखिर में मैंने जबरन brute force approach से हल निकाला
  अगर इंसान होता, तो शायद दूसरी बार तक ऐसे loop में नहीं फँसता
- मेरे हिसाब से Opus 4.6 पहले ही AGI स्तर का है
  यह सिर्फ़ निर्देश नहीं मानता, बल्कि बिना कहे बेहतर बनाने के ideas भी खुद सुझाता है
इस अपडेट का मुख्य बिंदु है पूरे 1M token window पर standard pricing लागू होना और 600 images/PDF pages का support
Claude Code users के लिए यह बड़ा बदलाव है
- क्या 1M window को पूरा भरकर इस्तेमाल करना सच में उपयोगी है, इस पर मुझे शक है
  Dex Horthy की research की तरह, मेरे लिए इसे 40% से कम (लगभग 80k tokens) पर रखना ज़्यादा stable रहा
  संदर्भ के लिए “No vibes allowed” वीडियो यहाँ है
- हमारी कंपनी में 1M window को असली काम में इस्तेमाल किया जा रहा है
  700k tokens तक सब ठीक था, लेकिन उसके ऊपर जाते ही थोड़ा-थोड़ा सुस्त होने जैसा लगा
  पूरी automation की बजाय pair programming mode में इस्तेमाल करना ज़्यादा stable है
- context जितना बड़ा होगा, input token cost उतनी बढ़ेगी
  800k input की लागत 100k से 8 गुना है, इसलिए अगर cache hit न मिले तो यह API बिल का झटका बन सकता है
- किसी ने मज़ाक में कहा, “तो क्या एक image की कीमत 1,666 शब्दों के बराबर है?”
- मेरे मामले में 1M window पर coding quality तेज़ी से गिर जाती है
  बातचीत के दौरान यह अक्सर context भूल जाता है
एक राय यह भी थी कि कोड सीधे खुद लिखना बेहतर है
मेरे करियर का फ़ोकस Python से C/C++ की तरफ़ चला गया है
Python में Opus कभी-कभी मुझसे बेहतर भी कर लेता है, लेकिन embedded क्षेत्र में यह अभी भी junior स्तर का है
मुझे लगता है कि यह आखिरकार training data quality का मसला है
इसलिए अभी कुछ समय तक LLMs hardware engineers की जगह नहीं लेने वाले
मैंने AI द्वारा लिखे गए कोड में thrashing समस्या रोकने के लिए CI checks बनाए
agents test failures को बार-बार ठीक करने की कोशिश में अक्सर hallucinated imports या deprecated APIs डाल देते थे
इसलिए हर PR पर मैं हल्का scan चलाता हूँ, ताकि मौजूद न होने वाले npm packages या context से भटकाव पकड़े जा सकें
पारंपरिक static analysis सिर्फ syntax देखता है, लेकिन AI code में अक्सर semantic गलती होती है
आगे चलकर ऐसी domain knowledge आधारित validation ज़रूरी होगी
एक पोस्ट में पूछा गया कि 100k tokens के आसपास performance क्यों गिरती है
कई लोगों की राय थी कि वास्तव में उपयोगी context इससे छोटा होता है
- Opus 4.6 में मुझे ऐसा performance drop लगभग महसूस ही नहीं हुआ
  शायद पुराने अनुभव की वजह से बना हुआ भ्रम हो सकता है
- मेरे अनुभव में context rot अभी भी मौजूद है
  90k tokens इस्तेमाल करो, तो 100k हो या 1M, हालत लगभग एक जैसी खराब होती है
  बड़े codebase में prompt quality सबसे अहम है
- मुझे लगता है benchmark chart खुद ही उसका जवाब है
- Transformer की attention complexity context size के साथ quadratic रूप से बढ़ती है
  इसलिए 1M tokens प्रोसेस करने के लिए कई approximation techniques लगानी पड़ती हैं, और वही performance गिरने की वजह हो सकती हैं
Claude Code 2.1.75 में default Opus और 1M Opus का फ़र्क गायब हो गया है
Pro plan में भी ऐसा ही दिखता है, लेकिन असल में अब भी limits हैं
शायद यह Anthropic की GPT 5.4 के 1M window मुकाबले की रणनीति है
- Max 20x में यह अब भी अलग model के रूप में मौजूद है
- Pro में अब भी 1M context के लिए extra charge लगता है
Claude की pricing policy अजीब लगती है
5X plan की कीमत पुराने plan की ठीक 5 गुना है
आम तौर पर bulk purchase पर discount मिलता है, लेकिन यहाँ ऐसा नहीं है
- Anthropic में पहले से ही demand supply से ज़्यादा है, इसलिए उन्हें लोगों को और ज़्यादा इस्तेमाल करने के लिए उकसाने की ज़रूरत नहीं
  शायद उनका मानना है कि एक user के 5 गुना इस्तेमाल से बेहतर है 5 users में बँटकर इस्तेमाल होना
- 5X plan सिर्फ़ लुभाने के लिए है, असली रणनीति 20x plan बेचने की है
- किसी ने मज़ाक में कहा, “चलो volume से पूरा कर लेंगे”
- यह राय भी थी कि दोनों plans subsidized अच्छे deals हैं
आज इस्तेमाल करके देखा, यह सच में दिलचस्प बदलाव है
अब कई sub-agent parallel sessions को एक master session में रखा जा सकता है
Opus 1M को GPT 5.4 के 256k स्तर जैसा कहा जा रहा है, लेकिन इसमें quality drop लगभग नहीं है
हालाँकि q4 ’25 model जैसी अचानक गिरावट नहीं आती
- मैं Sonnet 4.5 1M अक्सर इस्तेमाल करता था, performance मिलती-जुलती थी लेकिन speed काफ़ी बेहतर थी
  शायद इसलिए क्योंकि यह tokens बचाने की बजाय उन्हें खुलकर इस्तेमाल कर रहा था
- एक comment में यह भी पूछा गया कि भुगतान निजी तौर पर हो रहा है या कंपनी कर रही है
  जवाब था कि कंपनी सिर्फ GitHub Copilot सपोर्ट करती है
एक सवाल था कि क्या लंबी sessions token budget को तेज़ी से खा जाती हैं, क्योंकि बातचीत लंबी होने पर पुराना context बार-बार भेजा जाता है
- हाँ। cache इस्तेमाल करने पर भी 800k tokens में प्रति request लगभग $0.40 लगते हैं, इसलिए यह जल्दी जुड़ता जाता है
  अगर tool calls ज़्यादा हों, तो प्रति मिनट कई बार charge लग सकता है
- context caching का सही उपयोग किया जाए तो लागत काफ़ी घटाई जा सकती है
  अधिकतम 900k tokens तक cache किया जा सकता है

Opus 4.6 और Sonnet 4.6 में 1M context अब सामान्य रूप से उपलब्ध

1M context की सामान्य उपलब्धता का अवलोकन

Claude Code एकीकरण

मॉडल performance और accuracy

वास्तविक उपयोग के उदाहरण

उपलब्ध प्लेटफ़ॉर्म और शुरुआत कैसे करें

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय