20 पॉइंट द्वारा GN⁺ 2026-02-06 | 9 टिप्पणियां | WhatsApp पर शेयर करें
  • बेहतर coding capabilities और long-term task persistence के साथ Anthropic का नवीनतम AI मॉडल, जो beta में 1M token context window को support करता है
  • प्रमुख benchmarks में industry-leading score दर्ज करते हुए, GPT-5.2 पर लगभग 144 Elo points की बढ़त
  • code review·debugging, large-scale codebase handling, financial analysis·document writing जैसे practical work-focused tasks में performance बेहतर हुई
  • Adaptive thinking, context compaction, effort control जैसी developer control features जोड़ी गईं, जिससे long-running agents को चलाना आसान हुआ
  • safety evaluation में भी कम errors·misuse·over-refusal rate के परिणाम दिखे, इसलिए इसे high performance और safety दोनों हासिल करने वाला मॉडल माना जा रहा है

Claude Opus 4.6 के प्रमुख सुधार

  • Opus 4.6, पिछले version की तुलना में planning ability, agent persistence, code quality management में बेहतर मॉडल है
    • बड़े codebase में अधिक स्थिरता से काम करता है, और अपनी errors को पहचानने व ठीक करने की क्षमता मजबूत हुई है
    • 1M token context window (beta) के साथ long-form और complex tasks को संभाल सकता है
  • दैनिक काम में उपयोगिता भी बढ़ी है, जिससे financial analysis, research, documents, spreadsheets, presentations generation जैसे कई तरह के काम किए जा सकते हैं
  • Cowork environment में multitasking को autonomously पूरा कर सकता है, और user की ओर से complex work संभाल सकता है

Benchmark और performance evaluation

  • Terminal-Bench 2.0 में सर्वोच्च score, और Humanity’s Last Exam में भी सभी frontier models में शीर्ष स्थान
  • GDPval-AA evaluation में GPT-5.2 से लगभग 144 Elo points और Opus 4.5 से 190 points बेहतर performance
  • BrowseComp test में भी सर्वोच्च performance दर्ज, जिससे online information search capability मजबूत हुई
  • MRCR v2 (1M variant) में 76% score, जो Sonnet 4.5 के 18.5% की तुलना में बड़ा सुधार है
  • लंबे context को बनाए रखने और information tracking की क्षमता बेहतर हुई, जिससे context rot की समस्या कम हुई

शुरुआती उपयोग अनुभव और partner feedback

  • internal engineering tests में complex problem-solving और judgment बेहतर पाए गए
    • कठिन समस्याओं में यह गहराई से बार-बार सोचकर बेहतर परिणाम निकालता है
    • सरल tasks में कभी-कभी अधिक सोचने के कारण देरी हो सकती है, जिसे /effort parameter से adjust किया जा सकता है
  • शुरुआती partners ने Opus 4.6 को autonomous execution ability, complex request handling, team collaboration support में उत्कृष्ट बताया
    • बड़े codebase की खोज, parallel subtask execution, blocker identification जैसे कामों में सटीक performance
    • legal, finance, और technical content analysis में उच्च accuracy (उदाहरण: BigLaw Bench 90.2%)
    • वास्तविक tests में 40 में से 38 cybersecurity investigations में Opus 4.5 से बेहतर परिणाम
    • लाखों lines के code migration को आधे समय में पूरा करने के case report किए गए

Safety और security मजबूती

  • automated behavior audit में deception, sycophancy, misuse cooperation जैसे misaligned behavior का अनुपात कम रहा
  • over-refusal rate सबसे कम वाला Claude मॉडल
  • user welfare, risky request refusal, और covert harmful behavior detection जैसे नए safety evaluations किए गए
  • interpretability research के जरिए मॉडल के अंदरूनी कामकाज के कारणों का विश्लेषण और संभावित समस्याओं की पहचान
  • cybersecurity capability enhancement के साथ 6 नए security probes जोड़े गए, ताकि misuse detection और मजबूत हो
  • defensive use के रूप में open source vulnerabilities की पहचान और patch support, तथा भविष्य में real-time misuse blocking की योजना

Product और API updates

  • Claude Developer Platform में निम्न features जोड़े गए
    • Adaptive thinking: मॉडल स्थिति के अनुसार खुद तय करता है कि गहराई से सोचना है या नहीं
    • Effort level: low, medium, high (default), max — चार स्तर उपलब्ध
    • Context compaction (beta): बातचीत लंबी होने पर पुराने context को summarize और replace करता है
    • 1M token context (beta) और 128k output tokens support
    • US-only inference option उपलब्ध (1.1x pricing)
  • Claude Code में agent teams feature जोड़ा गया, जिससे कई agents parallel collaboration कर सकते हैं
  • Claude in Excel में unstructured data structuring और multi-step change handling की क्षमता बेहतर हुई
  • Claude in PowerPoint (research preview) slides templates, fonts, layouts को पहचानकर brand consistency बनाए रखता है

Access और pricing

  • Opus 4.6 अब claude.ai, API, और प्रमुख cloud platforms पर तुरंत उपलब्ध है
  • API model name claude-opus-4-6 है, और pricing $5/$25 per million tokens पहले जैसी ही है
  • 200k tokens से बड़े prompts पर premium pricing ($10/$37.50 per million tokens) लागू होगी

निष्कर्ष

  • Claude Opus 4.6 ने long-context handling, autonomous agent work, advanced reasoning में बड़ी छलांग लगाई है
  • performance, safety, और developer controllability तीनों को मजबूत करने वाले मॉडल के रूप में, यह practical AI tools के लिए एक नया मानक पेश करता है

9 टिप्पणियां

 
heim2 2026-02-06

Max इस्तेमाल कर रहा हूँ, और पता नहीं क्यों, जितने ज़्यादा tokens खर्च होते हैं उतनी ही तसल्ली होती है... नहीं इस्तेमाल करूँ तो लगता है बेकार जा रहे हैं...

 
duse0001 2026-02-06

इंटरनेट पर घूम रही कीमत कटौती की बात लागू नहीं हुई लगती है हु

 
wegaia 2026-02-06

ऐसा लग रहा है कि Reddit पर ऐसी पोस्ट्स की बाढ़ आ रही है कि subscribers की limits बहुत तेज़ी से खत्म हो रही हैं.
मेरे पास भी करने के लिए काम है, इसलिए मैं बस 4.5 ही इस्तेमाल कर रहा हूँ

 
xguru 2026-02-06

लगता है कि सीमित अवधि के लिए 50 डॉलर के अतिरिक्त usage credits भी दे रहे हैं। हाहा

 
duse0001 2026-02-06

उम्मीद थी कि API की कीमत कम होने पर साप्ताहिक सीमा भी स्वाभाविक रूप से बढ़ जाएगी, लेकिन अफसोस है... 200 डॉलर प्लान की साप्ताहिक सीमा उतनी आरामदायक नहीं है..

 
princox 2026-02-06

उफ़, बहुत कंजूसी है.. Anthropic को token थोड़े खुलकर देने चाहिए..!!

 
hmmhmmhm 2026-02-06

ओओ आखिरकार~~~~

 
princox 2026-02-06

मैं Sonnet 5 की उम्मीद कर रहा था, लेकिन निकला Opus 4.6 हाहा

 
GN⁺ 2026-02-06
Hacker News की राय
  • साइकिल का फ्रेम थोड़ा टेढ़ा है, लेकिन pelican खुद शानदार है
    तस्वीर यहाँ देखी जा सकती है

    • सोच रहा हूँ कि कहीं यह pelican की तस्वीर पर overfitting तो नहीं है
    • यह भी जिज्ञासा है कि “generate” जैसे शब्दों का चुनाव मॉडल के आउटपुट को प्रभावित करता है या नहीं
      मैंने तुरंत नोटिस किया कि pelican की दोनों टाँगें एक ही तरफ हैं, फिर Wikipedia पर जाकर पुष्टि की कि असल में ऐसा नहीं होता
      यह भी जानना चाहूँगा कि क्या किसी ने prompt को बार-बार सुधारकर ज़्यादा यथार्थवादी नतीजा पाने का प्रयोग किया है
    • सच कहें तो ज़्यादातर लोग भी साइकिल ठीक से नहीं बना पाते
      वे अक्सर फ्रेम की संरचना या ज्यामितीय अनुपात गलत कर देते हैं
    • इसका एक animation version भी है
      लिंक
    • लगता है कि कभी न कभी ऐसे आउटपुट फिर से मॉडल ट्रेनिंग में वापस जाएंगे और benchmark pass कर लेंगे
  • GPT‑5.3 Codex ने Terminal Bench में 77.3% के साथ जबरदस्त प्रदर्शन किया
    हैरानी की बात है कि रिकॉर्ड सिर्फ 35 मिनट में टूट गया

    • मॉडल का प्रदर्शन समय या server load के हिसाब से बदलता है, इसलिए ऐसी benchmark reliability पर भरोसा किया जा सकता है या नहीं, इस पर सवाल है
      क्या लॉन्च के तुरंत बाद इसे सबसे अच्छे प्रदर्शन पर चलाया जाता है और बाद में लागत बचाने के लिए घटा दिया जाता है?
    • चूँकि कोई व्यापक benchmark report नहीं है, यह भी शक है कि कहीं मामला benchmaxxing का तो नहीं
      खुद इस्तेमाल करने के बाद राय साझा करना चाहूँगा
    • स्कोर में 10 points की बढ़ोतरी बड़ा बदलाव है, लेकिन क्या असली इस्तेमाल में भी गुणात्मक अंतर महसूस होगा?
      कहीं हम benchmark saturation तक तो नहीं पहुँच गए?
    • Claude swe-bench 80.8 है, जबकि Codex 56.8, इसलिए कुल मिलाकर Claude 4.6 अभी भी आगे लगता है
  • Claude Code के release notes का सार है
    इसमें Opus 4.6, multi-agent collaboration feature, automatic memory logging, partial conversation summary, VSCode improvements जैसी कई updates शामिल हैं

    • “Claude काम करते समय अपने-आप यादें लिखता और वापस लाता है” वाला हिस्सा दिलचस्प लगा
      memory feature docs देखने पर यह Google Antigravity के Knowledge artifact जैसा कॉन्सेप्ट लगता है
  • मुझे लगता है कि चर्चा में दो चीज़ें गड्डमड्ड हो रही हैं
    पहली है token unit price based profitability, दूसरी है model lifecycle economics
    inference unit price मुनाफे में हो सकती है, लेकिन पूरा model program फिर भी घाटे में हो सकता है
    असली सवाल यह है कि “किसी मॉडल को आर्थिक रूप से सही ठहरने के लिए कितने समय तक प्रतिस्पर्धी रहना होगा?”

    • worse is better” याद रखना चाहिए
      सबसे बेहतर न होकर भी अगर चीज़ पर्याप्त अच्छी हो और switching cost ऊँची हो, तो वह बाज़ार पर कब्ज़ा कर सकती है
      शुरुआत में नुकसान उठाकर भी किसी खास domain (जैसे coding) में बाज़ार पकड़ना तर्कसंगत हो सकता है
    • API pricing के हिसाब से थोड़ा मुनाफा होता हुआ लगता है
      लेकिन ऐसा प्लान जिसमें usage 20 गुना बढ़ जाए, उसकी sustainability संदिग्ध लगती है
      पता नहीं मौजूदा “vibe-coding renaissance” इस cost structure पर टिक पाएगा या नहीं
    • जैसा Dario ने podcast में कहा था, model पूरे lifespan के आधार पर profitable होता है
      AI कंपनियों के लिए साल-दर-साल P&L से देखना उचित नहीं है
    • असली दिलचस्प सवाल यह है कि “$200/महीना plan subsidized है या नहीं”
      यही अभी agent-style coding boom को सहारा दे रहा है
      शायद कुछ हद तक subsidized है, लेकिन लंबी अवधि में इसकी कीमत लगभग 2 गुना बढ़ सकती है
  • 1M context window आना बहुत बड़ा upgrade है, इससे मैं बेहद खुश हूँ

  • Anthropic की strategy अब भी ठीक से समझ नहीं आती
    marketing तो mass market की तरफ है, लेकिन इसकी असली ताकत coding-centric है
    general research या information exploration में ChatGPT या Gemini कहीं ज़्यादा गहरे और अभिव्यक्ति में बेहतर हैं
    “constitution” या “human rights” जैसी इंसानी छवि वाली marketing करता है, लेकिन उल्टा यह सबसे ज़्यादा transactional महसूस होता है
    फिर भी coding के लिए शानदार है, इसलिए मैं इसके लिए पैसे देकर इस्तेमाल करता रहता हूँ

    • code के बाहर सामान्य बातचीत में भी Claude काफ़ी अच्छा काम करता है
      मेरे non-technical दोस्त भी ChatGPT से Claude पर चले गए, और मैंने किसी को वापस जाते नहीं देखा
      8 महीने पहले तक यह सिर्फ API में ही ठीक-ठाक था, लेकिन अब बहुत बेहतर है
    • अंग्रेज़ी के अलावा दूसरी भाषाओं में quality बहुत गंभीर रूप से गिर जाती है
      मैं Czech भाषा का उपयोगकर्ता हूँ; Claude शब्द गढ़ देता है, और Grok कभी-कभी रूसी में जवाब देता है
      coding के लिए तो ठीक है, लेकिन सामान्य बातचीत के लिए नहीं
    • यह model रोज़मर्रा वाला नहीं है
      agent-style tasks या tool use में अच्छा है, लेकिन दैनिक सवालों के लिए मैं इसका उपयोग नहीं करता
  • Opus 4.6 इंस्टॉलेशन में नहीं दिख रहा था, लेकिन install command फिर से चलाने पर दिखाई देने लगा (v2.1.32)
    installation guide

    • मैं इसे पहले ही इस्तेमाल कर रहा हूँ
  • यह जानने की जिज्ञासा है कि AI/LLM की operating cost सच में कम हो रही है या नहीं
    “agent team” का कॉन्सेप्ट अच्छा लगता है, लेकिन कई models एक साथ चलाने पर लागत इतनी बढ़ जाती है कि व्यावहारिक रूप से मुश्किल लगता है

    • token प्रति लागत लगातार घट रही है
      OpenAI ने engineering optimization के ज़रिए o3 की कीमत 1/5 कर दी, और दूसरी कंपनियों ने भी ऐसा ही cost reduction हासिल किया
      पहले जो कहा जाता था कि “हर request पर नुकसान होता है”, वह तथ्यात्मक नहीं है
    • वह rumor बार-बार आता है, लेकिन मुझे नहीं लगता कि inference unit price कभी लागत से नीचे होगी
      पूरी कंपनी R&D और training cost की वजह से घाटे में हो सकती है, लेकिन API usage खुद मुनाफे में है
      DeepSeek जैसे open models भी इससे कहीं कम कीमत पर मुनाफा कमा रहे हैं
    • वास्तविक डेटा देखें तो यह घाटे का सौदा नहीं लगता
      उदाहरण के लिए Claude 4 (लगभग 400B parameters) DeepSeek V3(680B) से कहीं महँगा है
      Claude input $1/M, output $5/M vs DeepSeek input $0.4/M, output $1.2/M
      यह अंतर इसलिए है क्योंकि Anthropic को training cost recover करनी है
      DeepSeek pricing, Claude pricing
    • असल profit/loss calculation मुश्किल है, क्योंकि depreciation और model lifespan जैसी अनिश्चितताएँ बड़ी हैं
      सिर्फ inference revenue देखें तो मुनाफा दिखता है, लेकिन कुल लागत जोड़ें तो ऐसा ज़रूरी नहीं
    • AI agents की वास्तविक उपयोगिता अभी भी कम है
      मैं इसे coding assistance के लिए इस्तेमाल करता हूँ, लेकिन अक्सर course correction करना पड़ता है
      फिर भी कुशल लोगों को hire करने की तुलना में यह बहुत सस्ता है
  • We build Claude with Claude” वाला वाक्य काफ़ी दिलचस्प है

    • Claude Code में 6000 से ज़्यादा open issues हैं
      60 दिन निष्क्रिय रहने पर auto-cleanup होता है, फिर भी इनकी संख्या बढ़ती जा रही है
    • मुझे लगता है यह बहुत सफल product है
      उस वाक्य का, पक्षपात दिखाने के अलावा, ज़्यादा मतलब नहीं है
    • इसे dogfooding की अहमियत दिखाने वाला उदाहरण माना जा सकता है
      खुद इस्तेमाल करना quality सुधारने का सबसे अच्छा तरीका है
    • CC की sandboxing लगभग मज़ाक के स्तर की है
      यही वजह है कि अभी इतने wrappers बढ़ रहे हैं, और लगता है कभी न कभी security incident होगा
    • इससे यह भी समझ आता है कि Claude Code की संरचना terminal में output होने वाला React app जैसी क्यों है
  • Opus 4.6 आज़माने के लिए अतिरिक्त $50 credits दिए जा रहे हैं
    उन्हें usage page से तुरंत लिया जा सकता है
    शायद उन्हें token usage increase की उम्मीद है या यह model promotion का हिस्सा है