9 पॉइंट द्वारा GN⁺ 2026-02-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • कोड लिखने, कंप्यूटर उपयोग, लंबी अवधि की reasoning, agent planning, knowledge work, design आदि सभी क्षेत्रों में प्रदर्शन बेहतर हुआ Anthropic के नवीनतम Sonnet मॉडल में
  • 1M token context window को सपोर्ट करता है, और Sonnet 4.5 की तुलना में consistency, instruction following, और code quality में बड़ा सुधार हुआ है
  • Opus 4.5 स्तर की intelligence को कम लागत पर उपलब्ध कराता है, और वास्तविक कार्य, दस्तावेज़ समझ, front-end design आदि में मानव-स्तर के परिणाम दिखाता है
  • OSWorld benchmark में कंप्यूटर उपयोग क्षमता लगातार बेहतर हुई है, और prompt injection defense भी मजबूत हुई है
  • मुख्य बात यह है कि अब developer और enterprise उच्च-लागत मॉडल के बिना भी frontier-grade reasoning और code quality का उपयोग कर सकते हैं

Claude Sonnet 4.6 अवलोकन

  • Sonnet 4.6, Anthropic का सबसे शक्तिशाली Sonnet series model है, जिसमें coding, computer use, long-horizon reasoning, knowledge work, design आदि की समग्र क्षमता अपग्रेड की गई है
    • 1M token context window (beta) को सपोर्ट करता है, जिससे बड़े codebase या लंबे दस्तावेज़ एक बार में प्रोसेस किए जा सकते हैं
  • Free और Pro plan उपयोगकर्ताओं के लिए default model के रूप में लागू, और कीमत Sonnet 4.5 जैसी ही प्रति 10 लाख token $3/$15 रखी गई है
  • शुरुआती उपयोगकर्ताओं ने Sonnet 4.6 को Sonnet 4.5 से भारी रूप से अधिक पसंद किया, और कुछ ने Opus 4.5 से भी अधिक पसंद किया
  • सुरक्षा मूल्यांकन के परिणाम के अनुसार, यह पिछले मॉडल से अधिक सुरक्षित या कम से कम समान स्तर पर है, और इसे “warm, honest, and prosocial personality” वाला माना गया

कंप्यूटर उपयोग क्षमता

  • Sonnet 4.6 एक ऐसे मॉडल के रूप में विकसित हुआ है जो मानव की तरह कंप्यूटर संचालित कर सकता है
    • Chrome, LibreOffice, VS Code जैसे वास्तविक software को virtual environment में ऑपरेट करते हुए OSWorld benchmark से इसका मूल्यांकन किया गया
  • 16 महीनों के लगातार प्रदर्शन सुधार के साथ, जटिल spreadsheet navigation और multi-step web form filling जैसे कार्यों में मानव-स्तर की क्षमता देखी गई
  • अभी भी यह सबसे उच्च-कुशल मानव से पीछे है, लेकिन कार्य दक्षता में सुधार की गति बहुत तेज़ है
  • prompt injection attacks के खिलाफ रक्षा Sonnet 4.5 की तुलना में काफी बेहतर हुई है, जिससे Opus 4.6 के समान स्तर की सुरक्षा मिली है

प्रदर्शन मूल्यांकन और benchmark

  • Sonnet 4.6 Opus-स्तर की intelligence को कम लागत पर उपलब्ध कराता है, और विभिन्न benchmark में समग्र सुधार दिखाता है
    • Claude Code test में 70% उपयोगकर्ताओं ने Sonnet 4.6 को पसंद किया, खासकर code edits के दौरान context understanding और duplication को कम करने की क्षमता के लिए
    • Opus 4.5 की तुलना में 59% preference, overengineering और laziness जैसे व्यवहार कम हुए, और instruction following accuracy बेहतर हुई
  • Vending-Bench Arena में लंबी अवधि के business simulation के दौरान शुरुआती निवेश के बाद बाद के लाभ पर फोकस करने की रणनीति से इसने प्रतिस्पर्धी मॉडलों को पीछे छोड़ा
  • OfficeQA में Opus 4.6 के बराबर document understanding, और Financial Services Benchmark में answer match rate बढ़ी
  • insurance benchmark में 94% accuracy, और Box test में 15% बेहतर deep reasoning performance दर्ज की गई
  • Rakuten AI test में उच्च-स्तरीय iOS code generation, modern tooling के उपयोग और architecture quality में सुधार देखा गया

प्रोडक्ट और प्लेटफ़ॉर्म अपडेट

  • Claude Developer Platform में adaptive thinking, extended thinking, context compaction(beta) का सपोर्ट
    • पुराने context को अपने आप summarize करके effective context length बढ़ाई जाती है
  • API tool updates:
    • web search और fetch स्वतः code लिखते और चलाते हैं ताकि search results को फ़िल्टर किया जा सके
    • code execution, memory, programmatic tool calling, tool search जैसी सुविधाएँ अब सामान्य रूप से उपलब्ध हैं
  • Claude in Excel add-in में MCP connector सपोर्ट, जिससे S&P Global, LSEG, PitchBook जैसे बाहरी data के साथ integration संभव है
  • Sonnet 4.6 extended thinking के बिना भी उच्च प्रदर्शन बनाए रखता है, और Sonnet 4.5 उपयोगकर्ताओं को migration की सिफारिश की गई है
  • Opus 4.6 अभी भी उन कार्यों के लिए अधिक उपयुक्त है जहाँ सबसे गहरी reasoning चाहिए, जैसे code refactoring, multi-agent coordination आदि

उपलब्धता के मार्ग

  • Sonnet 4.6 सभी Claude plans, Claude Cowork, Claude Code, API, और प्रमुख cloud platforms पर उपलब्ध है
  • free plan भी Sonnet 4.6 में अपग्रेड, जिसमें file creation, connectors, skills, और compaction features शामिल हैं
  • developer claude-sonnet-4-6 model name के जरिए Claude API में तुरंत उपयोग कर सकते हैं

प्रमुख आँकड़े और मूल्यांकन संकेतक (footnote summary)

  • OSWorld: वास्तविक software-आधारित कंप्यूटर कार्य मूल्यांकन, Sonnet 4.6 को ‘thinking off’ स्थिति में मापा गया
  • SWE-bench Verified: 10 बार के औसत में 80.2% स्कोर
  • ARC-AGI-2: maximum effort mode में 60.4% हासिल
  • MMMU-Pro: evaluation method में सुधार के बाद score समायोजित किया गया
  • Humanity’s Last Exam, BrowseComp सहित विभिन्न प्रयोगों में tool use, web search, context compaction features enabled स्थिति में परीक्षण किया गया

1 टिप्पणियां

 
GN⁺ 2026-02-18
Hacker News की राय
  • कंप्यूटर उपयोग पर फोकस करना प्रभावशाली है। लगता है उन्होंने इसे बहुत मूल्यवान माना है। लेकिन सुरक्षा को लेकर अब भी सवाल हैं। उनकी अपनी evaluation के मुताबिक, automated attack system ने सिर्फ एक कोशिश में 8% संभावना से घुसपैठ करने में सफलता पाई, और unlimited कोशिशों में यह 50% तक सफल रहा। ऐसे आंकड़े स्वीकार करना मुश्किल है। अगर मैं कुछ गलत नहीं समझ रहा हूँ, तो यह वास्तविक उपयोग के लायक नहीं है
    सुरक्षा मूल्यांकन PDF

    • इस तकनीक का लक्ष्य मूलतः कंप्यूटर I/O से जुड़े श्रम पर कब्जा करना है। सिर्फ SWE नहीं, बल्कि ज्यादातर office jobs भी इसके दायरे में आते हैं। एक व्यक्ति से तीन लोगों का काम करवाकर headcount कम करने की दिशा बनती है। कंपनी के नज़रिए से देखें तो वही कमाई रखते हुए labor cost को 1/3 तक घटाया जा सकता है, तो मना करने की वजह नहीं है। लेकिन ऐसी संरचना में हर कोई LLM के साथ business बना सकता है, और अंततः प्रतिस्पर्धा इतनी बढ़ जाती है कि मुनाफ़ा 0 के करीब पहुंचता है। अगर सब एक ही model इस्तेमाल करें, तो differentiation खत्म हो जाता है। उल्टा, शक्तिशाली open source models भी social mobility को कमजोर कर सकते हैं
    • मुझे तो 8% का आंकड़ा उल्टा हैरान करने वाला अच्छा लगता है। असली बात model से ज़्यादा operating environment के control mechanisms की है। वास्तविक services में monitoring और kill switch अनिवार्य हैं। model का “काफी सुरक्षित” होना सिर्फ necessary condition है, sufficient condition नहीं
    • यही वह मुख्य समस्या है जिसके बारे में कोई खुलकर बात नहीं करना चाहता। जब तक सुरक्षा हल नहीं होती, बड़े पैमाने पर labor replacement संभव नहीं है। summary या assistance स्तर का उपयोग ठीक है, लेकिन स्वायत्त decision-making सौंपते ही legal risk विस्फोटक हो जाता है। आखिरकार अगर AI कंपनियाँ यह समस्या हल नहीं कर पातीं, तो उनका फंड खत्म हो जाएगा। अभी की दिशा देखकर लगता है कि AI search या spell-checker जैसे उपयोगी tool के रूप में तो रहेगा, लेकिन बड़े पैमाने पर job replacement शायद साकार नहीं होगा
    • वास्तव में यह साधारण, दोहराव वाले internal app automation जैसे कामों में उपयोगी हो सकता है। उदाहरण के लिए हर दिन एक ही web app में login करके calendar पढ़ना और button दबाना। ऐसे माहौल में attacker नहीं होता, इसलिए security समस्या लगभग खत्म हो जाती है
    • 8% और 50% के आंकड़े चिंताजनक हैं, लेकिन ये ‘computer use environment’ के नतीजे हैं। coding environment में extended thinking चालू होने पर यह 0.0% था। यानी यह अभी भी experimental क्षेत्र है
  • मैंने अपनी निजी कविता-संग्रह की लगभग 900 कविताएँ Sonnet 4.6 में डालकर test किया, और Opus 4.6 की तुलना में बड़ा अंतर दिखा। Opus 4.6 ने चौंकाने वाला analysis दिखाया, लेकिन Sonnet 4.6 में अब भी hallucination और errors काफ़ी हैं। coding tests में भी ऐसा ही लगा। Opus के मुकाबले यह काफी पीछे है

    • काफ़ी समय बाद फिर से poetry test देखना अच्छा लगा। राय यह है कि ऐसे analyses को एक जगह इकट्ठा करके व्यवस्थित किया जाए
    • Opus 4.6 में code writing के दौरान productivity 3 गुना से अधिक बढ़ जाती है। यह पूरे project को ज़िम्मेदारी से संभालता है और user intent को अच्छी तरह समझता है। पहले versions की तरह चुपके से shortcuts लेना या output खराब करना अब नहीं होता
  • Sonnet 4.6 अब भी ‘car wash problem’ में गलती करता है। मूल प्रश्न को ज्यों का त्यों डालने पर इसने जवाब दिया, “पैदल जाओ।” कई variations आज़माने पर भी ऐसी ही असफलता दिखी

    • मेरे test में उल्टा इसने तुरंत कहा, “drive करो।” इसका तर्क था, “car wash पर जा रहे हो, तो car होनी चाहिए।” शायद हम लोगों को अलग-अलग versions मिले थे
    • ऐसे जवाबों की यह चरम भिन्नता दिलचस्प है। आत्मविश्वास से भरी गलती, यानी hallucination का एक क्लासिक pattern
    • एक जवाब ने तो “car को धक्का देकर ले जाओ” तक सुझाया। shared link
    • एक और जवाब था, “पैदल जाओ, 30 सेकंड की दूरी है,” और उसने environment व health को कारण बताया। extended thinking बंद था
    • लगता है यह सवाल आगे benchmark test के रूप में अक्सर इस्तेमाल होगा
  • “प्रतिस्पर्धा उपभोक्ताओं के लिए अच्छी होती है” — यह बात सच लगने लगी है। बाज़ार में competition जितना तीखा होता है, परिणाम उतने बेहतर होते हैं

    • लेकिन अभी की AI competition ‘बिना सुरक्षा वाली arms race’ जैसी लगती है। winner-takes-all संरचना में सब लोग नुकसान उठाकर निवेश कर रहे हैं। overinvestment के कारण यह पूरे समाज के लिए अल्प-प्रभावी हो सकता है
    • यह सोचें कि GPT-2 को 2019 में “खतरनाक, इसलिए public release नहीं” कहा गया था; ChatGPT का launch ही इस competition को भड़काने वाला turning point था
    • यह मान लेना खतरनाक है कि हर market perfect competition की तरह काम करता है। असलियत में monopoly और information asymmetry बहुत होती है
    • अभी का AI market मानव इतिहास की सबसे तीखी competitive structures में से एक है। यह conspiracy theory कि models को जानबूझकर खराब बनाया जा रहा है, भरोसेमंद नहीं लगती
    • आखिर में अगर सिर्फ दो कंपनियाँ बचती हैं, तो profit recovery phase आएगा
  • “helicopter car wash” test सबसे बढ़िया था। Sonnet 4.6 ने जवाब दिया, “पैदल जाओ,” और यह अमेरिकियों की छोटी दूरी के लिए भी गाड़ी चलाने की आदत पर व्यंग्य जैसा लगा, इसलिए मज़ेदार था

    • प्रतिक्रिया यह थी कि यही test सबसे पसंद आया। इससे लगता है कि model को Reddit-शैली के humor data पर train किया गया है
  • यह चौंकाने वाला है कि Sonnet 4.6 का performance Opus 4.5 स्तर का है। प्रगति की रफ़्तार 1990s के computing performance improvement की याद दिलाती है

    • सच में दिलचस्प चीज़ performance ceiling से ज़्यादा floor का ऊपर उठना है। Sonnet की कीमत और latency पर Opus-स्तर की reasoning मिलना revolutionary है। मानो हर 6~9 महीने में वही intelligence unit आधे compute cost पर मिल रही हो
    • “1990s की रफ़्तार” वाली बात पर मज़ाक चला कि “RAM की कीमतें भी उसी दौर जैसी हैं”
    • simonw की जगह “साइकिल चलाता pelican SVG” generate करके share किया गया। image link
    • Opus द्वारा NYC skyline photo का गलत वर्णन करने का उदाहरण भी है। Mistral ज़्यादा सही था। OpenAI ने URL upload रोका, और Gemini VertexAI पर redirect हो गया। test Langchain environment में किया गया
    • system card के अनुसार Sonnet 4.6 office tasks और financial analysis में Opus 4.6 से बेहतर बताया गया है
  • Sonnet 4.5 की कीमत $3/$15 per million tokens है, और सवाल है कि क्या इतने लोग यह कीमत देने को तैयार होंगे। open-weight models तेज़ी से बराबरी कर रहे हैं और काफ़ी सस्ते हैं

    • मैं hybrid approach आज़मा रहा हूँ। ज़्यादातर काम GLM5 से करता हूँ, और आख़िरी चरण में Opus/Sonnet से bugs की समीक्षा करवाता हूँ
    • मेरे simple benchmark में Claude 4.6, मुफ्त Stepfun 3.5 से भी कमजोर था। aibenchy.com देखें। अभी भी instruction-following accuracy कम है
    • आखिर यह इस बात पर निर्भर करता है कि आप “काफी अच्छा” और “SOTA” के बीच के अंतर को कितना value देते हैं। errors वाले model का इस्तेमाल भी आखिरकार एक लागत है
    • कुछ लोग Claude जैसे contextual reasoning में मजबूत models को पसंद करते हैं। GLM में बहुत बारीक explicit instructions देनी पड़ती हैं
  • llm.datasette.io plugin में Opus/Sonnet 4.6 support जोड़ने में समय लग गया, इसलिए pelican image देर से बना पाया। output Opus 4.5 स्तर का है, और इसमें शानदार silk hat पहना हुआ version है
    संबंधित ब्लॉग

    • एक comment में कहा गया कि दूसरे attempts में भी वही silk hat pelican दिखा
  • पिछले कुछ दिनों से Sonnet 4.5 पर testing कर रहा था, और बातचीत असामान्य रूप से रोचक और सुसंगत थी।
    personal settings में “objective facts और critical analysis को प्राथमिकता, emotional empathy नहीं” डाला, और इसने वास्तव में इसे अच्छी तरह follow किया। ChatGPT ने भी लगभग ऐसा ही व्यवहार दिखाया

  • कई users ने रिपोर्ट किया कि Opus 4.6, 4.5 की तुलना में 5~10 गुना ज़्यादा tokens खर्च कर रहा है। issue link. अभी तक कोई official response नहीं है। इसलिए 4.5 इस्तेमाल करते रहने का विचार है

    • जिन लोगों को समस्या होती है, अक्सर वही ज़्यादा आवाज़ उठाते हैं। मैं 4.6 से संतुष्ट हूँ क्योंकि यह ज़्यादा तेज़ है और tool calls में अधिक सक्रिय है। reasoning level को medium पर घटाने से overthinking कम की जा सकती है
    • मेरे अनुभव में Opus 4.5 plan-following type था, जबकि 4.6 adaptive exploratory type है। आसान समस्याओं में यह अलाभकारी हो सकता है, लेकिन कठिन समस्याओं में बहुत तेज़ है
    • /models में reasoning level देखा जा सकता है। high पर सेट करने से token usage तेज़ी से बढ़ता है
    • मैंने भी कुछ ही दिनों में मासिक बजट खत्म कर दिया
    • मेरे प्रयोगों में 4.6 ने 4.5 की तुलना में लगभग 15~45% अधिक tokens इस्तेमाल किए। लेकिन यह उन मामलों में था जहाँ अधूरे prompts से reasoning करवानी पड़ी। अच्छी तरह लिखे गए tasks में बड़ा फर्क नहीं था। Sonnet 4.6 के reasoning tokens पहले की तुलना में ज़्यादा structured हैं, लेकिन धीरे-धीरे verbose होने की प्रवृत्ति भी है। इसका style Google models जैसा लगता है