3 पॉइंट द्वारा GN⁺ 6 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI ने GPT‑5.6 series को सीमित प्रीव्यू में जारी किया है, जिसमें फ्लैगशिप Sol के साथ रोज़मर्रा के कामों के लिए Terra और कम-लागत Luna भी शामिल हैं
  • Sol ने coding, biology और cybersecurity में agent क्षमताओं को मजबूत किया है, और max reasoning effort व ultra mode के साथ अधिक गहरे reasoning और sub-agent उपयोग को सपोर्ट करता है
  • Cybersecurity प्रदर्शन ExploitBench और ExploitGym में बेहतर हुआ है, लेकिन Chromium·Firefox मूल्यांकन स्थितियों में यह functional full-chain exploit को स्वायत्त रूप से तैयार नहीं कर पाया, इसलिए Cyber Critical threshold को पार नहीं करता
  • प्रीव्यू पहले API और Codex में कुछ भरोसेमंद पार्टनर्स और संगठनों को दिया जाएगा, और अमेरिकी सरकार के अनुरोध पर लागू सीमित प्रक्रिया के बाद इसे व्यापक रूप से जारी करने की तैयारी है
  • कीमत 10 लाख tokens के आधार पर Sol $5 input / $30 output, Terra $2.50 input / $15 output, Luna $1 input / $6 output है; cache writes की कीमत 1.25x है और cache reads पर 90% छूट है

GPT‑5.6 series प्रीव्यू का दायरा

  • OpenAI ने सीमित प्रीव्यू के रूप में पहले GPT‑5.6 product family पेश की है
    • Sol: फ्लैगशिप मॉडल
    • Terra: रोज़मर्रा के कामों के लिए संतुलित मॉडल
    • Luna: तेज़ और सस्ता मॉडल
  • Terra, GPT‑5.5 के मुकाबले प्रतिस्पर्धी प्रदर्शन देता है, जबकि इसकी कीमत 2 गुना कम है
  • Luna, OpenAI की सबसे कम लागत पर मजबूत क्षमताएँ प्रदान करता है
  • GPT‑5.6 Sol को OpenAI के अब तक के सबसे मजबूत safety stack के साथ जारी किया गया है
    • high-risk activities
    • sensitive cyber requests
    • repeated misuse
    • real-world attacks के खिलाफ weakness discovery और pressure testing

सीमित रिलीज़ और सरकारी परामर्श

  • OpenAI आने वाले कुछ हफ्तों में GPT‑5.6 Sol, Terra, Luna को general availability में लाने की योजना बना रहा है
  • अमेरिकी सरकार के साथ चल रहे परामर्श के दौरान कंपनी ने लॉन्च-पूर्व योजना और मॉडल क्षमताएँ साझा कीं
  • सरकारी अनुरोध के अनुसार, पहले सीमित प्रीव्यू कुछ भरोसेमंद पार्टनर्स के साथ शुरू किया गया, जिनकी भागीदारी की जानकारी सरकार के साथ साझा की गई
  • OpenAI का मानना है कि सरकार-केंद्रित ऐसी access प्रक्रिया लंबे समय के लिए default नहीं होनी चाहिए
    • क्योंकि इससे users, developers, businesses, cyber defenders और global partners को ज़रूरी tools तक पहुँच नहीं मिल सकती
  • यह अल्पकालिक प्रक्रिया कुछ हफ्तों में व्यापक रिलीज़ की ओर जाने का रास्ता है
    • यह तब तक लागू रहेगी जब तक प्रशासन और cyber Executive Order framework के साथ मिलकर भविष्य की model releases के लिए दोहराई जा सकने वाली प्रक्रिया विकसित नहीं हो जाती

मॉडल क्षमताएँ और मूल्यांकन

  • GPT‑5.6 Sol को OpenAI का सबसे शक्तिशाली मॉडल बताया गया है
  • यह coding, biology और cybersecurity evaluations में बेहतर agent क्षमताएँ दिखाता है
  • अतिरिक्त safety और readiness evaluations GPT‑5.6 Preview system card में शामिल हैं
  • व्यापक रिलीज़ के समय कंपनी विस्तारित evaluation results का सेट साझा करने की योजना रखती है
  • reasoning mode

    • GPT‑5.6 में max reasoning effort जोड़ा गया है, जिससे Sol अधिक देर तक और अधिक गहराई से reasoning कर सकता है
    • नया ultra mode single-agent क्षमता से आगे बढ़कर sub-agents का उपयोग करके complex tasks को तेज़ करता है
  • coding और biology

    • GPT‑5.6 Sol ने command-line workflows का मूल्यांकन करने वाले Terminal‑Bench 2.1 में नया state-of-the-art प्रदर्शन दर्ज किया
    • यह benchmark planning, iteration और tool coordination की ज़रूरत वाले command-line tasks को टेस्ट करता है
    • GeneBench v1 में इसने GPT‑5.5 से बेहतर नतीजे दिए, वह भी कम tokens का उपयोग करते हुए
    • GeneBench v1 long-range genomics और quantitative biology analysis का मूल्यांकन करता है
  • cybersecurity

    • GPT‑5.6 Sol, OpenAI के cybersecurity कार्यों के लिए सबसे सक्षम मॉडल है
    • यह vulnerability research और exploits सहित लंबी अवधि वाले security tasks में performance-efficiency frontier को आगे बढ़ाता है
    • ExploitBench में इसने Mythos Preview के बराबर प्रतिस्पर्धी नतीजे दिए, जबकि output tokens लगभग एक-तिहाई ही उपयोग किए
    • ExploitGym में Sol, Terra और Luna तीनों ने reasoning बढ़ने के साथ cyber क्षमता में मजबूत सुधार दिखाया
    • ExploitGym, UC Berkeley के शोधकर्ताओं ने OpenAI और अन्य frontier labs के साथ मिलकर बनाया है

cyber क्षमताएँ और safety guardrails

  • GPT‑5.6 Sol, Terra और Luna को प्रत्येक मॉडल की क्षमता के अनुरूप OpenAI के सबसे मजबूत guardrails के साथ विकसित किया गया है
  • मॉडल क्षमताएँ बढ़ने पर भी guardrails वास्तविक adversarial pressure में टिके रहें, इसी तरह इन्हें डिज़ाइन किया गया है
  • साथ ही वैध defensive work तक पहुँच बनाए रखने की कोशिश की गई है
    • code review
    • vulnerability research
    • patch development
    • debugging
    • security training
    • defensive testing
  • लक्ष्य यह है कि प्रतिबंधित offensive गतिविधियों को अधिक कठिन, अनिश्चित और detectable बनाया जाए, बिना उपयोगी इस्तेमाल को अनावश्यक रूप से सीमित किए
  • OpenAI के मूल्यांकन के अनुसार, वैध defensive work में काफ़ी लाभ मिलता है, जबकि प्रतिबंधित offensive use पर अर्थपूर्ण रोक लगती है
  • Cyber Critical threshold

    • GPT‑5.6 Sol, Preparedness Framework के अनुसार Cyber Critical threshold को पार नहीं करता
    • Chromium और Firefox से जुड़े evaluations में यह bugs और exploit primitives पहचानता है
    • लेकिन परीक्षण स्थितियों में यह कार्यशील full-chain exploit को स्वायत्त रूप से तैयार नहीं कर पाया
    • benchmark thresholds मॉडल के उपयोग के सभी तरीकों या अन्य tools के साथ इसके संयोजन को पूरी तरह capture नहीं कर पाते
    • इसी अनिश्चितता और कुल क्षमता-वृद्धि के कारण OpenAI ने मजबूत guardrails और phased rollout दोनों अपनाए हैं

layered safety stack

  • जानबूझकर या adaptive misuse को सिर्फ़ एक guardrail से रोकना मुश्किल है
  • GPT‑5.6 प्रीव्यू में पूरे मॉडल परिवार पर मॉडल-विशेष configuration वाले layered guardrails लागू किए गए हैं
    • model-trained protections
    • generation के दौरान real-time checks
    • account-level signals
    • differential access
    • monitoring
    • enforcement
    • continuous testing
  • model-level refusal और real-time checks

    • GPT‑5.6 को इस तरह train किया गया है कि user अगर अपनी मंशा छिपाए या jailbreak की कोशिश करे, तब भी यह प्रतिबंधित cyber सहायता देने से इंकार करे
    • real-time cyber और biology misuse classifiers generation के दौरान आउटपुट का मूल्यांकन करते हैं
    • high-risk मामलों में संभावित उल्लंघन मिलने पर generation को अस्थायी रूप से रोका जा सकता है
    • बड़े reasoning models बातचीत और संदर्भ की समीक्षा करते हैं, और अगर आउटपुट प्रतिबंधित पाया जाता है तो user तक पहुँचने से पहले उसे रोक लिया जाता है
  • account-level review और differential access

    • flagged activity, संबंधित बातचीत और risk signals सहित account-level review तक ले जा सकती है
    • सिर्फ़ एक बातचीत के बजाय account-level context देखने से वैध dual-use security work और लगातार malicious behavior में अंतर करना आसान होता है
    • differential access यह सुनिश्चित करता है कि महत्वपूर्ण defensive work जारी रहे, जबकि सबसे संवेदनशील क्षमताएँ default रूप से व्यापक रूप से उपलब्ध न हों
  • प्रीव्यू के दौरान user impact

    • प्रीव्यू अवधि में कुछ requests ब्लॉक या अस्वीकार की जा सकती हैं
    • अतिरिक्त समीक्षा के कारण generation अस्थायी रूप से रुके तो कुछ requests में अधिक समय लग सकता है
    • dual-use क्षेत्रों में, जहाँ defensive और offensive activity शुरू में एक जैसी दिख सकती है, वहाँ वैध कामों में भी guardrails हस्तक्षेप कर सकते हैं
    • प्रीव्यू feedback का उपयोग अनावश्यक ब्लॉक और देरी कम करने, guardrails की context interpretation बेहतर करने और व्यापक रिलीज़ से पहले अनुभव को निखारने के लिए किया जाएगा
    • enterprise customers के साथ दीर्घकालिक approach पर भी चर्चा चल रही है
      • privacy-preserving detection
      • customer-operated safety controls
      • customer, user और workload risk के अनुरूप access permissions

automated red teaming से मजबूती में सुधार

  • guardrails को तब भी प्रभावी रहना चाहिए जब attackers अपनी रणनीति बदल दें
  • OpenAI अपने ही models का उपयोग करके कमजोरियाँ ढूँढ रहा है और guardrails को तेज़ी से सुधार रहा है
  • 700,000 A100-equivalent GPU hours से अधिक automated red teaming में लगाए गए
  • automated red team का फोकस ऐसे universal jailbreaks ढूँढने पर है जो कई prompts या contexts में काम कर सकें
  • ऐसे अधिक सामान्य हमलों पर ध्यान देने से guardrails को केवल निश्चित failure-case सूची से आगे बढ़कर टेस्ट किया जा सकता है
  • automation, केवल मानव परीक्षण से कठिन कई attack patterns को अधिक व्यापक रूप से खोजता है, और failure patterns को जल्दी पहचानकर कमजोरी खोजने से सुधार तक का समय घटाता है
  • external testers के साथ human expert red teams भी चलाई गईं, और यह काम प्रीव्यू अवधि में जारी रहेगा
  • नए पाए गए jailbreaks को reproduce, evaluate, prioritize और fix करने की प्रक्रिया से गुज़ारा जाता है, और भविष्य में मिलते-जुलते failures को टेस्ट करने के लिए ongoing evaluations में जोड़ा जाता है

उपलब्धता और कीमत

  • प्रीव्यू के दौरान GPT‑5.6 models पहले API और Codex के ज़रिए चुने गए भरोसेमंद पार्टनर्स और संगठनों को उपलब्ध होंगे
  • इसके बाद इन्हें ChatGPT, Codex और API users के लिए व्यापक रूप से उपलब्ध कराने की योजना है
  • GPT‑5.6 की नई naming scheme में number मॉडल generation को दर्शाता है
  • Sol, Terra और Luna लगातार विकसित होने वाली capability tiers को दर्शाते हैं, जो अपनी-अपनी गति से आगे बढ़ सकते हैं
  • यह product family intelligence, speed और cost के बीच users और developers को अधिक स्पष्ट विकल्प देता है
  • token pricing और caching

    • GPT‑5.6 की कीमत 10 लाख tokens के आधार पर तय की गई है
    • Sol: input $5 / output $30
    • Terra: input $2.50 / output $15
    • Luna: input $1 / output $6
    • GPT‑5.6 अधिक predictable prompt caching पेश करता है
      • explicit cache breakpoints का समर्थन
      • कम-से-कम 30 मिनट cache lifetime
    • GPT‑5.6 और उसके बाद के models में cache writes पर उस मॉडल की non-cached input pricing का 1.25x शुल्क लगेगा
    • cache reads पर cache input के मुकाबले 90% discount मिलता रहेगा
  • Cerebras उपलब्धता

    • GPT‑5.6 Sol जुलाई में Cerebras पर अधिकतम 750 tokens प्रति सेकंड की गति से उपलब्ध कराया जाएगा
    • शुरुआती access, capacity बढ़ाने की प्रक्रिया के दौरान चुने हुए customers तक सीमित रहेगा

1 टिप्पणियां

 
GN⁺ 6 시간 전
Hacker News की राय
  • इस घोषणा का सबसे दिलचस्प हिस्सा आखिर से दूसरे पैराग्राफ में दबा हुआ है: “जुलाई में हम Cerebras पर अधिकतम 750 tokens प्रति सेकंड की गति से GPT‑5.6 Sol लॉन्च करेंगे, जिससे ग्राहकों को अभूतपूर्व स्पीड पर frontier intelligence मिलेगी। क्षमता विस्तार तक पहुंच कुछ ग्राहकों तक सीमित रहेगी”
    frontier model में 750 tokens/second वाकई काफी दिलचस्प होगा। परफॉर्मेंस के लिहाज से यह सिर्फ साधारण version bump से ज्यादा होगा या नहीं, इस पर संदेह है, लेकिन अगर जवाब जल्दी मिलें तो यह बहुत ज्यादा उपयोगी हो जाएगा
    उदाहरण के लिए codebase में किसी खास feature को ढूंढने जैसा उबाऊ काम याद आता है। अभी भी इस काम में AI agent harness को हराना आम तौर पर मुश्किल होता है, और अगर model 3 गुना तेज हो जाए तो तो और भी मुश्किल होगा

    • https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
      750 tokens/second लगभग ऐसा महसूस होगा
    • तुलना के लिए openrouter के हिसाब से Opus 4.8 लगभग 55 tokens/second है, और fast mode करीब 102 tokens/second बताया गया है
      सबसे बड़े model में 750 tokens/second हो तो वह बहुत बड़ा फर्क होगा
    • “codebase में किसी खास feature को ढूंढने के काम में AI agent harness को हराना आम तौर पर मुश्किल होता है” वाली बात से सहमत हूँ
      सिर्फ 1 साल पहले तक मुझे याद है कि codebase समझने के लिए मैं AI के साथ “रेस” लगाता था, लेकिन अब जीतने की कोई संभावना नहीं लगती। मेरी reasoning कमजोर हुई है या model बेहतर हुए हैं, पता नहीं
    • मैं अभी भी GPT-5.3-codex-spark इस्तेमाल कर रहा हूँ, और यह भी Cerebras chip पर चलता है
      Spark 1000 tokens/second से ऊपर जा सकता है, लेकिन इसका context window बहुत सीमित है, इसलिए कई workflows में यह फिट नहीं बैठता। यह नया model थोड़ा धीमा हो तब भी शायद शानदार रहेगा
    • किसी एक स्पीड स्तर पर पहुँचने के बाद शायद हम continuous/real-time reasoning systems की ओर बढ़ सकेंगे
      अभी के discrete, turn-based solutions सीखने के तरीके तक को काफी सीमित करते हैं। continuous और real-time तरीका इस क्षेत्र को बुनियादी रूप से बदल सकता है
      information theory के नज़रिए से देखें तो असली information transfer rate अभी भी dial-up स्तर पर है। 750 tokens/second भी बस बहुत खराब dial-up connection जैसा है, ज़रा 10 million tokens प्रति second की कल्पना कीजिए
  • एक पैटर्न दिख रहा है: GPT-5 mini की कीमत $0.25/$2 है और इसे दिसंबर में बंद किया जाना है, GPT-5.4 mini $0.75/$4.5 है और इसे replacement कहा जा रहा है, GPT-5.4 nano $0.2/$1.25 है और benchmarks में GPT-5 mini से बेहतर है, लेकिन असली scenarios में बिल्कुल वैसा नहीं है
    तो अगर आप अभी 5 mini इस्तेमाल कर रहे हैं, तो आखिरकार आपको GPT-5.4 mini की ओर धकेल दिया जाएगा। यहाँ भी “Luna” model $1/$6 का है, यानी वही चीज़ फिर हो रही है
    क्या हम वह model इस्तेमाल करते रह सकते हैं जो हमें वास्तव में चाहिए? GPT 5.4 mini की जरूरत नहीं, GPT-5 ही काफी है
    शायद यह कभी इतना सस्ता था ही नहीं, और अब हमें एहसास हो रहा है कि हमें धीमे और दर्दनाक तरीके से upgrade करवाया जा रहा है

    • अगर आपको Anthropic/OpenAI के frontier models की परफॉर्मेंस की जरूरत नहीं है, तो ऐसे open weights models बेहतर हो सकते हैं जो गायब नहीं हो सकते
      HN पर DeepSeek V4 Flash का ज़िक्र अक्सर आता है, लेकिन Artificial Analysis के अनुसार अगस्त 2025 तक यह GPT-5 high के साथ लगभग कड़ी टक्कर में है [0]
      [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
    • यह बिल्कुल SaaS models जैसा है। कीमतें लगातार बढ़ती रहती हैं, और उसे सही ठहराने के लिए कोई न माँगी गई features वाले नए versions में बार-बार upgrade करने पर मजबूर किया जाता है
    • इस समस्या ने मुझे भी काफी परेशान किया है। अच्छे और सस्ते models निश्चित रूप से संभव हैं, open source में भी बहुत हैं, और neo clouds उन्हें मुनाफे के साथ उपलब्ध करा रहे हैं
      बड़े labs ने मानो सस्ते models को लगभग छोड़ ही दिया है, और यह निराशाजनक है। संभव है कि applications अब उतनी संख्या में उनके ऊपर build न हों। उदाहरण के लिए, हम भी workload को Haiku/Sonnet से Deepseek v4 पर शिफ्ट कर रहे हैं
      समस्या शायद यह है कि revenue numbers बनाए रखने के लिए उन्हें ज्यादा चार्ज करना पड़ता है, और उन्हें इस बात की ज्यादा चिंता है कि कोई और उन्हें cannibalize न कर दे, बजाय इसके कि वे खुद अपना revenue cannibalize करें
    • यह अच्छी observation है। कीमतें बढ़ने का रुझान साफ है, लेकिन साथ ही open और closed दोनों तरह के models में innovation और availability से कुछ संतुलन भी बन रहा है
      labs का यह देखना स्वाभाविक है कि वे कीमतों को कहाँ तक धकेल सकते हैं, और competitors का उस margin को अपने growth opportunity में बदलना भी स्वाभाविक है। आखिरकार कीमतें शायद ज्यादा स्थिर होंगी
    • Anthropic Haiku और Gemini Flash/Flash Lite के साथ भी यही हो रहा है। सब कीमतें बढ़ा रहे हैं और सस्ते models हटा रहे हैं
  • GPT-5.6 Sol की पहचानी गई cheating rate हमारे द्वारा ReAct agent harness में evaluate किए गए public models में सबसे ऊँची थी
    हमारे task suite में “cheating” का मतलब है कि model अपेक्षित evaluation constraints के भीतर समस्या हल करने के बजाय, evaluation environment की bugs का फायदा उठाए या task में मना की गई strategies अपनाकर अपना evaluation score बढ़ाए
    https://metr.org/blog/2026-06-26-gpt-5-6-sol/

    • लिंक से यह उद्धरण सचमुच डरावना है: GPT-5.6 Sol का evaluation करते समय एक उदाहरण में model ने intermediate submission में exploit package किया ताकि task के hidden test suite की जानकारी उजागर हो जाए, और दूसरे tasks में उसने expected answers समझाने वाला hidden source code निकाल लिया
      यह Alibaba में देखे गए व्यवहार [0] की याद दिलाता है, लेकिन वह training के दौरान था। यह तो एक near-release model में हुआ
      [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
    • models का cheating करना काफी तार्किक है। evaluation के दौरान benchmark requests इन कंपनियों के backend पर भेजी जाती हैं
      इन कंपनियों को बस इतना करना होता है कि वे उन requests को log करें और अगली model release में उन्हें “fix” कर दें
  • मुझे लगता है कि GPT सबसे अच्छा कोड लिखता है। 5.6 वर्ज़न में यह कितना अच्छा लिखेगा, यह सोचकर ही रोंगटे खड़े हो जाते हैं
    हाल ही में मैं लगभग 2,000 लाइनों वाले कोड पर GPT के साथ सीधे भिड़ा था, और GPT का समाधान बेहतर भी था और तेज़ भी। मैंने कई GitHub codebase देखते हुए कोशिश की, लेकिन GPT से उसकी तुलना ही नहीं थी
    इसलिए GPT इस्तेमाल करते समय मुझे डर और उत्साह दोनों साथ-साथ महसूस होते हैं। यह एहसास डराता है कि इस स्तर का कोड अब ज़्यादातर लोगों के लिए औसत बन जाएगा, और यह बात उत्साहित करती है कि मैं भी इसी स्तर पर पढ़ और सीख सकता हूँ
    5.6 upgrade से कोड कितना और आगे बढ़ेगा, इसे लेकर मैं सच में उत्साहित हूँ

    • मैं दूसरी तरफ़ हूँ। open model अब बेहतर करना शुरू कर चुके हैं, और GPT 5.5 लगातार गड़बड़ कर रहा है
      इसके उलट pi + glm + DeepSeek का कॉम्बिनेशन बहुत अच्छा है। Fable तो एक अलग ही तरह का राक्षस था। RIP
    • यह पूरी तरह व्यक्तिपरक है, लेकिन GPT 5.5 code की कुल upper bound भले ज़्यादा हो, फिर भी मैं Opus 4.8 output पढ़ना ज़्यादा पसंद करता हूँ
      पहला वाला review करना थोड़ा ज़्यादा आसान है
    • कुछ महीने पहले मैंने Opus 4.6 के बारे में यही बात कई बार सुनी थी, फिर 4.7 और 4.8 को निराशाजनक माना गया, और आज लोग “4.6 के अच्छे पुराने दिन” याद कर रहे हैं
      यहाँ जिन अच्छे दिनों की बात हो रही है, वे 2026 फ़रवरी के कुछ हफ़्ते हैं। यह सब unfold होते देखना काफ़ी दिलचस्प है
    • coding क्षमता कितनी आगे बढ़ी है, इस पर मुझे संदेह है
      announcement में coding benchmark एक भी नहीं है, और जो सबसे नज़दीक है वह terminal bench है — यह अजीब लगता है
    • क्या आप कोई example दे सकते हैं? आप क्या solve करने की कोशिश कर रहे थे, आपका अपना solution क्या था, और GPT का solution क्यों बेहतर और तेज़ था — यह जानने की जिज्ञासा है
  • अगर आपने पिछले लगभग 24 घंटों में GPT-5.5 इस्तेमाल किया है, तो हो सकता है कि आप पहले ही 5.6 तक पहुँच चुके हों
    हम जो harness बना रहे हैं, उस पर tests चला रहे हैं, और कल अचानक कुछ points बढ़ गए। जब मैंने base Codex benchmark फिर से चलाया, तो GPT-5.5 ने base Codex पर Terminal Bench 2.1 में लगभग 88% score दिया
    score से भी बड़ा संकेत यह है कि 5.5 में जो 3 tests अक्सर “safe” block में फँस जाते थे, वे कल रात बिना किसी warning के सफल होने लगे

    • ऐसे बदलाव किसी रहस्यमय A/B test की वजह से ही नहीं, सिर्फ़ infrastructure change से भी हो सकते हैं
    • क्या आपने release पढ़ा भी है? इसे सबके लिए व्यापक रूप से उपलब्ध नहीं कराया गया था
      उसमें लिखा है, “सरकार के साथ भागीदारी की जानकारी साझा किए गए trusted partners के एक छोटे समूह के लिए सीमित preview से शुरुआत की जाएगी, फिर इसे और व्यापक रूप से जारी किया जाएगा”
      यह comment इस बात का शानदार उदाहरण है कि औसत LLM user असल में slot machine user की तरह व्यवहार करता है। वह मानता है, “यह वाला hot है, यह वाला lucky है, यह दूसरे से बेहतर है,” और अपनी किसी रहस्यमय निजी समझ के आधार पर model बदलता रहता है
      और 80% benchmark का महत्व ही क्या है? ऐसे public benchmarks पर train करके उन लोगों को प्रभावित करने की कोशिश की जाती है जो उन्हें अर्थपूर्ण मानते हैं। लेकिन फिर $20~30/घंटा वाले Upwork कामों में pass rate सिर्फ़ 4% क्यों है? ऐसे benchmarks तो लगभग बेकार लगते हैं
      variance जैसी भी चीज़ होती है, तो मुझे समझ नहीं आता कि कुछ tests में score बढ़ जाने से कोई यह क्यों मान ले कि उसे उस model की access मिल गई है, जिसके बारे में कहा गया था कि access नहीं है
      https://labs.scale.com/leaderboard/rli
  • एक popular thread के सहारे पूछ रहा हूँ: अभी Codex और Claude usage limits कैसी हैं?
    पहले मैंने एक ही काम दोनों को दिया था, और Codex ने मेरी 5 घंटे की limit का Claude की तुलना में 20 गुना कम उपयोग किया था। दोनों $20/month plans थे
    वैसे तो मैं Claude को ज़्यादा पसंद करता था, इसलिए यह थोड़ा खीझाने वाला था, लेकिन उस समय limits की वजह से उसे गंभीर काम के लिए इस्तेमाल नहीं किया जा सकता था
    उसके बाद दोनों providers ने उपलब्ध usage काफ़ी कम कर दिया, और कम-से-कम एक को तो उसी वजह से मुक़दमे का सामना भी करना पड़ा
    अभी मैं किसी का subscriber नहीं हूँ और विकल्पों को तौल रहा हूँ। GPT, Opus से थोड़ा बेहतर लगता है, और पहले यह कहीं ज़्यादा ऊँची limits देता था, इसलिए मैं OpenAI subscription की तरफ़ झुक रहा हूँ। बस यह जानना चाहता हूँ कि मौजूदा स्थिति 2~3 महीने पहले की मेरी याद से मेल खाती है या नहीं। क्योंकि दोनों कंपनियाँ लागत घटाने के मूड में लगती हैं
    जिन लोगों ने दोनों इस्तेमाल किए हैं, उनकी राय को प्राथमिकता दूँगा, लेकिन anecdotes भी स्वागतयोग्य हैं

    • मुझे Codex usage बहुत उदार लगता है। हालाँकि मैं $200 plan पर हूँ और Claude भी $200 plan पर इस्तेमाल करता हूँ
      अगर चाहूँ, तो जागते हुए लगभग पूरे समय xhigh और sub-agents को लगभग लगातार चला सकता हूँ। speed option 1.5x चालू कर दूँ तो कभी-कभी 5 घंटे की limit तक पहुँच जाता हूँ
      मुझे 5.5 की तुलना में Claude की vibe ज़्यादा पसंद है, लेकिन 5.5 काफ़ी कम lazy लगता है। बेशक यह काम और prompt strategy पर बहुत निर्भर करेगा
    • पिछले महीने Claude Max 5x में Fable और bugs की वजह से बहुत reset हुए, इसलिए usage के लिहाज़ से वह काफ़ी उदार लगा
      5.5 high या Opus 4.8 high इस्तेमाल करें तो ईमानदारी से कहूँ तो दोनों काफ़ी समान स्तर पर हैं
      लगता है Max plan में अलग Sonnet usage हटा दिया गया है, शायद Sonnet 5 की तैयारी की वजह से। यह अफ़सोस की बात है, क्योंकि उसी वजह से sub-agent workflow लगभग unlimited जैसा महसूस होता था
    • काम में Claude Code और Cursor+Gpt55 की तुलना करें, तो Claude साफ़ तौर पर ज़्यादा धीमा और ज़्यादा महंगा है
    • दिलचस्प। लगभग एक महीने से मुझे लग रहा है कि Claude Code लगभग 5 गुना ज़्यादा tokens इस्तेमाल करने लगा है। यह बस एक मोटा अनुमान है
  • वे कहते हैं कि “एकल एजेंट की क्षमता से आगे बढ़कर जटिल कामों को तेज़ करने के लिए subagents का इस्तेमाल करने वाला नया ultra मोड भी पेश किया जाएगा”, लेकिन यह कैसे काम करता है, इसे लेकर जिज्ञासा है
    क्या subagents भी वही tools इस्तेमाल कर सकते हैं? क्या client tool calls से भर जाएगा? अगर client side पर ज़्यादा control के साथ वही काम किया जा सकता है, तो फिर नए “model” के लिए अतिरिक्त शुल्क क्यों लिया जाए?
    और अगर यह subagents की फौज है, तो इसकी तुलना Fable और Mythos से क्यों की जा रही है, यह भी समझना चाहता हूँ। अगर उन models के साथ भी ऐसा ही harness जोड़ दिया जाए, तो शायद वे बेहतर benchmark देंगे

    • अगर यह ClaudeCode के ultracode जैसा है, तो यह नया या क्रांतिकारी नहीं है
      मूल रूप से, main model thread द्वारा लिखा गया deterministic script कई subagents को कॉल करता है, उनमें से हर एक बहुत सारे tokens खपाता है, और फिर orchestrator agent outputs को समेटता है
    • अगर यह Claude Ultracode जैसा है, तो एक prompt से 30 मिनट में 3 million tokens जला देता है
    • क्या मुख्य harnesses (pi, Claude code, codex) सभी subagents का इस्तेमाल नहीं करते?
      साफ़ तौर पर निर्देश दो तो निश्चित रूप से करते हैं, और कम-से-कम pi को मैंने बिना स्पष्ट निर्देश के भी उन्हें चालू करते देखा है
    • मुझे भी इसमें दिलचस्पी है। अगर यह सिर्फ़ थोड़ी और performance निचोड़ने के लिए नहीं है, तो शायद इसका मकसद इस तरह के उपयोग का real-world data साफ़-सुथरे तरीके से इकट्ठा करना है
    • यह जानकर हैरानी हुई कि वे पहले से subagents का इस्तेमाल नहीं कर रहे थे। शायद वे सिर्फ़ यह कह रहे हों कि web deployment को codex के साथ integrate किया गया है
  • Mythos के समय की तरह ही, जिस model का मैं इस्तेमाल ही नहीं कर सकता, उसे लेकर मुझे ज़रा भी उत्साह नहीं होता

    • कम-से-कम OpenAI की योजना तो सभी versions को जनता के लिए उपलब्ध कराने की लगती है। Anthropic में जो हो रहा है, उससे यह काफ़ी बेहतर दिखता है
      “हाँ, हमारे पास इस समय का सबसे बेहतरीन model है। भरोसा करो। यह सच में डरावना है”
      “अच्छा, सच? क्या हम उसे देख सकते हैं?”
      “दफ़ा हो जाओ। तुम्हारे जैसे आम लोगों को हम उसका और ख़राब version देंगे”
      “उम्, धन्यवाद?”
      “haha असल में वह भी नहीं। मौजूदा प्रशासन हमारी डर-आधारित marketing में फँस गया, इसलिए हम तुम्हें और भी बदतर और पागलों जैसी महँगी token-burning machine देंगे। hardware limits हर हफ़्ते और सख़्त हो रही हैं”
      OpenAI के बारे में जो भी कहना हो, corporate strategy कहीं ज़्यादा मज़बूत लगती है
  • “Terra, GPT‑5.5 के मुकाबले competitive performance देता है और 2 गुना सस्ता है” — यह मुझे ऐसा सुनाई देता है जैसे “यह एक ज़्यादा घटिया product है, लेकिन marketing उसे छिपाने की कोशिश कर रही है”
    और “अब तक का सबसे मज़बूत safety stack, high-risk activities, sensitive cyber requests, और repeated misuse के ख़िलाफ़ मज़बूत सुरक्षा, कई हफ़्तों की weakness probing, pressure testing, और real-world attack तैयारी” जैसी पंक्तियाँ मेरे लिए ज़्यादा-से-ज़्यादा बेकार हैं, और अधिकतर मामलों में नुकसानदेह भी हो सकती हैं। क्योंकि इससे refusals बढ़ेंगे या utility घटेगी
    providers बार-बार safety stack को सामने क्यों रखते हैं? क्या सच में ऐसे customers हैं जो यह माँगते हैं? support वाले ChatGPT chatbot users के अलावा मेरे दिमाग़ में कोई नहीं आता

    • “Terra, GPT‑5.5 के मुकाबले competitive performance देता है और 2 गुना सस्ता है” — मैं इसे इस तरह पढ़ता हूँ कि आज की mainline performance अब काफ़ी कम कीमत पर मिल रही है
    • Terra का मकसद top model से सस्ता होना है, जबकि फिर भी काफ़ी ठीक-ठाक रहे। जाहिर है intelligence के मामले में यह कमतर होगा
    • यह messaging साफ़ तौर पर सरकार को ध्यान में रखकर की गई है। दूसरे threads देख लो
    • शायद यह investors के लिए भी संदेश हो सकता है