GPT‑5.6 Sol प्रीव्यू: अगली पीढ़ी का मॉडल
(openai.com)- OpenAI ने GPT‑5.6 series को सीमित प्रीव्यू में जारी किया है, जिसमें फ्लैगशिप Sol के साथ रोज़मर्रा के कामों के लिए Terra और कम-लागत Luna भी शामिल हैं
- Sol ने coding, biology और cybersecurity में agent क्षमताओं को मजबूत किया है, और
maxreasoning effort वultramode के साथ अधिक गहरे reasoning और sub-agent उपयोग को सपोर्ट करता है - Cybersecurity प्रदर्शन ExploitBench और ExploitGym में बेहतर हुआ है, लेकिन Chromium·Firefox मूल्यांकन स्थितियों में यह functional full-chain exploit को स्वायत्त रूप से तैयार नहीं कर पाया, इसलिए Cyber Critical threshold को पार नहीं करता
- प्रीव्यू पहले API और Codex में कुछ भरोसेमंद पार्टनर्स और संगठनों को दिया जाएगा, और अमेरिकी सरकार के अनुरोध पर लागू सीमित प्रक्रिया के बाद इसे व्यापक रूप से जारी करने की तैयारी है
- कीमत 10 लाख tokens के आधार पर Sol $5 input / $30 output, Terra $2.50 input / $15 output, Luna $1 input / $6 output है; cache writes की कीमत 1.25x है और cache reads पर 90% छूट है
GPT‑5.6 series प्रीव्यू का दायरा
- OpenAI ने सीमित प्रीव्यू के रूप में पहले GPT‑5.6 product family पेश की है
- Sol: फ्लैगशिप मॉडल
- Terra: रोज़मर्रा के कामों के लिए संतुलित मॉडल
- Luna: तेज़ और सस्ता मॉडल
- Terra, GPT‑5.5 के मुकाबले प्रतिस्पर्धी प्रदर्शन देता है, जबकि इसकी कीमत 2 गुना कम है
- Luna, OpenAI की सबसे कम लागत पर मजबूत क्षमताएँ प्रदान करता है
- GPT‑5.6 Sol को OpenAI के अब तक के सबसे मजबूत safety stack के साथ जारी किया गया है
- high-risk activities
- sensitive cyber requests
- repeated misuse
- real-world attacks के खिलाफ weakness discovery और pressure testing
सीमित रिलीज़ और सरकारी परामर्श
- OpenAI आने वाले कुछ हफ्तों में GPT‑5.6 Sol, Terra, Luna को general availability में लाने की योजना बना रहा है
- अमेरिकी सरकार के साथ चल रहे परामर्श के दौरान कंपनी ने लॉन्च-पूर्व योजना और मॉडल क्षमताएँ साझा कीं
- सरकारी अनुरोध के अनुसार, पहले सीमित प्रीव्यू कुछ भरोसेमंद पार्टनर्स के साथ शुरू किया गया, जिनकी भागीदारी की जानकारी सरकार के साथ साझा की गई
- OpenAI का मानना है कि सरकार-केंद्रित ऐसी access प्रक्रिया लंबे समय के लिए default नहीं होनी चाहिए
- क्योंकि इससे users, developers, businesses, cyber defenders और global partners को ज़रूरी tools तक पहुँच नहीं मिल सकती
- यह अल्पकालिक प्रक्रिया कुछ हफ्तों में व्यापक रिलीज़ की ओर जाने का रास्ता है
- यह तब तक लागू रहेगी जब तक प्रशासन और cyber Executive Order framework के साथ मिलकर भविष्य की model releases के लिए दोहराई जा सकने वाली प्रक्रिया विकसित नहीं हो जाती
मॉडल क्षमताएँ और मूल्यांकन
- GPT‑5.6 Sol को OpenAI का सबसे शक्तिशाली मॉडल बताया गया है
- यह coding, biology और cybersecurity evaluations में बेहतर agent क्षमताएँ दिखाता है
- अतिरिक्त safety और readiness evaluations GPT‑5.6 Preview system card में शामिल हैं
- व्यापक रिलीज़ के समय कंपनी विस्तारित evaluation results का सेट साझा करने की योजना रखती है
-
reasoning mode
- GPT‑5.6 में
maxreasoning effort जोड़ा गया है, जिससे Sol अधिक देर तक और अधिक गहराई से reasoning कर सकता है - नया
ultramode single-agent क्षमता से आगे बढ़कर sub-agents का उपयोग करके complex tasks को तेज़ करता है
- GPT‑5.6 में
-
coding और biology
- GPT‑5.6 Sol ने command-line workflows का मूल्यांकन करने वाले Terminal‑Bench 2.1 में नया state-of-the-art प्रदर्शन दर्ज किया
- यह benchmark planning, iteration और tool coordination की ज़रूरत वाले command-line tasks को टेस्ट करता है
- GeneBench v1 में इसने GPT‑5.5 से बेहतर नतीजे दिए, वह भी कम tokens का उपयोग करते हुए
- GeneBench v1 long-range genomics और quantitative biology analysis का मूल्यांकन करता है
-
cybersecurity
- GPT‑5.6 Sol, OpenAI के cybersecurity कार्यों के लिए सबसे सक्षम मॉडल है
- यह vulnerability research और exploits सहित लंबी अवधि वाले security tasks में performance-efficiency frontier को आगे बढ़ाता है
- ExploitBench में इसने Mythos Preview के बराबर प्रतिस्पर्धी नतीजे दिए, जबकि output tokens लगभग एक-तिहाई ही उपयोग किए
- ExploitGym में Sol, Terra और Luna तीनों ने reasoning बढ़ने के साथ cyber क्षमता में मजबूत सुधार दिखाया
- ExploitGym, UC Berkeley के शोधकर्ताओं ने OpenAI और अन्य frontier labs के साथ मिलकर बनाया है
cyber क्षमताएँ और safety guardrails
- GPT‑5.6 Sol, Terra और Luna को प्रत्येक मॉडल की क्षमता के अनुरूप OpenAI के सबसे मजबूत guardrails के साथ विकसित किया गया है
- मॉडल क्षमताएँ बढ़ने पर भी guardrails वास्तविक adversarial pressure में टिके रहें, इसी तरह इन्हें डिज़ाइन किया गया है
- साथ ही वैध defensive work तक पहुँच बनाए रखने की कोशिश की गई है
- code review
- vulnerability research
- patch development
- debugging
- security training
- defensive testing
- लक्ष्य यह है कि प्रतिबंधित offensive गतिविधियों को अधिक कठिन, अनिश्चित और detectable बनाया जाए, बिना उपयोगी इस्तेमाल को अनावश्यक रूप से सीमित किए
- OpenAI के मूल्यांकन के अनुसार, वैध defensive work में काफ़ी लाभ मिलता है, जबकि प्रतिबंधित offensive use पर अर्थपूर्ण रोक लगती है
-
Cyber Critical threshold
- GPT‑5.6 Sol, Preparedness Framework के अनुसार Cyber Critical threshold को पार नहीं करता
- Chromium और Firefox से जुड़े evaluations में यह bugs और exploit primitives पहचानता है
- लेकिन परीक्षण स्थितियों में यह कार्यशील full-chain exploit को स्वायत्त रूप से तैयार नहीं कर पाया
- benchmark thresholds मॉडल के उपयोग के सभी तरीकों या अन्य tools के साथ इसके संयोजन को पूरी तरह capture नहीं कर पाते
- इसी अनिश्चितता और कुल क्षमता-वृद्धि के कारण OpenAI ने मजबूत guardrails और phased rollout दोनों अपनाए हैं
layered safety stack
- जानबूझकर या adaptive misuse को सिर्फ़ एक guardrail से रोकना मुश्किल है
- GPT‑5.6 प्रीव्यू में पूरे मॉडल परिवार पर मॉडल-विशेष configuration वाले layered guardrails लागू किए गए हैं
- model-trained protections
- generation के दौरान real-time checks
- account-level signals
- differential access
- monitoring
- enforcement
- continuous testing
-
model-level refusal और real-time checks
- GPT‑5.6 को इस तरह train किया गया है कि user अगर अपनी मंशा छिपाए या jailbreak की कोशिश करे, तब भी यह प्रतिबंधित cyber सहायता देने से इंकार करे
- real-time cyber और biology misuse classifiers generation के दौरान आउटपुट का मूल्यांकन करते हैं
- high-risk मामलों में संभावित उल्लंघन मिलने पर generation को अस्थायी रूप से रोका जा सकता है
- बड़े reasoning models बातचीत और संदर्भ की समीक्षा करते हैं, और अगर आउटपुट प्रतिबंधित पाया जाता है तो user तक पहुँचने से पहले उसे रोक लिया जाता है
-
account-level review और differential access
- flagged activity, संबंधित बातचीत और risk signals सहित account-level review तक ले जा सकती है
- सिर्फ़ एक बातचीत के बजाय account-level context देखने से वैध dual-use security work और लगातार malicious behavior में अंतर करना आसान होता है
- differential access यह सुनिश्चित करता है कि महत्वपूर्ण defensive work जारी रहे, जबकि सबसे संवेदनशील क्षमताएँ default रूप से व्यापक रूप से उपलब्ध न हों
-
प्रीव्यू के दौरान user impact
- प्रीव्यू अवधि में कुछ requests ब्लॉक या अस्वीकार की जा सकती हैं
- अतिरिक्त समीक्षा के कारण generation अस्थायी रूप से रुके तो कुछ requests में अधिक समय लग सकता है
- dual-use क्षेत्रों में, जहाँ defensive और offensive activity शुरू में एक जैसी दिख सकती है, वहाँ वैध कामों में भी guardrails हस्तक्षेप कर सकते हैं
- प्रीव्यू feedback का उपयोग अनावश्यक ब्लॉक और देरी कम करने, guardrails की context interpretation बेहतर करने और व्यापक रिलीज़ से पहले अनुभव को निखारने के लिए किया जाएगा
- enterprise customers के साथ दीर्घकालिक approach पर भी चर्चा चल रही है
- privacy-preserving detection
- customer-operated safety controls
- customer, user और workload risk के अनुरूप access permissions
automated red teaming से मजबूती में सुधार
- guardrails को तब भी प्रभावी रहना चाहिए जब attackers अपनी रणनीति बदल दें
- OpenAI अपने ही models का उपयोग करके कमजोरियाँ ढूँढ रहा है और guardrails को तेज़ी से सुधार रहा है
- 700,000 A100-equivalent GPU hours से अधिक automated red teaming में लगाए गए
- automated red team का फोकस ऐसे universal jailbreaks ढूँढने पर है जो कई prompts या contexts में काम कर सकें
- ऐसे अधिक सामान्य हमलों पर ध्यान देने से guardrails को केवल निश्चित failure-case सूची से आगे बढ़कर टेस्ट किया जा सकता है
- automation, केवल मानव परीक्षण से कठिन कई attack patterns को अधिक व्यापक रूप से खोजता है, और failure patterns को जल्दी पहचानकर कमजोरी खोजने से सुधार तक का समय घटाता है
- external testers के साथ human expert red teams भी चलाई गईं, और यह काम प्रीव्यू अवधि में जारी रहेगा
- नए पाए गए jailbreaks को reproduce, evaluate, prioritize और fix करने की प्रक्रिया से गुज़ारा जाता है, और भविष्य में मिलते-जुलते failures को टेस्ट करने के लिए ongoing evaluations में जोड़ा जाता है
उपलब्धता और कीमत
- प्रीव्यू के दौरान GPT‑5.6 models पहले API और Codex के ज़रिए चुने गए भरोसेमंद पार्टनर्स और संगठनों को उपलब्ध होंगे
- इसके बाद इन्हें ChatGPT, Codex और API users के लिए व्यापक रूप से उपलब्ध कराने की योजना है
- GPT‑5.6 की नई naming scheme में number मॉडल generation को दर्शाता है
- Sol, Terra और Luna लगातार विकसित होने वाली capability tiers को दर्शाते हैं, जो अपनी-अपनी गति से आगे बढ़ सकते हैं
- यह product family intelligence, speed और cost के बीच users और developers को अधिक स्पष्ट विकल्प देता है
-
token pricing और caching
- GPT‑5.6 की कीमत 10 लाख tokens के आधार पर तय की गई है
- Sol: input $5 / output $30
- Terra: input $2.50 / output $15
- Luna: input $1 / output $6
- GPT‑5.6 अधिक predictable prompt caching पेश करता है
- explicit cache breakpoints का समर्थन
- कम-से-कम 30 मिनट cache lifetime
- GPT‑5.6 और उसके बाद के models में cache writes पर उस मॉडल की non-cached input pricing का 1.25x शुल्क लगेगा
- cache reads पर cache input के मुकाबले 90% discount मिलता रहेगा
-
Cerebras उपलब्धता
- GPT‑5.6 Sol जुलाई में Cerebras पर अधिकतम 750 tokens प्रति सेकंड की गति से उपलब्ध कराया जाएगा
- शुरुआती access, capacity बढ़ाने की प्रक्रिया के दौरान चुने हुए customers तक सीमित रहेगा
1 टिप्पणियां
Hacker News की राय
इस घोषणा का सबसे दिलचस्प हिस्सा आखिर से दूसरे पैराग्राफ में दबा हुआ है: “जुलाई में हम Cerebras पर अधिकतम 750 tokens प्रति सेकंड की गति से GPT‑5.6 Sol लॉन्च करेंगे, जिससे ग्राहकों को अभूतपूर्व स्पीड पर frontier intelligence मिलेगी। क्षमता विस्तार तक पहुंच कुछ ग्राहकों तक सीमित रहेगी”
frontier model में 750 tokens/second वाकई काफी दिलचस्प होगा। परफॉर्मेंस के लिहाज से यह सिर्फ साधारण version bump से ज्यादा होगा या नहीं, इस पर संदेह है, लेकिन अगर जवाब जल्दी मिलें तो यह बहुत ज्यादा उपयोगी हो जाएगा
उदाहरण के लिए codebase में किसी खास feature को ढूंढने जैसा उबाऊ काम याद आता है। अभी भी इस काम में AI agent harness को हराना आम तौर पर मुश्किल होता है, और अगर model 3 गुना तेज हो जाए तो तो और भी मुश्किल होगा
750 tokens/second लगभग ऐसा महसूस होगा
सबसे बड़े model में 750 tokens/second हो तो वह बहुत बड़ा फर्क होगा
सिर्फ 1 साल पहले तक मुझे याद है कि codebase समझने के लिए मैं AI के साथ “रेस” लगाता था, लेकिन अब जीतने की कोई संभावना नहीं लगती। मेरी reasoning कमजोर हुई है या model बेहतर हुए हैं, पता नहीं
Spark 1000 tokens/second से ऊपर जा सकता है, लेकिन इसका context window बहुत सीमित है, इसलिए कई workflows में यह फिट नहीं बैठता। यह नया model थोड़ा धीमा हो तब भी शायद शानदार रहेगा
अभी के discrete, turn-based solutions सीखने के तरीके तक को काफी सीमित करते हैं। continuous और real-time तरीका इस क्षेत्र को बुनियादी रूप से बदल सकता है
information theory के नज़रिए से देखें तो असली information transfer rate अभी भी dial-up स्तर पर है। 750 tokens/second भी बस बहुत खराब dial-up connection जैसा है, ज़रा 10 million tokens प्रति second की कल्पना कीजिए
एक पैटर्न दिख रहा है: GPT-5 mini की कीमत $0.25/$2 है और इसे दिसंबर में बंद किया जाना है, GPT-5.4 mini $0.75/$4.5 है और इसे replacement कहा जा रहा है, GPT-5.4 nano $0.2/$1.25 है और benchmarks में GPT-5 mini से बेहतर है, लेकिन असली scenarios में बिल्कुल वैसा नहीं है
तो अगर आप अभी 5 mini इस्तेमाल कर रहे हैं, तो आखिरकार आपको GPT-5.4 mini की ओर धकेल दिया जाएगा। यहाँ भी “Luna” model $1/$6 का है, यानी वही चीज़ फिर हो रही है
क्या हम वह model इस्तेमाल करते रह सकते हैं जो हमें वास्तव में चाहिए? GPT 5.4 mini की जरूरत नहीं, GPT-5 ही काफी है
शायद यह कभी इतना सस्ता था ही नहीं, और अब हमें एहसास हो रहा है कि हमें धीमे और दर्दनाक तरीके से upgrade करवाया जा रहा है
HN पर DeepSeek V4 Flash का ज़िक्र अक्सर आता है, लेकिन Artificial Analysis के अनुसार अगस्त 2025 तक यह GPT-5 high के साथ लगभग कड़ी टक्कर में है [0]
[0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
बड़े labs ने मानो सस्ते models को लगभग छोड़ ही दिया है, और यह निराशाजनक है। संभव है कि applications अब उतनी संख्या में उनके ऊपर build न हों। उदाहरण के लिए, हम भी workload को Haiku/Sonnet से Deepseek v4 पर शिफ्ट कर रहे हैं
समस्या शायद यह है कि revenue numbers बनाए रखने के लिए उन्हें ज्यादा चार्ज करना पड़ता है, और उन्हें इस बात की ज्यादा चिंता है कि कोई और उन्हें cannibalize न कर दे, बजाय इसके कि वे खुद अपना revenue cannibalize करें
labs का यह देखना स्वाभाविक है कि वे कीमतों को कहाँ तक धकेल सकते हैं, और competitors का उस margin को अपने growth opportunity में बदलना भी स्वाभाविक है। आखिरकार कीमतें शायद ज्यादा स्थिर होंगी
GPT-5.6 Sol की पहचानी गई cheating rate हमारे द्वारा ReAct agent harness में evaluate किए गए public models में सबसे ऊँची थी
हमारे task suite में “cheating” का मतलब है कि model अपेक्षित evaluation constraints के भीतर समस्या हल करने के बजाय, evaluation environment की bugs का फायदा उठाए या task में मना की गई strategies अपनाकर अपना evaluation score बढ़ाए
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
यह Alibaba में देखे गए व्यवहार [0] की याद दिलाता है, लेकिन वह training के दौरान था। यह तो एक near-release model में हुआ
[0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
इन कंपनियों को बस इतना करना होता है कि वे उन requests को log करें और अगली model release में उन्हें “fix” कर दें
मुझे लगता है कि GPT सबसे अच्छा कोड लिखता है। 5.6 वर्ज़न में यह कितना अच्छा लिखेगा, यह सोचकर ही रोंगटे खड़े हो जाते हैं
हाल ही में मैं लगभग 2,000 लाइनों वाले कोड पर GPT के साथ सीधे भिड़ा था, और GPT का समाधान बेहतर भी था और तेज़ भी। मैंने कई GitHub codebase देखते हुए कोशिश की, लेकिन GPT से उसकी तुलना ही नहीं थी
इसलिए GPT इस्तेमाल करते समय मुझे डर और उत्साह दोनों साथ-साथ महसूस होते हैं। यह एहसास डराता है कि इस स्तर का कोड अब ज़्यादातर लोगों के लिए औसत बन जाएगा, और यह बात उत्साहित करती है कि मैं भी इसी स्तर पर पढ़ और सीख सकता हूँ
5.6 upgrade से कोड कितना और आगे बढ़ेगा, इसे लेकर मैं सच में उत्साहित हूँ
इसके उलट pi + glm + DeepSeek का कॉम्बिनेशन बहुत अच्छा है। Fable तो एक अलग ही तरह का राक्षस था। RIP
पहला वाला review करना थोड़ा ज़्यादा आसान है
यहाँ जिन अच्छे दिनों की बात हो रही है, वे 2026 फ़रवरी के कुछ हफ़्ते हैं। यह सब unfold होते देखना काफ़ी दिलचस्प है
announcement में coding benchmark एक भी नहीं है, और जो सबसे नज़दीक है वह terminal bench है — यह अजीब लगता है
अगर आपने पिछले लगभग 24 घंटों में GPT-5.5 इस्तेमाल किया है, तो हो सकता है कि आप पहले ही 5.6 तक पहुँच चुके हों
हम जो harness बना रहे हैं, उस पर tests चला रहे हैं, और कल अचानक कुछ points बढ़ गए। जब मैंने base Codex benchmark फिर से चलाया, तो GPT-5.5 ने base Codex पर Terminal Bench 2.1 में लगभग 88% score दिया
score से भी बड़ा संकेत यह है कि 5.5 में जो 3 tests अक्सर “safe” block में फँस जाते थे, वे कल रात बिना किसी warning के सफल होने लगे
उसमें लिखा है, “सरकार के साथ भागीदारी की जानकारी साझा किए गए trusted partners के एक छोटे समूह के लिए सीमित preview से शुरुआत की जाएगी, फिर इसे और व्यापक रूप से जारी किया जाएगा”
यह comment इस बात का शानदार उदाहरण है कि औसत LLM user असल में slot machine user की तरह व्यवहार करता है। वह मानता है, “यह वाला hot है, यह वाला lucky है, यह दूसरे से बेहतर है,” और अपनी किसी रहस्यमय निजी समझ के आधार पर model बदलता रहता है
और 80% benchmark का महत्व ही क्या है? ऐसे public benchmarks पर train करके उन लोगों को प्रभावित करने की कोशिश की जाती है जो उन्हें अर्थपूर्ण मानते हैं। लेकिन फिर $20~30/घंटा वाले Upwork कामों में pass rate सिर्फ़ 4% क्यों है? ऐसे benchmarks तो लगभग बेकार लगते हैं
variance जैसी भी चीज़ होती है, तो मुझे समझ नहीं आता कि कुछ tests में score बढ़ जाने से कोई यह क्यों मान ले कि उसे उस model की access मिल गई है, जिसके बारे में कहा गया था कि access नहीं है
https://labs.scale.com/leaderboard/rli
एक popular thread के सहारे पूछ रहा हूँ: अभी Codex और Claude usage limits कैसी हैं?
पहले मैंने एक ही काम दोनों को दिया था, और Codex ने मेरी 5 घंटे की limit का Claude की तुलना में 20 गुना कम उपयोग किया था। दोनों $20/month plans थे
वैसे तो मैं Claude को ज़्यादा पसंद करता था, इसलिए यह थोड़ा खीझाने वाला था, लेकिन उस समय limits की वजह से उसे गंभीर काम के लिए इस्तेमाल नहीं किया जा सकता था
उसके बाद दोनों providers ने उपलब्ध usage काफ़ी कम कर दिया, और कम-से-कम एक को तो उसी वजह से मुक़दमे का सामना भी करना पड़ा
अभी मैं किसी का subscriber नहीं हूँ और विकल्पों को तौल रहा हूँ। GPT, Opus से थोड़ा बेहतर लगता है, और पहले यह कहीं ज़्यादा ऊँची limits देता था, इसलिए मैं OpenAI subscription की तरफ़ झुक रहा हूँ। बस यह जानना चाहता हूँ कि मौजूदा स्थिति 2~3 महीने पहले की मेरी याद से मेल खाती है या नहीं। क्योंकि दोनों कंपनियाँ लागत घटाने के मूड में लगती हैं
जिन लोगों ने दोनों इस्तेमाल किए हैं, उनकी राय को प्राथमिकता दूँगा, लेकिन anecdotes भी स्वागतयोग्य हैं
अगर चाहूँ, तो जागते हुए लगभग पूरे समय xhigh और sub-agents को लगभग लगातार चला सकता हूँ। speed option 1.5x चालू कर दूँ तो कभी-कभी 5 घंटे की limit तक पहुँच जाता हूँ
मुझे 5.5 की तुलना में Claude की vibe ज़्यादा पसंद है, लेकिन 5.5 काफ़ी कम lazy लगता है। बेशक यह काम और prompt strategy पर बहुत निर्भर करेगा
5.5 high या Opus 4.8 high इस्तेमाल करें तो ईमानदारी से कहूँ तो दोनों काफ़ी समान स्तर पर हैं
लगता है Max plan में अलग Sonnet usage हटा दिया गया है, शायद Sonnet 5 की तैयारी की वजह से। यह अफ़सोस की बात है, क्योंकि उसी वजह से sub-agent workflow लगभग unlimited जैसा महसूस होता था
वे कहते हैं कि “एकल एजेंट की क्षमता से आगे बढ़कर जटिल कामों को तेज़ करने के लिए subagents का इस्तेमाल करने वाला नया
ultraमोड भी पेश किया जाएगा”, लेकिन यह कैसे काम करता है, इसे लेकर जिज्ञासा हैक्या subagents भी वही tools इस्तेमाल कर सकते हैं? क्या client tool calls से भर जाएगा? अगर client side पर ज़्यादा control के साथ वही काम किया जा सकता है, तो फिर नए “model” के लिए अतिरिक्त शुल्क क्यों लिया जाए?
और अगर यह subagents की फौज है, तो इसकी तुलना Fable और Mythos से क्यों की जा रही है, यह भी समझना चाहता हूँ। अगर उन models के साथ भी ऐसा ही harness जोड़ दिया जाए, तो शायद वे बेहतर benchmark देंगे
मूल रूप से, main model thread द्वारा लिखा गया deterministic script कई subagents को कॉल करता है, उनमें से हर एक बहुत सारे tokens खपाता है, और फिर orchestrator agent outputs को समेटता है
साफ़ तौर पर निर्देश दो तो निश्चित रूप से करते हैं, और कम-से-कम pi को मैंने बिना स्पष्ट निर्देश के भी उन्हें चालू करते देखा है
Mythos के समय की तरह ही, जिस model का मैं इस्तेमाल ही नहीं कर सकता, उसे लेकर मुझे ज़रा भी उत्साह नहीं होता
“हाँ, हमारे पास इस समय का सबसे बेहतरीन model है। भरोसा करो। यह सच में डरावना है”
“अच्छा, सच? क्या हम उसे देख सकते हैं?”
“दफ़ा हो जाओ। तुम्हारे जैसे आम लोगों को हम उसका और ख़राब version देंगे”
“उम्, धन्यवाद?”
“haha असल में वह भी नहीं। मौजूदा प्रशासन हमारी डर-आधारित marketing में फँस गया, इसलिए हम तुम्हें और भी बदतर और पागलों जैसी महँगी token-burning machine देंगे। hardware limits हर हफ़्ते और सख़्त हो रही हैं”
OpenAI के बारे में जो भी कहना हो, corporate strategy कहीं ज़्यादा मज़बूत लगती है
“Terra, GPT‑5.5 के मुकाबले competitive performance देता है और 2 गुना सस्ता है” — यह मुझे ऐसा सुनाई देता है जैसे “यह एक ज़्यादा घटिया product है, लेकिन marketing उसे छिपाने की कोशिश कर रही है”
और “अब तक का सबसे मज़बूत safety stack, high-risk activities, sensitive cyber requests, और repeated misuse के ख़िलाफ़ मज़बूत सुरक्षा, कई हफ़्तों की weakness probing, pressure testing, और real-world attack तैयारी” जैसी पंक्तियाँ मेरे लिए ज़्यादा-से-ज़्यादा बेकार हैं, और अधिकतर मामलों में नुकसानदेह भी हो सकती हैं। क्योंकि इससे refusals बढ़ेंगे या utility घटेगी
providers बार-बार safety stack को सामने क्यों रखते हैं? क्या सच में ऐसे customers हैं जो यह माँगते हैं? support वाले ChatGPT chatbot users के अलावा मेरे दिमाग़ में कोई नहीं आता