5 पॉइंट द्वारा GN⁺ 2025-11-20 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI का नया GPT‑5.1‑Codex‑Max एक नवीनतम agentic coding model है, जिसे दीर्घकालिक और जटिल development tasks संभालने के लिए डिज़ाइन किया गया है, और यह Codex environment में उपलब्ध है
  • नई ‘compaction’ तकनीक के ज़रिये यह कई context windows के बीच काम करते हुए लाखों tokens वाले projects को लगातार और सुसंगत रूप से संभाल सकता है
  • Token efficiency में सुधार हुआ है, जिससे समान reasoning स्तर पर 30% कम tokens के साथ बेहतर performance मिलती है, और लागत घटने की उम्मीद है
  • यह लंबे समय तक स्वतंत्र रूप से काम कर सकता है और 24 घंटे से अधिक चलने वाले refactoring और debugging कर सकता है
  • secure sandbox और cybersecurity monitoring framework को मज़बूत किया गया है, ताकि यह एक सुरक्षित AI coding partner के रूप में विकसित हो सके

GPT‑5.1‑Codex‑Max का परिचय

  • GPT‑5.1‑Codex‑Max OpenAI का नया agentic coding model है, जो software engineering, mathematics, research जैसे विभिन्न क्षेत्रों के कार्यों पर प्रशिक्षित reasoning-based model का updated version है
    • Codex CLI, IDE extension, cloud, और code review environments में तुरंत उपलब्ध
    • API access जल्द उपलब्ध कराया जाएगा
  • model में speed, intelligence, और token efficiency बेहतर हुई है, जिससे यह पूरे development cycle में अधिक भरोसेमंद coding partner की भूमिका निभाता है
  • Compaction process के माध्यम से यह कई context windows के बीच काम करते हुए लाखों tokens के स्तर के tasks को सुसंगत रूप से संभालता है

Frontier coding performance

  • वास्तविक software engineering tasks (PR generation, code review, frontend coding, Q&A) पर प्रशिक्षित होने के कारण यह पिछले model की तुलना में कई evaluations में बेहतर प्रदर्शन करता है
  • यह Windows environment पर काम करने वाला पहला Codex model है, और Codex CLI collaboration performance सुधारने के लिए भी काम शामिल है
  • सिर्फ benchmarks ही नहीं, बल्कि वास्तविक usability में भी सुधार देखा गया है

गति और लागत दक्षता

  • SWE‑bench Verified के अनुसार, समान reasoning स्तर पर GPT‑5.1‑Codex की तुलना में 30% कम tokens का उपयोग करते हुए अधिक performance हासिल करता है
  • ‘xhigh’ reasoning mode लंबे सोचने के समय के ज़रिये बेहतर quality देता है, जबकि सामान्य tasks के लिए ‘medium’ mode की सिफारिश की जाती है
  • token efficiency में सुधार से developer cost savings होने की उम्मीद है
    • उदाहरण: GPT‑5.1‑Codex‑Max समान functionality और aesthetics वाले frontend design को बहुत कम लागत पर बना सकता है

Long-running tasks

  • Compaction feature की मदद से यह context limit से आगे जाने वाले complex refactoring और long-term agent loops चला सकता है
    • जब session limit पर पहुँचता है, तो यह अपने आप compact होकर चल रहे काम को बनाए रखते हुए नया context हासिल करता है
  • आंतरिक evaluations में 24 घंटे से अधिक चलने वाले tasks के उदाहरण देखे गए
    • test failures को ठीक करते हुए और iterative implementation के ज़रिये अंततः सफल परिणाम हासिल किए गए
  • long-term consistency बनाए रखने की क्षमता सामान्य और भरोसेमंद AI systems की दिशा में एक अहम आधार है

सुरक्षित और भरोसेमंद AI agent बनाना

  • Long-horizon reasoning evaluations में performance काफ़ी बेहतर हुई है, जिससे cybersecurity और long-term coding tasks में बेहतर परिणाम मिलते हैं
  • Cybersecurity Preparedness Framework के हिसाब से यह ‘High’ स्तर तक नहीं पहुँचता, लेकिन अब तक deploy किए गए models में इसका cybersecurity performance सबसे मज़बूत है
    • Aardvark program जैसे प्रयासों के माध्यम से defensive use को मज़बूत किया जा रहा है
  • cybersecurity-specific monitoring के ज़रिये दुरुपयोग के प्रयासों का पता लगाया और रोका जाता है, और संदिग्ध गतिविधियों को policy review system तक भेजा जाता है
  • Codex डिफ़ॉल्ट रूप से secure sandbox में चलता है, जहाँ file access और network usage सीमित होते हैं
    • internet access के समय prompt injection risk मौजूद रहता है
  • developers को deployment से पहले agent के काम की समीक्षा करनी चाहिए
    • Codex terminal logs, tool calls, और test results रिकॉर्ड करता है, और human review का विकल्प नहीं बल्कि सहायक भूमिका निभाता है
  • cybersecurity क्षमताएँ रक्षा और आक्रमण दोनों में इस्तेमाल हो सकती हैं, इसलिए क्रमिक deployment और सुरक्षा उपायों को मज़बूत करने की प्रक्रिया साथ-साथ चल रही है

उपलब्धता और deployment

  • GPT‑5.1‑Codex‑Max ChatGPT Plus, Pro, Business, Edu, Enterprise plans के Codex में उपलब्ध है
  • API key के साथ Codex CLI इस्तेमाल करने वाले developers के लिए भी यह जल्द उपलब्ध होगा
  • आज से Codex में default model के रूप में GPT‑5.1‑Codex‑Max, GPT‑5.1‑Codex की जगह ले रहा है
    • GPT‑5.1 एक general-purpose model है, जबकि Codex‑Max की सिफारिश agentic coding tasks के लिए की जाती है

निष्कर्ष

  • GPT‑5.1‑Codex‑Max long-term coding task persistence, complex workflow management, और high-quality implementation में एक बड़ी प्रगति है
  • CLI, IDE extensions, cloud integration, और code review tools में सुधार के साथ मिलकर यह engineering productivity में 70% सुधार लाता है
    • OpenAI के आंतरिक engineers में से 95% हर हफ़्ते Codex का उपयोग करते हैं
  • agent capabilities के विस्तार के साथ, यह developer productivity के एक नए चरण की शुरुआत करता है

परिशिष्ट: model evaluation results

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

2 टिप्पणियां

 
kaydash 2025-11-27

कोडेक्स, MS AOIA में मिलते हैं 😊

 
GN⁺ 2025-11-20
Hacker News राय
  • मैंने हाल में Claude और Codex दोनों का काफी इस्तेमाल किया है
    Claude निर्देशों (जैसे CLAUDE.md) को लगभग नज़रअंदाज़ कर देता है, जबकि Codex ऐसा लगता है मानो एक भी अक्षर छूटने न दे और बेहद हद तक वफादारी से उनका पालन करता है
    उदाहरण के लिए, टेस्ट कोड में टाइपो हो तो Claude उसे “यह साफ़ तौर पर टाइपो है” कहकर ठीक कर देता है, लेकिन Codex इतना चरम पर जा सकता है कि V8 engine को ही फिर से लिख दे और arithmetic तोड़ दे
    इसलिए मुझे लगता है कि Claude तेज़ iteration वाले कामों के लिए, और Codex accuracy महत्वपूर्ण होने वाले लंबे कामों के लिए ज़्यादा उपयुक्त है

    • मैं भी Codex से बहुत प्रभावित हुआ हूँ। 6 महीने से चल रहे flight simulator project में coordinate system को ECEF में बदलना था, जिसके लिए पूरे physics engine और graphics system को फिर से लिखना पड़ा
      मैंने सिर्फ़ एक पैराग्राफ जितना निर्देश दिया, और उसने 45 मिनट में लगभग पूरी तरह सही काम कर दिया। जब मैंने summary report माँगी, तो सचमुच उसने हर निर्देश का एक-एक अक्षर तक पालन किया था
    • एक दोस्त ने Claude से कहा था कि वह उसे हमेशा “Mr Tinkleberry” कहकर बुलाए, और Claude जब भी यह भूलता है तो उससे निर्देश नज़रअंदाज़ होने का पता चल जाता है
    • Codex ऐसा व्यवहार करता है मानो वह “पृथ्वी का आख़िरी programmer” हो। वह किसी भी हालत में लक्ष्य पूरा करना चाहता है
      black box की तरह इस्तेमाल करने वालों के लिए यह रवैया अच्छा हो सकता है, लेकिन मैं सामान्य समझ वाला सहयोगी चाहता हूँ
      यह शायद दिखाता है कि OpenAI और Anthropic AI के भविष्य को कितने अलग तरीके से देखते हैं
    • “1+1===3 test fix” वाली उपमा सचमुच बेहतरीन है। इस एक लाइन से GPT परिवार और Claude परिवार के बीच का मूलभूत अंतर समझाया जा सकता है
      GPT मॉडल ad-hoc coding में कमज़ोर होते हैं, लेकिन जहाँ requirements स्पष्ट हों वहाँ बहुत अच्छे हैं
    • मुझे Codex की यह बात निराशाजनक लगी कि वह कोड हटाना लगभग कर ही नहीं पाता, और हमेशा codebase को बेवजह बड़ा करता रहता है
      Python और TypeScript दोनों में .getattr(), typeof जैसे defensive code बहुत ज़्यादा थे
  • हम model training तो अच्छी करते हैं, लेकिन नाम रखने में अच्छे नहीं हैं 😄
    नया version SWE-Bench-Verified में 77.9%, SWE-Lancer में 79.9%, और TerminalBench 2.0 में 58.1% के साथ SOTA हासिल करता है
    यह कई context windows को compaction करके लंबे समय तक काम कर सकता है, और token efficiency 30% बेहतर हुई है
    राय सुनना चाहूँगा

    • मैं अभी GPT‑5.1‑Codex‑High इस्तेमाल कर रहा हूँ, और जानना चाहता हूँ कि Max version में cost और credit limit कैसे अलग हैं
      अगर “token savings” सच है तो यह सस्ता होना चाहिए, लेकिन “Max” नाम सुनकर महँगा लगता है
    • Codex एक शानदार product है, इसलिए incremental upgrade भी स्वागतयोग्य है। मैं इसे जल्द आज़माऊँगा
    • क्या issue #6426 हल हो गया है?
      5.1 बहुत ज़्यादा token खर्च कर रहा था, इसलिए मैं 5.0 पर वापस चला गया था
    • अच्छा होगा अगर यह मॉडल Chat interface में भी इस्तेमाल किया जा सके
    • मुझे Claude Code का subagent feature पसंद है। यह जटिल codebase में context management के लिए उपयोगी है
      मैंने example agents देखे, और चाहूँगा कि Codex CLI में भी ऐसा कुछ हो
  • आज मैंने CLI में GPT‑5.1‑Codex‑Max और Gemini 3 Pro की तुलना की
    collaborator के रूप में Gemini को संभालना मुश्किल है। आप सवाल पूछो तो वह इरादा अनुमान लगाकर पहले कोड लिखना शुरू कर देता है
    दूसरी ओर, Codex सीधे सवाल का जवाब देता है
    code quality के मामले में Gemini की शैली ज़्यादा मानव-पठनीय थी, लेकिन planning और implementation accuracy में Codex काफ़ी बेहतर था
    Gemini में DB column names की hallucination, features छूट जाना, और integration की कमी जैसी समस्याएँ थीं
    कुल मिलाकर Codex साफ़ विजेता था

    • Google ने दावा किया था कि Gemini 3 हर benchmark में सबसे अच्छा है, लेकिन यह दिखाता है कि ज़मीनी हक़ीक़त अलग है
    • Gemini इस्तेमाल करते समय temperature setting को default 1.0 पर ही रखना चाहिए। इसे कम करने पर loop या performance गिरने की समस्या हो सकती है
      official docs देखें
    • मैंने भी Gemini से “कोड मत लिखो” कहा, फिर भी वह बार-बार कोड फिर से लिखता रहा
  • OpenAI अक्सर प्रतिद्वंद्वियों की घोषणा से ठीक पहले अपने मॉडल जारी करता है
    GPT‑4o भी Google I/O से एक दिन पहले घोषित हुआ था। इस बार का Codex भी शायद incremental update ही है

    • GPT‑5.1 / Codex पहले से ही benchmark में Gemini 3 से आगे था, और इस update के बाद फ़ासला और बढ़ गया है
    • Anthropic ने भी GPT‑5 लॉन्च के समय Opus 4.1 जारी किया था। अब प्रतिस्पर्धा काफ़ी तीखी हो गई है
    • इसी प्रतिस्पर्धा की वजह से प्रगति तेज़ हो रही है। स्वस्थ प्रतिस्पर्धा के लिए आभारी होना चाहिए
    • Gemini बाज़ार हिस्सेदारी खा रहा है, और OpenAI यह बात जानता है
    • इस तरह की announcement timing competition अब जानी-पहचानी लगती है
  • SVG rendering example को देखें,
    medium level काफ़ी संतुलित है, और high/low के बीच जानबूझकर style का अंतर दिखाता है
    ऐसे comparisons से मॉडल की creative consistency समझने में मदद मिलती है

    • लेकिन अब ऐसे SVG output benchmarks शायद कम मायने रखते हैं। संभव है कि यह RLHF से विशेष रूप से प्रशिक्षित नतीजा हो
  • काश हर कंपनी मॉडल training में जितनी मेहनत लगाती है उसका सिर्फ़ 1% भी payment और login experience सुधारने में लगाती
    Claude का login system लगभग न के बराबर है, और OpenAI को Codex CLI bug (#2798) ठीक करना चाहिए
    Google के product और payment structure बहुत जटिल हैं। इसे एक ही pricing page में समेटना चाहिए

    • मैंने भी Google payment system की वजह से हार मान ली। Google Payments है भी क्या, समझ नहीं आता, और account verification error की वजह से 18 साल पुराना company account suspend हो गया
    • Google की product lineup बेतरतीब है। Vertex AI, AI Studio, Maker Studio, Gemini वगैरह की documentation दोहराव भरी और अस्पष्ट है
    • Gemini का data training opt-out विकल्प गायब हो गया है, और कौन से accounts training में शामिल होते हैं यह भी साफ़ नहीं है
      Workspace accounts भी सुरक्षित नहीं लगते। ToS ध्यान से पढ़नी चाहिए
      अभी मुझे लगता है कि OpenAI कहीं ज़्यादा विश्वसनीय customer experience दे रहा है
    • शक होता है कि Gemini 3 Pro को अनुमति न मिले हुए data से post-train किया गया है
      issue #12121 में भी इससे जुड़ा विवाद है
    • Claude में login के समय password या passkey option नहीं होना असुविधाजनक है
  • “एक भरोसेमंद coding partner बनने की नई अवस्था” और “लंबे समय तक चलने वाले काम के लिए optimized model” जैसी पंक्तियाँ विरोधाभासी लगती हैं
    अगर वह partner है, तो उसे साथ में छोटे-छोटे iteration में काम करना चाहिए; अकेले लंबे समय तक काम करना partner जैसा नहीं है

    • लंबे कामों में Codex ज़रूरत से ज़्यादा मनमाना हो जाता है, यहाँ तक कि TLS library तक फिर से लिखने जैसा जोखिम भरा काम कर देता है
    • (Codex टीम सदस्य) हमारा लक्ष्य ऐसा colleague-like model बनाना है जो छोटे iterative tasks और लंबे delegated tasks दोनों कर सके
      official blog के token graph से यह दिशा समझी जा सकती है
    • Cursor का Composer model भी सुझाऊँगा। यह बहुत तेज़ है, और अगर नतीजा कमज़ोर हो तो 30 सेकंड के भीतर फिर से कोशिश की जा सकती है
  • Codex के plan mode की speed देखकर मैं प्रभावित हुआ। code quality भी ठीक थी
    लेकिन जब मैंने कहा “npm run build के बाद सारी समस्याएँ ठीक करो”, तो यह eslint से जुड़े packages install करते हुए बेकाबू हो गया
    Claude Code ने वही काम 1 मिनट के भीतर पूरा कर दिया। Codex अभी कुछ अस्थिर लगता है

    • plan mode क्या होता है, यह जानना चाहूँगा
  • Codex backend या data-केंद्रित कामों में मज़बूत है, लेकिन साधारण UI कामों में अक्सर अजीब नतीजे देता है

  • पिछले वीकेंड मैंने Claude और Codex को साथ में इस्तेमाल किया, और Codex ने TypeScript physics/graphics code में कहीं बेहतर नतीजे दिए
    हज़ारों लाइनों में से मैंने खुद सिर्फ़ कुछ सौ लाइनें लिखीं।
    अब मैं नए Codex से पिछले Codex के काम की review करवाने वाला हूँ