7 पॉइंट द्वारा GN⁺ 2026-02-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-5.2-Codex की coding performance और GPT-5.2 की reasoning·domain knowledge को एक ही मॉडल में जोड़कर, 25% अधिक तेज़ गति प्रदान करता है
  • Codex के agentic work scope को long-running tasks तक बढ़ाता है, और काम के बीच भी दिशा बदलने व feedback को शामिल करने वाली real-time interactive collaboration को Codex app में एकीकृत करता है
  • अपने ही training process की debugging, deployment management और evaluation diagnosis में शुरुआती संस्करण का सीधे उपयोग किया गया पहला self-development-participating model
  • SWE-Bench Pro, Terminal-Bench 2.0, OSWorld जैसे प्रमुख benchmarks में उद्योग का सर्वोच्च प्रदर्शन दर्ज किया, और पिछले मॉडल की तुलना में कम tokens में काम करता है
  • code writing से आगे बढ़कर presentation, spreadsheet, data analysis जैसे पूरे software lifecycle के knowledge work को support करता है

अवलोकन

  • GPT-5.3-Codex को “सबसे सक्षम agentic coding model” बताया गया है
  • GPT-5.2-Codex की frontier coding performance और GPT-5.2 की reasoning·domain knowledge क्षमताओं को एक मॉडल में जोड़कर, गति में 25% सुधार किया गया
  • research, tool use और complex execution वाले long-running tasks के लिए डिज़ाइन किया गया, और काम के दौरान भी context खोए बिना समन्वय कर सकता है
  • शुरुआती संस्करण का उपयोग करके self-training·deployment·evaluation diagnosis में भाग लेते हुए “अपने ही development को accelerate” करने वाला पहला मॉडल
  • Codex की भूमिका को “code writing·review” से बढ़ाकर “कंप्यूटर पर developer·expert द्वारा किए जाने वाले लगभग सभी काम” तक विस्तारित किया गया

Frontier agentic capabilities

  • Coding performance

    • SWE-Bench Pro (वास्तविक software engineering evaluation) में सर्वोच्च प्रदर्शन हासिल किया; यह benchmark Python-only SWE-Bench Verified के विपरीत 4 भाषाओं को कवर करता है, contamination resistance अधिक है और industry relevance भी अधिक है
    • Terminal-Bench 2.0 में भी पिछले सर्वोच्च प्रदर्शन को काफ़ी पीछे छोड़ा; यह coding agents के लिए आवश्यक terminal skills को मापता है
    • पिछले मॉडल की तुलना में कम tokens के साथ वही काम कर सकता है
  • Web development

    • frontier coding capability, बेहतर aesthetic sense, और compression techniques के संयोजन से complex games और apps को कई दिनों में scratch से बनाया जा सकता है
    • web development और long-term agentic capability testing के लिए दो गेम बनाए गए: racing game और diving game
      • racing game: कई racers, 8 maps, और spacebar से इस्तेमाल होने वाले items शामिल
      • diving game: विभिन्न coral reefs की खोज, fish catalog collection, oxygen·water pressure·hazards management
    • "develop web game" skill और "fix the bug", "improve the game" जैसे preconfigured generic follow-up prompts का उपयोग करके लाखों tokens तक autonomously iterative improvement किया
    • रोज़मर्रा की websites बनाते समय GPT-5.2-Codex की तुलना में user intent को बेहतर समझता है, और simple या insufficient prompts पर भी ज़्यादा features और sensible defaults अपने आप लागू करता है
    • landing page comparison उदाहरण: GPT-5.3-Codex discounted monthly pricing के साथ annual plan को अपने आप दिखाता है, और 3 user quotes वाले auto-converting recommendation carousel बनाकर अधिक polished output देता है
  • Coding के बाहर की capabilities

    • software engineers, designers, product managers, data scientists द्वारा किए जाने वाले debugging, deployment, monitoring, PRD writing, copy editing, user research, testing, metric analysis जैसे पूरे software lifecycle को support करता है
    • slide deck creation, sheet data analysis जैसे software के बाहर के क्षेत्रों तक भी विस्तार
    • GDPval (44 job categories के well-defined knowledge work tasks को मापने वाला evaluation) में GPT-5.2 के बराबर 70.9% हासिल किया
      • इसमें presentation, spreadsheet जैसे वास्तविक work outputs शामिल हैं
    • financial advisory slides, retail training documents, NPV analysis spreadsheets, fashion presentation PDFs जैसे विभिन्न outputs के उदाहरण दिए गए
    • OSWorld-Verified (visual desktop environment में productivity tasks करने वाले agentic computer-use benchmark) में 64.7% हासिल किया, जो पिछले GPT model (38.2%) की तुलना में बड़ी बढ़त है
      • मानव स्कोर लगभग 72% है

Interactive collaborator

  • मॉडल capability बढ़ने के साथ मुख्य चुनौती यह हो गई है कि agent क्या कर सकता है से अधिक, मानव कितनी आसानी से parallel में काम कर रहे कई agents को निर्देश और supervise कर सकता है
  • Codex app agent management और instruction को आसान बनाता है, और GPT-5.3-Codex में ज़्यादा interactivity प्रदान करता है
  • काम के दौरान अहम निर्णयों और progress पर बार-बार updates देता है, जिससे उपयोगकर्ता final result का इंतज़ार किए बिना real time में सवाल पूछ सके, approach पर चर्चा कर सके और दिशा बदल सके
  • यह बताता है कि वह क्या कर रहा है, feedback का जवाब देता है, और शुरुआत से अंत तक उपयोगकर्ता को loop में बनाए रखता है
  • setting path: Settings > General > Follow-up behavior में मॉडल के काम के दौरान steering सक्रिय करें

Codex का उपयोग करके GPT-5.3-Codex की training और deployment

  • OpenAI भर में महीनों से लेकर वर्षों तक चले research projects के आधार पर हाल के तेज़ Codex improvements बनाए गए हैं
  • OpenAI के कई researchers और engineers का कहना है कि उनका मौजूदा काम करने का तरीका 2 महीने पहले की तुलना में मूल रूप से अलग है
  • GPT-5.3-Codex के शुरुआती संस्करण ने भी बेहतरीन capability दिखाई, इसलिए टीम ने इसी शुरुआती version का उपयोग बाद के versions की training improvements और deployment support के लिए किया
  • Research team use cases

    • इस release के training run monitoring और debugging में Codex का उपयोग किया गया
    • infrastructure issues की debugging से आगे बढ़कर training process के पैटर्न tracking, interaction quality के deep analysis, fix suggestions, और पिछले model के साथ behavior differences को बारीकी से समझने के लिए rich applications बनाए गए
  • Engineering team use cases

    • GPT-5.3-Codex के लिए harness optimization और adaptation में Codex का उपयोग किया गया
    • user-impacting अजीब edge cases आने पर Codex से context rendering bugs की पहचान और low cache hit rate के root cause analysis किए गए
    • launch period के दौरान traffic spikes से निपटने के लिए GPU cluster dynamic scaling और latency stabilization में लगातार उपयोग किया गया
  • Alpha test use cases

    • एक researcher यह समझना चाहता था कि GPT-5.3-Codex प्रति turn कितना अतिरिक्त काम करता है और productivity difference क्या है
    • GPT-5.3-Codex ने clarification questions की आवृत्ति, positive·negative responses, और task progress का अनुमान लगाने वाले सरल regex classifiers कई बनाए, उन्हें पूरे session logs पर बड़े पैमाने पर चलाया, और फिर निष्कर्ष रिपोर्ट तैयार की
    • Codex के साथ बनाने वाले लोगों की संतुष्टि अधिक थी; agent user intent को बेहतर समझता था, प्रति turn अधिक progress दिखाता था, और clarification questions कम थे
  • Data pipeline निर्माण

    • alpha test data पिछले models से बहुत अलग था, इसलिए असामान्य और counterintuitive results कई बार सामने आए
    • data scientists ने GPT-5.3-Codex के साथ नई data pipeline बनाई, और standard dashboard tools की तुलना में काफ़ी अधिक समृद्ध visualizations किए
    • Codex के साथ results का संयुक्त analysis करके, हज़ारों data points से निकले key insights को 3 मिनट के भीतर summarize किया गया

Cybersecurity frontier को सुरक्षित करना

  • पिछले कुछ महीनों में cybersecurity tasks पर मॉडल का प्रदर्शन अर्थपूर्ण रूप से बेहतर हुआ है, जिससे developers और security experts दोनों को लाभ मिलता है
  • इसके साथ ही defensive use और broader ecosystem resilience को support करने के लिए मज़बूत cybersecurity safeguards तैयार किए गए
  • Preparedness Framework के तहत cybersecurity-related tasks के लिए High rating पाने वाला यह पहला मॉडल है, और software vulnerability identification पर सीधे trained होने वाला भी पहला मॉडल है
  • end-to-end cyberattack automation संभव होने का निर्णायक प्रमाण नहीं है, फिर भी preventive approach अपनाते हुए अब तक का सबसे व्यापक cybersecurity safety stack deploy किया गया है
    • safety training, automated monitoring, advanced features के लिए trust-based access, और threat intelligence सहित enforcement pipeline
  • cybersecurity की मूल dual-use प्रकृति को देखते हुए, defenders की vulnerability discovery·fixing क्षमता को तेज़ करते हुए misuse को धीमा करने वाला evidence-based iterative approach अपनाया गया
  • Defensive research और ecosystem protection programs

    • cybersecurity defense research को accelerate करने के लिए Trusted Access for Cyber pilot program लॉन्च किया गया
    • security research agent Aardvark की private beta का विस्तार किया गया; यह Codex Security product family की पहली offering है
    • open source maintainers के साथ मिलकर व्यापक रूप से उपयोग किए जाने वाले projects (जैसे Next.js) के लिए free codebase scanning दी जा रही है
      • security researchers ने Codex का उपयोग करके पिछले हफ्ते सार्वजनिक हुई vulnerabilities (CVE-2025-59471, CVE-2025-59472) खोजीं
    • 2023 में शुरू हुए 1 million dollar cybersecurity grant program के आधार पर, सबसे शक्तिशाली models के उपयोग से cyber defense को accelerate करने के लिए 10 million dollar API credits का अतिरिक्त निवेश किया गया
      • विशेष रूप से open source software और critical infrastructure systems के लिए
      • good-faith security research में शामिल organizations Cybersecurity Grant Program के माध्यम से API credits और support के लिए आवेदन कर सकती हैं

उपलब्धता और विवरण

  • GPT-5.3-Codex paid ChatGPT plans में उपलब्ध है, और जहाँ-जहाँ Codex supported है (app, CLI, IDE extension, web) वहाँ इस्तेमाल किया जा सकता है
  • API access को सुरक्षित रूप से enable करने की तैयारी चल रही है
  • infrastructure और inference stack improvements की बदौलत Codex users के लिए 25% तेज़ गति से चलाया जा रहा है, जिससे तेज़ interaction और results मिलते हैं
  • NVIDIA GB200 NVL72 systems पर co-design, training और serving किया गया

आगे की दिशा

  • Codex code writing से आगे बढ़कर code को tool की तरह इस्तेमाल करते हुए कंप्यूटर को संचालित करने और tasks को शुरू से अंत तक पूरा करने की दिशा में जा रहा है
  • coding agents की frontier का विस्तार करके software build·deployment के साथ-साथ research, analysis, complex task execution जैसे और व्यापक knowledge work क्षेत्रों को unlock किया जा रहा है
  • सर्वश्रेष्ठ coding agent से शुरू होकर यह कंप्यूटर पर एक general-purpose collaborator के रूप में विकसित हो रहा है, जिससे क्या बनाया जा सकता है और कौन बना सकता है—दोनों का दायरा बढ़ता है

Appendix: benchmark आँकड़े

  • सभी evaluations को xhigh reasoning effort के साथ चलाया गया
  • SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
  • Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
  • OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
  • GDPval (win या tie): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
  • Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
  • SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

2 टिप्पणियां

 
treestae 2026-02-06

पहले मैं Claude को ज़्यादा पसंद करता था, लेकिन हाल में Codex मुझे ज़्यादा अच्छा लगने लगा है। उम्मीद है कि यह iOS और AOS की तरह एक-दूसरे के पूरक के रूप में आगे बढ़ेगा।

 
GN⁺ 2026-02-06
Hacker News की राय
  • यह दिलचस्प है कि GPT‑5.3 Codex और Opus 4.6 दार्शनिक रूप से अलग दिशाओं में विकसित हो रहे हैं
    Codex को एक इंटरैक्टिव सहयोगी के रूप में डिज़ाइन किया गया है, जिसमें इंसान बीच में हस्तक्षेप करते हुए साथ काम करता है, जबकि Opus एक अधिक स्वायत्त और योजनाबद्ध सिस्टम है जो मानवीय हस्तक्षेप को न्यूनतम करता है
    यह इस बात को दर्शाता है कि वास्तविक डेवलपर LLM-आधारित कोडिंग को दो नज़रियों से देखते हैं — मानव-केंद्रित नियंत्रण बनाम पूर्ण प्रतिनिधि सौंपना
    आगे चलकर मॉडल क्या ऐसी दार्शनिक विभाजन रेखाओं के अनुसार optimize होंगे, या नए approaches उभरेंगे, यह सोचने वाली बात है

    • UX के नज़रिए से तो यह उल्टा महसूस होता है
      Codex जवाब देने से पहले कहीं ज़्यादा देर तक सोचने की प्रवृत्ति रखता है
    • मुझे यक़ीन है कि Codex वाला approach टिकेगा
      अगर इंसान loop में रहे तो LLM की ज़्यादातर समस्याओं से बचा जा सकता है, और छोटे code units में review करना अधिक प्रभावी है
      अगर Codex दोहराए जाने वाले काम संभाल ले, तो डेवलपर core logic पर ध्यान दे सकता है
      पूरी तरह autonomous approach लंबे समय में code quality गिरा देती है, इसलिए बड़े codebase के लिए यह उपयुक्त नहीं है
    • वास्तव में Codex शुरुआत में वेबऐप के रूप में आया था और उसमें लगभग कोई इंटरैक्शन नहीं था
      आप request डालते थे, वह container environment में अपने-आप चलता था, और बाद में केवल chat के ज़रिए follow-up किया जा सकता था
    • लगता है दोनों मॉडल एक-दूसरे के क्षेत्र की ओर converge कर रहे हैं
      Codex धीरे-धीरे अधिक autonomous हो रहा है, और Opus अधिक collaborative होता दिख रहा है
      आखिरकार स्थिति के अनुसार दोनों approaches उपयोगी साबित हो सकते हैं
    • Codex, Opus की तुलना में ज़्यादा सोचने वाला मॉडल लगता है
      शायद इसी वजह से 5.2 वर्ज़न, Opus 4.5 से अधिक stable था
  • ऐसा लगता है कि Anthropic ने GPT‑5.3‑Codex से तुलना से बचने के लिए जल्दी में Opus 4.6 जारी किया
    Terminal‑Bench 2.0 स्कोर में Opus 4.6 का 65.4 और GPT‑5.3‑Codex का 77.3 है

    • AI benchmarks अक्सर वास्तविक अनुभव से मेल नहीं खाते
      फिर भी Codex 5.2 जटिल कामों में सबसे बेहतर था, और मैं 5.3 का इंतज़ार कर रहा हूँ
    • यह चौंकाने वाला है कि उसी दिन दो top-tier coding models जारी हुए
    • टेस्ट xhigh reasoning mode में हुआ था, इसलिए लागत दोगुनी थी
      GPT‑5.2 Codex लगभग $3244 और Claude Opus 4.5 लगभग $1485 पड़ा
    • लगता है Codex, Terminal Bench पर overfit किया गया है
      ARC AGI 2 के नतीजे देखें तो generalization कमज़ोर लगती है
    • मेरे अनुभव में GPT series, Claude की तुलना में agentic coding में कहीं बेहतर रही है
      Claude के coding में बढ़त होने के दावे पर मुझे संदेह है
  • यह प्रभावशाली है कि GPT‑5.3‑Codex खुद को development में इस्तेमाल करने वाला पहला मॉडल है
    कहा गया कि Codex टीम ने शुरुआती वर्ज़न से अपनी training pipeline को debug किया
    मुझे लगता है Claude Code की बढ़त का कारण भी ऐसी dogfooding culture है

    • यह AI‑2027 प्रोजेक्ट के शोधकर्ताओं की भविष्यवाणी से बहुत अलग नहीं है
    • लगता है मॉडल self-improvement के शुरुआती चरण में प्रवेश कर चुके हैं
      अब फिर से सोचना पड़ता है कि क्या ‘soft take‑off’ संभव है
  • GPT‑5.3‑Codex को cybersecurity-संबंधित कामों में high capability मॉडल के रूप में वर्गीकृत किया गया है
    इसने vulnerability detection पर सीधा training लिया है, लेकिन पूरी तरह automated attack के अभी कोई प्रमाण नहीं हैं
    फिर भी security framework पुराना लगता है
    आगे चलकर Codex द्वारा लिखे गए code खुद सुरक्षा खतरों के लिए नई attack surface बन सकते हैं
    Codex को मूल रूप से सुरक्षित code बनाने के लिए डिज़ाइन किया जाना चाहिए

    • यह जानने की जिज्ञासा है कि “high‑capability” का मतलब क्या PhD-स्तर की expert team से भी मजबूत होना है
      संबंधित लेख: NBC News रिपोर्ट
    • यह OpenAI की वही पुरानी रणनीति लगती है जिसमें फिर से AGI के क़रीब पहुँचने का आभास दिया जाता है
      Anthropic की तरह, ‘safety research’ की आड़ में तकनीकी क्षमता दिखाने जैसा महसूस होता है
    • आजकल मज़ाक चलता है कि vibe‑coded projects API keys को सीधे web page पर expose कर देते हैं
      देखना होगा कि ऐसी गलतियाँ जारी रहती हैं या नहीं
    • “security hardening” कहकर कहीं बात आखिर में सिर्फ ACL जोड़ने और regex update तक ही सीमित न रह जाए
  • पहले AI labs एक साथ घोषणा से बचने के लिए समन्वय करती थीं,
    अब वे 30 मिनट के अंतर पर प्रतिस्पर्धात्मक तरीके से घोषणा कर रही हैं

    • अब यह पूरी तरह कड़ी प्रतिस्पर्धा में बदल चुका है
      Demis राजनीति वाले खेल में कमज़ोर हो सकता है, लेकिन performance से मुकाबला करेगा
      Elon, Sam, Dario पहले ही राजनीतिक चालों में माहिर हैं
      लगता है 2026 AI उद्योग के लिए बहुत नाटकीय साल होगा
    • चीन के Lunar New Year के समय local models से प्रतिस्पर्धा करने के लिए schedule adjustment भी किया जाता है
    • ऐसी प्रतिस्पर्धा GPT‑4 के समय से चली आ रही है
      OpenAI की 10 बजे की घोषणा के जवाब में Anthropic और Google ने counter-launch किए थे
    • यह सवाल भी उठता है कि ऐसा समन्वय कहीं cartel behavior के तहत अवैध तो नहीं हो सकता
  • GPT‑5.3‑Codex ने web game को स्वायत्त रूप से बेहतर बनाया, यह घोषणा दिलचस्प लगी
    लेकिन तुलना वाले प्रयोग में prompts की संख्या या tokens की संख्या सार्वजनिक नहीं की गई, यह खटका
    मैं इसे अपने पुराने Factorio web clone से तुलना करना चाहता हूँ

    • वह demo सच में शानदार है
      मुझे नहीं पता था कि मॉडल का इस्तेमाल इस तरह भी किया जा सकता है
  • कई वर्षों से “AI से 100x productivity boost” की बात सुन रहा हूँ
    लेकिन मैं जानना चाहता हूँ कि क्या वास्तव में कोई नया और भरोसेमंद program है, जिसे LLM ने पहल लेकर बनाया हो

    • 1930 के दशक में calculator आने पर भी कहा गया था कि accounting jobs खत्म हो जाएँगी, लेकिन उल्टा specialization बढ़ी
      LLM भी मौजूदा समस्याएँ बस तेज़ी से हल कराते हैं, पूरी तरह नई समस्याएँ नहीं
      उदाहरण के लिए UI card layout की समस्या में Gemini ने polar-coordinate आधारित approach सुझाई, जिससे मुझे बहुत मदद मिली
      100x तो नहीं, लेकिन 2x productivity gain ज़रूर महसूस होती है
      संबंधित thread: vibe coding case
    • ज़्यादातर डेवलपर नई समस्याओं से ज़्यादा पुरानी समस्याओं को बार-बार हल करते हैं
      इसलिए “यह तो पहले से हल समस्या है” वाली आलोचना बहुत मायने नहीं रखती
    • अच्छा होगा अगर open source में बड़े game projects (OpenGTA, OpenFIFA आदि) सामने आएँ
    • Opus 4.5 ने एक साधारण git समस्या को पाँच कोशिशों के बाद हल किया,
      और तीन बार मौजूद ही न होने वाले flags hallucinate कर दिए
      ChatGPT 5.2 को भी ffmpeg script बनाने में कई बार सुधार चाहिए था
      जिस दिन यह Windows में line breaks ठीक से संभाल लेगा, शायद वही AGI का दिन होगा
    • क्या इंसान द्वारा लिखा कोई ऐसा program है जिसे LLM कभी नहीं लिख सकता?
      केवल codebase बड़ा होना तो अस्थायी सीमा भर है
      यह बात प्रगति से चिढ़ने वाले लोगों की शिकायत जैसी लगती है
  • Terminal Bench 2.0 के नतीजे

    मॉडल स्कोर
    OpenAI Codex 5.3 77.3
    Anthropic Opus 4.6 65.4
    • अब benchmark competition (benchmaxxing) का महत्व कम होता लग रहा है
      स्कोर से ज़्यादा असली coding experience का ‘feel’ मायने रखता है
    • benchmark की तुलना में वास्तविक प्रदर्शन कहीं ज़्यादा निराशाजनक है
  • सोचता हूँ क्या डेवलपर इस बदलाव से खतरा महसूस कर रहे हैं
    सच कहूँ तो मुझे तो ऐसा लगता है

    • AI में अभी abstraction की क्षमता कम है
      competitive programmers के लिए यह ख़तरा हो सकता है, लेकिन सामान्य डेवलपर के लिए कम
    • अगर आपने AI का सही उपयोग करना नहीं सीखा, तो खतरा महसूस होना स्वाभाविक है
    • अभी भी इंसान को code खुद review करना पड़ता है
      AGI आने से पहले तक पूरी automation संभव नहीं लगती
    • Jevons paradox की तरह, efficiency बढ़ने पर भी jobs ज़रूरी नहीं कि गायब हो जाएँ
  • मेरे आसपास Claude users, Codex users से काफ़ी ज़्यादा हैं
    लेकिन Codex usage limits और pricing के मामले में कहीं ज़्यादा उदार है
    कई महीनों तक $20 plan पर रहने के बाद भी limit के क़रीब नहीं पहुँचा
    लगता है ऐसे व्यावहारिक अंतर, coding quality से भी ज़्यादा महत्वपूर्ण हैं

    • हाल में मैंने CLI-आधारित terminal agent अपनाया और Codex काफ़ी बेहतर लगा
      पहले GH Copilot में Claude बेहतर लगता था,
      लेकिन Codex में autonomy अधिक है, इसलिए यह vibe‑coding के लिए ज़्यादा उपयुक्त है
      और Twitter·LinkedIn जैसी जगहों पर promotion effect की वजह से इसका user base भी बढ़ा लगता है
    • मुझे भी Codex के pricing benefits ज़्यादा अच्छे लगते हैं
      अगर quality में अंतर समझ न आए, तो स्वाभाविक है कि सस्ता विकल्प चुना जाए
    • पूरे दिन multi-agent sessions चलाने पर भी limit शायद ही लगती है
      plan switching भी आसान है, इसलिए कुल उपयोग अनुभव बहुत संतोषजनक है