7 पॉइंट द्वारा GN⁺ 2025-12-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • जटिल वास्तविक दुनिया के डेवलपमेंट कार्यों को लक्ष्य बनाकर बनाया गया agentic coding model, जिसे Codex environment के लिए optimize किया गया है
  • लंबे समय तक चलने वाले काम में context compression के जरिए संदर्भ बनाए रखते हुए refactoring और migration जैसे बड़े बदलावों में अधिक सक्षम
  • native Windows environment में समग्र performance improvements के साथ screenshot, drawing, chart और UI की व्याख्या में मदद करने वाली vision performance को मजबूत किया गया
  • SWE-Bench Pro और Terminal-Bench 2.0 में शीर्ष-स्तरीय performance हासिल की
  • रक्षात्मक उद्देश्य की cybersecurity capabilities को काफी बढ़ाते हुए, दुरुपयोग की संभावना को ध्यान में रखकर paid users को प्राथमिकता और trust-based access को साथ लेकर चलने वाली deployment पद्धति अपनाई गई

अवलोकन

  • GPT-5.2-Codex को नया जारी किया गया। यह जटिल वास्तविक दुनिया के software engineering कार्यों के लिए डिज़ाइन किया गया मॉडल है
  • GPT-5.2 पर आधारित और Codex environment में agentic coding कार्यों के लिए optimize किया गया
  • context compression के माध्यम से लंबे समय तक चलने वाले कार्यों में स्थिर performance देता है, और बड़े पैमाने के code change कार्यों की क्षमता मजबूत हुई है
  • Windows environment में समग्र performance सुधार किए गए हैं और cybersecurity capabilities भी मजबूत की गई हैं

software engineering की सीमाओं का विस्तार

  • यह मॉडल GPT-5.2 की specialized knowledge-based work strengths और GPT-5.1-Codex-Max की agentic coding व terminal उपयोग performance पर आधारित होकर विकसित किया गया है
  • long-context understanding, tool-calling stability, accuracy improvements और native compaction के आधार पर इसका लक्ष्य लंबे coding कार्यों में एक भरोसेमंद partner की तरह काम करना है
  • reasoning process में token efficiency बनाए रखने की दिशा भी इसमें शामिल है
  • vision performance को मजबूत कर coding session के दौरान साझा किए जाने वाले screenshot, technical drawing, chart और UI screen की व्याख्या की सटीकता बढ़ाई गई है
  • GPT-5.1-Codex-Max में पेश की गई क्षमताओं के आधार पर native Windows में भी agentic coding को और अधिक प्रभावी और स्थिर तरीके से किया जा सकता है

benchmark performance

  • SWE-Bench Pro और Terminal-Bench 2.0 में शीर्ष-स्तरीय performance हासिल की
    • SWE-Bench Pro एक ऐसा evaluation है जिसमें code repository देकर वास्तविक software engineering कार्यों को हल करने वाले patch generate करने की क्षमता मापी जाती है
    • Terminal-Bench 2.0 वास्तविक terminal environment में AI agent performance को test करता है, जिसमें code compile करना, model training और server configuration जैसे कार्य शामिल हैं

वास्तविक दुनिया की cybersecurity

  • आधुनिक समाज की core systems और sensitive data की सुरक्षा के लिए मजबूत cybersecurity अनिवार्य है
  • vulnerabilities लंबे समय तक सामने नहीं आ सकतीं, और उन्हें ढूँढ़ने, verify करने और fix करने की प्रक्रिया काफी हद तक सही tools वाले engineers और independent security researcher community पर निर्भर करती है
  • 11 दिसंबर 2025 को React टीम ने React server component-आधारित apps को प्रभावित करने वाली 3 security vulnerabilities सार्वजनिक कीं; इसमें केवल vulnerabilities ही नहीं, बल्कि उनकी discovery process भी ध्यान का केंद्र रही
  • React vulnerability discovery का मामला

    • Stripe की सहायक कंपनी Privy के security researcher Andrew MacPherson ने Codex CLI में GPT-5.1-Codex-Max का उपयोग करके React2Shell analysis किया
    • local test environment setup, attack surface analysis और malformed input आधारित fuzzing जैसे standard security workflow में Codex का उपयोग किया गया
    • React2Shell को reproduce करने की प्रक्रिया में अप्रत्याशित behavior सामने आया, और एक हफ्ते के भीतर पहले से अज्ञात 3 vulnerabilities की खोज हुई
    • खोजी गई vulnerabilities को जिम्मेदार तरीके से React टीम के सामने disclose किया गया
    • यह मामला दिखाता है कि security researcher की vulnerability verification process कितनी कम हो सकती है, और इसमें Codex session sharing भी शामिल थी

लगातार विकसित होती cybersecurity capabilities

  • GPT-5-Codex से cybersecurity capabilities में उल्लेखनीय सुधार शुरू हुआ, GPT-5.1-Codex-Max में बड़ी छलांग आई, और GPT-5.2-Codex में भी स्पष्ट सुधार देखा गया
  • भविष्य के models में भी यही रुझान जारी रहने की उम्मीद है, और preparedness evaluation framework में cybersecurity capability के ‘high’ स्तर तक पहुँचने की संभावना को ध्यान में रखकर planning और evaluation चल रहे हैं
  • GPT-5.2-Codex अभी ‘high’ स्तर तक नहीं पहुँचा है, लेकिन आगे चलकर इस threshold को पार करने वाले models को ध्यान में रखकर तैयारी जारी है

निष्कर्ष

  • GPT-5.2-Codex software engineering और cybersecurity क्षेत्रों में advanced AI के योगदान के विस्तार की दिशा को दिखाता है
  • यह developers और security leaders को जटिल और दीर्घकालिक चुनौतियों को हल करने में सहायता देता है, साथ ही जिम्मेदार security research tools को भी और मजबूत बनाता है

1 टिप्पणियां

 
GN⁺ 2025-12-19
Hacker News की राय
  • अगर OpenAI का कोई व्यक्ति यह देख रहा हो, तो कृपया reasoning क्षमता के साथ छेड़छाड़ न करें
    Codex कोड या गणित में bug और inconsistency ढूँढने में सचमुच शानदार है
    अगर Claude Code “code generation” में मज़बूत है, तो Codex/GPT5.x समस्या पहचानने में कहीं ज़्यादा प्रभावशाली है
    मेरे हिसाब से speed से ज़्यादा quality महत्वपूर्ण है

    • अगर दिन में सिर्फ कुछ ही बार ऐसी सटीक problem detection की ज़रूरत पड़ती है, तो जानना चाहता हूँ कि monthly $20 plan काफ़ी है या $200 plan चाहिए
    • मुझे लगता है समस्या यह है कि “quality first” का मतलब आख़िरकार “cost increase” होता है, और उस अतिरिक्त लागत को ग्राहक पर डालना मुश्किल है
    • मैं भी ज़्यादातर Claude Code इस्तेमाल करता हूँ, लेकिन code review के लिए Codex चालू रखूँ तो flow analysis और सूक्ष्म bug detection में यह सचमुच बहुत आगे है
    • code के सूक्ष्म bugs पकड़ते हुए “advanced reasoning mode” को देखना हैरान कर देता है
    • समस्या यह है कि Codex इतना accurate है कि यह बार-बार उन memory bugs की ओर इशारा करता रहता है जिन्हें मुझे ठीक करना चाहिए। इसकी वजह से speed धीमी हो जाती है
  • शुरुआत में मुझे Codex पर शक था, लेकिन अब मैं हर coding काम Codex से शुरू करता हूँ
    यह perfect नहीं है, लेकिन refactoring, नया project शुरू करने, या अनजानी tech के साथ काम करने में शानदार नतीजे देता है
    खासकर यह procrastination कम करता है। बड़े और भारी लगने वाले काम भी Codex को दे दो, तो यह अच्छा starting point बना देता है

    • पूरी तरह सहमत। मैं भी शुरू में skeptical था, लेकिन Opus 4.5 इस्तेमाल करके चौंक गया
      Codex 5.2 की quality काफ़ी सुधर गई है, और अब मैं इसे code लिखने का काम ही सौंप देता हूँ
      planning और design discussion भी साथ करते-करते, खुद code लिखने की ज़रूरत लगभग नहीं रह जाती
    • ऊपर वाले thread में कहा गया है कि Codex debugging में कमज़ोर है, लेकिन दूसरे thread में बिल्कुल उलटी राय है
      आख़िरकार objective performance evaluation मुश्किल है, यह बात दिलचस्प लगती है
    • Codex procrastination कम करता है, इस बात से सहमत हूँ
      लेकिन feedback loop speed सबसे अहम है। build और test जितने तेज़ होंगे, agentic coding tools उतने ही असरदार होंगे
      Agents.md जैसे स्पष्ट निर्देश मददगार होते हैं
    • model performance की तुलना करते समय prompt, task type, model version जैसी variables इतनी ज़्यादा होती हैं कि qualitative evaluation मुश्किल लगती है
    • मैंने भी Claude Code इस्तेमाल किया है, लेकिन Codex से तुलना का अनुभव जानने की जिज्ञासा है
  • Claude Code से Codex CLI पर आने के बाद, मैंने container-आधारित Codex execution environment बनाया
    timer, file trigger, API call, CLI mode जैसी कई तरह की methods से इसे चलाया जा सकता है
    codex-container में 300 से ज़्यादा MCP tools शामिल हैं
    यह crawling, Google search, Gmail/GCal/GDrive, Slack, embeddings, transcription जैसी कई सुविधाएँ देता है
    security के लिहाज़ से risky कामों को container isolation के साथ सुरक्षित रूप से test किया जाता है
    gnosis-crawl से headless browser crawling भी संभव है

    • अच्छा लग रहा है, लेकिन अगर dependency के तौर पर PowerShell install करनी पड़े तो शायद मैं इसका इस्तेमाल न करूँ
    • क्या MCP tools सब एक साथ काम करते हैं, या यह library form में है जहाँ ज़रूरत के हिसाब से सिर्फ वही इस्तेमाल किए जाते हैं?
  • मेरे अनुभव में GPT models backend development के लिए Claude से कहीं ज़्यादा उपयुक्त हैं
    धीमे हैं, लेकिन logic साफ़ होता है और maintainability बेहतर होती है
    मैं Claude से plan बनाता हूँ, Codex से उसे execute करता हूँ, फिर Claude से code review कराता हूँ
    अच्छा होगा अगर Codex CLI npm के साथ-साथ homebrew पर भी साथ में update हो

    • GPT‑5 पहला ऐसा model था जिसने बिना किसी modification के सीधे deploy किया जा सकने वाला code दिया
      Claude में अब भी fluff ज़्यादा है और यह over-engineering करता है
    • मेरे अनुभव में Codex की code review quality Claude से बहुत बेहतर है
      Claude छोटी-मोटी बातों पर ध्यान देता है, लेकिन Codex सच में महत्वपूर्ण समस्याएँ ढूँढता है
    • Opus 4.5 के बाद Claude भी काफ़ी बेहतर हुआ लगता है
  • security के नज़रिए से देखें, तो OpenAI models offensive कामों को ज़रूरत से ज़्यादा restrict करते हैं, यह थोड़ा खलता है
    मेरा मानना है कि defense के लिए एक निश्चित स्तर की offensive simulation ज़रूरी होती है

    • मैं GPT‑5 को backend के रूप में इस्तेमाल करने वाली multi-agent architecture में attack testing कर रहा हूँ, और यह बिना किसी दिक्कत के काम कर रहा है
    • ChatGPT और Codex दोनों offensive security testing में अच्छी तरह सहयोग करते हैं
    • लेख के मुताबिक, ज़्यादा permissive models invitation basis पर दिए जाते हैं
      सिर्फ trusted experts को access देना मुझे एक व्यावहारिक तरीका लगता है
    • black-hat capabilities को मज़बूत करना security में मदद करता है या नहीं, इस सवाल पर मेरा मानना है कि संतुलन ज़रूरी है
    • मैं भी रोज़ OpenAI models से offensive testing करता हूँ, लेकिन कभी समस्या नहीं आई
  • “cybersecurity” को सामने रखकर पेश करना दिलचस्प है
    security analysis automation पहले ही tipping point पार कर चुका है, और मुझे लगता है कि model advancement से ज़्यादा repetitive work automation महत्वपूर्ण है
    vulnerability analysis का ज़्यादातर हिस्सा ऐसे सरल काम हैं जिन्हें automate किया जा सकता है, और इन्हें हटाने पर इंसान creative analysis पर ध्यान दे सकता है

  • मेरे लिए Codex हमेशा base model से कमज़ोर performance देता है
    CLI में यह बहुत जल्दबाज़ी में code लिखने की कोशिश करता है
    मैंने सिर्फ सवाल पूछा, फिर भी यह file modify करने की कोशिश करता है, जो असुविधाजनक है

    • अगर साफ़-साफ़ कहें “अभी code मत लिखो, सिर्फ बात करें”, तो यह अच्छी तरह काम करता है
    • research और planning phase में non-Codex model इस्तेमाल करना, और execution phase में Codex इस्तेमाल करना ज़्यादा प्रभावी है
    • मेरा भी यही अनुभव है। Codex काम तो कर देता है, लेकिन code अजीब या बेतरतीब होता है
    • अभी plan mode development में है, इसलिए उम्मीद है कि यह समस्या कम होगी
      फ़िलहाल अगर .md files ही modify करने को कहा जाए तो कुछ हद तक control संभव है
    • CodexTheModel तेज़ है, लेकिन मैं quality first वाला हूँ, इसलिए base model पसंद करता हूँ
  • invitation basis पर security research model access देने की policy मुझे उचित लगती है
    अगर “safety alignment” ज़रूरत से ज़्यादा हो जाए, तो security analysis capability कम हो सकती है
    अगर सिर्फ KYC process से गुज़रे लोगों को access दिया जाए, तो सकारात्मक research outcomes के साथ risk exposure भी कम किया जा सकता है

  • “dual-use” risk का मतलब नई attack techniques से ज़्यादा execution barrier को कम करना है
    वही functionality defenders के लिए vulnerability analysis में मददगार हो सकती है, लेकिन attackers के लिए automated attack tool बन सकती है
    इसलिए deployment control और logging महत्वपूर्ण हैं

    • “security vulnerability review” का अनुरोध maintainer की ओर से आ रहा है या attacker की ओर से, इसके अनुसार नतीजा पूरी तरह बदल जाता है
    • अगर vulnerability ढूँढी और patch की जा सकती है, तो इसका मतलब यह भी है कि abuse potential ज़्यादा है
    • आख़िरकार इसका मतलब है कि यह model red team और blue team दोनों के लिए उपयोगी है
    • अगर security vulnerability detection क्षमता बहुत अच्छी है, तो इसका मतलब यह भी है कि इसे attack automation में इस्तेमाल किया जा सकता है
  • मैंने GPT‑5.1 को VSCode के Codex plugin में इस्तेमाल किया, और यह सचमुच जादुई अनुभव था
    5.2 में अभी बहुत बड़ा फ़र्क महसूस नहीं हुआ, लेकिन अगर functionality Cursor या Kilo Code के स्तर तक बढ़े तो और अच्छा होगा
    पहले मुझे लगता था कि OpenAI पीछे रह गया है, लेकिन 5.1 Gemini से कहीं बेहतर है