GPT-5.2-Codex जारी
(openai.com)- जटिल वास्तविक दुनिया के डेवलपमेंट कार्यों को लक्ष्य बनाकर बनाया गया agentic coding model, जिसे Codex environment के लिए optimize किया गया है
- लंबे समय तक चलने वाले काम में context compression के जरिए संदर्भ बनाए रखते हुए refactoring और migration जैसे बड़े बदलावों में अधिक सक्षम
- native Windows environment में समग्र performance improvements के साथ screenshot, drawing, chart और UI की व्याख्या में मदद करने वाली vision performance को मजबूत किया गया
- SWE-Bench Pro और Terminal-Bench 2.0 में शीर्ष-स्तरीय performance हासिल की
- रक्षात्मक उद्देश्य की cybersecurity capabilities को काफी बढ़ाते हुए, दुरुपयोग की संभावना को ध्यान में रखकर paid users को प्राथमिकता और trust-based access को साथ लेकर चलने वाली deployment पद्धति अपनाई गई
अवलोकन
- GPT-5.2-Codex को नया जारी किया गया। यह जटिल वास्तविक दुनिया के software engineering कार्यों के लिए डिज़ाइन किया गया मॉडल है
- GPT-5.2 पर आधारित और Codex environment में agentic coding कार्यों के लिए optimize किया गया
- context compression के माध्यम से लंबे समय तक चलने वाले कार्यों में स्थिर performance देता है, और बड़े पैमाने के code change कार्यों की क्षमता मजबूत हुई है
- Windows environment में समग्र performance सुधार किए गए हैं और cybersecurity capabilities भी मजबूत की गई हैं
software engineering की सीमाओं का विस्तार
- यह मॉडल GPT-5.2 की specialized knowledge-based work strengths और GPT-5.1-Codex-Max की agentic coding व terminal उपयोग performance पर आधारित होकर विकसित किया गया है
- long-context understanding, tool-calling stability, accuracy improvements और native compaction के आधार पर इसका लक्ष्य लंबे coding कार्यों में एक भरोसेमंद partner की तरह काम करना है
- reasoning process में token efficiency बनाए रखने की दिशा भी इसमें शामिल है
- vision performance को मजबूत कर coding session के दौरान साझा किए जाने वाले screenshot, technical drawing, chart और UI screen की व्याख्या की सटीकता बढ़ाई गई है
- GPT-5.1-Codex-Max में पेश की गई क्षमताओं के आधार पर native Windows में भी agentic coding को और अधिक प्रभावी और स्थिर तरीके से किया जा सकता है
benchmark performance
- SWE-Bench Pro और Terminal-Bench 2.0 में शीर्ष-स्तरीय performance हासिल की
- SWE-Bench Pro एक ऐसा evaluation है जिसमें code repository देकर वास्तविक software engineering कार्यों को हल करने वाले patch generate करने की क्षमता मापी जाती है
- Terminal-Bench 2.0 वास्तविक terminal environment में AI agent performance को test करता है, जिसमें code compile करना, model training और server configuration जैसे कार्य शामिल हैं
वास्तविक दुनिया की cybersecurity
- आधुनिक समाज की core systems और sensitive data की सुरक्षा के लिए मजबूत cybersecurity अनिवार्य है
- vulnerabilities लंबे समय तक सामने नहीं आ सकतीं, और उन्हें ढूँढ़ने, verify करने और fix करने की प्रक्रिया काफी हद तक सही tools वाले engineers और independent security researcher community पर निर्भर करती है
- 11 दिसंबर 2025 को React टीम ने React server component-आधारित apps को प्रभावित करने वाली 3 security vulnerabilities सार्वजनिक कीं; इसमें केवल vulnerabilities ही नहीं, बल्कि उनकी discovery process भी ध्यान का केंद्र रही
-
React vulnerability discovery का मामला
- Stripe की सहायक कंपनी Privy के security researcher Andrew MacPherson ने Codex CLI में GPT-5.1-Codex-Max का उपयोग करके React2Shell analysis किया
- local test environment setup, attack surface analysis और malformed input आधारित fuzzing जैसे standard security workflow में Codex का उपयोग किया गया
- React2Shell को reproduce करने की प्रक्रिया में अप्रत्याशित behavior सामने आया, और एक हफ्ते के भीतर पहले से अज्ञात 3 vulnerabilities की खोज हुई
- खोजी गई vulnerabilities को जिम्मेदार तरीके से React टीम के सामने disclose किया गया
- यह मामला दिखाता है कि security researcher की vulnerability verification process कितनी कम हो सकती है, और इसमें Codex session sharing भी शामिल थी
लगातार विकसित होती cybersecurity capabilities
- GPT-5-Codex से cybersecurity capabilities में उल्लेखनीय सुधार शुरू हुआ, GPT-5.1-Codex-Max में बड़ी छलांग आई, और GPT-5.2-Codex में भी स्पष्ट सुधार देखा गया
- भविष्य के models में भी यही रुझान जारी रहने की उम्मीद है, और preparedness evaluation framework में cybersecurity capability के ‘high’ स्तर तक पहुँचने की संभावना को ध्यान में रखकर planning और evaluation चल रहे हैं
- GPT-5.2-Codex अभी ‘high’ स्तर तक नहीं पहुँचा है, लेकिन आगे चलकर इस threshold को पार करने वाले models को ध्यान में रखकर तैयारी जारी है
निष्कर्ष
- GPT-5.2-Codex software engineering और cybersecurity क्षेत्रों में advanced AI के योगदान के विस्तार की दिशा को दिखाता है
- यह developers और security leaders को जटिल और दीर्घकालिक चुनौतियों को हल करने में सहायता देता है, साथ ही जिम्मेदार security research tools को भी और मजबूत बनाता है
1 टिप्पणियां
Hacker News की राय
अगर OpenAI का कोई व्यक्ति यह देख रहा हो, तो कृपया reasoning क्षमता के साथ छेड़छाड़ न करें
Codex कोड या गणित में bug और inconsistency ढूँढने में सचमुच शानदार है
अगर Claude Code “code generation” में मज़बूत है, तो Codex/GPT5.x समस्या पहचानने में कहीं ज़्यादा प्रभावशाली है
मेरे हिसाब से speed से ज़्यादा quality महत्वपूर्ण है
शुरुआत में मुझे Codex पर शक था, लेकिन अब मैं हर coding काम Codex से शुरू करता हूँ
यह perfect नहीं है, लेकिन refactoring, नया project शुरू करने, या अनजानी tech के साथ काम करने में शानदार नतीजे देता है
खासकर यह procrastination कम करता है। बड़े और भारी लगने वाले काम भी Codex को दे दो, तो यह अच्छा starting point बना देता है
Codex 5.2 की quality काफ़ी सुधर गई है, और अब मैं इसे code लिखने का काम ही सौंप देता हूँ
planning और design discussion भी साथ करते-करते, खुद code लिखने की ज़रूरत लगभग नहीं रह जाती
आख़िरकार objective performance evaluation मुश्किल है, यह बात दिलचस्प लगती है
लेकिन feedback loop speed सबसे अहम है। build और test जितने तेज़ होंगे, agentic coding tools उतने ही असरदार होंगे
Agents.md जैसे स्पष्ट निर्देश मददगार होते हैं
Claude Code से Codex CLI पर आने के बाद, मैंने container-आधारित Codex execution environment बनाया
timer, file trigger, API call, CLI mode जैसी कई तरह की methods से इसे चलाया जा सकता है
codex-container में 300 से ज़्यादा MCP tools शामिल हैं
यह crawling, Google search, Gmail/GCal/GDrive, Slack, embeddings, transcription जैसी कई सुविधाएँ देता है
security के लिहाज़ से risky कामों को container isolation के साथ सुरक्षित रूप से test किया जाता है
gnosis-crawl से headless browser crawling भी संभव है
मेरे अनुभव में GPT models backend development के लिए Claude से कहीं ज़्यादा उपयुक्त हैं
धीमे हैं, लेकिन logic साफ़ होता है और maintainability बेहतर होती है
मैं Claude से plan बनाता हूँ, Codex से उसे execute करता हूँ, फिर Claude से code review कराता हूँ
अच्छा होगा अगर Codex CLI npm के साथ-साथ homebrew पर भी साथ में update हो
Claude में अब भी fluff ज़्यादा है और यह over-engineering करता है
Claude छोटी-मोटी बातों पर ध्यान देता है, लेकिन Codex सच में महत्वपूर्ण समस्याएँ ढूँढता है
security के नज़रिए से देखें, तो OpenAI models offensive कामों को ज़रूरत से ज़्यादा restrict करते हैं, यह थोड़ा खलता है
मेरा मानना है कि defense के लिए एक निश्चित स्तर की offensive simulation ज़रूरी होती है
सिर्फ trusted experts को access देना मुझे एक व्यावहारिक तरीका लगता है
“cybersecurity” को सामने रखकर पेश करना दिलचस्प है
security analysis automation पहले ही tipping point पार कर चुका है, और मुझे लगता है कि model advancement से ज़्यादा repetitive work automation महत्वपूर्ण है
vulnerability analysis का ज़्यादातर हिस्सा ऐसे सरल काम हैं जिन्हें automate किया जा सकता है, और इन्हें हटाने पर इंसान creative analysis पर ध्यान दे सकता है
मेरे लिए Codex हमेशा base model से कमज़ोर performance देता है
CLI में यह बहुत जल्दबाज़ी में code लिखने की कोशिश करता है
मैंने सिर्फ सवाल पूछा, फिर भी यह file modify करने की कोशिश करता है, जो असुविधाजनक है
फ़िलहाल अगर .md files ही modify करने को कहा जाए तो कुछ हद तक control संभव है
invitation basis पर security research model access देने की policy मुझे उचित लगती है
अगर “safety alignment” ज़रूरत से ज़्यादा हो जाए, तो security analysis capability कम हो सकती है
अगर सिर्फ KYC process से गुज़रे लोगों को access दिया जाए, तो सकारात्मक research outcomes के साथ risk exposure भी कम किया जा सकता है
“dual-use” risk का मतलब नई attack techniques से ज़्यादा execution barrier को कम करना है
वही functionality defenders के लिए vulnerability analysis में मददगार हो सकती है, लेकिन attackers के लिए automated attack tool बन सकती है
इसलिए deployment control और logging महत्वपूर्ण हैं
मैंने GPT‑5.1 को VSCode के Codex plugin में इस्तेमाल किया, और यह सचमुच जादुई अनुभव था
5.2 में अभी बहुत बड़ा फ़र्क महसूस नहीं हुआ, लेकिन अगर functionality Cursor या Kilo Code के स्तर तक बढ़े तो और अच्छा होगा
पहले मुझे लगता था कि OpenAI पीछे रह गया है, लेकिन 5.1 Gemini से कहीं बेहतर है