- OpenAI का नया GPT‑5.1‑Codex‑Max एक नवीनतम agentic coding model है, जिसे दीर्घकालिक और जटिल development tasks संभालने के लिए डिज़ाइन किया गया है, और यह Codex environment में उपलब्ध है
- नई ‘compaction’ तकनीक के ज़रिये यह कई context windows के बीच काम करते हुए लाखों tokens वाले projects को लगातार और सुसंगत रूप से संभाल सकता है
- Token efficiency में सुधार हुआ है, जिससे समान reasoning स्तर पर 30% कम tokens के साथ बेहतर performance मिलती है, और लागत घटने की उम्मीद है
- यह लंबे समय तक स्वतंत्र रूप से काम कर सकता है और 24 घंटे से अधिक चलने वाले refactoring और debugging कर सकता है
- secure sandbox और cybersecurity monitoring framework को मज़बूत किया गया है, ताकि यह एक सुरक्षित AI coding partner के रूप में विकसित हो सके
GPT‑5.1‑Codex‑Max का परिचय
- GPT‑5.1‑Codex‑Max OpenAI का नया agentic coding model है, जो software engineering, mathematics, research जैसे विभिन्न क्षेत्रों के कार्यों पर प्रशिक्षित reasoning-based model का updated version है
- Codex CLI, IDE extension, cloud, और code review environments में तुरंत उपलब्ध
- API access जल्द उपलब्ध कराया जाएगा
- model में speed, intelligence, और token efficiency बेहतर हुई है, जिससे यह पूरे development cycle में अधिक भरोसेमंद coding partner की भूमिका निभाता है
- Compaction process के माध्यम से यह कई context windows के बीच काम करते हुए लाखों tokens के स्तर के tasks को सुसंगत रूप से संभालता है
Frontier coding performance
- वास्तविक software engineering tasks (PR generation, code review, frontend coding, Q&A) पर प्रशिक्षित होने के कारण यह पिछले model की तुलना में कई evaluations में बेहतर प्रदर्शन करता है
- यह Windows environment पर काम करने वाला पहला Codex model है, और Codex CLI collaboration performance सुधारने के लिए भी काम शामिल है
- सिर्फ benchmarks ही नहीं, बल्कि वास्तविक usability में भी सुधार देखा गया है
गति और लागत दक्षता
- SWE‑bench Verified के अनुसार, समान reasoning स्तर पर GPT‑5.1‑Codex की तुलना में 30% कम tokens का उपयोग करते हुए अधिक performance हासिल करता है
- ‘xhigh’ reasoning mode लंबे सोचने के समय के ज़रिये बेहतर quality देता है, जबकि सामान्य tasks के लिए ‘medium’ mode की सिफारिश की जाती है
- token efficiency में सुधार से developer cost savings होने की उम्मीद है
- उदाहरण: GPT‑5.1‑Codex‑Max समान functionality और aesthetics वाले frontend design को बहुत कम लागत पर बना सकता है
Long-running tasks
- Compaction feature की मदद से यह context limit से आगे जाने वाले complex refactoring और long-term agent loops चला सकता है
- जब session limit पर पहुँचता है, तो यह अपने आप compact होकर चल रहे काम को बनाए रखते हुए नया context हासिल करता है
- आंतरिक evaluations में 24 घंटे से अधिक चलने वाले tasks के उदाहरण देखे गए
- test failures को ठीक करते हुए और iterative implementation के ज़रिये अंततः सफल परिणाम हासिल किए गए
- long-term consistency बनाए रखने की क्षमता सामान्य और भरोसेमंद AI systems की दिशा में एक अहम आधार है
सुरक्षित और भरोसेमंद AI agent बनाना
- Long-horizon reasoning evaluations में performance काफ़ी बेहतर हुई है, जिससे cybersecurity और long-term coding tasks में बेहतर परिणाम मिलते हैं
- Cybersecurity Preparedness Framework के हिसाब से यह ‘High’ स्तर तक नहीं पहुँचता, लेकिन अब तक deploy किए गए models में इसका cybersecurity performance सबसे मज़बूत है
- Aardvark program जैसे प्रयासों के माध्यम से defensive use को मज़बूत किया जा रहा है
- cybersecurity-specific monitoring के ज़रिये दुरुपयोग के प्रयासों का पता लगाया और रोका जाता है, और संदिग्ध गतिविधियों को policy review system तक भेजा जाता है
- Codex डिफ़ॉल्ट रूप से secure sandbox में चलता है, जहाँ file access और network usage सीमित होते हैं
- internet access के समय prompt injection risk मौजूद रहता है
- developers को deployment से पहले agent के काम की समीक्षा करनी चाहिए
- Codex terminal logs, tool calls, और test results रिकॉर्ड करता है, और human review का विकल्प नहीं बल्कि सहायक भूमिका निभाता है
- cybersecurity क्षमताएँ रक्षा और आक्रमण दोनों में इस्तेमाल हो सकती हैं, इसलिए क्रमिक deployment और सुरक्षा उपायों को मज़बूत करने की प्रक्रिया साथ-साथ चल रही है
उपलब्धता और deployment
- GPT‑5.1‑Codex‑Max ChatGPT Plus, Pro, Business, Edu, Enterprise plans के Codex में उपलब्ध है
- API key के साथ Codex CLI इस्तेमाल करने वाले developers के लिए भी यह जल्द उपलब्ध होगा
- आज से Codex में default model के रूप में GPT‑5.1‑Codex‑Max, GPT‑5.1‑Codex की जगह ले रहा है
- GPT‑5.1 एक general-purpose model है, जबकि Codex‑Max की सिफारिश agentic coding tasks के लिए की जाती है
निष्कर्ष
- GPT‑5.1‑Codex‑Max long-term coding task persistence, complex workflow management, और high-quality implementation में एक बड़ी प्रगति है
- CLI, IDE extensions, cloud integration, और code review tools में सुधार के साथ मिलकर यह engineering productivity में 70% सुधार लाता है
- OpenAI के आंतरिक engineers में से 95% हर हफ़्ते Codex का उपयोग करते हैं
- agent capabilities के विस्तार के साथ, यह developer productivity के एक नए चरण की शुरुआत करता है
परिशिष्ट: model evaluation results
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
2 टिप्पणियां
कोडेक्स, MS AOIA में मिलते हैं 😊
Hacker News राय
मैंने हाल में Claude और Codex दोनों का काफी इस्तेमाल किया है
Claude निर्देशों (जैसे CLAUDE.md) को लगभग नज़रअंदाज़ कर देता है, जबकि Codex ऐसा लगता है मानो एक भी अक्षर छूटने न दे और बेहद हद तक वफादारी से उनका पालन करता है
उदाहरण के लिए, टेस्ट कोड में टाइपो हो तो Claude उसे “यह साफ़ तौर पर टाइपो है” कहकर ठीक कर देता है, लेकिन Codex इतना चरम पर जा सकता है कि V8 engine को ही फिर से लिख दे और arithmetic तोड़ दे
इसलिए मुझे लगता है कि Claude तेज़ iteration वाले कामों के लिए, और Codex accuracy महत्वपूर्ण होने वाले लंबे कामों के लिए ज़्यादा उपयुक्त है
मैंने सिर्फ़ एक पैराग्राफ जितना निर्देश दिया, और उसने 45 मिनट में लगभग पूरी तरह सही काम कर दिया। जब मैंने summary report माँगी, तो सचमुच उसने हर निर्देश का एक-एक अक्षर तक पालन किया था
black box की तरह इस्तेमाल करने वालों के लिए यह रवैया अच्छा हो सकता है, लेकिन मैं सामान्य समझ वाला सहयोगी चाहता हूँ
यह शायद दिखाता है कि OpenAI और Anthropic AI के भविष्य को कितने अलग तरीके से देखते हैं
GPT मॉडल ad-hoc coding में कमज़ोर होते हैं, लेकिन जहाँ requirements स्पष्ट हों वहाँ बहुत अच्छे हैं
Python और TypeScript दोनों में
.getattr(),typeofजैसे defensive code बहुत ज़्यादा थेहम model training तो अच्छी करते हैं, लेकिन नाम रखने में अच्छे नहीं हैं 😄
नया version SWE-Bench-Verified में 77.9%, SWE-Lancer में 79.9%, और TerminalBench 2.0 में 58.1% के साथ SOTA हासिल करता है
यह कई context windows को compaction करके लंबे समय तक काम कर सकता है, और token efficiency 30% बेहतर हुई है
राय सुनना चाहूँगा
अगर “token savings” सच है तो यह सस्ता होना चाहिए, लेकिन “Max” नाम सुनकर महँगा लगता है
5.1 बहुत ज़्यादा token खर्च कर रहा था, इसलिए मैं 5.0 पर वापस चला गया था
मैंने example agents देखे, और चाहूँगा कि Codex CLI में भी ऐसा कुछ हो
आज मैंने CLI में GPT‑5.1‑Codex‑Max और Gemini 3 Pro की तुलना की
collaborator के रूप में Gemini को संभालना मुश्किल है। आप सवाल पूछो तो वह इरादा अनुमान लगाकर पहले कोड लिखना शुरू कर देता है
दूसरी ओर, Codex सीधे सवाल का जवाब देता है
code quality के मामले में Gemini की शैली ज़्यादा मानव-पठनीय थी, लेकिन planning और implementation accuracy में Codex काफ़ी बेहतर था
Gemini में DB column names की hallucination, features छूट जाना, और integration की कमी जैसी समस्याएँ थीं
कुल मिलाकर Codex साफ़ विजेता था
official docs देखें
OpenAI अक्सर प्रतिद्वंद्वियों की घोषणा से ठीक पहले अपने मॉडल जारी करता है
GPT‑4o भी Google I/O से एक दिन पहले घोषित हुआ था। इस बार का Codex भी शायद incremental update ही है
SVG rendering example को देखें,
medium level काफ़ी संतुलित है, और high/low के बीच जानबूझकर style का अंतर दिखाता है
ऐसे comparisons से मॉडल की creative consistency समझने में मदद मिलती है
काश हर कंपनी मॉडल training में जितनी मेहनत लगाती है उसका सिर्फ़ 1% भी payment और login experience सुधारने में लगाती
Claude का login system लगभग न के बराबर है, और OpenAI को Codex CLI bug (#2798) ठीक करना चाहिए
Google के product और payment structure बहुत जटिल हैं। इसे एक ही pricing page में समेटना चाहिए
Workspace accounts भी सुरक्षित नहीं लगते। ToS ध्यान से पढ़नी चाहिए
अभी मुझे लगता है कि OpenAI कहीं ज़्यादा विश्वसनीय customer experience दे रहा है
issue #12121 में भी इससे जुड़ा विवाद है
“एक भरोसेमंद coding partner बनने की नई अवस्था” और “लंबे समय तक चलने वाले काम के लिए optimized model” जैसी पंक्तियाँ विरोधाभासी लगती हैं
अगर वह partner है, तो उसे साथ में छोटे-छोटे iteration में काम करना चाहिए; अकेले लंबे समय तक काम करना partner जैसा नहीं है
official blog के token graph से यह दिशा समझी जा सकती है
Codex के plan mode की speed देखकर मैं प्रभावित हुआ। code quality भी ठीक थी
लेकिन जब मैंने कहा “npm run build के बाद सारी समस्याएँ ठीक करो”, तो यह eslint से जुड़े packages install करते हुए बेकाबू हो गया
Claude Code ने वही काम 1 मिनट के भीतर पूरा कर दिया। Codex अभी कुछ अस्थिर लगता है
Codex backend या data-केंद्रित कामों में मज़बूत है, लेकिन साधारण UI कामों में अक्सर अजीब नतीजे देता है
पिछले वीकेंड मैंने Claude और Codex को साथ में इस्तेमाल किया, और Codex ने TypeScript physics/graphics code में कहीं बेहतर नतीजे दिए
हज़ारों लाइनों में से मैंने खुद सिर्फ़ कुछ सौ लाइनें लिखीं।
अब मैं नए Codex से पिछले Codex के काम की review करवाने वाला हूँ