OpenAI ने क्लाउड-आधारित कोड एजेंट Codex का रिसर्च प्रीव्यू जारी किया

(openai.com)

8 पॉइंट द्वारा GN⁺ 2025-05-17 | 2 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने सॉफ्टवेयर इंजीनियरिंग के लिए समर्पित एजेंट Codex जारी किया है, जो दोहराए जाने वाले काम, कोड लिखना, PR सुझाव जैसे कार्यों को ऑटोमेट कर सकता है
Codex अलग किए गए क्लाउड sandbox environment में काम करता है, और टेस्टिंग व लॉगिंग के जरिए परिणामों को पारदर्शी रूप से सत्यापित किया जा सकता है
AGENTS.md फ़ाइल के जरिए हर प्रोजेक्ट की प्रथाएँ और टेस्टिंग तरीके Codex को बताए जा सकते हैं, जिससे इसे उपयोगकर्ता के codebase के लिए ऑप्टिमाइज़ किया जा सकता है
CLI version Codex CLI भी साथ में उपलब्ध है, जिससे लोकल development environment में भी एजेंट का उपयोग संभव है
शुरुआती rollout ChatGPT Pro·Team·Enterprise के लिए है, और बाद में Plus व Edu उपयोगकर्ताओं तक भी विस्तार की योजना है

Introducing Codex

Codex क्या है?

Codex क्लाउड में चलने वाला सॉफ्टवेयर इंजीनियरिंग एजेंट है, जो उपयोगकर्ता के codebase को पढ़कर कई तरह के काम अपने-आप कर सकता है
यह कोड में फीचर जोड़ना, सवालों का जवाब देना, बग ठीक करना और PR सुझाव देना जैसे काम parallel में कर सकता है
हर काम अलग sandbox environment में स्वतंत्र रूप से चलता है, और उपयोगकर्ता की repository पहले से लोड रहती है

यह कैसे काम करता है

ChatGPT sidebar में Codex फ़ीचर के जरिए "Code" या "Ask" कमांड से काम शुरू किया जाता है
यह फ़ाइलें पढ़ और बदल सकता है, और test, linter, typechecker जैसे कमांड चला सकता है
काम आमतौर पर 1~30 मिनट के भीतर पूरा हो जाता है, और real-time progress भी देखी जा सकती है
काम पूरा होने पर Codex commit बनाता है, और terminal logs व test output का हवाला देकर बदलावों को पारदर्शी ढंग से समझाता है
परिणाम की समीक्षा के बाद GitHub PR बनाना या सीधे integrate करना संभव है

AGENTS.md फ़ाइल

प्रोजेक्ट के भीतर मौजूद AGENTS.md Codex को codebase explore करने और test चलाने का तरीका बताती है
यह README जैसी फ़ॉर्मैट वाली दस्तावेज़ फ़ाइल है, जिसमें code style, run commands, PR message format जैसी बातें शामिल हो सकती हैं
गहरी directory में मौजूद फ़ाइल को प्राथमिकता दी जाती है, और बताए गए सभी tests चलाने होते हैं
Codex यह नियम भी मानता है कि explicit prompt, AGENTS.md से ऊपर प्राथमिकता रखता है

आंतरिक benchmark प्रदर्शन

OpenAI के आंतरिक SWE benchmark में codex-1 ने अधिकतम 192k tokens के साथ, मध्यम कठिनाई सेटिंग में बेहतरीन accuracy हासिल की
AGENTS.md के बिना भी इसका प्रदर्शन उच्च रहा, और यह मानव द्वारा लिखी गई code style से काफ़ी मेल खाने वाले परिणाम बना सकता है

सुरक्षा और विश्वसनीयता

Codex को पारदर्शिता बढ़ाने और security-केंद्रित दृष्टिकोण के साथ डिज़ाइन किया गया है, और इसके output को verify किया जा सकता है
काम के दौरान internet connection बंद रहता है, और सिर्फ़ निर्दिष्ट repository व dependencies तक ही पहुँच संभव होती है
malicious code development को रोकने और kernel स्तर के वैध कार्यों को अनुमति देने के लिए इसे अलग-अलग पहचानने का प्रशिक्षण दिया गया है

शुरुआती उपयोग के उदाहरण

OpenAI के भीतर इसका उपयोग दोहराए जाने वाले refactoring, test writing और documentation जैसे कामों में किया जा रहा है
बाहरी साझेदारों के उदाहरण:
- Cisco: वास्तविक प्रोडक्ट्स में लागू करके testing और feedback प्रदान कर रहा है
- Temporal: बड़े codebase में debugging, test execution और refactoring में उपयोग कर रहा है
- Superhuman: QA और integration failure fixes के साथ-साथ PM के लिए हल्के code changes संभव बनाने में मदद कर रहा है
- Kodiak: autonomous driving technology के code analysis और tool development में सहायता ले रहा है

Codex CLI अपडेट

Codex CLI एक terminal-आधारित lightweight coding agent है, जो लोकल में o3, o4-mini models के साथ काम कर सकता है
इस अपडेट के साथ o4-mini आधारित codex-mini model जारी किया गया है, जो CLI optimization और low-latency response देता है
ChatGPT account से login करने पर API key अपने-आप सेट हो जाती है, और Plus/Pro उपयोगकर्ताओं को free credits मिलते हैं

कीमत और उपलब्धता

Codex अभी Pro, Enterprise, Team उपयोगकर्ताओं के लिए उपलब्ध है, और Plus व Edu के लिए जल्द विस्तार होगा
शुरुआती चरण में बिना अतिरिक्त लागत के उपयोग संभव है, और बाद में usage-based pricing policy लाई जाएगी
codex-mini-latest की कीमत 1M input tokens पर $1.50 और output tokens पर $6 है, साथ में 75% prompt cache discount लागू है

आगे की योजना

Codex को लंबे समय में asynchronous collaborative agent के रूप में विकसित किया जाएगा
Codex CLI, ChatGPT Desktop, issue tracker और CI tools के साथ और गहरे integration की योजना है
बीच में feedback, implementation strategy पर चर्चा और proactive progress reporting जैसी सुविधाएँ जोड़ी जाएँगी
OpenAI को उम्मीद है कि AI की मदद से डेवलपर्स और तेज़ी से तथा अधिक फोकस के साथ coding कर पाएँगे

परिशिष्ट: codex-1 system message सारांश

काम से पहले और बाद में Git status की जाँच करें, और हमेशा commit complete state बनाए रखें
AGENTS.md फ़ाइल में दिए गए verification steps, छोटे बदलावों के लिए भी, सभी चलाने आवश्यक हैं
PR बनाते समय file/terminal-based citation नियम मौजूद है (उदाहरण: 【F:main.py†L12】)
पिछले PR या comment की सामग्री का हवाला देना मना है; केवल files और terminal results का ही उपयोग किया जाना चाहिए

यह system message, Codex customization के लिए model के default behavior को समझने में उपयोगी है।

2 टिप्पणियां

fortune 2025-05-18

आख़िरकार cursor, cline आदि की पीढ़ी से अलग पहचानी जा सकने वाली अगली पीढ़ी का agent आ गया है। दुनिया में software बदलाव की रफ़्तार अब कितनी और तेज़ होगी, यह सोचकर उत्साह होता है। इसके बाद आने वाली अगली पीढ़ी के agent का भी इंतज़ार है।

GN⁺ 2025-05-17

Hacker News टिप्पणियाँ

हमारी टीम के कुछ इंजीनियरों के साथ Assembled में Codex alpha टेस्ट में भाग लेने का अनुभव साझा किया गया। पहले से Cursor और Claude Code जैसे local agents लंबे समय तक इस्तेमाल किए थे, इसलिए बहुत बड़ी उम्मीद नहीं थी, लेकिन Codex की parallel task execution क्षमता प्रभावशाली लगी। कई refactor, test और boilerplate कामों को एक साथ बाँधकर context switching के बिना समानांतर चलाया जा सकता है। मौजूदा solutions में यह कठिन था, लेकिन Codex में फाइल या function पर काम assign कर देने पर यह ज़्यादातर PR scaffolding अपने-आप संभाल लेता है, जैसे अनगिनत junior engineers मिल गए हों। हालांकि इसे वास्तव में production में डालने से पहले अभी भी काफी post-processing चाहिए। Model quality ठीक-ठाक है, लेकिन Cursor, Gemini 2.5-pro आदि के साथ तुलना करने पर style, logic या naming में कोई साफ बढ़त नहीं दिखी; कुल मिलाकर यह उम्मीदों को “पूरा” करने तक सीमित लगा।
- सवाल उठाया गया कि अगर इस तरह के काम के लिए junior engineers को hire ही नहीं किया जाएगा, तो भविष्य के senior engineers कहाँ से आएँगे। हाल में बेटी ने एक अच्छे university से computer science में graduation किया, लेकिन नौकरी के बाजार में entry-level developer roles की तुलना में senior engineer की demand कहीं ज़्यादा है। हाल ही में कंपनी ने junior position के लिए hiring post डाली तो इतने applications आए कि निष्पक्ष evaluation करना ही मुश्किल हो गया। आखिरकार जिन बच्चों के दोस्तों को नौकरी मिली, उनमें से अधिकांश को networking का फायदा मिला।
- अभी लाखों engineers GitHub open source में योगदान दे रहे हैं, और बेहतरीन प्रतिभाएँ उसी code का इस्तेमाल करके AI models बना रही हैं, जो फिर उन्हीं engineers को replace कर रहे हैं—यह एक दिलचस्प चक्र है। कहा गया कि open source contribution जितना बढ़ेगा, संबंधित jobs को replace करना उतना आसान हो जाएगा; यही एक मूलभूत dilemma है। सवाल है कि समय के साथ open source contribution की motivation कमज़ोर तो नहीं पड़ जाएगी। हमें लगता था कि हम creative काम करते हैं, लेकिन वास्तव में हमारा अधिकांश समय दोहराए जाने वाले और अनुमानित knowledge combinations पर जाता है, और AI इस तरह के काम को अच्छी तरह replace कर सकता है। एक optimistic नज़रिए से, लंबे समय में हमें और दिलचस्प काम बनाने होंगे, लेकिन निकट भविष्य में software engineers की oversupply और demand की कमी के कारण कई वर्षों तक बड़ा दर्द देखने की आशंका है।
- Codex की parallel task execution सुविधा आखिर इतनी महत्वपूर्ण क्यों है, इस पर सवाल उठाया गया। वास्तव में LLM को code लिखने में कुछ ही सेकंड लगते हैं, और असली समय task specification तथा review/fix चरण में जाता है। ऐसे में सबसे तेज हिस्से को parallelize करने से क्या व्यावहारिक लाभ मिलता है, यह जिज्ञासा जताई गई।
- Junior developers पूरी तरह autonomous नहीं होते, इसलिए उन्हें manage करने और code review करने में काफी समय लगता है। कई juniors रखने पर भी उनका management cost ही bottleneck बन जाता है। ऐसे में Codex जैसे virtual developers की बड़ी संख्या को संभालना क्या भारी पड़ता है, या उनमें autonomy पर्याप्त है—इस पर उपयोग अनुभव जानने की इच्छा जताई गई।
- Cursor और Claude Code लंबे समय से इस्तेमाल करने वाले एक व्यक्ति ने Claude Code के फायदे और सीमाएँ, और Codex की तुलना में parallel task execution सचमुच कितना बड़ा फर्क लाती है, यह जानना चाहा। हाल में आए Codex CLI से भी उम्मीद से कम प्रभावित होने की बात कही गई, इसलिए टीम के Claude Code उपयोग अनुभव और insights की अपेक्षा जताई गई।
OpenAI के Codex preview वीडियो में Katy Shi की इस बात से सहमति जताई गई कि “engineering का काम code लिखने से code review की ओर शिफ्ट हो गया है।” AI के गंभीर रूप से अपनाए जाने के दौर में developers अब भी code और tests पढ़ने तक सीमित हैं, यह अवलोकन किया गया। अगर simulation जैसा अपेक्षाकृत नया concept अपनाया जाए, तो खासकर frontend में सिर्फ code/tests देखने की तुलना में अलग-अलग outcomes का अनुमान अधिक किया जा सकेगा। हाल में इस विषय पर खुद काम करने और Codex launch सामग्री देखकर यह बात और ठोस लगी।
- यह मेरे Graphite संबंधी तर्क से भी मिलता-जुलता है। जब बड़े पैमाने पर AI-generated code का युग आएगा, तब review, test और integration मुख्य हो जाएँगे। AI code review system भी बनाए जा रहे हैं, लेकिन human review की स्थायी आवश्यकता बनी रहेगी, और मूल कारण accountability है। Computer कभी जिम्मेदारी नहीं ले सकता।
- पूछा गया कि “simulation को देखना” क्या automated test suite के उपयोग की ओर इशारा करता है।
SWE-bench के सह-निर्माता के रूप में, पहले से मजबूत o3 results के ऊपर भी Codex ने हल्का सुधार दिखाया, यह रोचक लगा। यह जिज्ञासा व्यक्त की गई कि Verified मानक पर 75% से 85% तक पहुँचना क्या 20% से 75% तक पहुँचने जितना ही लंबा समय लेगा।
- swe-bench से जुड़े benchmark over-optimization की बात कही गई, और multi-swe-bench, swe polybench, kotlin bench आदि के अलग-अलग measurement results साझा किए गए।
- 20% से 75% तक पहुँचने में कितना समय लगा, यह पूछा गया।
Pro version का subscriber होने के बावजूद Codex आज़माने की कोशिश करने पर हर बार team pricing page पर redirect होने की बात कही गई। पूछा गया कि क्या यह official open से पहले की स्थिति है या कुछ छूट रहा है। OpenAI products लगातार इस्तेमाल किए हैं और Codex सचमुच आज़माना चाहते हैं।
- बड़े updates पर हर बार ऐसा ही होने की बात कही गई, और इसे समझना मुश्किल बताया गया।
- किसी और ने भी ऐसी ही स्थिति बताई, और कहा कि शायद कुछ मिनट पहले से access संभव हुआ है, इसलिए इसे gradual rollout माना गया।
- अब भी gradual rollout जारी होने की सूचना दी गई।
लाइव स्ट्रीम में "microVM" का ज़िक्र आया। Browser/internet access नहीं है। Firecracker/Unikraft जैसे microkernel तेज़ और सस्ते तरीके से बड़े पैमाने पर scale हो सकते हैं, लेकिन हर agent के लिए अलग पूर्ण computer environment तक पहुँचना एक बड़ा technical hurdle लगेगा। मौजूदा ChatGPT Operator browser access को support करता है, इसलिए तकनीकी रूप से यह संभव होगा, लेकिन demand scale अलग होने की संभावना है। fork/snapshot/screen/human-in-the-loop support आदि के साथ AI-विशेष full PC environment देने वाली infrastructure companies के उभरने की पूरी गुंजाइश है। अभी चीज़ें browser उपयोग जैसे आंशिक implementations तक सीमित हैं।
- E2B Desktop के ज़रिए यह सुविधा दी जा रही है, और demo व SDK परिचय link साझा किए गए।
बैंक में काम करने के दौरान legal team अक्सर app में छोटे-मोटे बदलाव माँगती थी; अब शायद वे खुद ही बदलाव कर पाएँगे, और legal team को इस पर बहुत गर्व होगा—ऐसी बात कही गई।
- code execution, testing और code review के बिना legal team को code बदलने की permission देना जोखिमपूर्ण होगा; इसलिए शायद वास्तव में कोई ऐसा नहीं करेगा।
- भविष्य में bug tracking काफ़ी बदल सकता है। संगठन में कोई भी issue या feature request छोड़ेगा, model खुद प्रतिक्रिया देगा, और जहाँ न हो सके वहाँ इंसान दखल देगा। अंततः “कौन-सा code change legal है और company standards के अनुरूप है” इस पर निर्णय और review धीरे-धीरे non-technical reviewers की मुख्य भूमिका बन सकती है।
- व्यावहारिक रूप से legal team शायद सीधे code changes नहीं करेगी—ऐसा आश्वासन दिया गया।
privacy, training data opt-out, और platform के जरिए बनाए गए model से प्रतिस्पर्धा करने पर उत्पन्न हो सकने वाले जोखिमों को लेकर चिंता जताई गई। “तुम्हारे बनाए output को तुम्हारे खिलाफ competition में इस्तेमाल नहीं किया जाना चाहिए” जैसी policy क्या उचित है, इस पर सवाल उठाया गया। यह भी कहा गया कि शायद यह नज़रिया कुछ ज़्यादा pessimistic हो। OpenAI अगर हमारे बनाए information को competition में उपयोग करने से खुद को न रोके, तो यह समस्या होगी—ऐसी बात उठी।
- बताया गया कि वीडियो में repo के लिए training की अनुमति देने या न देने का explicit option सीधे चुनने की सुविधा दिखाई गई है।
"secrets" feature इस्तेमाल करते समय समस्या का अनुभव साझा किया गया। Environment setup में values सही inject होती हैं, लेकिन वास्तविक task में काम नहीं करतीं, और environment reset जैसे उपायों के बाद भी समस्या हर बार दोहराई जाती है।
चिंता जताई गई कि अगर Codex सिर्फ cloud में चलता है और code अपने-आप commit-push हो जाता है, तो अंदरूनी review के लिए समय नहीं मिलेगा। aider में commit के बाद git reset HEAD^, git diff से changes खुद देखकर ज़रूरी सुधार करने के बाद ही commit-push करने वाला workflow पसंद होने की बात कही गई।
- अगर हर हाल में commit तुरंत rollback करना ही है, तो Aider में --no-auto-commits option सुझाया गया।
- सरल शब्दों में Codex को पुराने Codex CLI का managed cloud version बताया गया; मुख्य बात नया model है, और जल्द ही API में भी उपलब्ध होने की संभावना जताई गई।
- लाइव स्ट्रीम में यह दिखाया गया कि task पूरा होने के बाद diff तुरंत दिखता है, और diff देखने के बाद ही GitHub PR बनाना है या नहीं, यह तय किया जा सकता है।
पूछा गया कि लोग अपनी company का codebase AI vendors के साथ साझा करने के बारे में क्या सोचते हैं, या वे सिर्फ local installation का ही उपयोग करते हैं।
- कहा गया कि enterprises द्वारा SaaS के साथ code साझा करना बहुत आम है, और आमतौर पर अलग contracts के ज़रिए मनमाने उपयोग को रोका जाता है।
- अधिकांश companies के code की value असल में सिर्फ उनकी अपनी company के भीतर ही मायने रखती है।
- यह भी कहा गया कि OpenAI जैसी companies शायद किसी एक के code को देखकर इतना जोखिम नहीं लेंगी; कानूनी risk उठाने लायक लाभ नहीं है।
- अंततः यह सब cost-benefit trade-off है; अगर फायदा बड़ा हो तो साझा करना पर्याप्त रूप से सार्थक हो सकता है।
- Cursor में enterprise mode के तहत data privacy enforce करने की सुविधा है।