- OpenAI Codex एक GitHub इंटीग्रेशन-आधारित मल्टीटास्किंग code agent है, जो natural language के जरिए कई कामों को parallel में निर्देश देने वाला interface प्रदान करता है
- उपयोगकर्ता पूरे दिन के काम जल्दी से सौंपकर branch अपने-आप बनवाने और PR खुलवाने तक का काम इसे दे सकते हैं, और मोबाइल पर भी इसका उपयोग संभव है, इसलिए यह अंततः remote-केंद्रित workflow को support कर सकता है
- हालांकि फिलहाल कमज़ोर error handling, अस्थिर code quality, मौजूदा branch को अपडेट करने में कठिनाई, sandbox network block जैसी समस्याओं के कारण यह बड़े refactor कामों के लिए उपयुक्त नहीं है
- Codex छोटे maintenance tasks के automation में उपयोगी है और दोहराए जा सकने वाले कामों को तेज़ी से निपटाने में व्यावहारिक है
- आगे चलकर अगर model improvements, multi-model mixing, advanced integration features जोड़े जाते हैं, तो यह high-level orchestration tool के रूप में विकसित हो सकता है
OpenAI Codex कैसे काम करता है
- OpenAI Codex एक chat-आधारित UI है, जिसे invite या $200/माह Pro subscription के ज़रिए access किया जा सकता है
- उपयोगकर्ता को multi-factor authentication से गुजरना होता है और हर organization के लिए Codex GitHub app को approve करना पड़ता है, जिसके बाद Codex repository को अपने sandbox में clone करके command execution और branch creation का काम करता है
- अगर आप दर्जनों public और private repositories संभालते हैं, तो कई projects के बीच switching और task queue management में इसकी efficiency बहुत अच्छी है
- अगर आप सिर्फ 1~2 repositories संभालते हैं, तो मौजूदा LLM या AI-enabled editor का इस्तेमाल अधिक हल्का विकल्प हो सकता है
Codex की ताकतें
-
कई कामों की parallel processing और interface
- हर task के लिए repository और branch तय की जा सकती है, इसलिए पूरे दिन के काम natural language में parallel रूप से दर्ज करना सहज लगता है
- Codex कई tasks को एक साथ handle करने का तरीका सुझाता है, और यह काम करने की इस शैली से अच्छी तरह मेल खाता है
-
लचीला workflow और मोबाइल support
- Codex स्मार्टफोन पर भी mobile-friendly तरीके से चलता है, इसलिए ऑफिस के बाहर भी कुशल काम की संभावना अधिक है
- आदर्श उपयोग परिदृश्य यह है कि काम की शुरुआत में कई tasks दर्ज किए जाएँ और बाहर रहते हुए भी planning और progress को manage किया जाए
-
chat-आधारित feedback और PR creation
- चल रहे task के logs और status को chat interface में आसानी से देखा जा सकता है, और अतिरिक्त निर्देश भी दिए जा सकते हैं
- अगर बदलाव संतोषजनक हों, तो Codex Pull Request(आगे PR) बनाता है और उसका विवरण अपने-आप पूरा कर देता है
- step-by-step execution logs और command history देख पाना उपयोगी है
जिन पहलुओं में सुधार चाहिए
-
अपर्याप्त error handling
- task शुरू होने या PR बनने में विफलता जैसी स्थितियों पर स्पष्ट feedback की कमी usability को कम करती है
-
code quality और one-off task execution
- Codex model GPT-3 परिवार का है और 12 से अधिक भाषाओं को support करता है, लेकिन parallel execution के समय लगभग 40-60% तक ही संतुष्टि मिल पाती है
- छोटे maintenance कार्यों में यह उपयोगी है, लेकिन बड़े refactoring में बार-बार PR बनाना इसकी उपयोगिता घटा देता है
-
branch के भीतर लगातार updates का अभाव
- मौजूदा PR और branch में लगातार commits को जोड़ना कठिन है, इसलिए multi-step refactor कार्य inefficient हो जाते हैं
- अभी के लिए Codex उन सरल कामों के लिए अधिक उपयुक्त है जिन्हें एक ही task में सीधे सौंपा जा सके
-
execution sandbox की network access सीमाएँ
- design के अनुसार external network access उपलब्ध नहीं है, इसलिए package upgrades या dependency handling जैसे कई व्यावहारिक कामों में सीमाएँ हैं
- उदाहरण: external package install करने का अनुरोध काम नहीं करता
- ऐसे काम अभी भी local में सीधे करने पड़ते हैं, या मौजूदा Bot (Dependabot आदि) सुविधाओं पर निर्भर रहना पड़ता है
Did it unlock insane productivity gains for me?
- अभी तक ज़बरदस्त productivity boost महसूस नहीं हुआ
- Codex को वास्तव में productivity revolution तक पहुँचने के लिए
- अधिक कामों को one-off समाधान के रूप में संभालने लायक custom design और algorithm improvements की ज़रूरत है
- मौजूदा branch PR update workflow में सुधार
- delegation/integrated management क्षमता को मज़बूत करना होगा, और कई OpenAI API के साथ integration बढ़ानी होगी
- Codex को high-level orchestrator के रूप में विकसित होना होगा
- फिलहाल Codex रूटीन maintenance और छोटे updates के automation में अधिक उपयोगी है
- बड़े feature development और refactoring के लिए IDE और LLM-सहायित सहयोग अधिक उपयुक्त है
Final Thoughts
- Codex एक शांत लेकिन उम्मीद जगाने वाला tool है
- आगे इसमें होने वाले सुधारों को देखते हुए, काम की शुरुआत और coordination tool के रूप में स्थापित होने की संभावना बड़ी है
- अभी के लिए हल्के और दोहराव वाले कामों पर ध्यान देते हुए सुधार का इंतज़ार करने का समय है
3 टिप्पणियां
लगता है अभी $200 झोंकने वाला माहौल नहीं है।
Hacker News राय
मैं Plus सब्सक्राइबर था और Codex को टेस्ट करना चाहता था, इसलिए Pro में अपग्रेड किया, लेकिन ईमानदारी से कहूँ तो मेरे अनुभव में नतीजे कुछ निराशाजनक रहे
UX भी अभी ठीक से परिपक्व नहीं लगा, और रिज़ल्ट आने में कितना समय लगेगा यह पता न होने से झुंझलाहट होती है
Codex की asynchronous प्रकृति की वजह से एक साथ कई काम चला पाना फिर भी एक अच्छा पहलू है
एक और शिकायत यह है कि इस टूल को उपयोगी ढंग से इस्तेमाल करने के लिए environment अलग से तय करना पड़ता है
टेस्ट के लिए ज़रूरी container नहीं चला सकते, इसलिए इसकी उपयोगिता काफ़ी घट जाती है
environment पूरी तरह internet से अलग-थलग है, इसलिए उपयोग की गुंजाइश सीमित है
ChatGPT का o3 इसलिए शक्तिशाली है क्योंकि वह web का इस्तेमाल करके जानकारी भी खुद खोज सकता है, लेकिन Codex में यह कमी है
तुलना करूँ तो मैं Claude भी अक्सर इस्तेमाल करता हूँ, और GitHub repo को source बनाकर project तैयार करने पर यह जटिल React app में अनजान bugs भी अच्छी तरह ढूँढ लेता है
Gemini भी अपने बड़े context window की वजह से इस तरह के काम को अच्छी तरह सपोर्ट करता है
बेशक OpenAI किस दिशा में जाना चाहता है, यह मैं समझता हूँ
मैं चाहता हूँ कि Codex सचमुच एक सहकर्मी की तरह कई काम सँभालकर हल करे, लेकिन इस समय यह pull request पर कुछ ज़्यादा ही केंद्रित लगता है
इसलिए मैं फिर से Plus पर downgrade करके थोड़ा और इंतज़ार करने का सोच रहा हूँ
मैं OpenAI में काम करता हूँ, लेकिन Codex team में नहीं, और कई projects में Codex को सफलतापूर्वक इस्तेमाल करने का अनुभव है
मेरा काम करने का तरीका यह है
मैं हमेशा एक ही prompt को कई बार चलाता हूँ ताकि हर बार अलग परिणाम आएँ
कई implementations की तुलना करके सबसे बेहतर चुनता हूँ, और सोचता हूँ कि prompt में क्या बदलता तो और बेहतर नतीजे मिल सकते थे
जहाँ model गलती करता है, वहाँ prompt में सुधार करके उसे बार-बार लागू करता हूँ
इस तरह काम को छोटे हिस्सों में बाँटकर parallel experiments दोहराए जाएँ तो बहुत बड़े projects भी कुछ घंटों में सिर्फ prompt tuning और code review से पूरे किए जा सकते हैं
सिर्फ API migration ही नहीं, बल्कि Triton kernel जैसे deep code में भी यह तरीका बहुत उपयोगी है
"कई implementations में से सबसे अच्छा चुनना, और सोचना कि prompt में क्या और होना चाहिए था ताकि बेहतर परिणाम आते"
गैर-विशेषज्ञ लोग यह कैसे पहचानते हैं कि क्या 'सबसे अच्छा' है, यह जानने की जिज्ञासा है
आखिर सही दिशा पहचानने के लिए उस domain की expertise चाहिए ही, और मुझे लगता है कि यही वजह है कि LLM software engineer की नौकरियाँ खत्म नहीं कर पाएगा
लगता है कि आपका यह manually काम करने का तरीका असल में reinforcement learning (RL) की बुनियाद बन सकता है
अगर UI में इस अनुभव को थोड़ा-सा निखारकर वास्तविक data के रूप में इस्तेमाल किया जाए, तो एक अच्छा training dataset बन सकता है
यह तरीका खुद code लिखने की तुलना में वास्तव में कितना तेज़ है, यह जानना चाहता हूँ
यह भी जानना है कि जब prompt नया बदल दिया जाता है और कोई महत्वपूर्ण चीज़ बदल जाती है, तो क्या आप अब तक का काम छोड़ देते हैं
छोटे बदलाव का भी परिणाम पर बड़ा असर पड़ सकता है, और अगर समस्या में पहले से examples न हों तो यह और मुश्किल लगेगा
मुझे लगता है कि यह काम करने का तरीका बार-बार दोहराने पर थका देने वाला हो सकता है या मूल बात से दूर ले जा सकता है
मुझे यह अक्षम लग सकता है, इसलिए जिज्ञासा है कि क्या दूसरे लोगों में इस तरह के दोहराव वाले काम के लिए ज़्यादा धैर्य होता है
मैंने अपनी team में Codex पर एक review pod में साझा किया था (https://latent.space/p/codex)
एक ही बार में लगातार code तैयार करने में यह बेहद शानदार model है (pod में पुष्टि हुई कि OpenAI SWE task के हिसाब से यह खास तौर पर oneshot के लिए fine-tune किया गया है)
relative तौर पर integration features कमज़ोर हैं (जैसे: browser integration नहीं, और GitHub integration भी अधूरा — हर iteration में नई pull request खोलने को कहता है, इसलिए मौजूदा branch में follow-up commits डालना असुविधाजनक है)
फिर भी उम्मीद है कि समय के साथ ऐसे integration features बेहतर होंगे
एक घंटे में 60 concurrent Codex instances चला पाना, मेरे हिसाब से, Devin (एक साथ 5) या Cursor (background agents आने से पहले एक साथ 1) से गुणात्मक रूप से अलग फ़र्क है
मुझे Codex model की performance में कोई साफ़ अलगाव महसूस नहीं हुआ, लेकिन OpenAI कहता है कि Codex GPT-3 से निकला है, जबकि वास्तव में यह o3 fine-tuning है
"o3 fine-tuning" वाला दावा अपने-आप में भ्रमित करने वाला लग सकता है
OpenAI की naming convention भी उलझन पैदा करती है, और यह समस्या ज़्यादातर AI कंपनियों में है
Codex पहले GPT-3 आधारित एक पुराना model था, और अब वही नाम CLI और tools समेत कई जगह दोबारा इस्तेमाल हो रहा है
Google भी इसी तरह "Gemini Ultra" नाम को model name और subscription product name दोनों के लिए इस्तेमाल करके भ्रम पैदा कर रहा है
मेरे लिए सबसे असुविधाजनक चीज़ network access की पाबंदी है
setup script में apt install भी नहीं होता, लगता है domains block किए गए हैं
agent भी पूरे code context को समझने के बजाय बस git grep से शुरू करना चाहता है (UI में दिखता है), इसलिए अनुभव बस औसत-सा लगा
Claude Code की तुलना में इसमें क्या अलग है, यह जानना चाहता हूँ
कई repos को जल्दी-जल्दी बदल सकने की क्षमता सचमुच शानदार लगती है
मैं बहुत सारे example apps साथ में maintain करता हूँ, और README format बदलना या links अपडेट करना, अगर 20 से ज़्यादा जगहों पर दोहराना पड़े, तो बेहद उबाऊ हो जाता है
अगर मैं यह सारा छोटा-मोटा काम Codex को दे सकूँ और बाद में सिर्फ merge button दबाऊँ, तो मैं बहुत खुश होऊँगा
मुझे लगता है यह जल्द ही उस स्तर तक पहुँचेगा
कुछ समय तक शायद Codex से छोटे maintenance tasks फैलाकर करवाऊँगा, और बड़े refactoring या अहम development IDE में ही करता रहूँगा
जिज्ञासा है कि क्या इस तरह के tools का इस्तेमाल गैर-डेवलपर्स code changes के लिए कर सकते हैं
content edits या छोटे CSS बदलाव जैसे काम मैं सच में खुद नहीं करना चाहता, और testing visual रूप से देखी जा सकती है, इसलिए अगर मैं सिर्फ code review करूँ तो वह काफ़ी होगा
ticket गैर-डेवलपर देखे, काम शुरू करे, और अंत में बस कहे "यह ठीक लग रहा है", फिर मैं review कर लूँ
मुझे लगता है कि backlog में पड़े छोटे bugs/feature improvements के लिए यह आदर्श workflow है
मुझे लगता है AI Assist जैसे tools अंततः बेहतरीन low-code platforms बन सकते हैं
शायद इसी तरह वह दिन भी आए जब software engineers सचमुच replace हो जाएँ
लेकिन content changes में भी अक्सर गहरी सोच की ज़रूरत होती है
थोड़ा-सा scale आते ही upstream/downstream dependencies आ जाती हैं, और सिर्फ एक field जोड़ने पर भी पूरे system को कई बातों का ध्यान रखना पड़ता है
CSS जैसे छोटे बदलाव भी मामूली दिखते हैं, लेकिन वास्तव में वे कितने छोटे हैं, यह उपयोगकर्ता के लिए समझना आसान नहीं होता
accessibility, multi-platform (mobile/desktop) जैसी अनगिनत समस्याएँ भी जल्दी सीखनी पड़ेंगी
यहाँ तक कि यह रुझान लोगों को software engineering की ओर "inbound" लाने वाले funnel जैसा भी लगता है
छोटे tasks में 40~60% success rate भी मुझे काफ़ी ठीक लगती है
यह जानकर अच्छा लगा कि ज़्यादा जटिल और गहरी logic वाले tasks में दिक्कतें हैं
अभी इसकी performance बहुत खराब junior engineer जैसी है
उदाहरण के लिए, जब मैंने एक बदलाव करने को कहा, तो compiler warnings हटाने के लिए इसने class की values को एक साथ nullable बना दिया
ऊपर-ऊपर से सब चलता है और compile भी हो जाता है, लेकिन data integrity भी खत्म हो जाती है — यानी नतीजा पूरी तरह गलत
ऐसे उदाहरण काफ़ी हैं
अगर पूरे codebase को Codex के भरोसे बिना निगरानी छोड़ दिया जाए, तो technical debt बहुत जल्दी बढ़ेगा
यह उम्मीद कि Codex हमारी अनुपस्थिति में भी काम अच्छी तरह कर देगा, कुछ ज़्यादा ही आशावादी लगती है
बहुत लोगों के लिए "हमारे बिना भी असरदार तरीके से काम होना" असल में "बेरोज़गारों की कतार" से जुड़ा हुआ लगता है
यह देखना ही अजीब है कि developers इस बदलाव से खुश हो रहे हैं
माहौल ऐसा है मानो किसी दिन हम बस बैठे रहेंगे, agents को सब करते देखेंगे और फिर भी पैसे मिलेंगे
लेकिन काम आसान होने का अंततः मतलब नौकरियाँ खत्म होने की दिशा भी हो सकता है
productivity बढ़ने के इतिहास में ऐसा बहुत कम हुआ है कि workers को ज़्यादा खाली समय मिला हो
आम तौर पर पैटर्न यही रहा है: shareholders और executives का ज़्यादा मुनाफ़ा, बचे हुए कर्मचारियों पर लगभग दोगुना काम, और बाकी बेरोज़गार
मुझे लगता है कि कम-से-कम निकट भविष्य में बेरोज़गारी तक पहुँचने में अभी समय लगेगा
इन models को 90~95% स्तर पर व्यापक श्रेणी के tasks सही ढंग से करने लायक बनाना बहुत बड़ा काम है
किसी भी चीज़ का शुरुआती 60~70% आसान होता है, लेकिन आख़िरी 5~10% ही वास्तव में मुश्किल होता है
जैसा ऊपर कहा गया, कई बार run करके अलग-अलग परिणाम निकालना और उनमें से चुनना अभी बहुत महँगा पड़ता है, और इसे हर task पर एकसाथ लागू करना हो तो inference cost भी काफ़ी बढ़ जाती है
किसी बिंदु पर code review भी खासकर machine-generated code के लिए अनिवार्य हो जाएगा
छोटे projects या छोटे features में machine के काम पर भरोसा किया जा सकता है, लेकिन लंबे समय तक maintain होने वाले codebase में humans को architecture design और review करते रहना होगा
AI अलग-अलग approaches तेज़ी से खोजने में मदद कर सकता है, लेकिन अंतिम निर्णय अभी भी इंसानों का ही होगा, और quality बनाए रखने के लिए direct design या review ज़रूरी रहेगा
निकट भविष्य में engineering teams शायद background agents का सक्रिय उपयोग कैसे किया जाए, यह तलाशेंगी
अभी की तरह सब कुछ शक्तिशाली models को outsource कर देने के तरीके को लेकर मैं संशय में हूँ
मौजूदा AI code review का काम काफ़ी निराशाजनक है, इसलिए बेहतर workflow की ज़रूरत है
आने वाले कई वर्षों तक 'background agents' अपने-आप में हर कंपनी के लिए ज़रूरी infrastructure (Infra) बन सकते हैं
ज़्यादातर कंपनियाँ शायद ऐसे agent infrastructure को खुद host करने के बजाय API के रूप में इस्तेमाल करेंगी
agent-based engineering infrastructure अभी बहुत शुरुआती चरण में है, इसलिए नई तरह के काम के अवसर भी काफ़ी बन सकते हैं (आने वाले 3~5 वर्षों में)
अगर आशावादी नज़रिए से देखें, तो जब किसी चीज़ को सस्ता बनाया जाता है (जैसे: code), तो उसकी demand उल्टा बढ़ भी सकती है
संभव है गैर-डेवलपर्स manager जैसी भूमिका निभाएँ, लेकिन मैंने अनुभव किया है कि जितना काम ज़्यादा महत्वपूर्ण होता है, लोग उतना ही उसे किसी भरोसेमंद इंसान को सौंपना पसंद करते हैं
मुझे लगता है software developers को घोड़े और Codex या Claude Code जैसे नए model agents को कारों से तुलना की जा सकती है
क्या ढाँचा ऐसा होगा कि कुछ घोड़े कार के driver बन जाएँ, और कुछ को अब गाड़ी खींचने की ज़रूरत न रहे, इसलिए वे बेरोज़गार हो जाएँ — यह सोचने वाली बात है
मुझे supported languages की सूची कहीं व्यवस्थित रूप में नहीं मिली
न आधिकारिक परिचय में, न reviews में यह ठीक से दिखता है, और ज़्यादातर सिर्फ web page typo fixes जैसे उदाहरणों से समझाया जाता है
यह तो ऐसा लगता है जैसे एक हफ़्ते में gptel-tool से झटपट बनाया जा सकने वाला स्तर हो
अगर इसे नौकर की तरह इस्तेमाल करें, तो यह अच्छा है!