16 पॉइंट द्वारा GN⁺ 2025-09-17 | 6 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-5-Codex एक ऐसा मॉडल है जिसे वास्तविक software engineering के लिए optimize किया गया है, और यह छोटी interactive sessions से लेकर लंबे समय तक स्वतंत्र रूप से काम करने तक सब कुछ support करता है
  • नए मॉडल में code review capabilities को मजबूत किया गया है, जिससे dependency exploration, test execution, और intent बनाम implementation की तुलना के जरिए महत्वपूर्ण defects को शुरुआती चरण में पकड़ा जा सकता है
  • यह large-scale code refactoring जैसे कामों में बेहतरीन प्रदर्शन करता है, और user requirements के अनुसार काम के समय को dynamically adjust करता है
  • Codex CLI और IDE extension को agentic workflow के अनुरूप दोबारा तैयार किया गया है, जिसमें image attachment, work progress tracking, web search, और MCP integration जैसी सुविधाएँ बेहतर की गई हैं
  • GitHub integration के जरिए PR auto review और fix suggestions भी संभव हो गए हैं, जिससे टीम का review burden कम होता है और release reliability बढ़ती है
  • Codex अब ChatGPT Plus, Pro, Business, Edu, Enterprise plans में शामिल है

GPT-5-Codex

  • GPT-5-Codex एक ऐसा मॉडल है जो जटिल वास्तविक engineering tasks (project build, feature addition, large-scale refactoring, debugging, code review) के लिए विशेष रूप से बनाया गया है
    • AGENTS.md निर्देशों का पालन करने की इसकी क्षमता बेहतर हुई है, इसलिए code style या cleanliness पर लंबी व्याख्या दिए बिना भी मनचाहा परिणाम पाया जा सकता है
  • यह task की कठिनाई के अनुसार thinking time को dynamically adjust करता है
    • सरल requests पर यह तेज़ी से जवाब देता है, जबकि बड़े tasks पर यह कई घंटों तक स्वतंत्र रूप से काम करके परिणाम को बेहतर बनाता है
  • यह code review के लिए optimized है, और codebase exploration, dependency analysis, तथा test execution के जरिए accurate verification करता है
    • open source project commits की verification में GPT-5-Codex की reviews को अधिक भरोसेमंद माना गया
  • यह frontend tasks में भी मजबूत है, और cloud में image input का उपयोग करके progress को visually review किया जा सकता है तथा परिणाम screenshots के रूप में साझा किए जा सकते हैं
  • जहाँ GPT-5 एक general-purpose model है, वहीं GPT-5-Codex को Codex environment के लिए विशेष agentic coding tasks के लिए design किया गया है

Codex updates

  • Codex CLI और IDE extension को agentic coding experience के केंद्र में रखकर फिर से design किया गया है
    • CLI में अब image attachment, work progress To-Do management, और external system connection संभव है
    • terminal UI में tool calls और diff को अधिक स्पष्ट रूप से देखने लायक बनाया गया है
    • approval mode को सरल बनाया गया है ताकि security और convenience दोनों मिल सकें
  • IDE extension VS Code, Cursor आदि में काम करता है, और files व selected code के आधार पर छोटे prompts के साथ तेज़ results देता है
    • यह local और cloud environments के बीच सहज रूप से काम करता है, और ongoing tasks की tracking तथा completed tasks की review को support करता है
  • cloud environment में caching के जरिए speed improvement (90% reduction), automatic environment setup, और internet access control features को मजबूत किया गया है
    • UI design specs या bug reports के समय images का उपयोग किया जा सकता है, और Codex अपना browser खोलकर results verify कर सकता है तथा PR में screenshots attach कर सकता है
  • GitHub integration के साथ PR auto review और fix suggestions का support मिलता है
    • “@codex review” command के जरिए specific review request की जा सकती है
    • OpenAI के अंदर भी अधिकांश PRs की pre-review Codex करता है, और इसने सैकड़ों issues को शुरुआती चरण में खोजा है

सुरक्षा और security

  • Codex डिफ़ॉल्ट रूप से sandbox environment में चलता है, जहाँ network access सीमित रहता है
    • approval-based control के जरिए यह तय किया जा सकता है कि risky commands चलें या नहीं, और केवल trusted domains को अनुमति दी जा सकती है
  • developers अपने environment के अनुसार security level को adjust कर सकते हैं, और Codex हर task के लिए logs और test results देता है ताकि verification आसान हो
  • human review को replace करने के बजाय इसे assistant reviewer के रूप में उपयोग करने की सिफारिश की जाती है
  • GPT-5-Codex को biology और chemistry domains में उच्च क्षमता वाले model के रूप में वर्गीकृत किया गया है, इसलिए इस पर safety safeguards लागू किए गए हैं

कीमत और उपलब्धता

  • Codex ChatGPT Plus, Pro, Business, Edu, Enterprise plans में शामिल है
    • Plus/Edu/Business सप्ताह में 1~2 sessions के लिए उपयुक्त हैं, जबकि Pro full-time development weekly work को support करता है
  • Business plan में अतिरिक्त credits खरीदे जा सकते हैं, और Enterprise shared credit pool के आधार पर चलता है
  • Codex CLI API key users के लिए भी जल्द GPT-5-Codex उपलब्ध कराया जाएगा
  • Codex एक तेज़ और अधिक भरोसेमंद coding partner के रूप में विकसित हो रहा है, और टीमों को ambitious projects को पूरा करने में मदद करने वाले tool के रूप में स्थापित होगा

6 टिप्पणियां

 
aeolian21 2025-09-18

कई context को ध्यान में रखना पड़ने वाले issues में इसकी problem-solving क्षमता कमजोर है, और कुल मिलाकर यह अनावश्यक design pattern code का बहुत ज़्यादा उपयोग करता है। इससे यह मजबूत impression मिलता है कि training में production code की बजाय मुख्यतः educational example code का उपयोग किया गया था.
कुल मिलाकर gemini की तुलना में performance में काफ़ी अंतर है।

 
bluekai17 2025-09-18

Claude Code से तुलना करें तो अभी के लिए Claude Code थोड़ा ज़्यादा उपयोगी लगेगा क्या?

 
kuthia 2025-09-18

आख़िरकार, क्या एक अच्छा AI टूल वही होगा जो उपयोगकर्ता के सामान्य ज्ञान/समझ के स्तर को ध्यान में रखते हुए भी परिणामों की गुणवत्ता को एक निश्चित स्तर पर सुनिश्चित करे, ताकि अच्छा user experience मिले?
हर स्तर के उपयोगकर्ताओं का लगातार AI टूल्स से कुछ और बेहतर चाहना दिलचस्प है.

 
slowandsnow 2025-09-17

Claude इतना असुविधाजनक है कि सोच रहा हूँ शायद उस पर स्विच कर जाऊँ।

 
shakespeares 2025-09-18

क्या आपको किसी खास बात में असुविधा हो रही है?

 
GN⁺ 2025-09-17
Hacker News राय
  • यह पुष्टि की गई कि नए मॉडल का prompt size पहले की तुलना में लगभग आधा (10KB vs 23KB) हो गया है (संबंधित resources: पिछले prompt का उदाहरण, उससे भी पुराने prompt का उदाहरण)
    SWE-bench के आधार पर performance मौजूदा gpt-5 जैसा ही है, लेकिन gpt-5-codex मुख्य रूप से code refactor क्षेत्र में बेहतर हुआ लगता है (internal benchmark के अनुसार 33.9% -> 51.3%)
    हाल ही में Codex CLI(gpt-5-high) के साथ कई internal libraries को packages में अलग करने वाला एक बड़ा refactor करने की कोशिश की, लेकिन file delete करके दोबारा लिखने की प्रक्रिया में मॉडल में अक्सर bugs आए (जैसे important files छूट जाना)
    व्यक्तिगत रूप से मैं files को बस copy करके package-वार modify करने वाला approach पसंद करता था, और इस सुधार में लगता है कि बेहतर tool calling लागू हुई है
    साथ ही, यह भी दावा किया गया है कि नया मॉडल अधिक "Steerable" (स्पष्ट रूप से नियंत्रित करने योग्य) है, लेकिन मेरे अनुभव में Codex CLI(gpt-5) पहले से ही Claude Code की तुलना में काफी आसान था, इसलिए अतिरिक्त सुधार बहुत स्वागतयोग्य हैं

    • मैं भी सहमत हूँ कि SWE-bench score gpt-5 और gpt-5-codex दोनों में लगभग समान है, लेकिन SWE-bench जैसा evaluation स्वयं बहुत सीमित test है
      एक ही score होने पर भी वास्तविक उपयोग का अनुभव काफी अलग हो सकता है
      SWE-bench जिन पहलुओं को माप नहीं पाता, उन पर विस्तार से बात करने वाला X (पूर्व Twitter) thread भी साझा किया गया है: लिंक

    • "ज़्यादा steerable" होना उल्टा नुकसानदेह भी हो सकता है
      क्योंकि यह prompt को ज़रूरत से ज़्यादा शाब्दिक रूप से follow कर सकता है
      नतीजतन, बेहतर prompt लिखने और मॉडल का उपयोग करने के तरीकों की समझ और ज़रूरी हो जाती है
      उच्च स्तर के SW engineers के लिए यह अच्छा है, लेकिन सहज अंदाज़ में coding करने वाले developers (vibe-coder) के लिए मुश्किल हो सकता है

    • अचानक बहुत से लोग यह कह रहे हैं कि Codex CLI w/gpt-5-codex, Claude Code से बेहतर हो गया है, लेकिन इस पर आसानी से भरोसा करना कठिन है

    • सोच रहा हूँ कि क्या prompt का कुछ हिस्सा ऊपर की layer में shift कर दिया गया है, या किसी और तरीके से bake-in किया गया है

    • code refactoring के दौरान अगर packages में move करना हो, तो files को सीधे manually move करने का तरीका recommend करता हूँ
      Codex को बस इतना कहना होता है: "पहले file किसी और location पर थी, इसे सही तरह से काम करने लायक ठीक कर दो"
      लगता है Codex और दूसरे CLI अभी भी file move की अवधारणा को अच्छी तरह handle नहीं कर पाते
      खासकर file delete/move लगभग कभी भी git commit बनाते समय सही तरह से track नहीं हुआ

  • मैं लंबे समय तक claude-4-sonnet + Cursor संयोजन का कट्टर user रहा, लेकिन पिछले 2 महीनों में usage बहुत बढ़ गया
    Cursor का basic subscription लेने के बाद Pro में upgrade किया, लेकिन फिर भी limit आ गई और अंत में Claude API key सीधे इस्तेमाल करके हफ्ते में लगभग $70 खर्च करने लगा (जो टिकाऊ नहीं लगा)
    फिर grok-code-fast-1 आया और उसे Cursor से जोड़कर रोज़ इस्तेमाल किया; यह तेज़, सस्ता (अब तक free), और बेहद संतोषजनक था
    हाल ही में GPT-5 भी Codex VSCode extension के official माध्यम से इस्तेमाल किया, और यह सचमुच हैरान कर देने वाला रूप से शानदार था
    gpt-5-medium के साथ React Native app का बड़ा refactor किया, app structure और performance में सुधार सिर्फ एक रात में पूरा हो गया (अगर खुद करता तो कम से कम 2 दिन लगते)
    अभी gpt-5-medium-codex से app routing की पूरी structure दोबारा बनवा रहा हूँ, और tool calls बहुत हैं, command की समझ और execution बहुत व्यवस्थित है
    आगे के लिए stack शायद Cursor + grok-code-fast-1 (दैनिक उपयोग) और ज़रूरत पड़ने पर Codex/GPT होगा
    वैसे, gpt-5-medium को पूरे दिन सचमुच बहुत ज़्यादा इस्तेमाल किया, लेकिन ChatGPT Plus account के हिसाब से एक बार भी limit नहीं लगी, इसलिए OpenAI team को धन्यवाद दे रहा हूँ

    • gpt-5-medium के साथ refactoring की जो workflow अपनाई, उसके बारे में जानना चाहता हूँ
      मेरे पास खुद test करने लायक कोई case नहीं है, इसलिए यह समझना चाहता हूँ कि आप मॉडल को किस तरह prompt देते हैं, किस तरह के suggestions मिलते हैं, और developer के रूप में मेरी अपनी knowledge कितनी मदद करती है
      यह भी जानना चाहता हूँ कि क्या यह अनुभव औसत SWE या औसत developer के लिए भी व्यावहारिक है

    • Cursor इस्तेमाल करने के एक साल में पहली बार usage limit cross की
      Claude, GPT, और Grok, तीनों की limit से टकरा चुका हूँ
      इसलिए Cursor Pro subscription के भीतर extra usage payment (महीने का $25, यानी $20+$5) चुनकर Claude का इस्तेमाल जारी रखा, क्योंकि वह Grok से तेज़ था

    • मैंने भी लगभग यही रास्ता चुना
      grok-code-fast-1 ज़्यादातर coding tasks में अच्छा काम करता है
      इसे opencode में इस्तेमाल कर रहा हूँ, और लगता है कुछ मात्रा free में मिलती है; अलग से grok key जोड़े बिना भी मैं इसका उपयोग कर पाया

  • Codex CLI IDE की quality से बहुत प्रभावित हूँ
    पहले अगर यह ख़ास नहीं लगा हो, तब भी vscode extension के साथ दोबारा आज़माने की सलाह दूँगा, क्योंकि Plus subscription में usage बहुत उदारता से मिलता है
    Claude code max subscription छोड़कर ChatGPT pro $200 plan पर स्विच कर लिया
    यह बहुत तेज़ हो गया है, और अभी तक कभी limit नहीं लगी

    • मैं aider और gemini pro को जोड़कर project development में इस्तेमाल कर रहा हूँ
      विशेष रूप से अपने बनाए tool project को साझा कर रहा हूँ: aretecodex.tools

    • मैं Cursor का $20 वाला plan इस्तेमाल कर रहा हूँ, लेकिन 15 दिन में ही limit आ गई और महीने के बाकी हिस्से के लिए extra charges देने पड़ रहे हैं
      कोई recommend करने लायक उपाय जानना चाहता हूँ

    • जानना चाहता हूँ कि CLI IDE से ठीक-ठीक क्या मतलब है

    • अब यह भी उलझन है कि क्या इसे claude code की तरह subscription के रूप में इस्तेमाल किया जा सकता है, या सिर्फ API ही है

  • इस thread में बहुत से users का Codex पर switch करना या Claude Code से दूर जाना दिलचस्प लगा
    Claude Code की सबसे बड़ी समस्या यह थी कि बहुत ज़्यादा काम देने पर वह mock implementations या fake code बना देता था, जिससे वास्तव में समस्या और बिगड़ जाती थी
    input prompt को समायोजित करके भी सुधार मुश्किल था, इसलिए अंततः Codex पर बदलना पड़ा
    Codex को पहले से पूरी तरह set-up codebase में काम करने का फायदा ज़रूर है, लेकिन वास्तविक अनुभव के लिहाज़ से Codex कहीं बेहतर था

    • Claude का उपयोग करते समय सबसे प्रभावी तरीका यह है: 1) plan-mode में plan बनाओ, 2) फिर उस plan को implement करने का निर्देश दो
      दूसरे systems में अलग "planning" mode नहीं होता, इसलिए वे शुरू से ही implementation पर चले जाते हैं और prompt को बहुत सावधानी से tune करना पड़ता है
      Claude अलग से "planning > execution" structure support करता है, इसलिए approach अलग है
  • पिछले 2 हफ्तों के अपने अवलोकन के अनुसार, Claude Code की performance काफ़ी गिर गई है और usage allocation भी बहुत कम हो गई है, जबकि OpenAI Codex की performance बढ़ी हुई और quota कहीं अधिक उदार लग रही है
    अगर किसी ने एक महीने से ज़्यादा समय से इसे नहीं आज़माया है, तो Codex CLI को फिर से test करने की सलाह दूँगा

    • अंतिम user के नज़रिए से सबसे महत्वपूर्ण बात है कि "जब चाहो बाहर निकल सको"
      services की लगातार तुलना करनी चाहिए और price/performance ratio में जो सबसे अच्छा हो, उसे चुनना चाहिए
      पिछले एक साल में कई कंपनियों ने अलग-अलग फायदे-नुकसान के साथ प्रतिस्पर्धा की है, लेकिन कोई विशेष रूप से क्रांतिकारी service नहीं रही
      किसी एक service पर अड़े रहने की ज़रूरत नहीं, और SaaS कंपनियाँ ही users को बाँधे रखने की कोशिश कर रही हैं

    • जानना चाहता हूँ कि अगर project में git हो तो क्या Codex CLI अब भी "YOLO(जो हो सो हो)" style में व्यवहार करता है
      एक coding assistant tool से मेरी अनिवार्य अपेक्षाएँ हैं:

  1. commands चलाने के लिए allowlist (whitelist) देना
  2. rm जैसी खतरनाक commands के लिए हर बार approval ज़रूरी हो
  3. custom slash commands का support हो
    build hooks या sub-agent features न भी हों तो बहुत फ़र्क नहीं पड़ता
  • एक सवाल है: Codex CLI में Claude के "normal mode" जैसा mode कैसे इस्तेमाल करें?
    Codex या तो vibe coding support करता है या plan mode, लेकिन बीच में "क्या मैं यह काम (a/b) करूँ?" पूछने वाला interactive mode नहीं है, इसलिए काफ़ी निराशा होती है
    यह समझना मुश्किल है कि modified code edits को copy-paste करना है या auto-accept करना है, सिर्फ इन्हीं विकल्पों तक सीमित क्यों रहना चाहिए

    • आमतौर पर prompt में साफ़ लिख देता हूँ: "plan बनाओ, और मेरी approval तक coding मत करो"
      फिर उस plan loop को कई बार दोहराकर review करता हूँ और उसके बाद execution के लिए कहता हूँ
      कभी-कभी LLM उस plan को "भूल" जाता है, इसलिए plan को अलग से copy करके save कर लेता हूँ
      काम को चरणों में मुझे सौंपने देता हूँ, या build/unit tests जैसी हर milestone पर verification भी साथ में कराता हूँ
  • यह बहुत प्रभावशाली लगा
    "shared presence" animation (ऐसा web app जिसमें सभी users के cursor location के अनुसार background बदलता है) बनाते समय Claude और Codex दोनों के साथ प्रयोग किया
    कल तक दोनों models संघर्ष कर रहे थे, और उनमें Claude थोड़ा आगे था
    जब कुछ "creative" बनाना हो, तब दोनों models का output कुछ हद तक घिसा-पिटा (stock) लगता था, और simulation implementation मुश्किल था
    आज जब वही काम Codex से किया, तो design अब भी कुछ फीका था, लेकिन simulation वाला हिस्सा कहीं बेहतर perform कर रहा था

    • LLM द्वारा बनाया गया UI हमेशा साधारण और घिसा-पिटा निकलता है, जब तक कि prompt बहुत विस्तार से न दिया जाए (design/color scheme/preferred design instructions आदि)
      अगर अतिरिक्त UI properties दें, या यह कहें कि "मौजूदा app design को देखकर उसी के अनुरूप बनाओ", तो परिणाम बहुत बेहतर हो जाता है
  • AI coding को फिर से आज़माना चाहता था, इसलिए ChatGPT subscribe करके Codex इस्तेमाल किया, लेकिन इसकी speed बहुत धीमी लगी
    लगभग खाली repository में एक simple task होने के बावजूद मॉडल 20 मिनट तक सिर्फ "सोचता" रहा
    ऐसा अनुभव कि engineer सिर्फ इंतज़ार करता रहे, वास्तविक productivity पर सवाल उठाता है
    अगर यह asynchronous agent हो, तो कई को parallel चलाया जा सकता है, लेकिन उसके लिए structured codebase चाहिए, और मैंने पहले ही कई घंटे लगा दिए लेकिन skeleton भी तैयार नहीं हो पाया
    documents और videos सब पढ़-देख लिए, लेकिन इस स्तर पर तो लगता है कि अपने हाथ से बनाना कहीं ज़्यादा तेज़ होगा
    समझ नहीं आ रहा कि मैं क्या गलत कर रहा हूँ, यह सिर्फ server overload है, या मौजूदा AI की वास्तविक स्थिति ही ऐसी है

    • जिन कई engineers को मैंने देखा है, वे मुख्य रूप से parallel runs आज़माते हैं
      जब एक साथ कई agents से काम लेना सहज हो जाए, तब यह काफ़ी उपयोगी लगता है
      इससे संबंधित एक article पहले पढ़ा था, लेकिन अभी ढूँढना मुश्किल है
  • पिछले weekend पर पहली बार Codex इस्तेमाल किया, और नतीजा थोड़ा अजीब था
    बहुत ही simple उदाहरण माँगा था (Rails app को Docker Compose पर चलाना और homepage/Devise जोड़ना), लेकिन असल files बनाने के बजाय उसने bootstrap.sh के भीतर सभी file contents hardcode कर दिए
    आगे देखना चाहता हूँ कि क्या यह किसी और तरीके से काम करता है

  • पिछले महीने से chatgpt खरीदकर इस्तेमाल कर रहा हूँ, और लगता है कि OpenAI इन दिनों user experience में काफ़ी सुधार कर रहा है
    उदाहरण के लिए, voice mode Claude से कहीं बेहतर है, और model names पहले बहुत भ्रमित करते थे लेकिन अब सरल हो गए हैं, इसलिए इस्तेमाल आसान है
    general assistant के रूप में भी यह Claude से बेहतर perform करता है, और OpenAI लगातार नए tools जारी कर रहा है, इसलिए reliability के मामले में भी बढ़त में है