- Reddit r/codex कम्युनिटी में दोनों मॉडलों की कोडिंग परफ़ॉर्मेंस की तुलना पर चर्चा चल रही है, और अधिकांश उपयोगकर्ता इस समय GPT 5.5 की बढ़त का समर्थन कर रहे हैं
- GPT 5.5 स्थिरता और सटीकता में बेहतर है, जबकि Opus 4.7 को हाल की परफ़ॉर्मेंस गिरावट और उपयोग सीमा समस्याओं को लेकर काफ़ी शिकायतें मिल रही हैं
- Opus 4.7 को फ्रंटएंड/UI डिज़ाइन क्षेत्र में अब भी हल्की बढ़त होने का आकलन भी मौजूद है
- कई उपयोगकर्ताओं ने Claude(Opus) में कंप्यूटिंग संसाधनों की कमी के कारण परफ़ॉर्मेंस डाउन-ट्यूनिंग (lobotomize) की ओर इशारा करते हुए विश्वसनीयता पर सवाल उठाए
- यह राय भी सामने आई कि AI मॉडल लगातार बेहतर होते रहेंगे, इसलिए मौजूदा बढ़त से ज़्यादा accessibility·price·usage limits·censorship policy जैसे पहलू लंबे समय में अधिक महत्वपूर्ण चयन मानदंड बन सकते हैं
समग्र कोडिंग परफ़ॉर्मेंस तुलना
- ज़्यादातर टिप्पणियाँ इस बात से सहमत हैं कि GPT 5.5 कोडिंग/प्रोग्रामिंग में कुल मिलाकर आगे है
- GPT 5.5 तेज़, सक्षम है, और डिटेल्स पर ध्यान Opus 4.7 से बेहतर देता है
- GPT 5.5 बग फ़िक्सिंग और छूटी हुई dependencies पहचानने में प्रभावी है
- Opus 4.7 के बारे में यह भी कहा गया कि शुद्ध कोडिंग क्षमता लगभग समान है, लेकिन इसमें "lazy" प्रवृत्ति है, जिससे यह कभी-कभी केवल न्यूनतम काम करता है
- GPT 5.5 पहले कोड के impact scope और ज़रूरी बातों का आकलन करके काम करता है, जबकि Opus 4.7 जल्दी से मध्यम स्तर का समाधान बना देने की ओर झुकता है
UI/फ्रंटएंड डिज़ाइन
- डिज़ाइन और फ्रंटएंड कामों में Opus 4.7 थोड़ा बेहतर परिणाम देता है
- हालांकि GPT 5.5 ने भी केवल लोगो के आधार पर बैंड वेबसाइट डिज़ाइन को one-shot में लगभग पूरी तरह सही लागू करने का उदाहरण दिखाया है
- Codex के UI/UX काम में नतीजे prompting की गुणवत्ता और visual cues दिए गए हैं या नहीं, इस पर काफ़ी निर्भर करते हैं
- एक रणनीति के रूप में GPT 5.5 से बेस और स्ट्रक्चर तैयार करके, फिर Opus 4.7 से फ्रंटएंड डिज़ाइन को निखारने का संयोजन सुझाया गया
- UI हिस्से को बेहतर करने के लिए Meta Muse Spark जैसे मुफ़्त टूल्स के उपयोग का सुझाव भी है
Opus 4.7 की स्थिरता·उपयोग सीमा समस्याएँ
- यह धारणा व्यापक है कि नए उपयोगकर्ताओं की तेज़ बढ़ोतरी से कंप्यूटिंग संसाधन कम पड़ने के कारण Opus 4.7 की परफ़ॉर्मेंस नीचे ट्यून की गई
- 4.7 (और 4.6) को बार-बार nerf किए जाने की कई शिकायतें हैं
- Opus 4.7 के max effort मोड में hallucination अधिक होने की रिपोर्टें हैं
- 18 मिनट के सेशन में एक अधूरा prompt ही 5 घंटे की usage limit खा जाने का मामला सामने आया
- $20 Claude Pro सब्सक्रिप्शन में Opus की उपयोग सीमा बहुत कड़ी मानी जा रही है
GPT 5.5 के फायदे और कमियाँ
- GPT 5.5 स्थिर है और regress हुए बिना लगातार एकसमान गुणवत्ता बनाए रखता है
- कुछ उपयोगकर्ताओं का आकलन है कि इसमें झूठी जानकारी गढ़ते हुए अभी तक नहीं देखा गया
- लेकिन इसमें भी prompt में लिखी बातों को न्यूनतम स्तर पर ही पूरा करने वाली "lazy" प्रवृत्ति है, इसलिए विस्तृत prompting या पहले से planning·Q&A प्रक्रिया की ज़रूरत पड़ सकती है
- यह ज़्यादा tokens खर्च करता है
- GPT 5.4 ($20 सब्सक्रिप्शन) की तुलना में 5.5 usage limit 2 गुना खपत करता है, जबकि benchmark सुधार केवल 2~5% बताया गया, इसलिए cost-effectiveness पर सवाल भी हैं
कीमत और सब्सक्रिप्शन तुलना
- व्यक्तिगत उपयोग के लिए $100 ChatGPT Pro सब्सक्रिप्शन को अच्छा value-for-money माना गया
- Codex + $10 Kimi या $22 Gemini का संयोजन करके UI काम को पूरक करने की रणनीति सुझाई गई
- अगर आप पहले से Google storage इस्तेमाल कर रहे हैं, तो Gemini प्रभावी रूप से $10~15 पड़ता है
- कुछ उपयोगकर्ता Claude Max अकाउंट से GPT Plus पर पूरी तरह स्विच करने पर विचार कर रहे हैं
दीर्घकालिक दृष्टिकोण
- माना जा रहा है कि कुछ महीनों में चीन के मॉडलों सहित सभी मॉडल Opus 4.6 स्तर या उससे ऊपर पहुँच जाएंगे, और संभव है कि कम कीमत पर उपलब्ध हों
- मॉडल की raw performance से ज़्यादा accessibility, price, usage limits, censorship, context awareness भविष्य में अधिक महत्वपूर्ण differentiators बन सकते हैं
- अभी GPT 5.5 आगे है, लेकिन जैसे अतीत में Claude अपने शिखर के बाद कमजोर हुआ, वैसे ही Codex भी जल्द performance down-tuning का शिकार हो सकता है — ऐसी चिंता मौजूद है
- Kimi 2.6, GLM, MiniMax जैसे अन्य मॉडलों से तुलना को लेकर भी रुचि दिख रही है
16 टिप्पणियां
मुझे लगता है कि वे सोचते हैं कि अगर stealth patch से performance घटा भी दें तो किसी को पता नहीं चलेगा, लेकिन असल में लोगों की instinct सोच से ज़्यादा तेज़ होती है, इसलिए मेरी instinct + कम्युनिटी के लोगों की बातों को मिलाकर देखें तो जवाब तुरंत मिल जाता है.
"तो फिर तुम कर क्या सकते हो, lol" वाली बात है, इसलिए मजबूरी में बस इस्तेमाल करते हैं....
मैं 3.5 के समय से हमेशा Claude को मुख्य रूप से इस्तेमाल करता था, लेकिन 5.5 के बाद से मैंने GPT को मुख्य मॉडल की तरह इस्तेमाल करना शुरू किया है। काफ़ी अच्छा लगा।
Claude से सिर्फ़ planning कराकर और Codex से सिर्फ़ execution करवाने का तरीका कैसा रहेगा?
मैं इन दिनों ऐसा ही कर रहा हूँ। लेकिन Codex CLI की sandbox policy बहुत ज़्यादा सख्त है, इसलिए build और test तक उसे सौंपने की कोशिश करूँ तो यह काफ़ी असुविधाजनक लगता है।
दोनों की बात करने की शैली बहुत ही घटिया है, जो बहुत चिढ़ दिलाती है। वैसे दोनों ही काफ़ी lazy हैं, जो कहा जाता है उसे भी छोड़ते हुए काम करते हैं।
यह बिल्कुल वैसा ही है जैसा मैंने महसूस किया था, इसलिए मैं $100 वाला GPT प्लान लेकर इस्तेमाल कर रहा हूँ
और Claude के $200 वाले प्लान को $100 पर लाने के बारे में सोच रहा हूँ
codex 5.4 की Korean भाषा अजीब थी, लेकिन performance के मामले में वह पहले ही opus 4.6 और opus 4.7 से बेहतर था (अजीब बोलने का ढंग entry barrier था / "खोला गया", "बंद किया गया", "धकेला जाएगा" वगैरह)
codex 5.5 का बोलने का ढंग भी अब सामान्य हो गया है और यह कहीं ज़्यादा बारीक, सावधान और स्मार्ट हो गया है। opus 4.7 = आलसी लगता है, reasoning cost बचाने की कोशिश बहुत साफ़ महसूस होती है, और अनुभव के हिसाब से यह opus 4.6 से भी पीछे गया हुआ लगता है
codex-केवल मॉडल 5.3 के समय सच में ऐसा लगता था जैसे किसी ऐसे जूनियर सहकर्मी से बात कर रहे हों जिसे बातचीत की समझ नहीं है, लेकिन coding सिर्फ़ अच्छी आती है.5.4 से इसने थोड़ा-थोड़ा बोलना शुरू किया, और 5.5 से लगता है कि यह आधा-अधूरा ही सही, लेकिन कुछ हद तक संभल गया है.
अब भी कभी API को contract कह देता है, और कभी-कभी English और Korean को पागलों की तरह मिलाकर बोलता उगल देता है, इसलिए मुझे लिखना पड़ता है, "समझने में आसान तरीके से, जितना हो सके English कम करके समझाओ".
फिर भी, code निकालने की performance मुझे महसूस होने के हिसाब से 5.4 से Opus से आगे निकल गई थी. Opus 4.7 आया है, लेकिन मैंने उसे हल्का सा भी ट्राय नहीं किया. क्योंकि साफ़ दिखता है कि वह फिर से "Anthropic"-स्टाइल marketing ही होगी.
उल्टा, Opus 4.6 और 4.7 में तो कोरियन ही अजीब होने लगी थी lol
जिन लोगों ने पहले से Claude के साथ harness सेटअप बना रखा है, उनके लिए Claude अच्छा है, और अगर पहली बार इस्तेमाल कर रहे हैं, तो GPT ज़्यादा बेहतर लगता है। cost-performance के मामले में GPT साफ़ तौर पर आगे है। 20 डॉलर वाला भी काफ़ी है।
जो लोग पहले से development कर रहे हैं, उनके लिए GPT 5.5 बेहतर है.
और non-developers के लिए Claude बेहतर है, ऐसा मुझे लगता है.
लेकिन इस पर बहुत ज़्यादा बहस करने की ज़रूरत नहीं है
आखिरकार, काम की चीज़ें बनाना ही सबसे अच्छा है..
कुल मिलाकर माहौल यही लग रहा है कि GPT 5.5 ज़्यादा बेहतर है। मैं अब तक सिर्फ Claude Code (Opus 4.7) ही इस्तेमाल करता आया हूँ.. लगता है अब Codex भी गंभीरता से इस्तेमाल करके देखना चाहिए।
असल में GPT-5 से ही, फ्रंट डिज़ाइन को छोड़कर, यह ज़्यादा बेहतर था।
कम्युनिटी ही काफ़ी धीमी है..
सहमत हूँ
अब तक मेरे असल अनुभव और कम्युनिटी की प्रतिक्रिया एक-दूसरे के उलट रही थीं, इसलिए एक तरह का गैप महसूस हो रहा था।
सही कहा
एक साल पहले तक मैं Claude की ज़ोरदार सिफारिश करता था, लेकिन आजकल मैं Codex app की ज़ोरदार सिफारिश करता हूँ।