- Reddit r/codex कम्युनिटी में दोनों मॉडलों की कोडिंग परफ़ॉर्मेंस की तुलना पर चर्चा चल रही है, और अधिकांश यूज़र मौजूदा समय में GPT 5.5 की बढ़त का समर्थन कर रहे हैं
- GPT 5.5 स्थिरता और सटीकता में बेहतर है, जबकि Opus 4.7 को हालिया परफ़ॉर्मेंस गिरावट और उपयोग सीमा की समस्याओं को लेकर काफ़ी शिकायतें मिल रही हैं
- Opus 4.7 को फ्रंटएंड/UI डिज़ाइन के क्षेत्र में अब भी थोड़ी बढ़त वाला माना जाता है
- कई यूज़र्स ने Claude(Opus) में कम्प्यूटिंग संसाधनों की कमी के कारण परफ़ॉर्मेंस डाउनग्रेड (
lobotomize) की ओर इशारा करते हुए उसकी विश्वसनीयता पर सवाल उठाए - यह राय भी सामने आई कि AI मॉडल लगातार बेहतर हो रहे हैं, इसलिए मौजूदा बढ़त से ज़्यादा एक्सेसिबिलिटी·कीमत·उपयोग सीमा·सेंसरशिप नीति जैसे पहलू लंबी अवधि में अधिक महत्वपूर्ण चयन मानदंड बन सकते हैं
समग्र कोडिंग परफ़ॉर्मेंस तुलना
- ज़्यादातर टिप्पणियाँ इस बात से सहमत हैं कि GPT 5.5 कोडिंग/प्रोग्रामिंग में कुल मिलाकर आगे है
- GPT 5.5 तेज़, सक्षम है, और बारीक विवरणों पर ध्यान Opus 4.7 से बेहतर देता है
- GPT 5.5 बग फ़िक्स और छूटी हुई dependencies पहचानने में प्रभावी है
- Opus 4.7 के बारे में कुछ लोगों का कहना है कि उसकी मूल कोडिंग क्षमता काफ़ी समान है, लेकिन उसमें "lazy" रुझान है और वह कभी-कभी सिर्फ़ न्यूनतम काम करके रुक जाता है
- GPT 5.5 कोड के प्रभाव-क्षेत्र का आकलन करके और ज़रूरी बातों को समझकर काम करता है, जबकि Opus 4.7 जल्दी से एक मध्यम स्तर का समाधान बनाने की ओर झुकता है
UI/फ्रंटएंड डिज़ाइन
- डिज़ाइन और फ्रंटएंड कार्यों में Opus 4.7 थोड़े बेहतर नतीजे देता है
- हालांकि GPT 5.5 का एक उदाहरण भी है, जहाँ उसने केवल लोगो के आधार पर बैंड वेबसाइट डिज़ाइन को one-shot में लगभग पूरी तरह सही बना दिया
- Codex के UI/UX काम का परिणाम प्रॉम्प्टिंग की गुणवत्ता और विज़ुअल संकेतों की उपलब्धता पर निर्भर करता है
- एक सुझाई गई रणनीति है कि GPT 5.5 से बेस और संरचना बनाई जाए, फिर Opus 4.7 से फ्रंटएंड डिज़ाइन को निखारा जाए
- UI हिस्से को बेहतर बनाने के लिए Meta Muse Spark जैसे मुफ़्त टूल इस्तेमाल करने का सुझाव भी है
Opus 4.7 की स्थिरता और उपयोग सीमा की समस्याएँ
- यह धारणा काफ़ी फैली हुई है कि नए यूज़र्स की तेज़ बढ़ोतरी से कम्प्यूटिंग संसाधनों की कमी हुई और Opus 4.7 की परफ़ॉर्मेंस को नीचे समायोजित किया गया
- 4.7 (और 4.6) के बार-बार nerfed होने की शिकायतें काफ़ी हैं
- Opus 4.7 के max effort mode में hallucination ज़्यादा होने की रिपोर्टें हैं
- 18 मिनट के सेशन में एक अधूरा प्रॉम्प्ट ही 5 घंटे की उपयोग सीमा खा जाने का मामला सामने आया
- $20 Claude Pro सब्सक्रिप्शन में Opus की उपयोग सीमा बहुत सख़्त मानी जा रही है
GPT 5.5 के फायदे और नुकसान
- GPT 5.5 स्थिर है और regress के बिना लगातार गुणवत्ता बनाए रखता है
- कुछ यूज़र्स का कहना है कि इसमें अभी तक झूठी जानकारी गढ़ते हुए नहीं देखा गया
- लेकिन इसमें भी एक "lazy" प्रवृत्ति है, जहाँ यह प्रॉम्प्ट में स्पष्ट रूप से कही गई बातों को ही न्यूनतम स्तर तक करता है; इसलिए विस्तार से प्रॉम्प्टिंग या पहले से योजना/Q&A प्रक्रिया की ज़रूरत पड़ सकती है
- इसका token consumption अधिक रहता है
- GPT 5.4 ($20 सब्सक्रिप्शन) की तुलना में 5.5 उपयोग सीमा का 2 गुना खर्च करता है, जबकि बेंचमार्क सुधार केवल 2~5% स्तर का है, इसलिए इसकी वैल्यू पर सवाल भी हैं
कीमत और सब्सक्रिप्शन तुलना
- व्यक्तिगत उपयोग के हिसाब से $100 ChatGPT Pro सब्सक्रिप्शन को बेहतर वैल्यू वाला बताया गया
- Codex + $10 Kimi या $22 Gemini के संयोजन से UI काम को सपोर्ट करने की रणनीति सुझाई गई
- अगर आप पहले से Google storage इस्तेमाल कर रहे हैं, तो Gemini की प्रभावी लागत लगभग $10~15 मानी जा सकती है
- कुछ यूज़र्स Claude Max अकाउंट से GPT Plus पर पूरी तरह शिफ्ट होने पर भी विचार कर रहे हैं
दीर्घकालिक दृष्टिकोण
- माना जा रहा है कि कुछ महीनों में चीन के मॉडलों सहित सभी मॉडल Opus 4.6 स्तर या उससे ऊपर पहुँच सकते हैं, और संभव है कि कम कीमत पर उपलब्ध हों
- मॉडल की कच्ची परफ़ॉर्मेंस से ज़्यादा एक्सेसिबिलिटी, कीमत, उपयोग सीमा, सेंसरशिप, context awareness आगे चलकर अधिक महत्वपूर्ण अंतरकारी तत्व बन सकते हैं
- अभी GPT 5.5 आगे है, लेकिन जैसे पहले Claude अपने चरम के बाद गिरा, उसी तरह Codex की परफ़ॉर्मेंस भी जल्द नीचे समायोजित हो सकती है ऐसी चिंता मौजूद है
- Kimi 2.6, GLM, MiniMax जैसे अन्य मॉडलों से तुलना को लेकर भी रुचि है
16 टिप्पणियां
मुझे लगता है कि वे सोचते हैं कि अगर stealth patch से performance घटा भी दें तो किसी को पता नहीं चलेगा, लेकिन असल में लोगों की instinct सोच से ज़्यादा तेज़ होती है, इसलिए मेरी instinct + कम्युनिटी के लोगों की बातों को मिलाकर देखें तो जवाब तुरंत मिल जाता है.
"तो फिर तुम कर क्या सकते हो, lol" वाली बात है, इसलिए मजबूरी में बस इस्तेमाल करते हैं....
मैं 3.5 के समय से हमेशा Claude को मुख्य रूप से इस्तेमाल करता था, लेकिन 5.5 के बाद से मैंने GPT को मुख्य मॉडल की तरह इस्तेमाल करना शुरू किया है। काफ़ी अच्छा लगा।
Claude से सिर्फ़ planning कराकर और Codex से सिर्फ़ execution करवाने का तरीका कैसा रहेगा?
मैं इन दिनों ऐसा ही कर रहा हूँ। लेकिन Codex CLI की sandbox policy बहुत ज़्यादा सख्त है, इसलिए build और test तक उसे सौंपने की कोशिश करूँ तो यह काफ़ी असुविधाजनक लगता है।
दोनों की बात करने की शैली बहुत ही घटिया है, जो बहुत चिढ़ दिलाती है। वैसे दोनों ही काफ़ी lazy हैं, जो कहा जाता है उसे भी छोड़ते हुए काम करते हैं।
यह बिल्कुल वैसा ही है जैसा मैंने महसूस किया था, इसलिए मैं $100 वाला GPT प्लान लेकर इस्तेमाल कर रहा हूँ
और Claude के $200 वाले प्लान को $100 पर लाने के बारे में सोच रहा हूँ
codex 5.4 की Korean भाषा अजीब थी, लेकिन performance के मामले में वह पहले ही opus 4.6 और opus 4.7 से बेहतर था (अजीब बोलने का ढंग entry barrier था / "खोला गया", "बंद किया गया", "धकेला जाएगा" वगैरह)
codex 5.5 का बोलने का ढंग भी अब सामान्य हो गया है और यह कहीं ज़्यादा बारीक, सावधान और स्मार्ट हो गया है। opus 4.7 = आलसी लगता है, reasoning cost बचाने की कोशिश बहुत साफ़ महसूस होती है, और अनुभव के हिसाब से यह opus 4.6 से भी पीछे गया हुआ लगता है
codex-केवल मॉडल 5.3 के समय सच में ऐसा लगता था जैसे किसी ऐसे जूनियर सहकर्मी से बात कर रहे हों जिसे बातचीत की समझ नहीं है, लेकिन coding सिर्फ़ अच्छी आती है.5.4 से इसने थोड़ा-थोड़ा बोलना शुरू किया, और 5.5 से लगता है कि यह आधा-अधूरा ही सही, लेकिन कुछ हद तक संभल गया है.
अब भी कभी API को contract कह देता है, और कभी-कभी English और Korean को पागलों की तरह मिलाकर बोलता उगल देता है, इसलिए मुझे लिखना पड़ता है, "समझने में आसान तरीके से, जितना हो सके English कम करके समझाओ".
फिर भी, code निकालने की performance मुझे महसूस होने के हिसाब से 5.4 से Opus से आगे निकल गई थी. Opus 4.7 आया है, लेकिन मैंने उसे हल्का सा भी ट्राय नहीं किया. क्योंकि साफ़ दिखता है कि वह फिर से "Anthropic"-स्टाइल marketing ही होगी.
उल्टा, Opus 4.6 और 4.7 में तो कोरियन ही अजीब होने लगी थी lol
जिन लोगों ने पहले से Claude के साथ harness सेटअप बना रखा है, उनके लिए Claude अच्छा है, और अगर पहली बार इस्तेमाल कर रहे हैं, तो GPT ज़्यादा बेहतर लगता है। cost-performance के मामले में GPT साफ़ तौर पर आगे है। 20 डॉलर वाला भी काफ़ी है।
जो लोग पहले से development कर रहे हैं, उनके लिए GPT 5.5 बेहतर है.
और non-developers के लिए Claude बेहतर है, ऐसा मुझे लगता है.
लेकिन इस पर बहुत ज़्यादा बहस करने की ज़रूरत नहीं है
आखिरकार, काम की चीज़ें बनाना ही सबसे अच्छा है..
कुल मिलाकर माहौल यही लग रहा है कि GPT 5.5 ज़्यादा बेहतर है। मैं अब तक सिर्फ Claude Code (Opus 4.7) ही इस्तेमाल करता आया हूँ.. लगता है अब Codex भी गंभीरता से इस्तेमाल करके देखना चाहिए।
असल में GPT-5 से ही, फ्रंट डिज़ाइन को छोड़कर, यह ज़्यादा बेहतर था।
कम्युनिटी ही काफ़ी धीमी है..
सहमत हूँ
अब तक मेरे असल अनुभव और कम्युनिटी की प्रतिक्रिया एक-दूसरे के उलट रही थीं, इसलिए एक तरह का गैप महसूस हो रहा था।
सही कहा
एक साल पहले तक मैं Claude की ज़ोरदार सिफारिश करता था, लेकिन आजकल मैं Codex app की ज़ोरदार सिफारिश करता हूँ।