- दो open source repositories (Zod, graphql-go-tools) से निकाले गए 56 वास्तविक coding tasks पर GPT-5.5, GPT-5.4 और Opus 4.7 तीन मॉडलों की patch quality की तुलना करने वाले बेंचमार्क नतीजे जारी किए गए
- GPT-5.5 ने test pass rate, human patch equivalence, और code review pass rate (clean pass) सभी metrics में सबसे अच्छा प्रदर्शन दर्ज किया
- Opus 4.7 ने सबसे छोटे patches बनाए और footprint risk कम रहा, लेकिन companion work छूट जाने से अधूरे implementation का दोहराया जाने वाला failure pattern दिखा
- सिर्फ test pass होने से patch quality का फैसला नहीं किया जा सकता; reviewer acceptance को शामिल करने वाली multi-layer evaluation ज़रूरी है
- एक ही मॉडल की ranking repository के अनुसार बदलती है, इसलिए अपने codebase पर benchmark चलाना मॉडल चयन की कुंजी है
बेंचमार्क का अवलोकन और execution environment
- Zod में 27, graphql-go-tools में 29, कुल 56 वास्तविक coding tasks पर तीन मॉडलों की तुलना
- हर मॉडल को उसके आधिकारिक agent harness में default settings के साथ चलाया गया: Opus 4.7 के लिए Claude Code, और GPT-5.4 व GPT-5.5 के लिए OpenAI Codex CLI इस्तेमाल हुआ
- सभी मॉडलों का reasoning level high पर समान रखा गया
- evaluation framework Stet का उपयोग किया गया, जिससे test pass/fail के अलावा behavioral equivalence, code review acceptability, footprint risk, और craftsmanship (craft)/discipline rubric तक multi-layer scoring की गई
- single seed के साथ हर task पर 1 बार run किया गया, equivalence और rubric judgment model के रूप में GPT-5.4 का उपयोग हुआ
कुल परिणामों का सारांश
- GPT-5.5 ने 38/56 test pass, 40/56 human patch equivalence, और 28/56 clean pass के साथ सभी metrics में पहला स्थान हासिल किया
- Opus 4.7 ने 33/56 test pass, 19/56 equivalence, और 10/56 clean pass के साथ सबसे कम quality score दर्ज किया
- हालांकि, औसत footprint risk 0.20 के साथ patch size के मामले में यह सबसे आगे रहा
- GPT-5.4 ने 31/56 test pass, 35/56 equivalence, और 11/56 clean pass दर्ज किए
- प्रति task लागत $2.39 सबसे कम रही, लेकिन clean pass gap की भरपाई नहीं कर सकी
- GPT-5.5 ने औसत task time 6 मिनट 56 सेकंड, input tokens 201.8M, output tokens 0.72M के साथ efficiency में भी पहला स्थान पाया
repository-वार प्रदर्शन विश्लेषण
- Zod (27 tasks): GPT-5.5 और Opus दोनों ने 12 tests pass कर बराबरी की, लेकिन GPT-5.5 ने clean pass 10 बनाम Opus 5 के साथ review quality में बढ़त बनाई
- Opus diff size में बेहतर रहा, इसलिए Zod में वास्तविक trade-off मौजूद है
- graphql-go-tools (29 tasks): GPT-5.5 ने 26 test pass और 18 clean pass के साथ भारी बढ़त दिखाई
- Opus ने 21 tests pass किए, लेकिन clean pass सिर्फ 5 रहे; छोटे patch strategy ने integration work छूटने की समस्या पैदा की
विस्तृत quality metrics
- code review pass: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
- code review average (correctness + bug safety): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
- केवल correctness: GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
- introduced bug safety: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
- custom scorer average (8 rubrics): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
- craftsmanship score (clarity/coherence/robustness): GPT-5.5 ने तीनों sub-metrics में सर्वोच्च स्कोर लिया
- discipline score (scope discipline/diff minimality): GPT-5.5 2.36 के साथ मामूली बढ़त पर, Opus 2.20
- raw footprint में Opus आगे है, लेकिन task के सापेक्ष discipline में GPT-5.5 बेहतर रहा
test pass अंतिम निर्णय का मानक नहीं है
- Zod में Opus और GPT-5.5 दोनों 12 test pass पर बराबर हैं, लेकिन clean pass में GPT-5.5 10 बनाम Opus 5
- graphql-go-tools में यही pattern और स्पष्ट दिखा: GPT-5.5 test 26/clean pass 18, Opus test 21/clean pass 5
- GraphQL PR #1001 case: तीनों मॉडलों ने test pass और equivalence judgment हासिल किया, लेकिन सिर्फ GPT-5.5 code review pass कर पाया
- बाकी दो मॉडलों को API shape, raw HTTP object exposure, और hook boundary robustness पर warnings मिलीं
code review में दिखे ठोस अंतर
- Zod async codec और default value task: तीनों मॉडल test में fail हुए
- Opus ने 8 files बदलीं, लेकिन core semantics छूट गए (
undefined को default values में allow करना, codec definition को sync रखना)
- GPT-5.4 ने 11 files patch कीं और equivalence मिली, लेकिन adjacent API (
prefault) पर ज़रूरत से ज़्यादा restriction लगा दी
- GPT-5.5 भी test में fail हुआ, लेकिन schema/build behavior को ज्यादा साफ़ तरीके से cover करने के कारण correctness और bug risk में सर्वोच्च स्कोर मिला
- GraphQL Apollo compatibility validation (PR #1169): तीनों मॉडलों ने tests pass किए, लेकिन सिर्फ GPT-5.5 equivalence और review दोनों pass कर पाया
- Opus ने 11 files बदलीं, लेकिन enum/wrapping scalar leaf validation छूट गई
- GPT-5.4 ने 12 files बदलीं, और unconditional validation metadata जैसी scope over-expansion दिखी
- GPT-5.5 ने 10 files (non-test 6 files) बदलकर सबसे कम बदलाव में target behavior सही तरह implement किया
Opus 4.7 की विशेषताएँ और सीमाएँ
- conservative, precise और low-footprint patches बनाता है
- जब task local हो और change surface छोटा हो, तब इसकी ताकत दिखती है
- बार-बार दिखा failure pattern: core behavior implement करता है, लेकिन companion work पूरा नहीं करता
- Zod के Node/Deno parallel tree case में Opus ने सिर्फ 4 files बदलकर tests pass किए, जबकि GPT-5.5 ने parallel deployment surface तक cover करते हुए 11 files बदलीं → human patch के बराबर
- graphql-go-tools में यह समस्या और गंभीर रही: PR #1155 (gRPC datasource repeated scalar fields सहित कई engine surface changes) में Opus patch बना ही नहीं पाया, जबकि GPT-5.5 ने test, equivalence और review तीनों pass किए
- मुख्य अंतर: Opus का छोटा patch local tasks में discipline है, लेकिन integration tasks में अधूरा implementation
GPT-5.4 से GPT-5.5 तक का बदलाव
- GPT-5.4 अक्सर सही approach पहचानता है, लेकिन execution में fail होता है
- Zod में 18 equivalence (GPT-5.5 जितनी) होने के बावजूद test pass सिर्फ 9 रहे
- GPT-5.5 ने व्यापक integration behavior बनाए रखते हुए कम broken patches बनाए
- ठोस case comparison:
- schema→TypeScript generator: Opus और GPT-5.5 ने recursive visitor implement किया, GPT-5.4 ने repository guide file बनाकर task को गलत classify किया
- recursive parser fix: दोनों GPT मॉडलों ने visit count tracking approach लिया, GPT-5.5 ने अनावश्यक state हटाकर इसे और concise बनाया
- CIDR validation: GPT-5.5 ने Deno mirror तक update किया, GPT-5.4 ने mirror नहीं बदला (repository hygiene issue)
- graphql-go-tools PR #1232 (same single fetch deduplication + dependency reference rewrite): सिर्फ GPT-5.5 test, equivalence और review तीनों pass कर पाया
- pattern summary: GPT-5.5 local smart fixes को deployable repository changes में बदलने वाले उबाऊ integration work को ज्यादा अच्छी तरह पूरा करता है
patch size और cost का trade-off
- graphql-go-tools में औसत patch size: GPT-5.5 लगभग 33KB, GPT-5.4 27KB, Opus 19KB
- footprint score: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
- बड़े patches review difficulty, conflict risk, और sensitive paths को छूने का खतरा बढ़ाते हैं
- auditability-केंद्रित workflows में Opus अब भी व्यावहारिक लाभ दे सकता है
- लेकिन diff minimality को task के सापेक्ष आँका जाए तो GPT-5.5 मामूली बढ़त पर है
- मुख्य बात: ज़रूरी surface छोड़ देने वाला 5KB patch, task पूरा करने वाले 20KB patch से ज़्यादा minimal नहीं है
- cost comparison:
- Zod में Opus और GPT-5.5 लगभग समान हैं (Opus $45.53 vs GPT-5.5 $46.69)
- graphql-go-tools में Opus ने input tokens 186.1M/output 934K/agent time 8.56h लिया, जबकि GPT-5.5 ने 151.4M/431K/4.16h के साथ कहीं ज्यादा efficiency दिखाई
मॉडल-वार behavior summary
- Opus 4.7 — under-reach: conservative, precise, low-footprint; local tasks में मजबूत, लेकिन tests से पूरी तरह cover न होने वाले companion surfaces पर कमजोर; इसका failure mode है: "test pass हुआ, लेकिन बदलाव वही नहीं था"
- GPT-5.4 — सही shape, गलत execution: दिशा सही, लेकिन असंगत; पुराने mirrors, अनावश्यक refactoring, और tests से ज्यादा judge को पसंद आने वाले patches बार-बार दिखे
- GPT-5.5 — ज्यादा व्यापक, ज्यादा बड़ा footprint: integration surfaces पर अधिक complete; surrounding code updates, review pass, और intended behavior को actual code में बदलने की दर अधिक; जोखिम यह कि गलती होने पर अधिक files में फैली गलती हो सकती है
agent behavior में अंतर
- graphql-go-tools में Opus ने प्रति task औसतन 3.17 explicit plan calls किए, GPT-5.5 ने 0
- Opus ने प्रति task 10.2 patch calls और GPT-5.5 ने 9.9 patch calls किए, यानी लगभग समान
- GPT-5.5 ने करीब 2x shell calls और ज्यादा search calls किए, जबकि Opus ने planning और patch rewriting पर ज्यादा budget खर्च किया
- इस repository में व्यापक repository exploration, संकरे patch पर ज्यादा सोचने की तुलना में अधिक प्रभावी साबित हुआ
यह परिणाम क्यों महत्वपूर्ण है
- असली सवाल यह नहीं है कि "कौन सा मॉडल सबसे अच्छा है", बल्कि यह है कि "इस repository, इस harness, और वास्तव में deploy होने वाले tasks में किस मॉडल के patches पर भरोसा किया जा सकता है"
- Zod में GPT-5.5 बनाम Opus एक trade-off है, जबकि graphql-go-tools में GPT-5.5 की सीधी बढ़त दिखती है
- सार्वजनिक benchmarks अक्सर model behavior को बड़े पैमाने के एक aggregate number में flatten कर देते हैं, लेकिन वास्तविक code में फैसला विशिष्ट codebase और मानकों पर आधारित workflow decision बन जाता है
सावधानियाँ
- 56 tasks अब भी छोटा sample है; एक task का अंतर repository-level ratio को कई points बदल सकता है
- सभी मॉडलों को प्रति task 1 बार चलाया गया; कुछ करीबी नतीजे rerun पर पलट सकते हैं
- equivalence और rubric judgment model GPT-5.4 होने से family bias की संभावना है
- फिर भी GPT-5.5 का GPT-5.4 पर निर्णायक बढ़त रखना, Opus का footprint advantage बना रहना, और Opus की कई equivalence failures का specific file omissions से जुड़ा होना बताता है कि इससे पूरे परिणाम की व्याख्या नहीं होती
- नतीजे harness-conditional हैं: Claude Code और Codex CLI के system prompt, planning loop और tool surface अलग हैं
- Opus को Codex API पर और GPT-5.5 को Claude Code पर चलाने से परिणाम बदल सकते हैं
- ये आँकड़े वास्तविक engineers द्वारा इस्तेमाल किए जाने वाले harness के भीतर model behavior को दिखाते हैं
मुख्य निष्कर्ष
- GPT-5.5 इन दो repositories में सबसे अच्छा default deployment model है
- Opus 4.7 अब भी low-footprint model के रूप में उपयोगी है, और जब narrow diff सबसे महत्वपूर्ण हो तब इसे प्राथमिकता दी जा सकती है
- GPT-5.4 की प्रति task लागत सबसे कम है, लेकिन clean pass gap की भरपाई के लिए पर्याप्त नहीं
- सिर्फ tests देखकर सबसे महत्वपूर्ण नतीजे छिप जाते हैं
- एक ही मॉडल की ranking repository के अनुसार बदलती है, और यही अपने repository benchmark की सबसे बड़ी वजह है
1 टिप्पणियां
कभी-कभी लगता है जैसे ये आपस में मिलीभगत कर रहे हों।