CursorBench 3.1 मॉडल मूल्यांकन परिणाम

(cursor.com)

1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Cursor की coding model मूल्यांकन तालिका में Fable 5 Max ने 72.9% के साथ पहला स्थान हासिल किया, और शीर्ष स्तर की प्रतिस्पर्धा के लिए एक नया benchmark तय किया
Fable 5 सीरीज़ में Max, Extra High, High, Medium ने 1 से 4 तक सभी स्थान हासिल किए, जिससे अन्य model families पर स्पष्ट बढ़त दिखी
शीर्ष 5 के बाद Opus 4.7 Max 64.8%, GPT-5.5 Extra High 64.3%, Fable 5 Low 64.2%, Opus 4.8 Max 63.8%, Composer 2.5 63.2% रहे
CursorBench 3.1 में codebase understanding, bug finding, planning, और code review-केंद्रित tasks जोड़े गए, और कुछ editing tasks के scoring criteria में सुधार किया गया
प्रति task औसत लागत public token pricing और task-वार token usage के आधार पर निकाली गई, और छोटे score अंतर सांख्यिकीय रूप से अर्थपूर्ण न भी हों

शीर्ष स्थानों पर Fable 5 का दबदबा

CursorBench 3.1 तालिका में model-वार ranking, score, प्रति task औसत लागत, और usage से जुड़े आँकड़ों की साथ में तुलना की गई है
1वें से 4वें स्थान तक सभी Fable 5 सीरीज़ के हैं
- Fable 5 Max: 72.9%, $18.02, 63,842, 76
- Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
- Fable 5 High: 70.6%, $10.81, 37,173, 54
- Fable 5 Medium: 69.8%, $8.27, 28,507, 47
5 से 10वें स्थान के बीच Opus, GPT-5.5, Fable, और Composer models का मिश्रण है
- Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
- GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
- Fable 5 Low: 64.2%, $5.70, 18,882, 36
- Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
- Composer 2.5: 63.2%, $0.55, 15,152, 37
- GPT-5.5 High: 62.6%, $3.59, 13,329, 40

मध्य और निचले समूह के models के score

11 से 20वें स्थान पर मुख्य रूप से Opus, Sonnet, और GPT-5.5 models हैं
- Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
- Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
- Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
- Opus 4.7 High: 59.4%, $5.01, 32,227, 59
- GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
- Opus 4.8 High: 58.4%, $4.41, 36,788, 45
- Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
- Sonnet 5 High: 57.0%, $3.74, 41,735, 66
- Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
- Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
21 से 36वें स्थान में GLM, Kimi, Gemini, Sonnet, Composer आदि शामिल हैं
- GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
- Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
- Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
- Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
- Composer 2: 52.2%, $0.56, 14,163, 40
- GLM 5.2 High: 50.7%, $2.46, 30,621, 76
- Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
- Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
- GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
- Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
- Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
- Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
- Kimi 2.6: 47.6%, $1.27, 24,783, 56
- Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
- Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
- Kimi 2.5: 31.9%, $0.87, 9,446, 30

CursorBench 3.1 का मूल्यांकन दायरा

CursorBench 3.1 ने codebase understanding, bug finding, planning, और code review पर केंद्रित समस्याएँ जोड़ी हैं
कुछ editing tasks के scoring criteria में भी सुधार किया गया है
CursorBench 3.0 editing, refactoring, और bug-fixing समस्याओं पर केंद्रित शुरुआती task set था

लागत गणना और व्याख्या की सीमाएँ

प्रति task औसत लागत हर model की public per-million-token pricing के आधार पर निकाली गई है
इसमें input, cache read, cache write, और output pricing सभी शामिल हैं
हर model ने CursorBench 3.1 tasks में जितने tokens इस्तेमाल किए, उन पर pricing लागू कर पूरी task set का औसत निकाला गया
परिणामों में variability बनी हुई है, और छोटे score अंतर सांख्यिकीय रूप से अर्थपूर्ण न भी हो सकते हैं

1 टिप्पणियां

GN⁺ 4 시간 전

Hacker News पर राय

थोड़ा संशय है
Cursor के benchmark में Cursor मॉडल Composer 2.5 को Opus 4.8 max और GPT-5.5 xhigh जितना अच्छा दिखाया गया है, जबकि कीमत कहीं कम है
लेकिन Artificial Analysis टेस्ट में Composer 2.5 काफी पीछे है: https://artificialanalysis.ai/agents/coding-agents
DeepSWE benchmark देखें तो GPT-5.5 xhigh का स्कोर 64, Opus 4.8 max का 56, और Cursor 2.5 का 16 है
मुझे इसमें शक नहीं कि Cursor कुछ लोगों के लिए अच्छा काम कर सकता है, लेकिन यह दावा कि वह Opus 4.8 या GPT-5.5 का competitor है, संदिग्ध लगता है। यह बहुत सुविधाजनक लगता है कि अपने benchmark में अच्छा दिखे और third-party benchmark में बहुत पीछे रह जाए
- मैं Cursor में काम करता/करती हूँ। Composer 2.5 के रिलीज़ के समय AA के aggregate benchmark में यह काफी competitive था, और मुझे याद है कि कुल मिलाकर तीसरे स्थान पर था
  हाल ही में AA ने DeepSWE इस्तेमाल करना शुरू किया है, और यह benchmark बहुत लंबे scope वाले tasks पर ज़्यादा केंद्रित है। Composer अभी ऐसे tasks में मज़बूत नहीं है, इसलिए अगले model में इसे सुधारने पर काम कर रहे हैं
  कुल मिलाकर कुछ benchmarks में Composer अच्छा दिखता है, और कुछ में नहीं। फिर भी मौजूदा price point पर मुझे यह बहुत सक्षम model लगता है। अगर आपको कोई specific behavior या weak spot दिखे, तो यहाँ बताएं या lrobinson at cursor.com पर mail करें
- क्या हो रहा है यह समझना मुश्किल नहीं है। अपने data के patterns और specific capabilities के हिसाब से reinforcement learning की गई है, इसलिए स्वाभाविक है कि ऐसा benchmark बनेगा जो training set से मेल खाता हो
  विडंबना यह है कि Cursor के “unique customers” को सच में जिस narrow scope की परवाह है, उसमें वह benchmark Artificial Analysis से ज़्यादा accurate भी हो सकता है। बाकी मामलों में इसे बस एक और data point मानें
- DeepSWE में थोड़ी कमी है, क्योंकि यह सिर्फ अपना execution harness इस्तेमाल करता है, और जिन models को वह harness ठीक से support नहीं करता, उनमें समस्या आती है
  इस बात के बहुत सबूत हैं कि ये models कैसे behave करते हैं, इस पर harness का बड़ा असर पड़ता है, लेकिन DeepSWE इस factor को पूरी तरह हटा देता है। शायद उन्होंने बस यह verify किया होगा कि यह उनके पसंद के कुछ models पर अच्छे से काम करता है
  GitHub issues में भी report हुआ है कि harness cache इस्तेमाल नहीं करता, इसलिए cost calculation में भी समस्या है। कोई benchmark perfect नहीं होता, लेकिन यह benchmarks के बीच variance को काफी समझा देता है
- Cursor session लगभग वही चीज़ है जिस पर Composer model को reinforcement learning किया जाता है। यह bench और training data असल में उसी distribution से होने चाहिए
- benchmarks का तो नहीं पता, लेकिन मैंने Composer 2.5 काफी इस्तेमाल किया है और असली काम में यह काफी अच्छा चला
axes को इस तरह चुनना काफी अजीब है। मुझे लगा था कि बाईं तरफ सबसे सस्ता होगा, लेकिन उल्टा वही सबसे महंगा है
top-right को best बनाना चाहते हैं, यह layout समझ आता है, लेकिन cost axis का उल्टा होना अभी भी intuitive नहीं है
खैर, इसे छोड़ दें, मैं रोज़ पूरे दिन ऐसे बहुत मुश्किल implementations करता/करती हूँ जिन्हें agent मुश्किल से कर पाता है, और जिन कामों में “real verification” चाहिए, उनमें मुझे काफी समय तक Opus को max पर ही रखना पड़ा। Opus को GPT-5.5 xhigh के आसपास भी behave कराने का लगभग यही एकमात्र तरीका लगता था
subscription पर GPT-5.5 इस्तेमाल करने पर context window छोटी होती है—400k है, लेकिन effective तौर पर लगभग 258k—इसलिए मैं Opus इस्तेमाल कर रहा/रही हूँ
फर्क यह है कि GPT-5.5 xhigh ज़्यादातर real-world cases में बहुत तेज़ है। पूरी implementation भी efficient है, और जिन सवालों में गहराई से सोचने की ज़रूरत नहीं होती, उनके जवाब adaptively जल्दी देता है
इसके उलट Opus 4.8 Max हर चीज़ को बेवजह बहुत देर तक चबाता रहता है, और simple implementation में भी कई घंटे लग सकते हैं, इसलिए मैं इसे मुख्य रूप से planning और review के लिए ही इस्तेमाल करता/करती हूँ
Fable adaptive thinking और fast responses में काफी बेहतर है, लेकिन शायद GPT-5.5 xhigh से अभी भी कमतर होगा। लगता है सबने इनके pros और cons काफी बता दिए हैं, और दुर्भाग्य से मेरे मुश्किल कामों में यह अभी भरोसेमंद implementer नहीं है। वह अभी भी GPT का क्षेत्र है, और Fable को ध्यान से न संभाला जाए तो implementation के अंदर बड़े और खतरनाक holes छोड़ने की प्रवृत्ति रखता है
- “मैं रोज़ पूरे दिन ऐसे बहुत मुश्किल implementations करता/करती हूँ जिन्हें agent मुश्किल से कर पाता है” वाली बात में कुछ भी verify किया जा सकता है? या हमें बस मान लेना है? सब कुछ हास्यास्पद रूप से subjective लगता है
- अगर Fable implementation में खतरनाक holes छोड़ता है, तो GLM या DeepSeek को मिलाकर code red team के तौर पर integrate किया जा सकता है, ऐसा लगता है
  Fable design के हिसाब से security को लेकर अंधा है[0], और open models उस तरफ काफी अच्छे हैं
  [0] GPT-5.6 कैसा होगा यह साफ नहीं, लेकिन blog देखकर लगता है कि इसमें भी वैसा ही बहुत ज़्यादा cautious safety filter होगा
  दिलचस्प बात यह है कि हाल के Opus release posts security capabilities को जानबूझकर घटाने का दावा करते हैं। “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
- Gartner-style है। top-right वही जगह है जहाँ जाना चाहते हैं
- मैं सहमत हूँ कि x-axis को उल्टा क्यों किया गया। यह graph किसी सामान्य observer के लिए समझना बहुत मुश्किल बना देता है
- “subscription पर GPT-5.5 इस्तेमाल करने पर context window छोटी होती है” — क्या आपको लगता है कि real work में इससे फर्क पड़ता है?
  मैं 5.5 high/xhigh का इस्तेमाल C codebase को optimize और benchmark करने में कर रहा/रही हूँ, और शुरुआती code पढ़ने भर से पहली context window लगभग भर जाती है
  session 5–15 बार के करीब automatic compression करता है, लेकिन काम हर बार मुख्यतः latest window पर focused रहता है, इसलिए यह ठीक-ठाक कर लेता है
  programming में GPT की ताकत Opus से बड़ी है, इसलिए लगता है कि वह context window के फर्क को पीछे छोड़ देता है
यह मानना मुश्किल है कि Composer 2.5 इतना अच्छा है। मैंने इसे GLM 5.2 या Opus 4.6 से तुलना करके देखा, और इसमें समस्या पर सोचने की गहराई और critical reasoning की कमी थी
दूसरे मॉडल द्वारा बनाई गई योजना को execute करने में यह अच्छा है, लेकिन तब भी यह आसपास की files के असल में काम करने के तरीके से काफी अलग अजीब code manipulation कर देता है
- अभी मैं Cursor नहीं इस्तेमाल करता, लेकिन कुछ समय पहले जब इस्तेमाल किया था तो अनुभव मिलता-जुलता था। Opus से planning, Composer से implementation, और Opus से cleanup किया था
  Composer के पास अच्छी plan हो तो वह सक्षम है, लेकिन चौंकाने वाले स्तर का नहीं था। फिर भी जो चीज़ मुझे सच में पसंद आई वह speed थी
  जिस काम में Opus को 30 मिनट लगते, Composer उसे 5–10 मिनट में खत्म कर देता। बेशक result perfect नहीं होता था, इसलिए cleanup step Opus या Codex से करवाता था
  आखिरकार यह balance का मामला है, लगातार बदलता रहता है, और पूरी तरह इस पर निर्भर करता है कि आप कौन-सी समस्या हल कर रहे हैं। मैं flexible रहता हूँ और उस समय जो process सबसे अच्छा काम करे, उसी के हिसाब से ढलता हूँ
- ऐसी चीज़ें देखकर बस jagged frontier जैसा लगता है। मैं व्यक्तिगत अनुभव पर शक नहीं कर रहा। पिछले महीने Grok और X premium account credits से Composer 2.5 इस्तेमाल करके देखा था
  मैं कोई rocket नहीं बना रहा, लेकिन यह काफी impressive था। सभी models कभी-कभी बेवकूफी करते हैं, लेकिन जो काम मैंने मांगे वे इसने काफी अच्छे से किए और कुछ impressive results भी दिखाए
  Grok पर यह तेज़ है, और जिन दूसरे models को मैंने काफी इस्तेमाल किया है उनसे तुलना करूँ तो मुझे यह gemini 3.1 से बेहतर लगता है। मेरे हिसाब से 3.5 और antigravity पुराने gemini cli से कमजोर थे। Opus 4.6 के करीब है। Claude Code के ज्यादा नए models अभी इस्तेमाल नहीं किए हैं
अगर मैंने graph को सही समझा है, तो Fable sonet और opus की तुलना में वही काम पूरा करने के लिए कम tokens इस्तेमाल कर रहा है। अगर ऐसा है तो यह अच्छी बात है
कुछ समय से बेहतर result पाने के लिए tokens धड़ाधड़ उगलने जैसा लग रहा था, लेकिन अगर model खुद ज्यादा tokens generate किए बिना बेहतर हो रहा है तो यह सचमुच उपलब्धि जैसा लगता है
सवाल 1: इस graph में steps की संख्या क्यों important है? यह क्या बताती है?
सवाल 2: horizontal axis को उल्टा क्यों किया गया ताकि 0 origin पर नहीं बल्कि दाईं तरफ हो? क्या यह कोई नया smart तरीका है? मुझे नहीं लगता पहले ऐसा देखा है
दिलचस्प है कि Opus 4.7, 4.8 से बेहतर निकला। अच्छा होता अगर 4.6 को भी test किया गया होता। कल यहाँ मैंने एक व्यक्ति को देखा जिसे इस बात पर चिढ़ाया गया कि वह जोर देकर कह रहा था कि 4.6 बाद के models से बेहतर है
हालांकि benchmarks हमेशा tricky होते हैं। DeepSWE में GPT-5.5, Opus-4.8 को काफी बड़े अंतर से हरा देता है, लेकिन FrontierCode में उल्टा है
भरोसेमंद एकमात्र benchmark आपकी अपनी वास्तविक workload है
हर बार नया benchmark आते ही Chinese models मौजूदा benchmarks के आधार पर expected level से बहुत नीचे आते हैं, और समय के साथ फिर recover कर लेते हैं
- यह distillation का जादू है
अच्छा होगा अगर ऐसी सारी sites cost/performance Pareto frontier graph दिखाएँ। अहम चीजें मुख्यतः यही दो हैं। speed parameter जोड़कर इसे 3D भी बनाया जा सकता है
https://paraplouis.github.io/llm-pareto-frontier/ मेरे देखे हुए graphs में सबसे अच्छा है, लेकिन यह उतनी बार update नहीं होता जितना मैं चाहता हूँ
- वह site खास उपयोगी नहीं है। क्योंकि thinking tokens और caching, और उनकी efficiency reflect नहीं होती
  GLM5.2 को internet पर PLA जितने भी wumao जुटा सकता है वे promote करते हैं, लेकिन इसकी thought process जरूरत से ज्यादा लंबी-चौड़ी है, जिससे इसकी कमियां दिख जाती हैं
  Anthropic models में भी यही समस्या है, लेकिन वे वास्तविक intelligence के काफी ऊंचे base से शुरू करते हैं
  यही वजह है कि भरोसेमंद comparisons अब arbitrary input/output token cost के बजाय किसी task को complete करने की total cost के आधार पर दिखाते हैं
मैंने Composer 2.5 और GPT 5.5 को Cursor और Codex दोनों में काफी इस्तेमाल किया है, और यह दावा कि Composer 2.5 का performance GPT 5.5 के करीब है, पूरी तरह बेतुका है
यह तेज़ जरूर है, लेकिन quality बिल्कुल उस level की नहीं है
ऊपर से Composer केवल Cursor की monthly subscription होने पर ही इस्तेमाल किया जा सकता है, इसलिए cost comparison भी meaningful नहीं है। मिलती-जुलती कीमत वाली OpenAI subscription में आप उतने ही समय तक बेहतर model इस्तेमाल कर सकते हैं
सबसे दिलचस्प हिस्सा cost है। GPT 5.5 और sonnet 5, GLM 5.2 जितनी ही cost पर हैं, लेकिन ज्यादा सक्षम models हैं
Cursor model का Cursor benchmark में शानदार होना, सचमुच 11 बजे की खबर है
हालांकि बाकी सभी models मेरे direct usage experience के हिसाब से काफी reasonable positions पर रखे गए हैं
Fable की cost 10 गुना है, लेकिन ज्यादातर मामलों में यह दूसरे models को पीछे छोड़ देता है। हालांकि कभी-कभी चुनाव सस्ते और महंगे के बीच नहीं होता, बल्कि महंगा लेकिन संभव और बिल्कुल असंभव के बीच होता है। बाकी models की तरह, यह भी सीखना होगा कि वह boundary कहाँ है

CursorBench 3.1 मॉडल मूल्यांकन परिणाम

शीर्ष स्थानों पर Fable 5 का दबदबा

मध्य और निचले समूह के models के score

CursorBench 3.1 का मूल्यांकन दायरा

लागत गणना और व्याख्या की सीमाएँ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News पर राय