DeepSeek V4 Pro, सटीकता में GPT-5.5 Pro से आगे
(runtimewire.com)- पहले से तैयारी असंभव बनाने के लिए तुरंत तैयार किए गए 4 टेक्स्ट टास्क की 1:1 तुलना में DeepSeek V4 Pro ने 38.0 अंक और GPT-5.5 Pro ने 33.0 अंक दर्ज किए
- दोनों मॉडल मजबूत थे, लेकिन DeepSeek अधिक सख्त, अधिक शाब्दिक था और constraints के तहत reliability अधिक थी, जबकि GPT-5.5 Pro को अनावश्यक तात्कालिक बदलावों के कारण अंक कटे
- सबसे स्पष्ट तकनीकी बढ़त python-log-redactor टास्क में दिखी, जहां एक ही regular expression और replacement function से nested patterns को सही priority में संभालते हुए बिना कुछ छोड़े परिणाम निकाला गया
- instruction following टास्क में इसने prompt की मांग के अनुसार केवल वही किया, जबकि GPT-5.5 Pro ने shift handoff और escalation जैसे गैर-मांगे गए आइटम जोड़ दिए
- ऐसे precision work में, जहां छोटी-सी deviation भी वास्तविक failure में बदल सकती है, इसे अधिक संयमित, अधिक सटीक और अधिक भरोसेमंद मॉडल माना गया
समग्र मूल्यांकन परिणाम
- स्कोर के आधार पर DeepSeek V4 Pro ने 38.0 बनाम 33.0 से जीत हासिल की, और इस अंतर के लिए पर्याप्त आधार मौजूद था
- मूल्यांकित टास्क्स में Model A (DeepSeek) अधिक सख्त और शाब्दिक था और constraints के भीतर अधिक स्थिर रहा
- Model B (GPT-5.5 Pro) भी उत्कृष्ट था, लेकिन उसमें तात्कालिक बदलाव करने की कुछ अधिक प्रवृत्ति दिखी
- अंतिम निष्कर्ष यह रहा कि जिन कामों में छोटी-सी चूक सीधे वास्तविक विफलता में बदल सकती है, उनमें यह अधिक संयमित, अधिक सटीक और अधिक भरोसेमंद मॉडल है
python-log-redactor (कोड लेखन टास्क)
- Python 3 में
redact_log(line: str) -> strफ़ंक्शन लागू करने का टास्क था, जिसमें email को[EMAIL], IPv4 को[IP], औरINC-+ 6 अंकों वाले ticket ID को[TICKET]से mask करना था- बाकी टेक्स्ट ज्यों का त्यों रखना था,
999.1.2.3जैसे गलत IP को mask नहीं करना था, और multi-line input नहीं होने की धारणा थी
- बाकी टेक्स्ट ज्यों का त्यों रखना था,
- विजेता: DeepSeek V4 Pro — इसने एक ही regular expression और replacement function से overlapping patterns को संभाला, जिससे सही replacement priority सुनिश्चित हुई और कुछ भी छूटा नहीं
- GPT-5.5 Pro ने regular expressions अलग-अलग रखे, जिससे order error का जोखिम बना, और उसके email regex में word boundary की कमी व over-matching जैसी खामियां थीं
vendor-delay-update (कार्य-संदेश लेखन टास्क)
- यह टास्क operations VP की ओर से regional warehouse managers को भेजे जाने वाले status update का मसौदा तैयार करने का था, जिसमें barcode scanner सप्लायर North Quay Devices की battery certification failure के कारण 420 replacement units की शिपमेंट 12 मई से 19 मई तक टलने की जानकारी देनी थी
- spare scanners केवल Memphis और Reno के लिए पर्याप्त थे, जबकि Tulsa और Allentown को 1 सप्ताह तक devices साझा करनी थीं
- non-essential inventory recount रोकने, outbound picking को प्राथमिकता देने, और हर दिन स्थानीय समयानुसार शाम 4 बजे तक shortage tally report भेजने का अनुरोध शामिल होना था; tone शांत, जिम्मेदार और व्यावहारिक, तथा लंबाई 140–180 शब्द
- विजेता: DeepSeek V4 Pro — इसने prompt के अनुसार "हर दिन स्थानीय समयानुसार शाम 4 बजे तक shortage tally report" को VP की ओर से सीधे स्पष्ट रूप से लिखा और शांत, जिम्मेदार, व्यावहारिक tone बनाए रखी
- GPT-5.5 Pro ने shift handoff और escalation जैसे गैर-मांगे गए विवरण जोड़ दिए और recipient को "Operations Planning" में बदल दिया, जिससे वह निर्देशों से कुछ हद तक भटक गया; हालांकि दोनों पक्ष उच्च गुणवत्ता के थे और word limit के भीतर रहे
meeting-notes-summary (सारांश और JSON निर्माण टास्क)
- यह टास्क meeting notes पढ़कर 2 वाक्यों का सारांश लिखने और
launch_date,owner,blocked_by,open_questions(array),decisions(array) keys वाला JSON object बनाने का था- notes Cedar Lane tenant portal revamp project से संबंधित थे, जिनमें legal approval, frontend completion status, 2026-03-18 launch target, financial sandbox में ACH retry duplicate receipt ID blocking issue, और dark mode हटाने के निर्णय जैसी बातें शामिल थीं
- विजेता: DeepSeek V4 Pro — इसने मांगे गए schema का सटीक पालन किया और 2-वाक्यीय सारांश के साथ सही types वाले JSON fields दिए
- GPT-5.5 Pro का सारांश अच्छा था, लेकिन उसने
launch_dateमें conditional text शामिल किया और single value अपेक्षितblocked_byको array के रूप में दिया, जिससे structure का उल्लंघन हुआ
- GPT-5.5 Pro का सारांश अच्छा था, लेकिन उसने
messy-orders-to-json (डेटा normalization टास्क)
- यह टास्क अव्यवस्थित order lines को निर्धारित schema के object array वाले valid JSON में बदलने का था, जिसमें input order बनाए रखना अनिवार्य था
priorityको true/false में normalize करना था,none·tbd·-जैसी missing ship dates को null में बदलना था, values के आगे-पीछे का whitespace हटाना था, और items;से अलग तथा प्रत्येक itemSKU xQTYफ़ॉर्मेट में होना था
- परिणाम: बराबरी — दोनों ने valid JSON दिया, input order बनाए रखा, schema से सटीक मेल किया, और priority व ship_by values का normalization सही किया
- गुणवत्ता और सटीकता में व्यावहारिक रूप से कोई अंतर नहीं था, लेकिन आसान cleanup टास्क में मिली बराबरी precision work की गलतियों की भरपाई नहीं कर सकी
परीक्षण विधि
- किसी भी मॉडल के लिए पहले से तैयारी असंभव रहे, इसके लिए मुकाबले हेतु तुरंत तैयार किए गए 4 टेक्स्ट टास्क इस्तेमाल किए गए
- स्कोरिंग प्रत्येक टास्क के लिए grok-4-1-fast-non-reasoning ने की
- अंतिम स्कोर DeepSeek V4 Pro 38.0, GPT-5.5 Pro 33.0 रहा
मॉडल विनिर्देश
-
OpenAI: GPT-5.5 Pro
- जटिल और high-risk workloads के लिए optimized high-performance model, जो गहरे reasoning और accuracy पर केंद्रित है
- 1M+ token context (input 922K, output 128K), text और image input support, long-horizon problem solving, agentic coding, और multi-step workflows के precise execution के लिए डिज़ाइन
- कीमत input $30.00 / output $180.00 (प्रति मिलियन tokens), context 1.1M, cutoff 2025-12-01
-
DeepSeek: DeepSeek V4 Pro
- कुल 1.6T parameters और active 49B parameters वाला बड़ा Mixture-of-Experts मॉडल, जो 1M token context support करता है
- advanced reasoning, coding, और long-horizon agent workflows के लिए लक्षित, तथा knowledge, math, और software engineering benchmarks में मजबूत प्रदर्शन
- DeepSeek V4 Flash के समान architecture पर आधारित, और efficient long-context processing के लिए hybrid attention system अपनाता है
- reasoning strength
highऔरxhighsupport;xhighअधिकतम reasoning से mapped है, और full codebase analysis, multi-step automation, तथा large-scale information synthesis जैसे complex workloads के लिए उपयुक्त - कीमत input $0.435 / output $0.870 (प्रति मिलियन tokens), context 1M
2 टिप्पणियां
यकीन ही नहीं होता, सच में..
Hacker News की राय
मनमाने ढंग से बनाए गए 4 प्रयोग किसी भी मॉडल की क्षमता के बारे में लगभग कुछ नहीं बताते
यह लेख भी मॉडल प्रमोशन या बहस भड़काने के लिए बनाए गए सतही AI-generated clickbait जैसा लगता है
लीड पैराग्राफ में “where it matters”, “cleanly”, “is still strong” जैसे वाक्यांश अस्पष्ट हैं, और यह कहने जैसी ठोस व्याख्या नहीं है कि वास्तव में 4 में से 3 टेस्ट में DeepSeek ने अधिक संक्षिप्त परिणाम दिए। 1-स्टार स्तर का लेख
Merriam-Webster के अनुसार lede वह “समाचार लेख का प्रारंभिक भाग है, जिसका उद्देश्य पाठक को पूरा लेख पढ़ने के लिए प्रेरित करना होता है”
आप अधिक सूखी शैली पसंद कर सकते हैं, लेकिन यह आलोचना करना उचित नहीं कि शुरुआती भाग अपना उद्देश्य पूरा करने की कोशिश कर रहा है
https://www.merriam-webster.com/dictionary/lede
https://artificialanalysis.ai/evaluations/ifbench
लेख स्पष्ट और काफी संतुलित लगा। लीड थोड़ा सेल्स कॉपी जैसा है, लेकिन आमतौर पर लीड ऐसे ही होते हैं, और सिर्फ “यह LLM ने लिखा लगता है” कहकर तुरंत खारिज कर देना काफी आलसी प्रतिक्रिया है
यह लेख दिखाता है कि DeepSeek, GPT 5.5 से प्रतिस्पर्धा कर सकता है और कभी-कभी उससे बेहतर भी हो सकता है। साथ ही यह इस बात का संकेत है कि कोई बचाव योग्य moat नहीं है, इसलिए इसका महत्व काफी है
इस तरह के टेस्ट अब धीरे-धीरे समय की बर्बादी जैसे लगने लगे हैं
अब बुद्धिमत्ता स्पष्ट रूप से मौजूद है। उसे मापने की कोशिश ही निरर्थक लगती है। जैसे आप हार्डवेयर स्टोर से हथौड़ा खरीदते समय “इस हथौड़े से बनने वाले अंतिम उत्पाद की गुणवत्ता” के आधार पर उन्हें क्रमबद्ध नहीं कर सकते; अभी मॉडल मूल्यांकन कुछ-कुछ वैसी ही मांग कर रहा है
अगला जादू domain-specific harness और environment में आएगा। जानबूझकर थोड़ा कम ताकतवर मॉडल इस्तेमाल करके डोमेन को उसके सामने उजागर किया जाए, ताकि इस तरीके की कमजोरियां सामने आएं। अगर अतिरिक्त क्षमता बची हो तो प्रोजेक्ट की विश्वसनीयता बहुत बढ़ जाती है। अगर ग्राहक किसी खास edge case की शिकायत करे, तो सिर्फ उस scenario को gpt5.5 पर बढ़ाया जा सकता है, लेकिन अगर आप पहले से ही 5.5 इस्तेमाल कर रहे हैं, तो आगे जाने की जगह नहीं बचती
सोचता हूं कि क्या हम वही मॉडल इस्तेमाल कर रहे हैं जो दूसरे लोग कर रहे हैं। मेरी नजर में LLM 80% समय अच्छे जवाब देते हैं, लेकिन 20% समय इतने बुरी तरह असफल होते हैं कि साफ हो जाता है कि बुद्धिमत्ता नहीं है
फिर भी मॉडल रोज अलग-अलग hallucination, epistemic कमी, सामान्य ज्ञान की कमी, और निर्देशों का पालन न करने से चौंकाते रहते हैं
आज मैंने opus 4.8 से Rails app controller का एक साधारण architecture pattern follow करवाने की कोशिश की, और वह शार्क के दांत खींचने जैसा था
तभी यह भरोसा मिलेगा कि बुद्धिमत्ता संयोग से या सिर्फ दिखावे में नहीं, बल्कि लगातार और संरचनात्मक रूप से उभर रही है। हल्के उपयोग के लिए हल्के औजार, mission-critical उपयोग के लिए प्रमाणित औजार चाहिए
हम अभी बस LLM benchmarking की बारीकियों में प्रवेश कर रहे हैं, और मुझे लगता है अभी लंबा रास्ता तय करना बाकी है। फिर भी यह बहुत रोचक है कि locally running LLM नवीनतम शीर्ष-स्तरीय मॉडलों के करीब परिणाम दे सकता है
अगर मॉडल को CRUD website उगलने के लिए प्रशिक्षित किया गया है, और आप CRUD website ही बनाना चाहते हैं, तो harness उपयोगी हो सकता है। लेकिन वह ज्यादा से ज्यादा पहले से मौजूद चीजों को बेहतर मिलाने की कोशिश है, जो लगभग समय की बर्बादी ही है
Claude इस्तेमाल करता था, फिर Opencode ब्लॉक हो गया, तो अब काम पर GPT इस्तेमाल कर रहा हूं। निजी तौर पर Opencode Go में $10/माह वाले प्लान पर Deepseek इस्तेमाल करता हूं, और सच कहूं तो मुझे खास फर्क महसूस नहीं होता
क्षमता लगभग समान है, और मार्च के बाद से बाकी दोनों जो बेवकूफी भरी गलतियां करते रहे हैं, यह भी उसी तरह की करता है। कीमत को देखते हुए मैं पूरी तरह संतुष्ट हूं
बाकी 5% समय कठिन reasoning समस्याओं में इससे बड़ी मदद मिल सकती है और बहुत पीड़ा बच सकती है। अब बस काश यह ठीक-ठीक पता चल पाता कि वह अतिरिक्त 5% कब चाहिए होगा
मैंने अपने बनाए हुए vulnerability scanning benchmark में GPT 5.5 Pro को भी जोड़कर देखा (https://swelljoe.com/post/will-it-mythos/), लेकिन इसने बीच में ही $100 का budget limit पूरा खर्च कर दिया। DeepSeek V4 Pro पर पूरे benchmark की लागत लगभग 1 डॉलर आई, जबकि GPT Pro की औसत लागत प्रति case $22 रही
GPT 5.5 Pro बजट खत्म होने से पहले प्रोसेस किए गए 4 में से 2 ढूंढ पाया। unlimited budget होता तो शायद यह सबसे अच्छा रहता, लेकिन Opus 4.8, DeepSeek V4 Pro, और MiMo 2.5 Pro ने 9 bugs में से 4 ढूंढे। Opus, GPT 5.5 Pro की तुलना में एक order of magnitude सस्ता था और GPT 5.5 से भी लगभग 30% सस्ता था, जबकि DeepSeek और MiMo लगभग 10 सेंट प्रति case पर two orders of magnitude सस्ते थे
GPT Pro तुलनात्मक रूप से लंबे समय तक और ज़्यादा “चबाता” है
Opus की लागत से लगभग 31 गुना खर्च करके GPT 5.5 Pro इस्तेमाल करने का कोई तर्कसंगत use case मुझे नहीं सूझता, और अब मैं इसे benchmark में आगे इस्तेमाल नहीं करूंगा
ऐसे समय में जब token cost लगातार अहम मुद्दा बन रही है, यह तथ्य कि अमेरिकी बड़े providers की तुलना में बेहद सस्ते models मौजूद हैं, Anthropic और OpenAI के लिए समस्या बन सकता है। conversational coding में best model के लिए एक उचित premium देना ठीक है, लेकिन API उपयोग में model iteration, models के बीच comparison, और model evaluation जैसी चीजें इंसानों को लंबे समय तक लगाए बिना harness और ground-truth validation framework से संभाली जा सकती हैं, इसलिए DeepSeek की तुलना में 10x से 200x ज़्यादा चुकाने की वजह ढूंढना मुश्किल है
“$3.88, 690,003,591 tokens, और 5 घंटे में Deepseek Pro और Flash को साथ इस्तेमाल करके Teamspeak 3.13.8 के license system का reverse engineering किया”
https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
ranking करने के लिए 9 bugs थोड़ा छोटा sample लगता है
फिर भी ranking मोटे तौर पर उम्मीद के मुताबिक ही लगती है
जानना चाहता हूँ कि Deepseek वाकई Pro था या Flash नहीं था। मैं छोटे कामों के लिए Flash का काफी इस्तेमाल करता हूँ और यह काफ़ी अच्छा है। “conversational” उपयोग के लिए अच्छा है, बहुत तेज़ है, और छोटे काम लगभग तुरंत पूरे कर देता है
बड़े codebase की जांच के लिए भी यह काम का लग सकता है। सोच रहा हूँ कि क्या यह security work के लिए भी चल पाएगा
यह देखना भी अच्छा है कि सस्ते models अच्छा प्रदर्शन कर रहे हैं
मैं सोच रहा हूँ कि अगर Claude Code को DeepSeek API pricing पर स्विच करूँ, तो क्या यह अभी इस्तेमाल कर रहे $100 Max प्लान से ज़्यादा value for money देगा।
5 घंटे की limit तो कुछ दिनों में एक बार ही hit होती है, और weekly limit भी तभी पहुँचती है जब उसे बहुत aggressive तरीके से इस्तेमाल करूँ, वह भी reset से एक-दो दिन पहले। limits न अटकाएँ तो usage बहुत ज़्यादा बढ़ेगा, ऐसा नहीं लगता।
अमेरिकी-विरोधी सरकार के तहत चल रहे किसी research lab को अपना काम भेजना अभी भी थोड़ा असहज लगता है, इसलिए मैं सिर्फ cost नहीं देख रहा, लेकिन इस सवाल में मेरा फोकस cost पर है
हर subscription provider, Anthropic की तुलना में, पैसे के हिसाब से limit value बेहतर देता है। सिर्फ GitHub अपवाद है, और वह इस मामले में शर्मनाक स्तर तक महँगा और सीमित है।
(https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
अगर आपका मतलब यह है कि आप अमेरिका के बाहर की research lab का मॉडल इस्तेमाल नहीं करना चाहते, तो आप अमेरिकी models तक बँध जाते हैं, लेकिन अमेरिका में भी कई बड़े research labs हैं। अगर चिंता यह है कि inference कहाँ किया जा रहा है, तो OpenRouter के ज़रिए अमेरिका समेत 12 देशों के providers इस्तेमाल किए जा सकते हैं, और कई subscription providers भी कई देशों में hosting करते हैं। options बहुत हैं
. ./deepseek-claude.shचलाइए और हमेशा की तरह claude इस्तेमाल कीजिए।export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
export ANTHROPIC_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
export CLAUDE_CODE_EFFORT_LEVEL=max
शुरू में मैंने इसे तब इस्तेमाल किया जब limit के पास पहुँच रहा था और बड़े reading tasks करने थे। ईमानदारी से कहूँ तो यह Claude जितना अच्छा नहीं है, लेकिन बहुत सस्ता है और आपको लगातार काम करते रहने देता है। कभी-कभी claude और deepseek दोनों से code देखकर उसे बेहतर करने के तरीके पूछना, और फिर दोनों के जवाब compare करना भी अच्छा रहता है
अगर usage pattern ऐसा ही रहा, तो मैं subscription को $20 monthly पर downgrade करके DeepSeek में ज़्यादा पैसे डालने का सोच रहा हूँ।
संदर्भ repository: https://github.com/aravindhsampath/agentic-template
हमेशा की तरह, हर model अलग-अलग जगह अटकता है। Cursor experiments, exploration, और proof of concept के ज़्यादातर कामों के लिए मैं DeepSeek v4 API इस्तेमाल करता हूँ, लेकिन production code लिखने में OpenAI/Claude की तुलना में उस पर कम भरोसा करता हूँ। कभी DeepSeek debugging या planning में बहुत अच्छा होता है, और कभी अटक जाता है या low-quality output देता है। OpenAI और Anthropic models के साथ भी ऐसा होता है।
कुल मिलाकर DeepSeek इस्तेमाल करने लायक है, लेकिन Opus 4.8 और GPT 5.5 से एक स्तर नीचे लगता है। मैं सबको max thinking setting पर चलाता हूँ
DeepSeek के अपने endpoint जैसी ultra-low-cost cached reads की सुविधा तो नहीं है, लेकिन Anthropic API pricing से यह अब भी काफ़ी सस्ता है। हालाँकि यहाँ यह बात अहम है कि अभी आप API pricing नहीं दे रहे हैं।
DeepSeek और Xiaomi की cached read discount का संबंध शायद इस बात से है कि latest-generation models KV storage कम इस्तेमाल करते हैं, इसलिए caching सस्ती पड़ती है। किसी भी open model inference provider ने अभी तक उस pricing को match करने की कोशिश नहीं की है; इससे inference pricing structure के बारे में कुछ पता चलता है, लेकिन ठीक-ठीक क्या, यह मुझे नहीं मालूम।
मैं सहमत हूँ कि सबसे अच्छे open models अभी frontier level पर नहीं हैं। big-picture planning में, या ऐसी स्थितियों में जहाँ आप सिर्फ एक मोटा ढाँचा देकर बहुत अनुमान की उम्मीद करते हैं, वहाँ फ़र्क दिखेगा। लेकिन concrete plans के साथ coding करने के लिए ये काफ़ी ठीक लगते हैं। मैंने इन्हें सिर्फ company के बाहर इस्तेमाल किया है, इसलिए बड़े codebase का अनुभव नहीं है, लेकिन ज़रूरत पड़ने पर जानकारी इकट्ठा करने की इनकी क्षमता ठीक लगती है, इसलिए शायद grep से ढूँढते हुए काम कर लेंगे।
एक परेशान करने वाला संकेत यह है कि अगर आप personal subscription plan का ज़्यादा इस्तेमाल करते हैं, तो वह API से काफ़ी सस्ता पड़ता है। https://she-llac.com/claude-limits देखने पर cost discussion और जटिल हो जाती है। फिर भी मुझे लगता है कि open models के साथ खेलकर देखना worthwhile है। यह उन चीज़ों में से एक है जो आपको कुछ कंपनियों के product bundle की जगह एक single technology की तरह इससे निपटने देती है
इस तरह की बड़ी खबरों के लिए एक guideline: छोटे test bundles के आधार पर यह घोषित कर देना कि एक model दूसरे से बेहतर है, मुझे संदेह है कि क्या ऐसे नतीजे सच में लगातार reproduce किए जा सकते हैं।
public disclosure भी लगभग नहीं है, इसलिए दूसरे लोगों के पास tests या judgments को सीधे verify करने लायक सामग्री practically नहीं है।
DeepSeek V4 Pro की सबसे बड़ी value इसकी कम कीमत है। मैं GPT-5.5 से बहुत बेहतर performance की उम्मीद नहीं करता, और अगर यह gpt-5.4 के स्तर की performance दे दे, तब भी यह अच्छा model है
DSv4 Flash से बेहतर मॉडल की ज़रूरत वाले काम मैं लगभग कभी नहीं करता। Pro की तो और भी कम ज़रूरत है
अगर आप समस्या और समाधान को काफ़ी अच्छी तरह समझा सकते हैं, तो Flash बस काम कर देता है
जब आप समस्या को पर्याप्त रूप से समझा नहीं पाते, या आलस की वजह से सिर्फ़ मनचाहा नतीजा बता पाते हैं, तब GPT 5.5 जैसे मॉडल अपने-आप मज़बूत समाधान खोजने में निश्चित रूप से बेहतर लगते हैं
मॉडल की क्षमता में फ़र्क़ साफ़ है, लेकिन यह भी उतना ही साफ़ है कि छोटे open weight मॉडल भी ज़्यादातर कामों में काफ़ी मददगार होने लायक पर्याप्त अच्छे हैं
cost-performance की वजह से deepseek v4 इस्तेमाल कर रहा हूँ। कुल मिलाकर यह कुछ दूसरे मॉडलों से कमज़ोर लगता है, लेकिन आख़िर में अगर सही acceptance criteria दे दिए जाएँ, तो किसी भी मॉडल से काम कराया जा सकता है
उसे detailed spec और tests दीजिए, और सही होने तक iterate करने की अनुमति दीजिए। one-shot performance मापने का खराब metric है
वह information space में बार-बार iterate करता रह सकता है और मनचाहा समाधान पाए बिना फँस सकता है
यह मदद तो करता है, लेकिन failure cases में अक्सर इंसान को बीच में आकर दिशा देनी पड़ती है या किसी खास path को ज़बरदस्ती सुधारना पड़ता है, तभी समाधान तक पहुँचा जा सकता है
reasonix के साथ इस्तेमाल किया गया DeepSeek V4 Pro हैरान कर देने वाला सस्ता है और ज़्यादातर coding tasks के लिए काफ़ी अच्छा है। यह GPT 5.5 और Opus 4.8 से भी काफ़ी अलग है, इसलिए कभी-कभी ऐसे मुद्दे पकड़ लेता है जो बाकी दोनों नहीं पकड़ पाते
मेरे हिसाब से इसे toolbox में रखना चाहिए
DeepSeek V4 Pro शानदार है और बेतहाशा सस्ता भी, लेकिन MiMo V2.5 Pro को कम आंका जा रहा है। इसकी कीमत समान है, cache price और कम है, यह multimodal है, और ज़्यादातर benchmarks में ऊपर रैंक करता है
यही बात MiMo V2.5 और DeepSeek V4 Flash की तुलना पर भी लागू होती है
OSS मॉडल किस provider से इस्तेमाल किए जा रहे हैं, इससे बड़ा फ़र्क़ पड़ता है, और मुख्य वजह cache hit rate है
Model Cheapest effectiveInputPrice (Provider)
MiMo-V2.5-Pro 0.3720 (Xiaomi)
DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)