3 पॉइंट द्वारा GN⁺ 4 시간 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • पहले से तैयारी असंभव बनाने के लिए तुरंत तैयार किए गए 4 टेक्स्ट टास्क की 1:1 तुलना में DeepSeek V4 Pro ने 38.0 अंक और GPT-5.5 Pro ने 33.0 अंक दर्ज किए
  • दोनों मॉडल मजबूत थे, लेकिन DeepSeek अधिक सख्त, अधिक शाब्दिक था और constraints के तहत reliability अधिक थी, जबकि GPT-5.5 Pro को अनावश्यक तात्कालिक बदलावों के कारण अंक कटे
  • सबसे स्पष्ट तकनीकी बढ़त python-log-redactor टास्क में दिखी, जहां एक ही regular expression और replacement function से nested patterns को सही priority में संभालते हुए बिना कुछ छोड़े परिणाम निकाला गया
  • instruction following टास्क में इसने prompt की मांग के अनुसार केवल वही किया, जबकि GPT-5.5 Pro ने shift handoff और escalation जैसे गैर-मांगे गए आइटम जोड़ दिए
  • ऐसे precision work में, जहां छोटी-सी deviation भी वास्तविक failure में बदल सकती है, इसे अधिक संयमित, अधिक सटीक और अधिक भरोसेमंद मॉडल माना गया

समग्र मूल्यांकन परिणाम

  • स्कोर के आधार पर DeepSeek V4 Pro ने 38.0 बनाम 33.0 से जीत हासिल की, और इस अंतर के लिए पर्याप्त आधार मौजूद था
  • मूल्यांकित टास्क्स में Model A (DeepSeek) अधिक सख्त और शाब्दिक था और constraints के भीतर अधिक स्थिर रहा
    • Model B (GPT-5.5 Pro) भी उत्कृष्ट था, लेकिन उसमें तात्कालिक बदलाव करने की कुछ अधिक प्रवृत्ति दिखी
  • अंतिम निष्कर्ष यह रहा कि जिन कामों में छोटी-सी चूक सीधे वास्तविक विफलता में बदल सकती है, उनमें यह अधिक संयमित, अधिक सटीक और अधिक भरोसेमंद मॉडल है

python-log-redactor (कोड लेखन टास्क)

  • Python 3 में redact_log(line: str) -> str फ़ंक्शन लागू करने का टास्क था, जिसमें email को [EMAIL], IPv4 को [IP], और INC- + 6 अंकों वाले ticket ID को [TICKET] से mask करना था
    • बाकी टेक्स्ट ज्यों का त्यों रखना था, 999.1.2.3 जैसे गलत IP को mask नहीं करना था, और multi-line input नहीं होने की धारणा थी
  • विजेता: DeepSeek V4 Pro — इसने एक ही regular expression और replacement function से overlapping patterns को संभाला, जिससे सही replacement priority सुनिश्चित हुई और कुछ भी छूटा नहीं
    • GPT-5.5 Pro ने regular expressions अलग-अलग रखे, जिससे order error का जोखिम बना, और उसके email regex में word boundary की कमी व over-matching जैसी खामियां थीं
    विज्ञापन

vendor-delay-update (कार्य-संदेश लेखन टास्क)

  • यह टास्क operations VP की ओर से regional warehouse managers को भेजे जाने वाले status update का मसौदा तैयार करने का था, जिसमें barcode scanner सप्लायर North Quay Devices की battery certification failure के कारण 420 replacement units की शिपमेंट 12 मई से 19 मई तक टलने की जानकारी देनी थी
    • spare scanners केवल Memphis और Reno के लिए पर्याप्त थे, जबकि Tulsa और Allentown को 1 सप्ताह तक devices साझा करनी थीं
    • non-essential inventory recount रोकने, outbound picking को प्राथमिकता देने, और हर दिन स्थानीय समयानुसार शाम 4 बजे तक shortage tally report भेजने का अनुरोध शामिल होना था; tone शांत, जिम्मेदार और व्यावहारिक, तथा लंबाई 140–180 शब्द
  • विजेता: DeepSeek V4 Pro — इसने prompt के अनुसार "हर दिन स्थानीय समयानुसार शाम 4 बजे तक shortage tally report" को VP की ओर से सीधे स्पष्ट रूप से लिखा और शांत, जिम्मेदार, व्यावहारिक tone बनाए रखी
    • GPT-5.5 Pro ने shift handoff और escalation जैसे गैर-मांगे गए विवरण जोड़ दिए और recipient को "Operations Planning" में बदल दिया, जिससे वह निर्देशों से कुछ हद तक भटक गया; हालांकि दोनों पक्ष उच्च गुणवत्ता के थे और word limit के भीतर रहे

meeting-notes-summary (सारांश और JSON निर्माण टास्क)

  • यह टास्क meeting notes पढ़कर 2 वाक्यों का सारांश लिखने और launch_date, owner, blocked_by, open_questions (array), decisions (array) keys वाला JSON object बनाने का था
    • notes Cedar Lane tenant portal revamp project से संबंधित थे, जिनमें legal approval, frontend completion status, 2026-03-18 launch target, financial sandbox में ACH retry duplicate receipt ID blocking issue, और dark mode हटाने के निर्णय जैसी बातें शामिल थीं
    विज्ञापन
  • विजेता: DeepSeek V4 Pro — इसने मांगे गए schema का सटीक पालन किया और 2-वाक्यीय सारांश के साथ सही types वाले JSON fields दिए
    • GPT-5.5 Pro का सारांश अच्छा था, लेकिन उसने launch_date में conditional text शामिल किया और single value अपेक्षित blocked_by को array के रूप में दिया, जिससे structure का उल्लंघन हुआ

messy-orders-to-json (डेटा normalization टास्क)

  • यह टास्क अव्यवस्थित order lines को निर्धारित schema के object array वाले valid JSON में बदलने का था, जिसमें input order बनाए रखना अनिवार्य था
    • priority को true/false में normalize करना था, none·tbd·- जैसी missing ship dates को null में बदलना था, values के आगे-पीछे का whitespace हटाना था, और items ; से अलग तथा प्रत्येक item SKU xQTY फ़ॉर्मेट में होना था
  • परिणाम: बराबरी — दोनों ने valid JSON दिया, input order बनाए रखा, schema से सटीक मेल किया, और priority व ship_by values का normalization सही किया
    • गुणवत्ता और सटीकता में व्यावहारिक रूप से कोई अंतर नहीं था, लेकिन आसान cleanup टास्क में मिली बराबरी precision work की गलतियों की भरपाई नहीं कर सकी
    विज्ञापन

परीक्षण विधि

  • किसी भी मॉडल के लिए पहले से तैयारी असंभव रहे, इसके लिए मुकाबले हेतु तुरंत तैयार किए गए 4 टेक्स्ट टास्क इस्तेमाल किए गए
  • स्कोरिंग प्रत्येक टास्क के लिए grok-4-1-fast-non-reasoning ने की
  • अंतिम स्कोर DeepSeek V4 Pro 38.0, GPT-5.5 Pro 33.0 रहा

मॉडल विनिर्देश

  • OpenAI: GPT-5.5 Pro

    • जटिल और high-risk workloads के लिए optimized high-performance model, जो गहरे reasoning और accuracy पर केंद्रित है
    • 1M+ token context (input 922K, output 128K), text और image input support, long-horizon problem solving, agentic coding, और multi-step workflows के precise execution के लिए डिज़ाइन
    • कीमत input $30.00 / output $180.00 (प्रति मिलियन tokens), context 1.1M, cutoff 2025-12-01
  • DeepSeek: DeepSeek V4 Pro

    • कुल 1.6T parameters और active 49B parameters वाला बड़ा Mixture-of-Experts मॉडल, जो 1M token context support करता है
    • advanced reasoning, coding, और long-horizon agent workflows के लिए लक्षित, तथा knowledge, math, और software engineering benchmarks में मजबूत प्रदर्शन
    • DeepSeek V4 Flash के समान architecture पर आधारित, और efficient long-context processing के लिए hybrid attention system अपनाता है
    • reasoning strength high और xhigh support; xhigh अधिकतम reasoning से mapped है, और full codebase analysis, multi-step automation, तथा large-scale information synthesis जैसे complex workloads के लिए उपयुक्त
    • कीमत input $0.435 / output $0.870 (प्रति मिलियन tokens), context 1M

2 टिप्पणियां

 
shakespeares 1 시간 전

यकीन ही नहीं होता, सच में..

 
GN⁺ 4 시간 전
Hacker News की राय
  • मनमाने ढंग से बनाए गए 4 प्रयोग किसी भी मॉडल की क्षमता के बारे में लगभग कुछ नहीं बताते
    यह लेख भी मॉडल प्रमोशन या बहस भड़काने के लिए बनाए गए सतही AI-generated clickbait जैसा लगता है
    लीड पैराग्राफ में “where it matters”, “cleanly”, “is still strong” जैसे वाक्यांश अस्पष्ट हैं, और यह कहने जैसी ठोस व्याख्या नहीं है कि वास्तव में 4 में से 3 टेस्ट में DeepSeek ने अधिक संक्षिप्त परिणाम दिए। 1-स्टार स्तर का लेख

    • लगता है lede के उद्देश्य को गलत समझा गया है
      Merriam-Webster के अनुसार lede वह “समाचार लेख का प्रारंभिक भाग है, जिसका उद्देश्य पाठक को पूरा लेख पढ़ने के लिए प्रेरित करना होता है”
      आप अधिक सूखी शैली पसंद कर सकते हैं, लेकिन यह आलोचना करना उचित नहीं कि शुरुआती भाग अपना उद्देश्य पूरा करने की कोशिश कर रहा है
      https://www.merriam-webster.com/dictionary/lede
    • AI के बारे में AI-generated लेख अगर बेहद अच्छी तरह न लिखे गए हों, तो मैं सच में उन्हें HN पर नहीं देखना चाहता
    • 4 में से 3 प्रयोग निश्चित रूप से anecdotal हैं, लेकिन परिणाम स्वयं कुछ अधिक स्थापित instruction-following benchmark के साथ कुछ हद तक मेल खाते हैं। हालांकि उस benchmark में DeepSeek V4 Pro पहले स्थान पर नहीं है
      https://artificialanalysis.ai/evaluations/ifbench
      लेख स्पष्ट और काफी संतुलित लगा। लीड थोड़ा सेल्स कॉपी जैसा है, लेकिन आमतौर पर लीड ऐसे ही होते हैं, और सिर्फ “यह LLM ने लिखा लगता है” कहकर तुरंत खारिज कर देना काफी आलसी प्रतिक्रिया है
    • कार बाजार में भी आदर्श शीर्ष विकल्प एक-दो मॉडल ही होते हैं, लेकिन उनसे कमतर कंपनियां और मॉडल भी कई कारणों से बिकते रहते हैं
      यह लेख दिखाता है कि DeepSeek, GPT 5.5 से प्रतिस्पर्धा कर सकता है और कभी-कभी उससे बेहतर भी हो सकता है। साथ ही यह इस बात का संकेत है कि कोई बचाव योग्य moat नहीं है, इसलिए इसका महत्व काफी है
    • “पेलिकन साइकिल चला रहा है” वाले मेट्रिक पर कोई भी इसे इस तरह का घटिया मनमाना प्रयोग नहीं कहता
  • इस तरह के टेस्ट अब धीरे-धीरे समय की बर्बादी जैसे लगने लगे हैं
    अब बुद्धिमत्ता स्पष्ट रूप से मौजूद है। उसे मापने की कोशिश ही निरर्थक लगती है। जैसे आप हार्डवेयर स्टोर से हथौड़ा खरीदते समय “इस हथौड़े से बनने वाले अंतिम उत्पाद की गुणवत्ता” के आधार पर उन्हें क्रमबद्ध नहीं कर सकते; अभी मॉडल मूल्यांकन कुछ-कुछ वैसी ही मांग कर रहा है
    अगला जादू domain-specific harness और environment में आएगा। जानबूझकर थोड़ा कम ताकतवर मॉडल इस्तेमाल करके डोमेन को उसके सामने उजागर किया जाए, ताकि इस तरीके की कमजोरियां सामने आएं। अगर अतिरिक्त क्षमता बची हो तो प्रोजेक्ट की विश्वसनीयता बहुत बढ़ जाती है। अगर ग्राहक किसी खास edge case की शिकायत करे, तो सिर्फ उस scenario को gpt5.5 पर बढ़ाया जा सकता है, लेकिन अगर आप पहले से ही 5.5 इस्तेमाल कर रहे हैं, तो आगे जाने की जगह नहीं बचती

    • “बुद्धिमत्ता स्पष्ट रूप से मौजूद है” यह बात मुझसे resonate नहीं करती
      सोचता हूं कि क्या हम वही मॉडल इस्तेमाल कर रहे हैं जो दूसरे लोग कर रहे हैं। मेरी नजर में LLM 80% समय अच्छे जवाब देते हैं, लेकिन 20% समय इतने बुरी तरह असफल होते हैं कि साफ हो जाता है कि बुद्धिमत्ता नहीं है
    • सहमत। sonnet 4.6 लगभग हर काम के लिए पर्याप्त लगता है। उस स्तर के बाद मॉडल से ज्यादा orchestration महत्वपूर्ण लगती है
      फिर भी मॉडल रोज अलग-अलग hallucination, epistemic कमी, सामान्य ज्ञान की कमी, और निर्देशों का पालन न करने से चौंकाते रहते हैं
      आज मैंने opus 4.8 से Rails app controller का एक साधारण architecture pattern follow करवाने की कोशिश की, और वह शार्क के दांत खींचने जैसा था
    • मान भी लें कि “स्पष्ट रूप से मौजूद है”, फिर भी अब यह पूछना पड़ता है कि वह “कहां” है, और यह भी कि हमने ऐसे bots देखे हैं जो स्पष्ट रूप से बुद्धिमान नहीं हैं; इसलिए बुद्धिमत्ता की स्थिति और कारण को परिभाषित और जांचना जरूरी हो जाता है
      तभी यह भरोसा मिलेगा कि बुद्धिमत्ता संयोग से या सिर्फ दिखावे में नहीं, बल्कि लगातार और संरचनात्मक रूप से उभर रही है। हल्के उपयोग के लिए हल्के औजार, mission-critical उपयोग के लिए प्रमाणित औजार चाहिए
    • मुझे समझ नहीं आता कि यह समय की बर्बादी क्यों है
      हम अभी बस LLM benchmarking की बारीकियों में प्रवेश कर रहे हैं, और मुझे लगता है अभी लंबा रास्ता तय करना बाकी है। फिर भी यह बहुत रोचक है कि locally running LLM नवीनतम शीर्ष-स्तरीय मॉडलों के करीब परिणाम दे सकता है
    • domain-specific harness और environment में जादू नहीं होता। असली बात training और reinforcement learning में होती है। harness मॉडल के सीखे हुए व्यवहार को ओवरराइड नहीं कर सकता
      अगर मॉडल को CRUD website उगलने के लिए प्रशिक्षित किया गया है, और आप CRUD website ही बनाना चाहते हैं, तो harness उपयोगी हो सकता है। लेकिन वह ज्यादा से ज्यादा पहले से मौजूद चीजों को बेहतर मिलाने की कोशिश है, जो लगभग समय की बर्बादी ही है
  • Claude इस्तेमाल करता था, फिर Opencode ब्लॉक हो गया, तो अब काम पर GPT इस्तेमाल कर रहा हूं। निजी तौर पर Opencode Go में $10/माह वाले प्लान पर Deepseek इस्तेमाल करता हूं, और सच कहूं तो मुझे खास फर्क महसूस नहीं होता
    क्षमता लगभग समान है, और मार्च के बाद से बाकी दोनों जो बेवकूफी भरी गलतियां करते रहे हैं, यह भी उसी तरह की करता है। कीमत को देखते हुए मैं पूरी तरह संतुष्ट हूं

    • 95% समय frontier मॉडल द्वारा 10~100 गुना सस्ते चीनी मॉडल की तुलना में दी जाने वाली अतिरिक्त 5% rigor की जरूरत नहीं होती
      बाकी 5% समय कठिन reasoning समस्याओं में इससे बड़ी मदद मिल सकती है और बहुत पीड़ा बच सकती है। अब बस काश यह ठीक-ठीक पता चल पाता कि वह अतिरिक्त 5% कब चाहिए होगा
    • मैं दोनों subscriptions इस्तेमाल करता हूं, और मुझे निश्चित रूप से लगता है कि gpt बेहतर और ज्यादा consistent है। लेकिन limit hit होने पर उसकी बहुत कमी महसूस नहीं होती
    • पता नहीं मैं क्या गलत कर रहा हूं। पिछले 7 महीनों से Claude इस्तेमाल करते हुए मैंने कभी-कभी deepseek, kimi जैसे मॉडल भी आजमाए, लेकिन कुछ भी Claude के करीब नहीं आया। Claude लगभग हमेशा एक ही बार में काम कर देता है
  • मैंने अपने बनाए हुए vulnerability scanning benchmark में GPT 5.5 Pro को भी जोड़कर देखा (https://swelljoe.com/post/will-it-mythos/), लेकिन इसने बीच में ही $100 का budget limit पूरा खर्च कर दिया। DeepSeek V4 Pro पर पूरे benchmark की लागत लगभग 1 डॉलर आई, जबकि GPT Pro की औसत लागत प्रति case $22 रही
    GPT 5.5 Pro बजट खत्म होने से पहले प्रोसेस किए गए 4 में से 2 ढूंढ पाया। unlimited budget होता तो शायद यह सबसे अच्छा रहता, लेकिन Opus 4.8, DeepSeek V4 Pro, और MiMo 2.5 Pro ने 9 bugs में से 4 ढूंढे। Opus, GPT 5.5 Pro की तुलना में एक order of magnitude सस्ता था और GPT 5.5 से भी लगभग 30% सस्ता था, जबकि DeepSeek और MiMo लगभग 10 सेंट प्रति case पर two orders of magnitude सस्ते थे
    GPT Pro तुलनात्मक रूप से लंबे समय तक और ज़्यादा “चबाता” है
    Opus की लागत से लगभग 31 गुना खर्च करके GPT 5.5 Pro इस्तेमाल करने का कोई तर्कसंगत use case मुझे नहीं सूझता, और अब मैं इसे benchmark में आगे इस्तेमाल नहीं करूंगा
    ऐसे समय में जब token cost लगातार अहम मुद्दा बन रही है, यह तथ्य कि अमेरिकी बड़े providers की तुलना में बेहद सस्ते models मौजूद हैं, Anthropic और OpenAI के लिए समस्या बन सकता है। conversational coding में best model के लिए एक उचित premium देना ठीक है, लेकिन API उपयोग में model iteration, models के बीच comparison, और model evaluation जैसी चीजें इंसानों को लंबे समय तक लगाए बिना harness और ground-truth validation framework से संभाली जा सकती हैं, इसलिए DeepSeek की तुलना में 10x से 200x ज़्यादा चुकाने की वजह ढूंढना मुश्किल है

    • यह भी दिलचस्प हो सकता है
      “$3.88, 690,003,591 tokens, और 5 घंटे में Deepseek Pro और Flash को साथ इस्तेमाल करके Teamspeak 3.13.8 के license system का reverse engineering किया”
      https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
    • सोच रहा हूँ कि क्या तुलना में GPT 5.5 non-pro को भी जोड़ा जा सकता है। GPT Pro “कभी-कभी थोड़ा बेहतर नतीजे के लिए पैसा जला देना चलेगा” वाला option है, न कि वह option जिससे लोग रोज़मर्रा में इस्तेमाल की उम्मीद करें। शायद यही एक वजह है कि इसे Codex में शामिल नहीं किया गया
    • अच्छा लेख है। लेकिन Sonnet, Haiku से खराब क्यों रहा, यह बात उलझाने वाली है। लगता है उसने वह bug नहीं ढूंढा जिसे खोजा जा रहा था, लेकिन दूसरे bugs काफी ढूंढे थे
      ranking करने के लिए 9 bugs थोड़ा छोटा sample लगता है
      फिर भी ranking मोटे तौर पर उम्मीद के मुताबिक ही लगती है
      जानना चाहता हूँ कि Deepseek वाकई Pro था या Flash नहीं था। मैं छोटे कामों के लिए Flash का काफी इस्तेमाल करता हूँ और यह काफ़ी अच्छा है। “conversational” उपयोग के लिए अच्छा है, बहुत तेज़ है, और छोटे काम लगभग तुरंत पूरे कर देता है
      बड़े codebase की जांच के लिए भी यह काम का लग सकता है। सोच रहा हूँ कि क्या यह security work के लिए भी चल पाएगा
    • बढ़िया काम है। लगता है intuition सही है। Mythos moment का बड़ा हिस्सा सही harness और ऐसे मजबूत model के साथ दोहराया जा सकता है जिसमें बेवकूफ़ी भरे guardrails ज़्यादा न हों
      यह देखना भी अच्छा है कि सस्ते models अच्छा प्रदर्शन कर रहे हैं
    • DeepSeek कहाँ चलाया जा रहा है?
  • मैं सोच रहा हूँ कि अगर Claude Code को DeepSeek API pricing पर स्विच करूँ, तो क्या यह अभी इस्तेमाल कर रहे $100 Max प्लान से ज़्यादा value for money देगा।
    5 घंटे की limit तो कुछ दिनों में एक बार ही hit होती है, और weekly limit भी तभी पहुँचती है जब उसे बहुत aggressive तरीके से इस्तेमाल करूँ, वह भी reset से एक-दो दिन पहले। limits न अटकाएँ तो usage बहुत ज़्यादा बढ़ेगा, ऐसा नहीं लगता।
    अमेरिकी-विरोधी सरकार के तहत चल रहे किसी research lab को अपना काम भेजना अभी भी थोड़ा असहज लगता है, इसलिए मैं सिर्फ cost नहीं देख रहा, लेकिन इस सवाल में मेरा फोकस cost पर है

    • ‘पैसे की वसूली’ किसे मानते हैं, इस पर निर्भर करता है। Open weight models openai/claude से बेहतर नहीं हैं। लेकिन वे काफ़ी सस्ते हैं और उनकी limits भी बहुत ज़्यादा हैं, इसलिए कम पैसों में उनसे ज़्यादा काम कराया जा सकता है।
      हर subscription provider, Anthropic की तुलना में, पैसे के हिसाब से limit value बेहतर देता है। सिर्फ GitHub अपवाद है, और वह इस मामले में शर्मनाक स्तर तक महँगा और सीमित है।
      (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
      अगर आपका मतलब यह है कि आप अमेरिका के बाहर की research lab का मॉडल इस्तेमाल नहीं करना चाहते, तो आप अमेरिकी models तक बँध जाते हैं, लेकिन अमेरिका में भी कई बड़े research labs हैं। अगर चिंता यह है कि inference कहाँ किया जा रहा है, तो OpenRouter के ज़रिए अमेरिका समेत 12 देशों के providers इस्तेमाल किए जा सकते हैं, और कई subscription providers भी कई देशों में hosting करते हैं। options बहुत हैं
    • मेरी सलाह है कि पहले करके देखिए। deepseek.com में $5 डालिए, यह config shell script में डालिए, फिर . ./deepseek-claude.sh चलाइए और हमेशा की तरह claude इस्तेमाल कीजिए।
      export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
      export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
      export ANTHROPIC_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_EFFORT_LEVEL=max
      शुरू में मैंने इसे तब इस्तेमाल किया जब limit के पास पहुँच रहा था और बड़े reading tasks करने थे। ईमानदारी से कहूँ तो यह Claude जितना अच्छा नहीं है, लेकिन बहुत सस्ता है और आपको लगातार काम करते रहने देता है। कभी-कभी claude और deepseek दोनों से code देखकर उसे बेहतर करने के तरीके पूछना, और फिर दोनों के जवाब compare करना भी अच्छा रहता है
    • मैं Claude को $100 monthly subscription पर इस्तेमाल कर रहा हूँ। मैं एक setup आज़मा रहा हूँ जिसमें Opus architect, Sonnet implementer/engineer, और deepseek-pro deep reviewer और tester के रूप में काम करते हैं, और उम्मीद के मुताबिक यह काफ़ी अच्छा है।
      अगर usage pattern ऐसा ही रहा, तो मैं subscription को $20 monthly पर downgrade करके DeepSeek में ज़्यादा पैसे डालने का सोच रहा हूँ।
      संदर्भ repository: https://github.com/aravindhsampath/agentic-template
    • प्रति डॉलर performance काफ़ी बेहतर है, और प्रति घंटे performance थोड़ा कम।
      हमेशा की तरह, हर model अलग-अलग जगह अटकता है। Cursor experiments, exploration, और proof of concept के ज़्यादातर कामों के लिए मैं DeepSeek v4 API इस्तेमाल करता हूँ, लेकिन production code लिखने में OpenAI/Claude की तुलना में उस पर कम भरोसा करता हूँ। कभी DeepSeek debugging या planning में बहुत अच्छा होता है, और कभी अटक जाता है या low-quality output देता है। OpenAI और Anthropic models के साथ भी ऐसा होता है।
      कुल मिलाकर DeepSeek इस्तेमाल करने लायक है, लेकिन Opus 4.8 और GPT 5.5 से एक स्तर नीचे लगता है। मैं सबको max thinking setting पर चलाता हूँ
    • अगर inference के लिए data बाहर भेजने की चिंता है, तो Fireworks उन कंपनियों में से एक है जो open models को अच्छी performance के साथ देती हैं और compliance तथा no-data retention को काफ़ी व्यवस्थित ढंग से संभालती हैं। OpenCode, Fireworks और कई providers को support करता है, और Cursor भी Fireworks इस्तेमाल करता है।
      DeepSeek के अपने endpoint जैसी ultra-low-cost cached reads की सुविधा तो नहीं है, लेकिन Anthropic API pricing से यह अब भी काफ़ी सस्ता है। हालाँकि यहाँ यह बात अहम है कि अभी आप API pricing नहीं दे रहे हैं।
      DeepSeek और Xiaomi की cached read discount का संबंध शायद इस बात से है कि latest-generation models KV storage कम इस्तेमाल करते हैं, इसलिए caching सस्ती पड़ती है। किसी भी open model inference provider ने अभी तक उस pricing को match करने की कोशिश नहीं की है; इससे inference pricing structure के बारे में कुछ पता चलता है, लेकिन ठीक-ठीक क्या, यह मुझे नहीं मालूम।
      मैं सहमत हूँ कि सबसे अच्छे open models अभी frontier level पर नहीं हैं। big-picture planning में, या ऐसी स्थितियों में जहाँ आप सिर्फ एक मोटा ढाँचा देकर बहुत अनुमान की उम्मीद करते हैं, वहाँ फ़र्क दिखेगा। लेकिन concrete plans के साथ coding करने के लिए ये काफ़ी ठीक लगते हैं। मैंने इन्हें सिर्फ company के बाहर इस्तेमाल किया है, इसलिए बड़े codebase का अनुभव नहीं है, लेकिन ज़रूरत पड़ने पर जानकारी इकट्ठा करने की इनकी क्षमता ठीक लगती है, इसलिए शायद grep से ढूँढते हुए काम कर लेंगे।
      एक परेशान करने वाला संकेत यह है कि अगर आप personal subscription plan का ज़्यादा इस्तेमाल करते हैं, तो वह API से काफ़ी सस्ता पड़ता है। https://she-llac.com/claude-limits देखने पर cost discussion और जटिल हो जाती है। फिर भी मुझे लगता है कि open models के साथ खेलकर देखना worthwhile है। यह उन चीज़ों में से एक है जो आपको कुछ कंपनियों के product bundle की जगह एक single technology की तरह इससे निपटने देती है
  • इस तरह की बड़ी खबरों के लिए एक guideline: छोटे test bundles के आधार पर यह घोषित कर देना कि एक model दूसरे से बेहतर है, मुझे संदेह है कि क्या ऐसे नतीजे सच में लगातार reproduce किए जा सकते हैं।
    public disclosure भी लगभग नहीं है, इसलिए दूसरे लोगों के पास tests या judgments को सीधे verify करने लायक सामग्री practically नहीं है।
    DeepSeek V4 Pro की सबसे बड़ी value इसकी कम कीमत है। मैं GPT-5.5 से बहुत बेहतर performance की उम्मीद नहीं करता, और अगर यह gpt-5.4 के स्तर की performance दे दे, तब भी यह अच्छा model है

    • उम्मीद हमेशा हक़ीक़त नहीं होती। model को खुद इस्तेमाल करके देखना बेहतर है। सच कहूँ तो मैंने Pro भी नहीं, सिर्फ Flash ही इस्तेमाल किया है, और मैं PHP web development करता हूँ
  • DSv4 Flash से बेहतर मॉडल की ज़रूरत वाले काम मैं लगभग कभी नहीं करता। Pro की तो और भी कम ज़रूरत है
    अगर आप समस्या और समाधान को काफ़ी अच्छी तरह समझा सकते हैं, तो Flash बस काम कर देता है
    जब आप समस्या को पर्याप्त रूप से समझा नहीं पाते, या आलस की वजह से सिर्फ़ मनचाहा नतीजा बता पाते हैं, तब GPT 5.5 जैसे मॉडल अपने-आप मज़बूत समाधान खोजने में निश्चित रूप से बेहतर लगते हैं
    मॉडल की क्षमता में फ़र्क़ साफ़ है, लेकिन यह भी उतना ही साफ़ है कि छोटे open weight मॉडल भी ज़्यादातर कामों में काफ़ी मददगार होने लायक पर्याप्त अच्छे हैं

  • cost-performance की वजह से deepseek v4 इस्तेमाल कर रहा हूँ। कुल मिलाकर यह कुछ दूसरे मॉडलों से कमज़ोर लगता है, लेकिन आख़िर में अगर सही acceptance criteria दे दिए जाएँ, तो किसी भी मॉडल से काम कराया जा सकता है
    उसे detailed spec और tests दीजिए, और सही होने तक iterate करने की अनुमति दीजिए। one-shot performance मापने का खराब metric है

    • मैं यह नहीं मानता कि सभी मॉडल acceptance criteria पर converge करते हैं। मैंने agent-based modeling और उस क्षेत्र की scientific modeling पर काफ़ी विविध काम किया है, और validation के लिए मानदंड होने और convergence point तक पहुँचने का कोई विचार होने का मतलब यह नहीं कि वह वास्तव में converge करेगा
      वह information space में बार-बार iterate करता रह सकता है और मनचाहा समाधान पाए बिना फँस सकता है
      यह मदद तो करता है, लेकिन failure cases में अक्सर इंसान को बीच में आकर दिशा देनी पड़ती है या किसी खास path को ज़बरदस्ती सुधारना पड़ता है, तभी समाधान तक पहुँचा जा सकता है
  • reasonix के साथ इस्तेमाल किया गया DeepSeek V4 Pro हैरान कर देने वाला सस्ता है और ज़्यादातर coding tasks के लिए काफ़ी अच्छा है। यह GPT 5.5 और Opus 4.8 से भी काफ़ी अलग है, इसलिए कभी-कभी ऐसे मुद्दे पकड़ लेता है जो बाकी दोनों नहीं पकड़ पाते
    मेरे हिसाब से इसे toolbox में रखना चाहिए

  • DeepSeek V4 Pro शानदार है और बेतहाशा सस्ता भी, लेकिन MiMo V2.5 Pro को कम आंका जा रहा है। इसकी कीमत समान है, cache price और कम है, यह multimodal है, और ज़्यादातर benchmarks में ऊपर रैंक करता है
    यही बात MiMo V2.5 और DeepSeek V4 Flash की तुलना पर भी लागू होती है

    • यह लेख लिखे जाने के समय के https://news.ycombinator.com/item?id=48343690 के अनुसार, MiMo V2.5 Pro का cache hit price और कम था। मूल पाठ यह है
      OSS मॉडल किस provider से इस्तेमाल किए जा रहे हैं, इससे बड़ा फ़र्क़ पड़ता है, और मुख्य वजह cache hit rate है
      Model Cheapest effectiveInputPrice (Provider)
      MiMo-V2.5-Pro 0.3720 (Xiaomi)
      DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)