7 पॉइंट द्वारा GN⁺ 2026-05-03 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek ने V4 सीरीज़ के पहले मॉडल के रूप में DeepSeek-V4-Pro और DeepSeek-V4-Flash प्रीव्यू मॉडल जारी किए हैं। दोनों मॉडल 10 लाख token context को सपोर्ट करने वाले Mixture of Experts मॉडल हैं और MIT लाइसेंस के तहत उपलब्ध हैं
  • DeepSeek-V4-Pro कुल 1.6T parameters और 49B active parameters वाला मॉडल है, और Kimi K2.6, GLM-5.1, DeepSeek V3.2 से बड़ा अधिकतम open weight मॉडल है
  • DeepSeek V4 की सबसे बड़ी खासियत इसकी कीमत है: Flash की कीमत 10 लाख input tokens पर $0.14 और output पर $0.28 है, जबकि Pro की कीमत input $1.74 और output $3.48 है, जो तुलना किए गए छोटे और बड़े मॉडलों से कम है
  • कम कीमत का संबंध long context efficiency से है। 10 लाख token context पर Pro, DeepSeek-V3.2 की तुलना में single-token FLOPs 27% और KV cache 10% तक घटाता है, जबकि Flash में FLOPs 10% और KV cache 7% तक कम हो जाते हैं
  • अपने benchmark में DeepSeek-V4-Pro frontier मॉडल्स से मुकाबला कर सकता है, लेकिन GPT-5.4 और Gemini-3.1-Pro से थोड़ा नीचे है, और अत्याधुनिक frontier मॉडल्स की तुलना में विकास trajectory में लगभग 3~6 महीने पीछे दिखता है

मॉडल रिलीज़ और बुनियादी स्पेसिफिकेशन

  • DeepSeek ने 2025 के दिसंबर में V3.2 और V3.2 Speciale के बाद V4 सीरीज़ के पहले मॉडल के रूप में DeepSeek-V4-Pro और DeepSeek-V4-Flash नाम के 2 प्रीव्यू मॉडल जारी किए
  • दोनों मॉडल 10 लाख token context को सपोर्ट करने वाले Mixture of Experts मॉडल हैं, और standard MIT लाइसेंस का उपयोग करते हैं
  • DeepSeek-V4-Pro कुल 1.6T parameters और 49B active parameters वाला मॉडल है, जबकि DeepSeek-V4-Flash कुल 284B parameters और 13B active parameters वाला मॉडल है
  • DeepSeek-V4-Pro, Kimi K2.6 के 1.1T, GLM-5.1 के 754B, और DeepSeek V3.2 के 685B से बड़ा है, इसलिए यह नया सबसे बड़ा open weight मॉडल लगता है
  • Hugging Face के अनुसार मॉडल साइज़ Pro के लिए 865GB और Flash के लिए 160GB है, और उम्मीद है कि हल्के quantization वाला Flash 128GB M5 MacBook Pro पर चल सकता है
  • अगर Pro मॉडल में ज़रूरी active experts को केवल disk से stream किया जा सके, तो उसके भी उसी मशीन पर चलने की संभावना है
  • OpenRouter के ज़रिए एक आसान टेस्ट

कीमत, efficiency, और performance की स्थिति

  • DeepSeek V4 में सबसे उभरकर दिखने वाली चीज़ कीमत है। DeepSeek pricing page के अनुसार Flash की कीमत 10 लाख input tokens पर $0.14 और 10 लाख output tokens पर $0.28 है
  • Pro की कीमत 10 लाख input tokens पर $1.74 और 10 लाख output tokens पर $3.48 रखी गई है
  • तुलना तालिका में DeepSeek V4 Flash, GPT-5.4 Nano के input $0.20·output $1.25 और Gemini 3.1 Flash-Lite के input $0.25·output $1.50 से भी कम है, इसलिए यह छोटे मॉडलों में सबसे सस्ता है
  • DeepSeek V4 Pro, Gemini 3.1 Pro के input $2·output $12, GPT-5.4 के input $2.50·output $15, Claude Sonnet 4.6 के input $3·output $15, Claude Opus 4.7 के input $5·output $25, और GPT-5.5 के input $5·output $30 से कम है, इसलिए यह बड़े frontier मॉडल्स में सबसे सस्ता है
  • efficiency कम कीमत को support करती है

    • DeepSeek paper में कहा गया है कि इस रिलीज़ में long context prompt efficiency पर बहुत ज़्यादा फोकस किया गया है
    • 10 लाख token context पर DeepSeek-V4-Pro, DeepSeek-V3.2 की तुलना में single-token FLOPs को 27% और KV cache size को 10% तक सीमित रखता है
    • इसी स्थिति में DeepSeek-V4-Flash, DeepSeek-V3.2 की तुलना में single-token FLOPs को 10% और KV cache size को 7% तक घटा देता है
  • benchmark में frontier के करीब, लेकिन सबसे ऊपर नहीं

    • DeepSeek के self-reported benchmark दिखाते हैं कि Pro मॉडल दूसरे frontier मॉडल्स से मुकाबला कर सकता है
    • paper के अनुसार inference token scaling लागू किया गया DeepSeek-V4-Pro-Max, standard reasoning benchmark में GPT-5.2 और Gemini-3.0-Pro से बेहतर performance दिखाता है
    • हालांकि यह GPT-5.4 और Gemini-3.1-Pro से थोड़ा नीचे है, और अत्याधुनिक frontier मॉडल्स की तुलना में development trajectory में लगभग 3~6 महीने पीछे दिखता है
    • huggingface.co/unsloth/models पर Unsloth के quantized version जारी होने की उम्मीद है, और यह देखना बाकी है कि Flash मॉडल लोकल मशीन पर कितना अच्छा चलता है

2 टिप्पणियां

 
emptybynature 2026-05-09

फिलहाल वाकई इतना सस्ता होना अच्छी बात है, लेकिन समस्या यह है कि यह बहुत धीमा है.... जो काम codex को 5 मिनट लगेंगे, यह उस पर 20 मिनट सोचता है। इसलिए मैं इसे implementation के लिए इस्तेमाल करने के बजाय code review के लिए इस्तेमाल कर रहा हूँ, और code review यह काफ़ी अच्छी तरह करता है, इसलिए संतुष्ट हूँ

 
GN⁺ 2026-05-03
Hacker News की राय
  • मेरे लिए सबसे बड़ा फ़र्क यह है कि DeepSeek बस वही करता है जो उससे कहा जाता है। हाल में मैंने reverse engineering के लिए GPT और Claude दोनों का इस्तेमाल किया, लेकिन दोनों ने मना कर दिया, और OpenAI अकाउंट पर तो मुझे चेतावनी भी मिली

    • अफ़सोस की बात है कि इसका hallucination level बेहूदा रूप से ऊँचा है, जिससे बड़े language model का सबसे बुरा पहलू सामने आता है
      Deepseek v4 pro 94%
      Deepseek v4 flash - 96%
      https://artificialanalysis.ai/evaluations/omniscience?models...
    • मेरे अनुभव में IDA Pro और GLM 5.1 को साथ इस्तेमाल करना बेहतरीन रहा, DeepSeek v4 pro बहुत मामूली अंतर से दूसरे नंबर पर था, और Kimi ने बस मना कर दिया। Claude के साथ reverse engineering करवाने के लिए उसे किसी hero/savior mode जैसी दिशा में धकेलकर धीरे-धीरे red-team तरफ मोड़ना पड़ता है, लेकिन वह आसानी से फिसल जाता है
    • कंपनी में enterprise Cursor अकाउंट है, इसलिए मैं सभी mainstream मॉडल आज़मा सकता हूँ। जाहिर है, source available वाले हमारे अपने code में Composer 2 से एक issue जाँचते समय मैंने उससे license check bypass करने वाला debug flag enable करने को कहा, लेकिन उसने यह भी नहीं करने दिया
      मुझे बहुत गुस्सा आया, और वह पुराने SpongeBob के Patrick meme जैसा लगा। समझ नहीं आता कि मॉडल को law enforcement officer क्यों बनाना चाहते हैं। जो चीज़ गैरकानूनी है, वह वैसे भी गैरकानूनी ही रहती है, और अपराध से निपटने के लिए विशेषज्ञ मौजूद हैं। Google को सच और न्याय का निर्णायक बनने की ज़रूरत नहीं है। law enforcement agencies से जवाबदेही लेना पहले ही मुश्किल है, कम से कम वे हमारे लिए काम तो करते हैं
    • “OpenAI अकाउंट पर मुझे चेतावनी भी मिली” वाला हिस्सा पूरी तरह अजीब और dystopian है, क्योंकि software यूज़र को नतीजों का हवाला देकर धमका रहा है
      डेवलपर साथियों, हमने कैसी दुनिया बना दी है? यह पागलपन है। सोचिए अगर हथौड़ा कहे, “मुझे screw पर मत इस्तेमाल करो, सिर्फ nail पर करो। फिर ऐसा किया तो मैं खुद को नष्ट कर दूँगा।” काश हम ऐसा software बनाना बंद करें
    • “OpenAI अकाउंट पर मुझे चेतावनी भी मिली” वाली बात काफ़ी बार डरावनी लगती है। बिना followers वाला एक आम इंसान होने पर आपके पास व्यावहारिक remedy process भी नहीं होता, और आपको बुनियादी tools से बाहर किया जा सकता है
      सोचिए, OpenAI अगर 20 कंपनियाँ खरीद ले और फिर आपने कभी पहले कोई धुंधली-सी लाइन पार की थी, इस वजह से आप Figma, Next जैसी चीज़ें इस्तेमाल ही न कर सकें। सिर्फ OpenAI नहीं, पूरा ecosystem ही बहुत unreadable है
      मैंने Gemini से Catch-22 के एक quote के बारे में पूछा था, उसमें न हिंसक सामग्री थी न sexual, फिर भी वह streaming के बीच-बीच में रुककर कहता रहा कि वह यह नहीं बता सकता। किताब में ऐसी सामग्री है, लेकिन सिर्फ उसी वजह से पूरा workspace अकाउंट penalize हो सकता है—यह ख़याल आता है
      आदर्श रूप से भविष्य local होना चाहिए, यह मैं जानता हूँ, लेकिन अगले कुछ सालों में वास्तविक लागत और बिजली की खपत देखते हुए यह ज़्यादातर लोगों के लिए कितना realistic है, पता नहीं। अगर आप उस ecosystem में हैं तो M* processor शायद एक अपवाद हो सकता है
  • DeepSeek v4 Pro स्वभाव में Claude Opus 4.6 जैसा लगा, और लागत के मामले में प्रभावशाली था
    मैंने एक काफ़ी बड़े TypeScript codebase में सिर्फ एक single endpoint पर ध्यान देकर API, DTO, service और database model को हर layer में गहराई से देखने, जुड़े हुए types को पूरी तरह समझने, और कोई अस्थायी type न बनने देने को कहा
    उसने जो types introduce हुए और उनमें से कौन से return होते हैं आदि का बहुत छोटा लेकिन सटीक सारांश दिया, और फिर मैंने उससे पूरा ढाँचा सरल करने को कहा
    दोनों prompts में उसने बहुत सारी files देखी होंगी, लेकिन Pro version की कुल लागत $0.09 थी। Claude Opus में, price increase से पहले के अनुभव के हिसाब से भी, सिर्फ इन दो prompts में आसानी से $9~$13 लग जाते, और फ़ायदा शायद इतना नहीं होता
    संदर्भ के लिए, मैंने OpenRouter नहीं बल्कि DeepSeek API सीधे इस्तेमाल किया, क्योंकि OpenRouter खुद DeepSeek की तरफ से rate-limited था

    • मेरा भी यही अनुभव रहा है। “इस पूरे module को स्कैन करो और मेरी पसंदीदा style guide के हिसाब से बहुत सावधानी से बिल्कुल सटीक बनाओ” जैसे कामों पर frontier मॉडल में कई डॉलर खर्च करना खटकता था। DeepSeek Flash को बेवकूफ़ाना, गैरज़रूरी या बहुत speculative कामों पर बिना लागत की चिंता के फेंक सकना अच्छा लगता है
    • इस inefficiency का बड़ा हिस्सा इसलिए है क्योंकि मॉडल लगातार random तरीके से इधर-उधर poke करता रहता है और grep चलाता रहता है, और मेरे हिसाब से यह harness की समस्या है
      इसलिए मैंने tree-sitter से code को graph की तरह parse करके Prolog-based MCP बनाया, ताकि मॉडल “इस function से जुड़े सभी functions कौन-कौन से हैं?” जैसे सवाल पूछ सके। किसी खास endpoint का काम समझने के लिए पूरे call subgraph को trivial और predictable तरीके से trace किया जा सकता है
      https://github.com/yogthos/chiasmus
    • “बिना खास फ़ायदे के $9~$13 लग जाते” से आपका मतलब यह है कि 9 cent वाले DeepSeek v4 Pro की तुलना में फ़ायदा ज़्यादा नहीं था, या दोनों में ही कोई खास फ़ायदा नहीं था?
    • 75% discount billing चल रही है, इसे ध्यान में रखें तब भी यह काफ़ी सस्ता है
    • यह जानने की जिज्ञासा है कि आपने इसे कैसे इस्तेमाल किया। OpenRouter से या provider API सीधे?
  • इसी संदर्भ में, 128GB MacBook पर DeepSeek v4 Flash चलाने का एक live demo है। वीडियो इटालियन में है और अंग्रेज़ी subtitles हैं
    https://www.youtube.com/watch?v=todMmp6AGCE

  • मैंने इसे vscode copilot से जोड़कर flash और pro दोनों इस्तेमाल किए। छोटे proof of concept के लिए flash काफ़ी था, काफ़ी तेज़ था, और सच में बहुत सस्ता भी
    यह कुछ बार अटक गया, शायद latency issue रहा हो, लेकिन नतीजे फिर भी अच्छे थे। pro को मैंने भारी कामों और planning वगैरह के लिए इस्तेमाल किया, और उसने शानदार काम किया
    एक छोटे proof of concept पर मैंने लगभग 10 cent खर्च किए, और उसने बिल्कुल वैसा ही काम किया जैसा prompt किया था। मेरे लिए यह इस महीने के अंत में GitHub Copilot बंद करने के बाद का असली विकल्प है

  • लागत frontier मॉडलों से कम है, लेकिन DS4 Pro और K2.6 को दिखने जितना सस्ता न बनने देने वाली दो बातें हैं
    DS4 Pro पर official API में discount लागू है, और चर्चा में इसे अक्सर नज़रअंदाज़ या गड़बड़ कर दिया जाता है। Simon ने तुलना में list price इस्तेमाल की थी, इसलिए यहाँ वह समस्या नहीं है
    दूसरी समस्या यह है कि DS4 Pro और K2.6 अक्सर frontier मॉडलों की तुलना में reasoning tokens बहुत ज़्यादा खर्च करते हैं। मेरे tests में कुछ pathological cases में उन्होंने इतने ज़्यादा tokens खर्च किए कि request cost frontier मॉडल के बराबर पहुँच सकती थी। निष्पक्षता से कहूँ तो, मैं DS और Kimi को third-party provider के जरिए इस्तेमाल कर रहा था, तो हो सकता है यह उनकी settings की समस्या हो
    लेकिन Artificial Analysis model pages देखें तो intelligence benchmark में DSv4 Pro ने 190M tokens, K2.6 ने 170M tokens खर्च किए, जबकि GPT 5.5 high ने सिर्फ 45M
    “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index” में UI पर “Intelligence vs Cost” देखने की सलाह दूँगा। open source मॉडल अभी भी सस्ते हैं, लेकिन केवल token price देखकर जितनी उम्मीद बनती है उतने नहीं
    [0] https://artificialanalysis.ai/models/deepseek-v4-pro
    [1] https://artificialanalysis.ai/models/kimi-k2-6
    [2] https://artificialanalysis.ai/models/gpt-5-5-high

    • यह बहुत ग़लत है, DS4 सच में सस्ता है। पहले release paper पढ़ने की सलाह दूँगा
      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
      इसमें long-context efficiency और attention बेहतर करने के लिए काफ़ी नया तरीका HCA और mCH लाया गया है। v3.2 की तुलना में reasoning के लिए सिर्फ 27% FLOP और KV cache के लिए सिर्फ 10% चाहिए। यानी समान compute resource पर 3 गुना से भी ज़्यादा serving की जा सकती है, और पुराने KV cache का सिर्फ 30% चाहिए
      ऊपर से यह release अभी PREVIEW है। DeepSeek सच में एक open research lab है, और हर release में बहुत कुछ बनाकर न सिर्फ जारी करता है बल्कि खुलकर साझा भी करता है। मैं इसे local पर चला रहा हूँ
      कितना “सस्ता” है, यह बताऊँ तो v3.2 में 256k context पर GPU memory कम पड़ जाती थी और system memory में spill हो जाता था, फिर भी लगभग 7 हज़ार token प्रति सेकंड मिल रहे थे, जो मुझे ठीक लगे। इस बार पूरा 1 million token context 100% GPU memory के भीतर आ जाता है, 2x से ज़्यादा तेज़ चलता है, और परिणाम भी बेहतर हैं
      यह सच में सस्ता है। Moonshot ने साफ़ किया है कि उनके पास GPU की कमी है, इसलिए ऐसा है। अगर अमेरिका जैसी GPU capacity होती और यहाँ की तरह मॉडल को subsidize किया गया होता, तो वे इसे मुफ़्त बाँट देते
    • ऐसा हो सकता है, लेकिन मेरा अनुभव ऐसा नहीं था। मैंने पूरे दिन काफ़ी बड़े refactoring, कई round-trip बातचीत, हज़ारों lines के code changes, review, investigation, और कई sub-agents के parallel काम तक किए, और कुल लागत $0.95 आई
      पहले जब मैंने Opus 4.6 के साथ यही कोशिश की थी, तो पहले prompt से लौटने से पहले ही मेरा लगाया हुआ $10 budget जल चुका था
      मान लें कि कीमतें भारी discount वाली थीं, तब भी पूरी समस्या के हल पर सिर्फ single-digit dollars लगे होते, जबकि Opus में कुछ हासिल किए बिना double-digit dollars लग जाते
    • Artificial Analysis के अनुसार Grok 4.3 DS4 से तेज़, ज़्यादा smart, सस्ता, और कम tokens खर्च करने वाला है। फिर Grok की बात क्यों नहीं हो रही?
      1. https://artificialanalysis.ai/models/grok-4-3
  • V4 हमारे multilingual benchmark में V3.2 से साफ़ तौर पर एक स्तर ऊपर गया है
    हालांकि दो सावधानियाँ हैं। OpenRouter के जरिए inference करते समय speed (TPS) बहुत धीमी थी और कभी-कभी stability की समस्या भी बहुत थी। अभी भी जाँचूँ तो सभी available providers पर 10~30 TPS दिख रहा है, जो DeepSeek जैसे ज़्यादा सोचने वाले मॉडल के लिए ऊँचा नहीं है
    official DeepSeek API paid users को भी data privacy guarantee नहीं देता
    Azure AI Foundry के जरिए इस्तेमाल करें तो दोनों समस्याएँ शायद न रहें। दूसरी वाली के बारे में मेरी जानकारी में ऐसा है, हालांकि मैंने अभी test नहीं किया
    फिर भी, latest top-tier models से कुछ हद तक प्रतिस्पर्धा करने वाले open weight models और आना अच्छा है

  • DeepSeek official API में, अगर उसी codebase पर लंबे sessions में लगातार इस्तेमाल करें, तो cache hit rate 99%+ तक मिलती है, इसलिए यह frontier मॉडलों से बहुत सस्ता पड़ता है। claude code में 200M token session का एक उदाहरण है

    • यह शायद बेवकूफ़ी वाला सवाल हो, लेकिन नए session में cache-match होने वाला सही prefix सुनिश्चित करने के लिए क्या files को उसी क्रम में पढ़ना पड़ता है?
  • यह हैरान करने वाला है कि लोग, खासकर जब वे मॉडल डेवलपर की API सीधे इस्तेमाल कर रहे हों, इस बात की बिल्कुल परवाह नहीं करते कि ऐसे मॉडल आपके डेटा पर सार्वजनिक रूप से train करते हैं
    “GitHub अब सबके code को model training के लिए auto opt-in कर रहा है” जैसी चीज़ों पर सही तौर पर गुस्से से भरी सैकड़ों टिप्पणियाँ आ जाती हैं, लेकिन OpenRouter के जरिए Chinese मॉडल इस्तेमाल करने की बात हो तो यह मुद्दा लगभग उठता ही नहीं। इसे “अलग लोग हैं” कहकर समझाया जा सकता है, लेकिन फर्क इतना तीखा है कि सिर्फ वही वजह हो, यह मानना मुश्किल है

    • open weight models की अच्छी बात यह है कि आप मूल model maker को डेटा भेजे बिना alternative providers आज़ादी से चुन सकते हैं। उदाहरण के लिए OpenRouter में DeepSeek V4 Pro के लिए 6 alternative providers दिख रहे हैं
    • मेरी व्यक्तिगत राय में, जब तक वे मॉडल को जारी करके बंद नहीं कर रहे, तब तक उनकी मदद करने में मुझे आपत्ति नहीं। और provider अगर कहे भी कि training में इस्तेमाल नहीं करेगा, तो भी मैं उस setting पर भरोसा नहीं करता
    • ज़्यादातर open weight models के लिए आप ऐसे providers चुन सकते हैं जो data retention नहीं और training नहीं देते हों। उदाहरण के लिए OpenRouter और OpenCode Go/Zen देख लें
      यह open weight का एक बड़ा फ़ायदा है। न चीन और न अमेरिका मेरा डेटा ले जाता है
    • क्योंकि वे इसे मुफ़्त में बाँटते हैं और API भी बहुत ठीक दाम पर देते हैं। यह समझना मुश्किल नहीं है। Robin Hood हमारे data tax को चुराकर वापस लौटा रहा हो, कुछ वैसा एहसास आता है
    • मेरे open source code पर training हो, यह मुझे स्वीकार है। मेरा code ख़ास अच्छा नहीं है, लेकिन वह मुद्दा नहीं, और वैसे भी सेवा मुफ़्त है। लेकिन मैंने enterprise cost दिया हो और फिर भी training में इस्तेमाल करें, तो मुझे सच में बहुत गुस्सा आएगा। लगता है ज़्यादातर प्रोग्रामर भी ऐसा ही सोचेंगे
  • subsidy circus खत्म होने के बाद भी, और जब सब कुछ pure usage-based पर चला जाए, तब भी उम्मीद बनती है कि जिन आम लोगों के पास हर महीने $200 budget नहीं है, उनके लिए यह पूरी तरह exclusionary नहीं होगा

    • आज की तुलना में price/performance का अचानक बड़ा धोखा नहीं होगा, इसके लिए आशावादी होने की दो वजहें हैं
      पहली, हम लगातार यह खोज रहे हैं कि छोटे मॉडलों में ज़्यादा intelligence कैसे ठूँसी जाए, इसलिए समय के साथ वही hardware spec ज़्यादा model capability दे रही है
      दूसरी, hardware लगातार बेहतर हो रहा है और supply demand के बराबर पहुँच रही है, इसलिए समय के साथ 1 डॉलर में खरीदी जा सकने वाली hardware spec भी बेहतर होती जाती है
      उम्मीद है कि एक दिन हम आज के “provider API के जरिए AI access” मॉडल को वैसे ही देखेंगे जैसे आज हम उस दौर को देखते हैं जब “सब लोग कंपनी के mainframe से connect होते थे”
    • मुझे हैरानी नहीं होगी अगर धूल बैठने तक व्यक्तिगत interactive usage $200 से कम में संभव ही न रहे। मैं इन चीज़ों की serving cost मॉडल करके देख चुका हूँ, और वह public reports से मेल नहीं खाती। ज़्यादा pessimistic scenarios में भी ऐसा ही है
  • पिछले कुछ दिनों से मैं v4 pro इस्तेमाल कर रहा हूँ, और quality के मामले में यह कुल मिलाकर OpenAI 5.4 या Opus 4.6 जैसा लगता है। 4.7 मैंने नहीं आज़माया
    साफ़ कर दूँ, मैं कोई cutting-edge काम नहीं कर रहा। इसे ज़्यादातर frontend development के लिए इस्तेमाल किया, और मैं उस क्षेत्र में बहुत अच्छा नहीं हूँ, इसलिए मुझे बस plausible prototypes चाहिए थे
    मेरे काम के लिए यह पूरी तरह ठीक मॉडल है और कीमत भी उचित है। बस मैं सच में ऐसे छोटे open models का इंतज़ार कर रहा हूँ जिन्हें local पर चलाया जा सके। किसी और की मशीन पर निर्भर रहना, और उस प्रक्रिया में मेरा सारा डेटा बाहर चला जाना, मुझे पसंद नहीं

    • अगर आप Tinfoil के inference का इस्तेमाल करें, तो cloud में मॉडल चलाते हुए भी local execution जैसी privacy मिल सकती है: https://tinfoil.sh/inference
      संदर्भ के लिए, मैं इसका cofounder हूँ। यह तरीका model को security enclave के अंदर चलाता है, और verify करता है कि enclave के अंदर चल रहा open source code runtime attestation से मेल खाता है। इसमें NVIDIA confidential computing इस्तेमाल होती है
      docs में verification process समझाया गया है: https://docs.tinfoil.sh/verification/verification-in-tinfoil
    • अपना अनुभव साझा करने के लिए धन्यवाद, मैं भी इसे आज़माने की सोच रहा हूँ। inference के लिए आप कौन सा provider इस्तेमाल कर रहे हैं? Opencode या DeepSeek API?