2 पॉइंट द्वारा GN⁺ 2025-08-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek-V3.1 अगली पीढ़ी के एजेंट युग की दिशा में पहला कदम है
  • इसमें एक ही मॉडल में Think(तर्क-आधारित) और Non-Think(गैर-तर्क-आधारित) दो मोड को चुनकर इस्तेमाल करने की हाइब्रिड रीजनिंग क्षमता दी गई है
  • DeepSeek-V3.1-Think मोड में पिछले मॉडल DeepSeek-R1-0528 की तुलना में कम समय में सही उत्तर निकाला जा सकता है, जिससे दक्षता में काफी सुधार हुआ है
  • पोस्ट-ट्रेनिंग(Post-training) के जरिए टूल उपयोग, बाहरी सिस्टम संचालन, बहु-चरणीय एजेंट कार्यों आदि में मॉडल की भूमिका निभाने की क्षमता में बड़ा सुधार हुआ है
  • उपयोगकर्ता DeepSeek चैटबॉट सेवा में “DeepThink” बटन के जरिए Think/Non-Think मोड स्विच स्वतंत्र रूप से कर सकते हैं
  • API अपडेट
    • SWE(Software Engineering) और Terminal-Bench मूल्यांकन में बेहतर परिणाम हासिल किए गए हैं
    • जटिल सर्च या मल्टी-स्टेप कार्यों में बहु-चरणीय तर्क और समस्या-समाधान क्षमता को काफी मजबूत किया गया है
    • समग्र रीजनिंग दक्षता में बड़ा इज़ाफ़ा हुआ है
  • प्राइसिंग में बदलाव (9/25 से लागू)
    • इनपुट API : 1M टोकन पर $0.07(कैश हिट) / $0.56 (कैश मिस)
    • आउटपुट API : 1M टोकन पर $1.68

1 टिप्पणियां

 
GN⁺ 2025-08-22
Hacker News टिप्पणियाँ
  • लोकल में चलाने के लिए GGUF मॉडल बनाया गया है; dynamic 2bit तरीके (2bit MoE, बाकी 6-8bit) में अच्छा प्रदर्शन पाने के लिए RAM और VRAM मिलाकर लगभग 250GB चाहिए। SSD offloading भी संभव है, लेकिन धीमा है। चलाने का तरीका और optimal parameters जैसी विस्तृत जानकारी के लिए official docs देखें
    • लेकिन यह अजीब लगता है कि unsloth एक Python library होते हुए भी apt-get को sudo के साथ चलाने की कोशिश करता है। मेरे nixos पर यह फेल हो जाता है, इसलिए इसे इस्तेमाल करना मुश्किल है
    • ऐसी dynamic 2bit compression में original model की तुलना में performance कितना गिरता है, इस पर benchmark results जानने की जिज्ञासा है
  • संदर्भ के लिए terminal-bench leaderboard साझा किया गया है। GPT-5, Claude 4, GLM-4.5 से अंतर बड़ा है, लेकिन दूसरे open-weight models की तुलना में प्रदर्शन काफ़ी ठीक है। Benchmark सब कुछ नहीं बताते, इसलिए असली नतीजे समय बीतने पर ही स्पष्ट होंगे
    • यह benchmark agent tool और model को मिलाकर दिखाता है, इसलिए मुझे लगता है कि इसमें consistency की कमी है। केवल agent tool को fix करके models की तुलना करनी चाहिए, तभी अर्थपूर्ण होगा। इस तरह के benchmarks अक्सर कम भरोसेमंद होते हैं, और बेहतर तरीका यह है कि आप खुद model इस्तेमाल करके अपनी समस्या पर आज़माएँ
    • मेरे अनुभव में output की quality काफ़ी अच्छी थी
    • Anthropic और OpenAI जैसी कंपनियाँ भी खास benchmarks के लिए custom agents विकसित करने की प्रवृत्ति रखती हैं
    • बताया गया कि DeepSeek R1 पहले ही बदला जा चुका पुराना model है; अपडेट की बात समझ में आ गई
    • अगर कीमत बहुत ज़्यादा न हो, तो SOTA model होने पर भी उसमें रुचि बनती है
  • पहले जो off-peak discount मिलता था, उसके हट जाने का अफ़सोस है। उस समय बहुत सारे tokens निकालने पर भी लगभग कोई लागत नहीं आती थी। फिर भी, अब भी इसकी price competitiveness बहुत अच्छी है, इसलिए बड़ी शिकायत नहीं है
  • artificialanalysis.ai के benchmark results के अनुसार इसकी intelligence लगभग gpt-oss-120B जैसी है, लेकिन यह करीब 10 गुना धीमा और 3 गुना महंगा है
    • दिए गए source में अभी सिर्फ एक specific provider दिख रहा है। उसी provider पर gpt-oss-120B और deepseek-chat-v3.1 की तुलना करना अधिक सटीक होगा। यह भी ध्यान रखना चाहिए कि gpt-oss-120B के लिए पहले से deploy और optimize किए गए providers ज़्यादा हैं, इसलिए उसे बढ़त मिलती है
  • DeepSeek V3.1 एक hybrid reasoning model है और tool calling(Task Tool Calling) में इसकी ताकत है। लेकिन standard JSON format की जगह यह अक्सर पुराने tool format को random तरीके से इस्तेमाल करता है। शायद V3 training set में ऐसे data की मात्रा अधिक थी
    • क्या आपने strict(beta) function calling आज़माया है? इसके लिए संबंधित guide है
    • इसका मतलब किस format से है, यह जानना चाहूँगा। मुझे लगा था कि JSON, LLM से structured output मजबूर कराने के लिए उपयुक्त है, तो फिर जानबूझकर JSON से बाहर जाने की वजह क्या है, यह सवाल है
  • ऐसा लगता है कि यह Qwen3 235B 2507 Reasoning (मेरा पसंदीदा model) या gpt-oss-120B से पीछे है। benchmark link देखें, और price reference
    • मेरे हिसाब से Qwen3 2507 series models इस समय लोकल में सबसे अच्छे हैं। अगर GPU और लगभग 32GB RAM हो, तो A3B model pair programming के लिए बहुत उपयुक्त है
  • पिछले 6 महीनों में जिन models का इस्तेमाल किया, उनमें DeepSeek V3.1 में hallucination सबसे ज़्यादा हुआ
    • जानना चाहूँगा कि आपने कौन-सी context length इस्तेमाल की
    • पूछा गया कि क्या इस बार खराब data आ गया था
  • यह V3 और Qwen3 Coder के बीच कहीं आता है। comparison link
    • पूछा जा रहा है कि क्या gpt-5 Mini model मुफ़्त में उपलब्ध है
  • open-weight models के बीच यह competitive लगता है, लेकिन GPT-5 या Claude की तुलना में अभी भी अंतर काफ़ी बड़ा है
  • GLM-4.5 की तुलना में agentic coding tasks में यह बेहतर है, ऐसा कोई ठोस सबूत अभी नहीं देखा गया
    • पूछा जा रहा है कि क्या बस यही बात है, या फिर किसी और पहलू में भी ऐसा कोई आधार है जो नज़र नहीं आया