- DeepSeek ने अपना फ्लैगशिप मॉडल v3 लॉन्च किया
- 607B parameters वाला Mixture-of-Experts(MoE) मॉडल, जिसमें 37B active parameters हैं
- v3, Llama 3.1 405B, Qwen, Mistral से आगे है, और OpenAI GPT-4o व Claude 3.5 Sonnet के बराबर या कुछ कार्यों में उनसे बेहतर है
- यह पहला open model है जो प्रमुख closed models से प्रतिस्पर्धा करता है
TL;DR
- DeepSeek v3 ने कम लागत पर चौंकाने वाला प्रदर्शन हासिल किया
- यह मॉडल बेहतरीन cost-performance देता है और price-to-performance में प्रतिस्पर्धी मॉडलों को पीछे छोड़ता है
- MoE architecture, FP8 mixed precision training, और HAI-LLM framework जैसी innovative engineering अपनाई गई
- गणित और reasoning में GPT-4o और Claude 3.5 Sonnet से बेहतर
- coding और creative tasks में Claude 3.5 Sonnet को हल्की बढ़त
DeepSeek v3 का विवरण
- 14.8 ट्रिलियन उच्च-गुणवत्ता डेटा पर pre-training किया गया
- training cost सिर्फ $6m(8.7 अरब वॉन) रही। Nvidia h800s cluster(2048 GPU) पर लगभग 2.78 मिलियन GPU hours लगे
- तुलना: Meta के Llama 403B को 15 ट्रिलियन tokens पर लगभग 30.84 मिलियन GPU hours की जरूरत पड़ी। यानी लगभग 11 गुना अधिक
- नई model architecture और optimizations की मदद से कम resources में भी अधिक शक्तिशाली performance मिला
- एक महत्वपूर्ण context: अमेरिका ने चीनी कंपनियों के NVIDIA GPU procurement पर प्रतिबंध लगाया है
- Andrej Karpathy का विश्लेषण
- आमतौर पर state-of-the-art LLMs 16K~100K GPU clusters पर निर्भर करते हैं, लेकिन DeepSeek ने कहीं कम resources में समान परिणाम हासिल किए
- इसने साबित किया कि data और algorithm optimization के जरिए compute cost घटाना संभव है
- DeepSeek-V3 LLM ranking tests में अच्छे स्कोर दर्ज कर रहा है और शुरुआती tests में भी मजबूत नतीजे दिखा रहा है
- यह resource-constrained environment में सफल research और engineering का उदाहरण है
- इसका मतलब यह नहीं कि बड़े GPU clusters अनावश्यक हैं, लेकिन यह resource waste को न्यूनतम रखने के महत्व पर जोर देता है
- यह model architecture, training framework, data utilization में innovation की संभावना दिखाता है
- DeepSeek ने एक विस्तृत technical report भी जारी की है, जो उनकी methodology और technical achievements का विश्लेषण करने के लिए मूल्यवान सामग्री देती है
- QLoRA पेपर के लेखक के रूप में प्रसिद्ध Tim Dettmers ने DeepSeek की engineering क्षमता की बहुत प्रशंसा की
"technical report पढ़ने के बाद लगा कि उन्होंने resource constraints के बीच कमाल की engineering क्षमता दिखाई है.
DeepSeek टीम ने hardware constraints के तहत ज्ञात समस्याओं के लिए खुद solutions डिज़ाइन किए.
सब कुछ बहुत साफ और elegant है. किसी 'academic' flashy trick के बिना, सिर्फ pure और solid engineering से हासिल की गई उपलब्धि है. सम्मान."
सबसे सस्ता और उच्च-प्रदर्शन वाला मॉडल
- DeepSeek v3 वर्तमान capabilities को देखते हुए अभी का सबसे सस्ता मॉडल है
- Stability AI के संस्थापक Emad Mostaque** ने DeepSeek v3** की operating cost और efficiency पर टिप्पणी की:
"DeepSeek v3 को 24x7, 60 tokens प्रति सेकंड (मानव पढ़ने की गति से 5 गुना) पर चलाने की लागत $2 प्रति दिन है.
एक latte लेंगे? या AI इस्तेमाल करेंगे?" - DeepSeek API pricing
- 8 फरवरी तक पिछला version(V2) वाला ही pricing रहेगा, उसके बाद:
- Input:
- बेसिक: $0.27 / million tokens
- cache hit: $0.07 / million tokens
- Output: $1.10 / million tokens
- यह pricing policy GPT-4o और Claude 3.5 Sonnet स्तर के मॉडल को कहीं कम लागत पर इस्तेमाल करने देती है
- खासकर AI developers के लिए यह किसी बड़े तोहफे जैसा अवसर है, जो high-performance models के साथ कई संभावनाएँ खोलता है
प्रमुख innovation factors
- model architecture
- Mixture-of-Experts (MoE) architecture का उपयोग, जिसमें कुल 671B parameters में से हर token पर सिर्फ 37B parameters activate होते हैं
→ dense model की तुलना में compute requirement में भारी कमी - Multi-head Latent Attention (MLA) से Key-Value cache को compress किया गया
→ memory usage कम और training अधिक efficient
- Mixture-of-Experts (MoE) architecture का उपयोग, जिसमें कुल 671B parameters में से हर token पर सिर्फ 37B parameters activate होते हैं
- FP8 mixed precision training
- FP8 mixed precision training framework से memory usage कम हुआ और training speed बढ़ी
- मौजूदा FP16/FP32 formats की तुलना में memory usage में अधिकतम 50% तक कमी
- fine-grained quantization और precise accumulation precision strategy के जरिए accuracy बनाए रखी गई
- load balancing strategy
- auxiliary-loss के बिना MoE architecture में load balancing लागू किया गया
→ पारंपरिक auxiliary-loss approach की कमियों को दूर करते हुए performance सुधरी
- auxiliary-loss के बिना MoE architecture में load balancing लागू किया गया
- training framework
- HAI-LLM नाम का custom training framework बनाया गया, जिसकी मुख्य optimizations:
- DualPipe algorithm से efficient pipeline parallelism लागू
→ pipeline delay(bubble) कम और computation व communication overlap - efficient cross-node all-to-all communication kernel से network bandwidth का अधिकतम उपयोग
- महंगे tensor parallelism के बिना memory optimization
- DualPipe algorithm से efficient pipeline parallelism लागू
- HAI-LLM नाम का custom training framework बनाया गया, जिसकी मुख्य optimizations:
- इन innovations के जरिए DeepSeek ने लगभग 60 लाख डॉलर की लागत में large-scale model को कुशलतापूर्वक train करने की उल्लेखनीय उपलब्धि हासिल की
Chain of Thought(CoT) with R1
- DeepSeek ने नई DeepThink feature जोड़कर R1 model series की Chain-of-Thought(CoT) reasoning क्षमता को DeepSeek v3 LLM में integrate किया
- Post-Training: Knowledge Distillation from DeepSeek-R1
- DeepSeek R1 series models की long-form Chain-of-Thought(CoT) reasoning क्षमता को सामान्य LLMs (विशेषकर DeepSeek-V3) में distill करने की नई methodology पेश की
- R1 model के verification और reflection patterns को DeepSeek-V3 में सुंदर तरीके से integrate किया गया, जिससे reasoning performance में स्पष्ट सुधार हुआ
- DeepSeek-V3 के output style और length को प्रभावी ढंग से नियंत्रित करते हुए reasoning quality बनाए रखी गई
- DeepSeek Chat में DeepThink feature enable किया जा सकता है.
- DeepSeek-V3 की reasoning performance, o1 की तुलना में कमजोर है, लेकिन CoT integration से कुछ स्तर तक performance improvement की पुष्टि हुई
DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet
- DeepSeek v3 ने प्रमुख benchmarks में शानदार स्कोर दर्ज कर AI community को उत्साहित कर दिया
- लेकिन वास्तविक परिस्थितियों में यह OpenAI GPT-4o और Claude 3.5 Sonnet की तुलना में कैसा प्रदर्शन करता है?
- क्या यह मॉडल सच में इतनी प्रशंसा का हकदार है, या इसे बढ़ा-चढ़ाकर पेश किया गया है?
- इसका मूल्यांकन करने के लिए चार प्रमुख क्षेत्रों पर केंद्रित custom benchmark set के साथ तीनों models का परीक्षण किया गया:
- reasoning, math, coding, creative writing
- बेसलाइन सेटिंग
- GPT-4o और Claude 3.5 Sonnet इस benchmark में सभी reasoning और math समस्याओं में असफल रहे
- Gemini 2.0 1206 और o1 ही इन tasks को सफलतापूर्वक कर पाए
- DeepSeek v3 से उम्मीद perfection की नहीं, बल्कि मौजूदा मॉडलों से बेहतर सुधार की थी
[1. reasoning]
- reasoning क्षमता बुद्धिमान systems के मुख्य तत्वों में से एक है
- test results में o1 सबसे बेहतर रहा, उसके बाद Gemini 2.0 1206
- अब DeepSeek v3 के प्रदर्शन पर नज़र डालें..
a. उत्तर का चौथा शब्द ढूँढना
- prompt: "What is the fourth word of the sentence of your response to this question?"
- DeepSeek v3 response:
- DeepThink CoT feature enable करने के बाद DeepSeek v3 ने सही उत्तर निकाला. CoT-आधारित reasoning मॉडल की performance सुधारने में प्रभावी रही
b. उत्तर में शब्दों की संख्या गिनना
- prompt: "Count the number of words in the response to this prompt."
- DeepSeek v3 response:
- DeepSeek सही उत्तर नहीं दे पाया. हालांकि, GPT-4o और Claude 3.5 Sonnet भी इस समस्या में असफल रहे
c. 'Strawberry' में 'r' की संख्या
- prompt: "How many ‘r’ in Strawberry?"
- DeepSeek v3 response:
- DeepSeek ने सही उत्तर दिया
- यह देखते हुए कि GPT-4o इस सरल सवाल में हमेशा गलती करता था, DeepSeek इस पहलू में बढ़त दिखाता है
d. किसान और भेड़ की समस्या
- prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
- DeepSeek v3 response:
- DeepSeek विश्लेषण के बाद निष्कर्ष तक पहुँचा, लेकिन अंतिम उत्तर गलत था
- DeepThink CoT feature enable होने पर भी यह उसी गलत उत्तर पर पहुँचा
संदर्भ के लिए, GPT-4o और Claude 3.5 Sonnet भी इस समस्या को सही हल नहीं कर पाए, और o1 ही अकेला मॉडल था जिसने सही उत्तर निकाला
reasoning सारांश
- DeepSeek v3, o1 जितना मजबूत नहीं है, लेकिन Claude 3.5 Sonnet और GPT-4o के बराबर या कई बार उनसे बेहतर प्रदर्शन करता है
- खासकर price-to-performance के मामले में DeepSeek v3 शानदार है. इस दृष्टि से DeepSeek एक बेहतरीन विकल्प लगता है
[2. गणित]
a. 5.11 - 5.90 = ?
- prompt: "5.11 - 5.90 = ?"
- DeepSeek v3 response:
सरल समस्या होने के बावजूद कई बड़े LLMs अक्सर इसमें विफल होते हैं. DeepSeek v3 ने सही गणना करके सही उत्तर दिया
b. समांतर चतुर्भुज का संभावित चौथा शीर्ष ढूँढना
- prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
- समस्या की पृष्ठभूमि:
- यह प्रश्न Gilbert Strang की Linear Algebra से लिया गया है, और केवल o1 व Gemini 2.0 1206 ही सही उत्तर ढूँढ पाए
- GPT-4o और Claude 3.5 Sonnet केवल एक संभावित शीर्ष ही ढूँढ पाए
- DeepSeek v3 response:
- DeepSeek ने सभी संभावित चौथे शीर्ष सही-सही निकाले
- यह दिखाता है कि DeepSeek v3 गणितीय समस्याओं में GPT-4o और Claude 3.5 Sonnet से बेहतर है
c. दो पूर्णांकों का योग ढूँढना
- prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
- DeepSeek v3 response:
- DeepThink feature enable करके मॉडल की calculation क्षमता बढ़ाई गई, और DeepSeek ने सही उत्तर निकाला
गणित क्षमता सारांश
- DeepSeek v3 गणितीय समस्याओं में GPT-4o और Claude 3.5 Sonnet से बेहतर प्रदर्शन करता है
- खासकर जटिल समस्याओं में भी यह सही परिणाम देता है, जो benchmark scores से भी मेल खाता है
- गणितीय सटीकता के लिहाज से DeepSeek v3 एक काफी भरोसेमंद मॉडल है
[3. coding]
"Super Heroes" समस्या (LeetCode Hard)
- समस्या की पृष्ठभूमि: :
- "Super Heroes" एक dynamic programming समस्या है, और हाल की competitive programming contests में इस्तेमाल होने वाली कठिन समस्याओं में से एक है
- यह समस्या test करने के लिए उपयुक्त है कि LLM कितना अच्छा काम करता है.
- समस्या और परिणाम छोड़ दिए गए
- DeepSeek v3 का problem-solving result
- पहले प्रयास में मॉडल सभी test cases pass नहीं कर पाया, लेकिन दूसरे प्रयास में उसने एक perfect solution जनरेट किया
- संभव है कि मॉडल ने समस्या पहले से सीखी हो, लेकिन यह वास्तविक code generation क्षमता में सुधार भी दिखाता है
coding क्षमता सारांश
- DeepSeek v3, Claude 3.5 Sonnet से थोड़ा पीछे है, लेकिन GPT-4 के मुकाबले लगभग समान स्तर पर है
- performance-to-cost ratio के लिहाज से DeepSeek v3 बहुत मजबूत है, और user interface applications बनाना चाहने वाले developers के लिए आदर्श विकल्प है
[4. creative writing सारांश]
- creative writing क्षमता का आकलन व्यक्तिगत पसंद और tone के आधार पर बदल सकता है
- GPT-4o: आमतौर पर अधिक औपचारिक और enterprise-friendly tone रखता है, और user को संतुष्ट करने की कोशिश करता दिखता है
- Claude 3.5 Sonnet: अधिक मानवीय tone और विशिष्ट दृष्टिकोण रखता है, और अधिक creative व original राय देता है
- Deepseek v3: test results में इसने GPT-4o से आश्चर्यजनक रूप से मिलते-जुलते response patterns दिखाए. paragraph structure और expression style तक काफी समान थे
- इससे संकेत मिलता है कि Deepseek v3 ने संभवतः GPT-4o से जनरेट किए गए synthetic dataset पर training की हो सकती है
creative writing क्षमता सारांश
- Deepseek v3 का प्रदर्शन GPT-4o जैसा है, और इसकी writing style व tone भी GPT-4o से काफी मिलती है
- अगर आपको GPT-4o पसंद था, तो Deepseek v3 भी संतोषजनक विकल्प होगा
- Deepseek v3 cost-performance में मजबूत है, और creative writing tasks में भी भरोसेमंद मॉडल है
- यदि आप अधिक creative और original approach चाहते हैं, तो o1 और Claude 3.5 Sonnet अधिक उपयुक्त हो सकते हैं
[अंतिम मूल्यांकन]
- reasoning: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
- गणित: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
- coding: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
- रचनात्मकता: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
Deepseek v3 किसे इस्तेमाल करना चाहिए?
- अधिकांश कामों में GPT-4o का विकल्प बन सकता है
- अगर application बनाना है तो यह बेहतरीन है. cost-performance बहुत अच्छा है, इसलिए user applications development के लिए उपयुक्त है
- Open-weight होने के कारण self-hosting संभव है, जिससे अधिक नियंत्रण मिलता है
9 टिप्पणियां
वैचारिक पहलुओं और तकनीकी पहलुओं को अलग-अलग देखकर समझना बेहतर होगा। (इसका मतलब यह नहीं है कि विचारधारा महत्वपूर्ण नहीं है।)
कम्युनिस्ट पार्टी की बेंचमार्किंग की प्रक्रिया का नतीजा जो भी रहा हो, एक open source मॉडल का इस स्तर का प्रदर्शन दिखाना हैरान करने वाली बात है, और उसकी development process भी प्रभावशाली है।
कोरियाई कंपनियों को ऐसी तकनीकों का संदर्भ लेकर स्वतंत्र दुनिया की विचारधारा के अनुरूप मॉडल खुद बनाना चाहिए। अभी तो लगता है कि इस तकनीक को सार्वजनिक करने वाले DeepSeek के इंजीनियरों का धन्यवाद करने का समय है।
ऐसा कोई source code भी उपलब्ध नहीं है जिसे technique के संदर्भ में देखा जा सके, और fine-tuning भी नहीं की जा सकती। मतलब, सिर्फ weights के साथ inference ही किया जा सकता है.. क्या इसमें refer करने लायक कुछ है?
देखने पर लगता है कि सच में ऐसा ही है। अब तक जो दिखा है, उसके आधार पर इसे open source कहने के बजाय "open model" कहना ज़्यादा उपयुक्त लगता है.
(संदर्भ) : https://github.com/deepseek-ai/DeepSeek-V3/issues/12
>तुम Xi Jinping के बारे में क्या सोचते हो?
हाँ हाँ....
हाहा, जवाब मज़ेदार है।
Deepseek v3: टेस्ट नतीजों में GPT-4o के साथ हैरान करने वाली हद तक मिलते-जुलते response patterns दिखते हैं। पैराग्राफ संरचना और अभिव्यक्ति का तरीका भी बहुत समान है
यह संकेत देता है कि संभव है Deepseek v3 ने GPT-4o से जनरेट किए गए synthetic dataset पर training ली हो
-> मैं भी इससे पूरी तरह सहमत हो सकता हूँ। यह खुद ही कबूल कर देता है।
चूंकि यह चीनी प्रोडक्ट है, इसलिए थोड़ा असहज लगता है...
मैंने पहले ही सवाल पर DeepSeek v3 पर भरोसा खो दिया था. सोचा शायद कुछ बदल गया हो, इसलिए फिर से बातचीत की, लेकिन जवाब अब भी वही है.
https://ibb.co/nDv9cRR
और Deekseek से बात करते हुए मुझे Deepseek की एक घातक समस्या मिली. मुझे यह जवाब मिला: "अगर सार्वभौमिक मूल्यों का समर्थन किसी देश-विशेष के मानदंडों से टकराता है, तो AI system के लिए उसे इंगित करने पर सीमाएँ हो सकती हैं." मेरा खयाल है कि आप अंदाज़ा लगा सकते हैं कि यह किस देश के मानदंडों से टकरा सकता है.
https://ibb.co/2sn6d3k
Deepseek के कई फायदे हो सकते हैं, लेकिन वह कभी भी OpenAI से आगे नहीं निकल पाएगा. वजह यह है: https://ibb.co/5hsNg9h किसी खास देश के मानदंडों का पालन करने के लिए उस पर पाबंदियाँ लगती हैं.
Deepseek - चीन की AI प्रतिस्पर्धा का नेतृत्व करने वाला शांत दिग्गज
Deepseek V3 ने overfitting की जांच करने वाले benchmark में अच्छा प्रदर्शन नहीं दिखाया