- DeepSeek चीन का एक AI startup है, जिसका हाल ही में जारी R1 मॉडल कई reasoning benchmarks में OpenAI के o1 मॉडल से आगे निकल गया है
- पहचान अभी कम है, लेकिन यह एक उल्लेखनीय AI research lab के रूप में स्थापित हो रहा है
DeepSeek की पृष्ठभूमि और रणनीति
- CEO Liang Wenfeng पहले चीन के चार बड़े hedge funds में से एक, High-Flyer, के संस्थापक रहे हैं, और DeepSeek को इस कंपनी का पूरा समर्थन मिल रहा है
- commercial applications की बजाय बुनियादी तकनीक के विकास पर फोकस करते हुए, सभी models को open source के रूप में जारी करने की रणनीति अपनाई गई है
- High-Flyer के computing cluster तक पहुंच उपलब्ध है, और इसके पास लगभग 50,000 से अधिक Hopper GPUs हैं
- फोकस AGI (Artificial General Intelligence) के विकास पर है। research संभावित रूप से game changer बन सकने वाले structural और algorithmic innovations पर केंद्रित है
प्रमुख तकनीकी नवाचार
- model architecture में सुधार
- MLA (Multi-head Latent Attention): memory usage को पहले की तुलना में 5~13% स्तर तक घटाता है
- DeepSeekMoE (Sparse Mixture of Experts): computation cost को काफी कम करता है
- price war की शुरुआत
- DeepSeek V2 मॉडल ने 1 million tokens पर 1 RMB की inference cost पेश की, जिससे चीन की बड़ी tech कंपनियों के बीच बड़े पैमाने पर price war छिड़ गई
- अंतरराष्ट्रीय मूल्यांकन
- DeepSeek के paper को "इस साल के सर्वश्रेष्ठ papers में से एक" माना गया, और Silicon Valley तथा अंतरराष्ट्रीय AI community में भी इसकी खूब प्रशंसा हुई
DeepSeek का research philosophy और organizational culture
- तकनीकी आदर्शवाद: DeepSeek तकनीकी आदर्शवाद का अनुसरण करता है और "सही और गलत" को "लाभ और हानि" से ऊपर रखता है। चीन की tech दुनिया में यह एक दुर्लभ आवाज़ है
- innovation का महत्व: DeepSeek मानता है कि चीन को सिर्फ दूसरों का अनुसरण करने की स्थिति में नहीं रहना चाहिए, बल्कि वैश्विक तकनीकी innovation की धारा में सक्रिय भागीदारी करनी चाहिए
- स्वायत्त organizational culture: top-down management की बजाय स्वायत्त और रचनात्मक माहौल को प्राथमिकता दी जाती है। researchers अपने विचारों के अनुसार स्वतंत्र रूप से सहयोग कर सकते हैं और resources का उपयोग कर सकते हैं
- talent hiring: पारंपरिक मानकों से अधिक जिज्ञासा और जुनून को महत्व दिया जाता है, और टीम के अधिकांश सदस्य स्थानीय universities के graduates तथा युवा researchers हैं
AGI के लिए विज़न
- research focus: DeepSeek गणित, code generation, multimodality और natural language understanding को केंद्र में रखकर AGI की संभावना का अध्ययन कर रहा है
- भविष्य की संभावना:
- अनुमान है कि AGI 2 से 10 वर्षों के भीतर संभव हो सकता है, और गणित तथा code को AGI test के लिए आदर्श क्षेत्र माना जाता है
- large-scale models का endgame यह है कि foundation models और services प्रदान करने वाली specialized कंपनियां supply chain के हर node पर व्यापक specialization विकसित करें
open source और innovation पर दृष्टिकोण
- open source का मूल्य: DeepSeek closed source में तकनीकी बढ़त तलाशने की बजाय, तकनीकी ecosystem के निर्माण और विकास में अधिक मूल्य देखता है
- चीन के AI ecosystem के लिए विज़न: यह चीन को application innovation से आगे बढ़ाकर 0 से 1 तक की तकनीकी innovation में योगदान देना चाहता है
निष्कर्ष
- DeepSeek पारंपरिक चीनी AI startups से अलग रास्ते पर चल रहा है
- यह commercial applications से अधिक तकनीकी innovation और AGI की प्राप्ति पर केंद्रित है, और वैश्विक तकनीकी innovation की धारा में शामिल होना चाहता है
- यह दृष्टिकोण भविष्य में चीन के AI विकास की दिशा पर महत्वपूर्ण प्रभाव डाल सकता है
2 टिप्पणियां
Deepseek V3 ने overfitting की जांच करने वाले benchmark में अच्छा प्रदर्शन नहीं दिखाया
Hacker News राय
GPU प्रतिबंधों ने चीनी डेवलपर्स के लिए ऐसा माहौल बनाया कि वे ज़्यादा नवोन्मेषी बनें और कम संसाधनों में अधिक कर सकें
Deepseek की तारीफ़ दिलचस्प लगती है
विश्वास है कि चीन को आर्थिक विकास के साथ-साथ योगदानकर्ता भी बनना चाहिए
Deepseek पिछले साल से open source LLM community में एक प्रमुख नाम रहा है
यह हैरानी की बात है कि पुराने symbolic AI और modern ML versions को मिलाने का कोई उल्लेख नहीं है
चीन के पास GPU dependency तोड़ने के लिए pure research करने की मज़बूत प्रेरणा है
API के सस्ते होने का एक कारण यह है कि उसने स्पष्ट किया है कि API data को training में उपयोग किया जाता है
आशा है कि AI कंपनियों के बीच प्रतिस्पर्धा स्वस्थ रूप से जारी रहे
DeepSeek ने 10 गुना कम संसाधनों में o1 और Claude के बराबर प्रदर्शन हासिल किया, यह प्रभावशाली है
"catfish" शब्द का दिलचस्प (गलत) उपयोग