6 पॉइंट द्वारा GN⁺ 2025-01-01 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek चीन का एक AI startup है, जिसका हाल ही में जारी R1 मॉडल कई reasoning benchmarks में OpenAI के o1 मॉडल से आगे निकल गया है
  • पहचान अभी कम है, लेकिन यह एक उल्लेखनीय AI research lab के रूप में स्थापित हो रहा है

DeepSeek की पृष्ठभूमि और रणनीति

  • CEO Liang Wenfeng पहले चीन के चार बड़े hedge funds में से एक, High-Flyer, के संस्थापक रहे हैं, और DeepSeek को इस कंपनी का पूरा समर्थन मिल रहा है
  • commercial applications की बजाय बुनियादी तकनीक के विकास पर फोकस करते हुए, सभी models को open source के रूप में जारी करने की रणनीति अपनाई गई है
  • High-Flyer के computing cluster तक पहुंच उपलब्ध है, और इसके पास लगभग 50,000 से अधिक Hopper GPUs हैं
  • फोकस AGI (Artificial General Intelligence) के विकास पर है। research संभावित रूप से game changer बन सकने वाले structural और algorithmic innovations पर केंद्रित है

प्रमुख तकनीकी नवाचार

  • model architecture में सुधार
    • MLA (Multi-head Latent Attention): memory usage को पहले की तुलना में 5~13% स्तर तक घटाता है
    • DeepSeekMoE (Sparse Mixture of Experts): computation cost को काफी कम करता है
  • price war की शुरुआत
    • DeepSeek V2 मॉडल ने 1 million tokens पर 1 RMB की inference cost पेश की, जिससे चीन की बड़ी tech कंपनियों के बीच बड़े पैमाने पर price war छिड़ गई
  • अंतरराष्ट्रीय मूल्यांकन
    • DeepSeek के paper को "इस साल के सर्वश्रेष्ठ papers में से एक" माना गया, और Silicon Valley तथा अंतरराष्ट्रीय AI community में भी इसकी खूब प्रशंसा हुई

DeepSeek का research philosophy और organizational culture

  • तकनीकी आदर्शवाद: DeepSeek तकनीकी आदर्शवाद का अनुसरण करता है और "सही और गलत" को "लाभ और हानि" से ऊपर रखता है। चीन की tech दुनिया में यह एक दुर्लभ आवाज़ है
  • innovation का महत्व: DeepSeek मानता है कि चीन को सिर्फ दूसरों का अनुसरण करने की स्थिति में नहीं रहना चाहिए, बल्कि वैश्विक तकनीकी innovation की धारा में सक्रिय भागीदारी करनी चाहिए
  • स्वायत्त organizational culture: top-down management की बजाय स्वायत्त और रचनात्मक माहौल को प्राथमिकता दी जाती है। researchers अपने विचारों के अनुसार स्वतंत्र रूप से सहयोग कर सकते हैं और resources का उपयोग कर सकते हैं
  • talent hiring: पारंपरिक मानकों से अधिक जिज्ञासा और जुनून को महत्व दिया जाता है, और टीम के अधिकांश सदस्य स्थानीय universities के graduates तथा युवा researchers हैं

AGI के लिए विज़न

  • research focus: DeepSeek गणित, code generation, multimodality और natural language understanding को केंद्र में रखकर AGI की संभावना का अध्ययन कर रहा है
  • भविष्य की संभावना:
    • अनुमान है कि AGI 2 से 10 वर्षों के भीतर संभव हो सकता है, और गणित तथा code को AGI test के लिए आदर्श क्षेत्र माना जाता है
    • large-scale models का endgame यह है कि foundation models और services प्रदान करने वाली specialized कंपनियां supply chain के हर node पर व्यापक specialization विकसित करें

open source और innovation पर दृष्टिकोण

  • open source का मूल्य: DeepSeek closed source में तकनीकी बढ़त तलाशने की बजाय, तकनीकी ecosystem के निर्माण और विकास में अधिक मूल्य देखता है
  • चीन के AI ecosystem के लिए विज़न: यह चीन को application innovation से आगे बढ़ाकर 0 से 1 तक की तकनीकी innovation में योगदान देना चाहता है

निष्कर्ष

  • DeepSeek पारंपरिक चीनी AI startups से अलग रास्ते पर चल रहा है
  • यह commercial applications से अधिक तकनीकी innovation और AGI की प्राप्ति पर केंद्रित है, और वैश्विक तकनीकी innovation की धारा में शामिल होना चाहता है
  • यह दृष्टिकोण भविष्य में चीन के AI विकास की दिशा पर महत्वपूर्ण प्रभाव डाल सकता है

2 टिप्पणियां

 
GN⁺ 2025-01-01
Hacker News राय
  • GPU प्रतिबंधों ने चीनी डेवलपर्स के लिए ऐसा माहौल बनाया कि वे ज़्यादा नवोन्मेषी बनें और कम संसाधनों में अधिक कर सकें

    • Deepseek टीम की प्रशंसा की गई
  • Deepseek की तारीफ़ दिलचस्प लगती है

    • ऐसे संरचनात्मक और बुनियादी कारण हैं जिनकी वजह से Deepseek दूसरे मॉडलों से बहुत आगे नहीं निकल सकता
      • अमेरिका-चीन व्यापार युद्ध Deepseek की computing availability को नुकसानदायक बना सकता है
      • चीन की censorship, Deepseek के data collection और output पर कुछ हद तक सीमाएँ लगाती है
      • Deepseek open source है, इसलिए दूसरे मॉडल इसे आसानी से कॉपी कर सकते हैं
    • Gemini, ChatGPT, Deepseek, Claudie का नियमित उपयोग किया जा रहा है, और Deepseek दूसरे मॉडलों की तुलना में न खास तौर पर बेहतर है, न बदतर
    • यह जानना चाहेंगे कि लोग क्यों सोचते हैं कि Deepseek LLM क्षेत्र पर पूरी तरह हावी हो जाएगा
  • विश्वास है कि चीन को आर्थिक विकास के साथ-साथ योगदानकर्ता भी बनना चाहिए

    • पिछले 30 वर्षों में उसने IT innovation में वास्तविक रूप से भाग नहीं लिया
    • scaling laws को Moore's Law पर निर्भर रहकर, बेहतर hardware और software का इंतज़ार करने वाले तरीके से लिया गया
  • Deepseek पिछले साल से open source LLM community में एक प्रमुख नाम रहा है

    • दूसरे चीनी LLM खिलाड़ियों की तुलना में इसका marketing खर्च कम है
  • यह हैरानी की बात है कि पुराने symbolic AI और modern ML versions को मिलाने का कोई उल्लेख नहीं है

  • चीन के पास GPU dependency तोड़ने के लिए pure research करने की मज़बूत प्रेरणा है

    • आशा है कि विज्ञान के लिए एक-दूसरे के गणितज्ञों पर हमला करने जैसी नौबत न आए
  • API के सस्ते होने का एक कारण यह है कि उसने स्पष्ट किया है कि API data को training में उपयोग किया जाता है

    • OpenAI और Claude कहते हैं कि API इस्तेमाल करने पर वे data को training में उपयोग नहीं करेंगे
  • आशा है कि AI कंपनियों के बीच प्रतिस्पर्धा स्वस्थ रूप से जारी रहे

    • तकनीक और papers साझा होते रहें ताकि कुल मिलाकर सभी बेहतर हों
  • DeepSeek ने 10 गुना कम संसाधनों में o1 और Claude के बराबर प्रदर्शन हासिल किया, यह प्रभावशाली है

    • ML के अगले चरण के लिए बेहतर algorithms और approaches की ज़रूरत है
  • "catfish" शब्द का दिलचस्प (गलत) उपयोग

    • यह उस तरीके से अलग है जैसा इसे आम तौर पर समझा जाता है