- DeepSeek V3 की वजह से, जो पहले ही benchmarks में Llama 4 से आगे निकल चुका है
- ऊपर से इस बात ने और झटका दिया कि “ज़्यादा जानी-पहचानी भी नहीं एक Chinese company” ने “सिर्फ 5.5M की training cost” खर्च की
- Engineers DeepSeek को dissect करने और जो कुछ भी संभव हो उसकी नकल करने के लिए पागलों की तरह भाग-दौड़ कर रहे हैं
- Management generative AI संगठन पर आने वाली भारी-भरकम लागत को justify करने को लेकर चिंतित है
- generative AI संगठन के एक “leader” को ही DeepSeek v3 की पूरी training cost से ज़्यादा पैसे मिल रहे हैं, और ऐसे leader दर्जनों हैं
- DeepSeek r1 इससे भी ज़्यादा डरावना है. गोपनीय जानकारी बताई नहीं जा सकती, लेकिन यह जल्द सार्वजनिक होगी
- Engineering एक छोटा संगठन होना चाहिए था, लेकिन बहुत से लोग इस Impact Grab में शामिल होना चाहते थे, और संगठन में hiring को कृत्रिम रूप से फुलाने का नतीजा आखिरकार सबके लिए नुकसानदेह रहा
टिप्पणियाँ
- Google कर्मचारी 1 : DeepSeek जो कर रहा है वह सच में शानदार है. यह सिर्फ Meta ही नहीं, बल्कि OpenAI, Google, Anthropic सबको तेजी से आगे बढ़ने पर मजबूर कर रहा है. अच्छी बात यह है कि हम real time में देख सकते हैं कि खुली प्रतिस्पर्धा innovation के लिए कितनी प्रभावी होती है.
- Apple कर्मचारी 1 : यही वजह है कि मैं Meta के shares रखता हूँ. प्रतिस्पर्धियों का विश्लेषण करके उनकी नकल करना और जीतना तुम्हारे DNA में है. लगे रहो!
- Meta कर्मचारी 1 : कई executives को मूल तकनीक के बारे में सचमुच बिल्कुल भी समझ नहीं है (यहाँ तक कि बहुतों के पास engineering की भी खास जानकारी नहीं है), और वे दूसरे executives के दिमाग में लगातार “more GPU = win” भर रहे हैं. भागीदारी बढ़ाने के लिए Instagram में AI content generate करने जैसे बेवकूफी भरे ideas लाकर स्थिति को और बिगाड़ दिया गया है (हाल में इसमें कुछ कमी आई है).
- Meta कर्मचारी 2 : बस DeepSeek को खरीद लो
- Samsung कर्मचारी 1 : Sam Altman एक fraud है. DeepSeek के CEO LIANG Wenfeng ही Ilya Sutskever हैं, DeepSeek पुराने OpenAI जैसा है, और OpenAI तो ClosedAI है.
- Google कर्मचारी 2 : DeepSeek ने नया RL-आधारित model बनाने वाले सभी components को समझाने वाला paper लिखा है, इसलिए Meta जैसी कंपनियाँ उसे सीधे copy करके validate कर सकती हैं
- Meta कर्मचारी 3 : Meta जैसे “दुनिया के सबसे बड़े GPU cluster” वाले संगठन का benchmark में top 10 तक में न आ पाना कैसे संभव है? Grok जल्द ही DeepSeek को पीछे छोड़ देगा
- Meta कर्मचारी 4 : DeepSeek चीन के नियंत्रण में है, असली data share नहीं करता, और Chinese Communist Party द्वारा भारी censorship के अधीन है. अगर आप पूछें “क्या Chinese Communist Party लोगों की आज़ादी सीमित कर रही है”, तो आपको जवाब समझ आ जाएगा. आप कुछ भी पूछें, यह “चीन कितना महान है” जैसी बातें ही दोहराता है. बिना जानकारी के बस दावे करता है.
- Chime कर्मचारी : और सबसे अच्छी बात यह है कि यह सब H100 के स्तर के performance के करीब भी न पहुँचने वाले H800 GPU पर किया जा रहा है. यह सच में प्रभावशाली है. DeepSeek की पूरी टीम को सम्मान और प्रशंसा. चीन से आया Residual Network paper एक landmark paper था, जिसने neural networks को पूरी तरह बदल दिया और सिखाया कि अरबों parameters का इस्तेमाल किया जा सकता है. इतनी कठिन समस्या हल करने वाले Chinese लोगों के लिए सम्मान!
- Blizzard कर्मचारी : इससे यह उम्मीद जगी है कि AI युग में कोई moat नहीं है, और closed source models जितने अच्छे, या उनसे भी बेहतर open source models जारी होते रहेंगे. इस क्षेत्र में जितनी तीखी प्रतिस्पर्धा होगी, उतना ही हमारे लिए अच्छा होगा.
5 टिप्पणियां
लगता है प्रतिस्पर्धा अच्छी चीज़ है 👏
विचारधारा और censorship की बात अभी अलग रख दें, तो इस बार के DeepSeek models का engineering स्तर सच में हैरान कर देने वाला है।
V2.5 architecture में इस्तेमाल किया गया MLA भी मुझे एक जीनियस आइडिया लगा था, लेकिन इस बार उन्होंने MTP की संभावनाओं को भी साबित कर दिया, R1 के साथ O1 model की replication भी लगभग पूरी तरह सफल कर ली, और export restrictions की वजह से hardware सीमित होने की स्थिति में भी training techniques निकाल कर दिखाया — यह सच में बेहद प्रभावशाली है।
जिन लोगों की ML में रुचि है, वे DeepSeek Technical Report V2.5, V3, R1 ज़रूर पढ़ें। बस प्रशंसा ही निकलती है। यह सब MIT license के तहत public कर दिया गया — यह बात अब भी मेरी समझ से बाहर है।
LLaMA के मामले में, LLaMA 2 -> 3 के दौरान आर्किटेक्चर इनोवेशन लगभग नहीं के बराबर था और सिर्फ़ training scaling बढ़ाई गई थी—मुझे लगता है कि यह उसी का संकेत था।
चीन को रोकने की इतनी कोशिशें हुईं, यहाँ तक कि GPU export restrictions भी लगाए गए, फिर भी ऐसा कुछ सामने आया है तो यह एक तरफ़ प्रभावशाली है और दूसरी तरफ़ डरावना भी; सकारात्मक रूप से देखें तो यह काफ़ी हद तक एक मज़बूत catfish की भूमिका निभा सकता है। आखिरकार, इस बात से कोई इनकार नहीं कर सकता कि OpenAI ही नेतृत्व कर रहा है।
वैसे भी यह Blind पर पोस्ट किया गया लेख है, इसलिए इसकी सत्यता अनिश्चित है, लेकिन ऐसा लगता है कि DeepSeek वाकई झटका दे रहा है
DeepSeek-R1 मॉडल जारी
Deepseek - चीन की AI प्रतिस्पर्धा का नेतृत्व करने वाला शांत दिग्गज
Deepseek V3 ने overfitting की जांच करने वाले benchmark में अच्छा प्रदर्शन नहीं दिखाया
DeepSeek v3 पर नोट्स - "क्या यह सच में GPT-4o या 3.5 Sonnet से बेहतर है?"