41 पॉइंट द्वारा xguru 2025-01-25 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek V3 की वजह से, जो पहले ही benchmarks में Llama 4 से आगे निकल चुका है
  • ऊपर से इस बात ने और झटका दिया कि “ज़्यादा जानी-पहचानी भी नहीं एक Chinese company” ने “सिर्फ 5.5M की training cost” खर्च की
  • Engineers DeepSeek को dissect करने और जो कुछ भी संभव हो उसकी नकल करने के लिए पागलों की तरह भाग-दौड़ कर रहे हैं
  • Management generative AI संगठन पर आने वाली भारी-भरकम लागत को justify करने को लेकर चिंतित है
  • generative AI संगठन के एक “leader” को ही DeepSeek v3 की पूरी training cost से ज़्यादा पैसे मिल रहे हैं, और ऐसे leader दर्जनों हैं
  • DeepSeek r1 इससे भी ज़्यादा डरावना है. गोपनीय जानकारी बताई नहीं जा सकती, लेकिन यह जल्द सार्वजनिक होगी
  • Engineering एक छोटा संगठन होना चाहिए था, लेकिन बहुत से लोग इस Impact Grab में शामिल होना चाहते थे, और संगठन में hiring को कृत्रिम रूप से फुलाने का नतीजा आखिरकार सबके लिए नुकसानदेह रहा

टिप्पणियाँ

  • Google कर्मचारी 1 : DeepSeek जो कर रहा है वह सच में शानदार है. यह सिर्फ Meta ही नहीं, बल्कि OpenAI, Google, Anthropic सबको तेजी से आगे बढ़ने पर मजबूर कर रहा है. अच्छी बात यह है कि हम real time में देख सकते हैं कि खुली प्रतिस्पर्धा innovation के लिए कितनी प्रभावी होती है.
  • Apple कर्मचारी 1 : यही वजह है कि मैं Meta के shares रखता हूँ. प्रतिस्पर्धियों का विश्लेषण करके उनकी नकल करना और जीतना तुम्हारे DNA में है. लगे रहो!
  • Meta कर्मचारी 1 : कई executives को मूल तकनीक के बारे में सचमुच बिल्कुल भी समझ नहीं है (यहाँ तक कि बहुतों के पास engineering की भी खास जानकारी नहीं है), और वे दूसरे executives के दिमाग में लगातार “more GPU = win” भर रहे हैं. भागीदारी बढ़ाने के लिए Instagram में AI content generate करने जैसे बेवकूफी भरे ideas लाकर स्थिति को और बिगाड़ दिया गया है (हाल में इसमें कुछ कमी आई है).
  • Meta कर्मचारी 2 : बस DeepSeek को खरीद लो
  • Samsung कर्मचारी 1 : Sam Altman एक fraud है. DeepSeek के CEO LIANG Wenfeng ही Ilya Sutskever हैं, DeepSeek पुराने OpenAI जैसा है, और OpenAI तो ClosedAI है.
  • Google कर्मचारी 2 : DeepSeek ने नया RL-आधारित model बनाने वाले सभी components को समझाने वाला paper लिखा है, इसलिए Meta जैसी कंपनियाँ उसे सीधे copy करके validate कर सकती हैं
  • Meta कर्मचारी 3 : Meta जैसे “दुनिया के सबसे बड़े GPU cluster” वाले संगठन का benchmark में top 10 तक में न आ पाना कैसे संभव है? Grok जल्द ही DeepSeek को पीछे छोड़ देगा
  • Meta कर्मचारी 4 : DeepSeek चीन के नियंत्रण में है, असली data share नहीं करता, और Chinese Communist Party द्वारा भारी censorship के अधीन है. अगर आप पूछें “क्या Chinese Communist Party लोगों की आज़ादी सीमित कर रही है”, तो आपको जवाब समझ आ जाएगा. आप कुछ भी पूछें, यह “चीन कितना महान है” जैसी बातें ही दोहराता है. बिना जानकारी के बस दावे करता है.
  • Chime कर्मचारी : और सबसे अच्छी बात यह है कि यह सब H100 के स्तर के performance के करीब भी न पहुँचने वाले H800 GPU पर किया जा रहा है. यह सच में प्रभावशाली है. DeepSeek की पूरी टीम को सम्मान और प्रशंसा. चीन से आया Residual Network paper एक landmark paper था, जिसने neural networks को पूरी तरह बदल दिया और सिखाया कि अरबों parameters का इस्तेमाल किया जा सकता है. इतनी कठिन समस्या हल करने वाले Chinese लोगों के लिए सम्मान!
  • Blizzard कर्मचारी : इससे यह उम्मीद जगी है कि AI युग में कोई moat नहीं है, और closed source models जितने अच्छे, या उनसे भी बेहतर open source models जारी होते रहेंगे. इस क्षेत्र में जितनी तीखी प्रतिस्पर्धा होगी, उतना ही हमारे लिए अच्छा होगा.

5 टिप्पणियां

 
jhj0517 2025-01-25

लगता है प्रतिस्पर्धा अच्छी चीज़ है 👏

 
mammal 2025-01-25

विचारधारा और censorship की बात अभी अलग रख दें, तो इस बार के DeepSeek models का engineering स्तर सच में हैरान कर देने वाला है।

V2.5 architecture में इस्तेमाल किया गया MLA भी मुझे एक जीनियस आइडिया लगा था, लेकिन इस बार उन्होंने MTP की संभावनाओं को भी साबित कर दिया, R1 के साथ O1 model की replication भी लगभग पूरी तरह सफल कर ली, और export restrictions की वजह से hardware सीमित होने की स्थिति में भी training techniques निकाल कर दिखाया — यह सच में बेहद प्रभावशाली है।

जिन लोगों की ML में रुचि है, वे DeepSeek Technical Report V2.5, V3, R1 ज़रूर पढ़ें। बस प्रशंसा ही निकलती है। यह सब MIT license के तहत public कर दिया गया — यह बात अब भी मेरी समझ से बाहर है।

 
mammal 2025-01-25

LLaMA के मामले में, LLaMA 2 -> 3 के दौरान आर्किटेक्चर इनोवेशन लगभग नहीं के बराबर था और सिर्फ़ training scaling बढ़ाई गई थी—मुझे लगता है कि यह उसी का संकेत था।

 
play1204dev 2025-01-25

चीन को रोकने की इतनी कोशिशें हुईं, यहाँ तक कि GPU export restrictions भी लगाए गए, फिर भी ऐसा कुछ सामने आया है तो यह एक तरफ़ प्रभावशाली है और दूसरी तरफ़ डरावना भी; सकारात्मक रूप से देखें तो यह काफ़ी हद तक एक मज़बूत catfish की भूमिका निभा सकता है। आखिरकार, इस बात से कोई इनकार नहीं कर सकता कि OpenAI ही नेतृत्व कर रहा है।