9 पॉइंट द्वारा GN⁺ 2025-02-22 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek AI टीम AGI की खोज में सीमाओं को पार करने के लिए काम कर रही है
  • अगले हफ़्ते से 5 रिपॉज़िटरी को ओपन सोर्स के रूप में जारी करने की योजना है, ताकि डेवलपर के रूप में छोटी-छोटी प्रगति को पारदर्शी ढंग से साझा किया जा सके
  • ये उनकी ऑनलाइन सेवा के बुनियादी बिल्डिंग ब्लॉक हैं; दस्तावेजीकृत, डिप्लॉय किए गए, और वास्तविक वातावरण में परीक्षण किए गए कोड हैं
  • हर दिन नया कोड जारी किया जाएगा, ताकि कम्युनिटी-चालित इनोवेशन को बढ़ावा मिले

Day 1: FlashMLA

  • Hopper GPU के लिए कुशल MLA decoding kernel
  • variable-length sequence serving के लिए optimize किया गया
  • वर्तमान में जारी आइटम
    • BF16
    • 64 block-size Paged kvcache
  • बेंचमार्क: CUDA 12.6 का उपयोग करके H800 SXM5 पर memory-bound configuration में अधिकतम 3000GB/s और compute-bound configuration में 580 TFLOPS हासिल

Day 2: DeepEP

  • Mixture-of-Experts(MoE) और Expert Parallelism(EP) के लिए high-performance communication library
  • GPU-आधारित All-to-All kernel प्रदान करता है, जिससे MoE dispatch और combine operations तेज़ी से प्रोसेस होते हैं
  • FP8 जैसी low-precision computation का समर्थन
  • DeepSeek-V3 पेपर में प्रस्तावित group-limited gating algorithm लागू कर asymmetric domain bandwidth forwarding को optimize करता है
    • उदाहरण: NVLink → RDMA data transfer optimization
    • training और inference prefilling workloads के लिए उपयुक्त उच्च throughput प्रदान करता है
  • latency-sensitive inference decoding के लिए RDMA-only low-latency kernel शामिल
  • communication-computation overlap technique प्रदान करता है (SM resources पर कब्ज़ा नहीं करता)

Day 3: DeepGEMM

  • FP8 matrix multiplication (GEMM) को कुशलता से चलाने वाली लाइब्रेरी, जो DeepSeek-V3 में प्रस्तावित fine-grained scaling विधि का समर्थन करती है
  • सामान्य GEMM और Mix-of-Experts(MoE) grouped GEMM दोनों का समर्थन
  • CUDA-आधारित implementation; install के समय अलग compilation के बिना lightweight Just-In-Time(JIT) module के ज़रिए runtime पर kernel compile करता है
  • फ़िलहाल केवल NVIDIA Hopper tensor cores के लिए समर्थन
  • FP8 tensor core की inaccurate accumulation को पूरा करने के लिए CUDA core-आधारित dual accumulation (promotion) का उपयोग
  • CUTLASS और CuTe की कुछ अवधारणाओं का उपयोग करता है, लेकिन जटिल template dependency घटाकर सिर्फ लगभग 300 lines of kernel code वाला सरल design रखता है
  • Hopper FP8 matrix operations और optimization techniques सीखने के लिए उपयुक्त
  • lightweight design के बावजूद विभिन्न matrix sizes पर expert-tuned libraries के समान या बेहतर performance दिखाता है

Day 4: अनुकूलित parallel processing strategies : DualPipe, EPLB, Profile-Data

  • DeepSeek V3/R1 में उपयोग की गई strategies और code
    • DualPipe : computation-communication overlap के लिए bidirectional pipeline parallelism algorithm
    • EPLB: Expert-Parallel load balancer
    • Profile-Data: DeepSeek infra का data profiling, जिससे computation-communication overlap का विश्लेषण किया जाता है

Day 5: 3FS file system और Smallpond data processing framework

  • Fire-Flyer File System(3FS) एक high-performance distributed file system है, जिसे AI training और inference workloads को संभालने के लिए डिज़ाइन किया गया है
  • यह आधुनिक SSD और RDMA network का उपयोग करके shared storage layer प्रदान करता है और distributed application development को सरल बनाता है
  • मुख्य विशेषताएँ और लाभ
    • performance और usability
      • disaggregated architecture: हज़ारों SSD और सैकड़ों storage nodes की network bandwidth को जोड़कर locality की परवाह किए बिना storage resources तक पहुंच
      • strong consistency guarantee: Chain Replication with Apportioned Queries(CRAQ) का उपयोग कर consistency बनाए रखता है, जिससे application code सरल होता है
      • file interface support: FoundationDB-आधारित transactional key-value store पर stateless metadata service प्रदान करता है। मौजूदा file interface का उपयोग होने से नया storage API सीखने की ज़रूरत नहीं
    • विभिन्न workloads का समर्थन
      • data preparation: data analysis pipeline के output को hierarchical directory structure में व्यवस्थित करता है और भारी मात्रा में intermediate outputs को कुशलता से प्रबंधित करता है
      • data loader optimization: dataset को pre-load या shuffle किए बिना कई compute nodes से training samples पर random access संभव
      • checkpoint storage: बड़े पैमाने की training के लिए high-speed parallel checkpoint storage का समर्थन
      • KVCache-based inference optimization: DRAM-आधारित caching की तुलना में अधिक cost-effective, साथ ही उच्च throughput और बड़ी storage capacity
  • SmallPond - DuckDB और 3FS पर निर्मित lightweight data processing framework
    • high-performance data processing, large-scale scalability, और simple operations इसकी प्रमुख विशेषताएँ हैं
      • high-performance data processing: DuckDB का उपयोग कर तेज़ data processing
      • large-scale dataset support: petabyte(PB) स्तर के data को प्रोसेस कर सकता है
      • operational simplicity: long-running service के बिना आसानी से उपयोग

Day 6: V3/R1 की inference system architecture और operating cost/revenue का खुलासा

  • system design principle: DeepSeek-V3/R1 inference system का optimization target उच्च throughput और कम latency है
    • इसके लिए cross-node Expert Parallelism(EP) लागू कर optimization किया गया
  • DeepSeek operating cost
    • औसतन 226 GPU nodes (प्रति node 8 H800 GPU)
    • दैनिक operating cost: $87,072 (1.27 सौ मिलियन वॉन) - प्रति H800 $2/घंटा
    • सैद्धांतिक दैनिक revenue (R1 के आधार पर): $562027 (8.2 सौ मिलियन वॉन) → profit margin 545%
    • लेकिन वास्तविक revenue इससे कम है (क्योंकि V3, R1 से सस्ता है और सेवा का केवल एक हिस्सा monetized था)

2024 AI infra paper (SC24)

Fire-Flyer AI-HPC: deep learning के लिए cost-effective software-hardware co-design

  • deep learning(DL) और large language model(LLM) की तेज़ प्रगति के कारण compute performance और bandwidth की मांग घातीय रूप से बढ़ रही है
  • high-performance computing(HPC) निर्माण की लागत, तेज़ compute chips और high-speed interconnects की ऊँची कीमतों के कारण तेज़ी से बढ़ रही है
  • इसे हल करने के लिए Fire-Flyer AI-HPC architecture पेश किया गया, जो hardware-software collaborative design के आधार पर लागत और performance optimization हासिल करता है
    • 10,000 PCIe A100 GPU का उपयोग करने वाला Fire-Flyer 2 system बनाकर DL training की गई
    • DGX-A100 के समान performance देते हुए लागत आधी की गई और energy consumption 40% कम किया गया
  • performance optimization elements
    • HFReduce : Allreduce communication को तेज़ कर GPUs के बीच data synchronization की गति बढ़ाता है
    • Computation-Storage Integrated Network : network bottleneck से बचने के लिए विभिन्न congestion control techniques लागू
    • software stack : HaiScale, 3FS, HAI-Platform के ज़रिए computation और communication को overlap कर scalability को अधिकतम करता है

2 टिप्पणियां

 
xguru 2025-02-23

DeepSeek वाकई काफ़ी दिलचस्प कदम उठा रहा है। यह देखने की उत्सुकता है कि क्या-क्या सार्वजनिक किया जाएगा।

 
GN⁺ 2025-02-22
Hacker News राय
  • क्या मैं ही अकेला हूँ जो DeepSeek के रिलीज़ को लेकर उत्साहित है, लेकिन ज़्यादा ओवरएनालिसिस नहीं कर रहा? यह थ्रेड निजी व्याख्याओं से भरा हुआ लगता है

    • DeepSeek अभी भी एक बिज़नेस है। रिलीज़ शानदार है, लेकिन उम्मीदें और मकसद कुछ बढ़ा-चढ़ाकर बताए गए लगते हैं
    • "शुद्ध garage energy" वाला वाक्यांश अच्छा है
    • मैं उनके inference stack को लेकर सबसे ज़्यादा उत्साहित हूँ। ज़्यादातर लोग R1 को एक single H200 node पर चला रहे हैं, लेकिन DeepSeek ने inference के लिए प्रति GPU बहुत कम RAM इस्तेमाल की और cluster-based MoE deployment किया
    • OpenAI के 12 Days of Christmas से ज़्यादा दिलचस्प
  • वे अगले हफ़्ते से 5 repos को open source करने वाले हैं। हर दिन एक जारी करेंगे

    • इसे announcement of an announcement माना जा सकता है। असली repos सार्वजनिक होने तक इस पर चर्चा न करना बेहतर होगा, क्योंकि क्या open source किया जाएगा इस पर कोई विवरण नहीं है
    • ये उनकी online service के humble building blocks हैं। इन्हें document किया गया है, deploy किया गया है, और real-world environment में test किया गया है
  • DeepSeek की innovation और research के लिए गहरा सम्मान। उन्होंने जो कुछ भी सार्वजनिक किया है, उसके लिए

    • "साझा की गई हर लाइन यात्रा को तेज़ करने वाला सामूहिक momentum बन जाती है। daily unlocks जल्द शुरू होंगे। ivory tower नहीं, शुद्ध garage energy और community-driven innovation" वाला वाक्यांश अच्छा है
  • सच कहें तो वे OpenAI को पूरी तरह dismantle कर रहे हैं। शायद उनकी मंशा से भी अलग

    • LLM, उस समय की तुलना में कहीं ज़्यादा वैध "blockchain" थे जब ज़्यादातर CIO पत्रिकाएँ "आपकी blockchain strategy क्या है?" जैसे निबंध छाप रही थीं
    • AI bubble फूटेगा, और 2026 के अंत तक काफ़ी हद तक फूट जाएगा
  • AI क्षेत्र में moat कहाँ है, यह देखना दिलचस्प है। अच्छे base models को API access मिलने पर हमेशा distill किया जा सकता है। system prompts लीक हो सकते हैं, और UI tricks कॉपी की जा सकती हैं। आख़िरकार moat hardware और vertical integration में हो सकता है

  • क्या DeepSeek और OpenAI अपने नाम आपस में बदल सकते हैं?

  • infra tools को open source करना AI क्षेत्र में innovation को सच में तेज़ कर सकता है। अच्छी तरह documented repos तक पहुँच होने से मौजूदा काम पर प्रयोग करना और उसके ऊपर build करना बहुत आसान हो जाता है

    • सोच रहा हूँ क्या ये repos distributed training या model serving जैसे किसी खास क्षेत्र पर फ़ोकस कर रहे हैं
  • यह सोचना दिलचस्प है कि Facebook और DeepSeek द्वारा base models को मजबूती से open source किए जाने के बाद foundation model कंपनियों की valuations कैसे प्रतिस्पर्धा कर पाएँगी। जब चीन और Facebook इनमें से ज़्यादातर चीज़ें लगभग मुफ़्त दे रहे हैं, तो ऐसा नहीं लगता कि ऐसे models बनाना सैकड़ों अरब डॉलर का मूल्य पैदा करेगा