- DeepSeek AI टीम AGI की खोज में सीमाओं को पार करने के लिए काम कर रही है
- अगले हफ़्ते से 5 रिपॉज़िटरी को ओपन सोर्स के रूप में जारी करने की योजना है, ताकि डेवलपर के रूप में छोटी-छोटी प्रगति को पारदर्शी ढंग से साझा किया जा सके
- ये उनकी ऑनलाइन सेवा के बुनियादी बिल्डिंग ब्लॉक हैं; दस्तावेजीकृत, डिप्लॉय किए गए, और वास्तविक वातावरण में परीक्षण किए गए कोड हैं
- हर दिन नया कोड जारी किया जाएगा, ताकि कम्युनिटी-चालित इनोवेशन को बढ़ावा मिले
- Hopper GPU के लिए कुशल MLA decoding kernel
- variable-length sequence serving के लिए optimize किया गया
- वर्तमान में जारी आइटम
- BF16
- 64 block-size Paged kvcache
- बेंचमार्क: CUDA 12.6 का उपयोग करके H800 SXM5 पर memory-bound configuration में अधिकतम 3000GB/s और compute-bound configuration में 580 TFLOPS हासिल
- Mixture-of-Experts(MoE) और Expert Parallelism(EP) के लिए high-performance communication library
- GPU-आधारित All-to-All kernel प्रदान करता है, जिससे MoE dispatch और combine operations तेज़ी से प्रोसेस होते हैं
- FP8 जैसी low-precision computation का समर्थन
- DeepSeek-V3 पेपर में प्रस्तावित group-limited gating algorithm लागू कर asymmetric domain bandwidth forwarding को optimize करता है
- उदाहरण: NVLink → RDMA data transfer optimization
- training और inference prefilling workloads के लिए उपयुक्त उच्च throughput प्रदान करता है
- latency-sensitive inference decoding के लिए RDMA-only low-latency kernel शामिल
- communication-computation overlap technique प्रदान करता है (SM resources पर कब्ज़ा नहीं करता)
- FP8 matrix multiplication (GEMM) को कुशलता से चलाने वाली लाइब्रेरी, जो DeepSeek-V3 में प्रस्तावित fine-grained scaling विधि का समर्थन करती है
- सामान्य GEMM और Mix-of-Experts(MoE) grouped GEMM दोनों का समर्थन
- CUDA-आधारित implementation; install के समय अलग compilation के बिना lightweight Just-In-Time(JIT) module के ज़रिए runtime पर kernel compile करता है
- फ़िलहाल केवल NVIDIA Hopper tensor cores के लिए समर्थन
- FP8 tensor core की inaccurate accumulation को पूरा करने के लिए CUDA core-आधारित dual accumulation (promotion) का उपयोग
- CUTLASS और CuTe की कुछ अवधारणाओं का उपयोग करता है, लेकिन जटिल template dependency घटाकर सिर्फ लगभग 300 lines of kernel code वाला सरल design रखता है
- Hopper FP8 matrix operations और optimization techniques सीखने के लिए उपयुक्त
- lightweight design के बावजूद विभिन्न matrix sizes पर expert-tuned libraries के समान या बेहतर performance दिखाता है
- DeepSeek V3/R1 में उपयोग की गई strategies और code
- DualPipe : computation-communication overlap के लिए bidirectional pipeline parallelism algorithm
- EPLB: Expert-Parallel load balancer
- Profile-Data: DeepSeek infra का data profiling, जिससे computation-communication overlap का विश्लेषण किया जाता है
- Fire-Flyer File System(3FS) एक high-performance distributed file system है, जिसे AI training और inference workloads को संभालने के लिए डिज़ाइन किया गया है
- यह आधुनिक SSD और RDMA network का उपयोग करके shared storage layer प्रदान करता है और distributed application development को सरल बनाता है
- मुख्य विशेषताएँ और लाभ
- performance और usability
- disaggregated architecture: हज़ारों SSD और सैकड़ों storage nodes की network bandwidth को जोड़कर locality की परवाह किए बिना storage resources तक पहुंच
- strong consistency guarantee: Chain Replication with Apportioned Queries(CRAQ) का उपयोग कर consistency बनाए रखता है, जिससे application code सरल होता है
- file interface support: FoundationDB-आधारित transactional key-value store पर stateless metadata service प्रदान करता है। मौजूदा file interface का उपयोग होने से नया storage API सीखने की ज़रूरत नहीं
- विभिन्न workloads का समर्थन
- data preparation: data analysis pipeline के output को hierarchical directory structure में व्यवस्थित करता है और भारी मात्रा में intermediate outputs को कुशलता से प्रबंधित करता है
- data loader optimization: dataset को pre-load या shuffle किए बिना कई compute nodes से training samples पर random access संभव
- checkpoint storage: बड़े पैमाने की training के लिए high-speed parallel checkpoint storage का समर्थन
- KVCache-based inference optimization: DRAM-आधारित caching की तुलना में अधिक cost-effective, साथ ही उच्च throughput और बड़ी storage capacity
- SmallPond - DuckDB और 3FS पर निर्मित lightweight data processing framework
- high-performance data processing, large-scale scalability, और simple operations इसकी प्रमुख विशेषताएँ हैं
- high-performance data processing: DuckDB का उपयोग कर तेज़ data processing
- large-scale dataset support: petabyte(PB) स्तर के data को प्रोसेस कर सकता है
- operational simplicity: long-running service के बिना आसानी से उपयोग
- system design principle: DeepSeek-V3/R1 inference system का optimization target उच्च throughput और कम latency है
- इसके लिए cross-node Expert Parallelism(EP) लागू कर optimization किया गया
- DeepSeek operating cost
- औसतन 226 GPU nodes (प्रति node 8 H800 GPU)
- दैनिक operating cost: $87,072 (1.27 सौ मिलियन वॉन) - प्रति H800 $2/घंटा
- सैद्धांतिक दैनिक revenue (R1 के आधार पर): $562027 (8.2 सौ मिलियन वॉन) → profit margin 545%
- लेकिन वास्तविक revenue इससे कम है (क्योंकि V3, R1 से सस्ता है और सेवा का केवल एक हिस्सा monetized था)
2024 AI infra paper (SC24)
Fire-Flyer AI-HPC: deep learning के लिए cost-effective software-hardware co-design
- deep learning(DL) और large language model(LLM) की तेज़ प्रगति के कारण compute performance और bandwidth की मांग घातीय रूप से बढ़ रही है
- high-performance computing(HPC) निर्माण की लागत, तेज़ compute chips और high-speed interconnects की ऊँची कीमतों के कारण तेज़ी से बढ़ रही है
- इसे हल करने के लिए Fire-Flyer AI-HPC architecture पेश किया गया, जो hardware-software collaborative design के आधार पर लागत और performance optimization हासिल करता है
- 10,000 PCIe A100 GPU का उपयोग करने वाला Fire-Flyer 2 system बनाकर DL training की गई
- DGX-A100 के समान performance देते हुए लागत आधी की गई और energy consumption 40% कम किया गया
- performance optimization elements
- HFReduce : Allreduce communication को तेज़ कर GPUs के बीच data synchronization की गति बढ़ाता है
- Computation-Storage Integrated Network : network bottleneck से बचने के लिए विभिन्न congestion control techniques लागू
- software stack : HaiScale, 3FS, HAI-Platform के ज़रिए computation और communication को overlap कर scalability को अधिकतम करता है
2 टिप्पणियां
DeepSeek वाकई काफ़ी दिलचस्प कदम उठा रहा है। यह देखने की उत्सुकता है कि क्या-क्या सार्वजनिक किया जाएगा।
Hacker News राय
क्या मैं ही अकेला हूँ जो DeepSeek के रिलीज़ को लेकर उत्साहित है, लेकिन ज़्यादा ओवरएनालिसिस नहीं कर रहा? यह थ्रेड निजी व्याख्याओं से भरा हुआ लगता है
वे अगले हफ़्ते से 5 repos को open source करने वाले हैं। हर दिन एक जारी करेंगे
DeepSeek की innovation और research के लिए गहरा सम्मान। उन्होंने जो कुछ भी सार्वजनिक किया है, उसके लिए
सच कहें तो वे OpenAI को पूरी तरह dismantle कर रहे हैं। शायद उनकी मंशा से भी अलग
AI क्षेत्र में moat कहाँ है, यह देखना दिलचस्प है। अच्छे base models को API access मिलने पर हमेशा distill किया जा सकता है। system prompts लीक हो सकते हैं, और UI tricks कॉपी की जा सकती हैं। आख़िरकार moat hardware और vertical integration में हो सकता है
क्या DeepSeek और OpenAI अपने नाम आपस में बदल सकते हैं?
infra tools को open source करना AI क्षेत्र में innovation को सच में तेज़ कर सकता है। अच्छी तरह documented repos तक पहुँच होने से मौजूदा काम पर प्रयोग करना और उसके ऊपर build करना बहुत आसान हो जाता है
यह सोचना दिलचस्प है कि Facebook और DeepSeek द्वारा base models को मजबूती से open source किए जाने के बाद foundation model कंपनियों की valuations कैसे प्रतिस्पर्धा कर पाएँगी। जब चीन और Facebook इनमें से ज़्यादातर चीज़ें लगभग मुफ़्त दे रहे हैं, तो ऐसा नहीं लगता कि ऐसे models बनाना सैकड़ों अरब डॉलर का मूल्य पैदा करेगा