- DeepSeek-R1 एक open source मॉडल है, जो OpenAI के O1 Reasoning मॉडल के बराबर माने जाने वाले प्रदर्शन को दिखाता है
- मूल 720GB मॉडल को घटाकर 131GB किया गया, जिससे आकार में 80% कमी हासिल हुई
- dynamic quantization तकनीक का उपयोग करके कुछ layers को high bit (जैसे 4bit) पर रखा जाता है और अधिकांश MoE(Mixture of Experts) layers को 1.58bit पर प्रोसेस किया जाता है
मुख्य विशेषताएँ
- न्यूनतम स्पेक: CPU पर 20GB RAM के साथ चलाया जा सकता है, लेकिन गति धीमी होगी
- सर्वोत्तम प्रदर्शन: VRAM और RAM का कुल योग कम से कम 80GB होना चाहिए, अनुशंसित VRAM 160GB है (H100 80GB GPU के 2 यूनिट)
- dynamic quantization versions (131GB~212GB) Hugging Face पर उपलब्ध हैं: DeepSeek-R1-GGUF
dynamic quantization मॉडल के प्रकार
- कुल 4 quantization versions उपलब्ध हैं:
- 131GB, 158GB, 183GB, 212GB (सामान्य 2bit)
- importance matrix (imatrix) का उपयोग करके quantization को optimize किया गया है
- quantization method और hardware requirements हर मॉडल में अलग हैं
benchmark और performance test
- Flappy Bird गेम generation (pass@3) के आधार पर 10 evaluation items के scores मापे गए
- 1.58bit dynamic quantization मॉडल के scores इस प्रकार हैं:
- 131GB मॉडल: 6.92
- 158GB मॉडल: 9.08
- 183GB मॉडल: 9.17
- non-dynamic quantization मॉडल repeated errors या गलत results उत्पन्न करते हैं
DeepSeek-R1 की संरचना का उपयोग
- DeepSeek-R1 की संरचना के विश्लेषण से quantization sensitivity वाले हिस्सों को high resolution पर बनाए रखा गया
- शुरुआती 3 dense layers को 4~6bit पर रखा गया
- अधिकांश MoE layers को 1.58bit पर quantize किया गया
- MLA(Memory Layers Attention) module और
down_proj हिस्से को high precision पर रखा गया
- लगभग 88% weights को 1.58bit पर quantize करके मॉडल का आकार घटाया गया
chat template और token processing समस्याओं का समाधान
- सभी versions में chat template के लिए
<|begin_of_sentence|> और <|end_of_sentence|> tokens का उपयोग किया गया
- EOS token गलत सेट होने की वजह से infinite generation की समस्या हुई थी, जिसे ठीक कर दिया गया
1 टिप्पणियां
Hacker News राय
80% आकार में कमी एक चौंकाने वाली उपलब्धि है, और 1.58-bit वर्ज़न का dual H100 पर 140 tokens/second की रफ़्तार से चलना प्रभावशाली है। लेकिन ज़्यादातर लोगों के लिए यह कितना व्यावहारिक है, इस पर सवाल है। इसे 24GB VRAM या 20GB RAM पर चलाया जा सकता है, लेकिन गति बहुत धीमी है। repetition की समस्या भी है। Pygame में repetition quantization के मायने को कमज़ोर कर देता है। समाधान हैं, लेकिन वे मूल समस्या का हल नहीं हैं। इसे Hugging Face पर सुलभ बनाना और dynamic quantization approach शानदार है। यह छोटी टीमों के लिए फ़ायदेमंद है। लेकिन महंगे हार्डवेयर की ज़रूरत है.
DeepSeek को RTX 4090 पर चलाने पर मॉडल का VRAM में फिट होना चाहिए, लेकिन यह धीमा है। Apple की unified memory architecture फ़ायदेमंद है। 192GB Mx Ultra बड़े मॉडलों को कुशलता से संभाल सकता है। OpenAI subscription रद्द करने का समय आ गया है.
DeepSeek-R1 का 80% आकार घट जाना हैरतअंगेज़ है। बड़े मॉडल अब ज़्यादा लोगों के लिए सुलभ हो रहे हैं। 1.58-bit quantization के साथ dual H100 पर 140 tokens/second की गति प्रभावशाली है। छोटे या मध्यम आकार की कंपनियाँ इसे local applications में इस्तेमाल कर सकती हैं। कम latency वाले agent tasks के लिए यह बड़ा फ़ायदा है.
सर्वोत्तम प्रदर्शन के लिए VRAM + RAM का कुल योग कम से कम 80GB होना चाहिए। इसे low-power/low-cost server पर आज़माया जा सकता है। Ryzen 5500 + 64GB RAM + 7x RTX 3060 12GB सिस्टम 1600 यूरो में बनाया जा सकता है। बिजली की खपत लगभग 520 watt है। AM4 बोर्ड और सेकंड-हैंड RTX 3060 12GB से शुरुआत की गई। अतिरिक्त GPU को pcie riser/extender से जोड़ा गया। सीखने और अनुभव हासिल करने के लिए यह अच्छा है.
सभी layers को 1.58-bit में quantize करने पर infinite repetition होती है। इस ब्लॉग पोस्ट के लेखकों का specific seed ढूंढने की प्रक्रिया दिलचस्प है। अच्छा काम है.
R1 के बारे में आकलन अभी स्पष्ट नहीं है। $5M में training होने का दावा बाज़ार पर बड़ा असर डाल रहा है। यह सत्यापित हुआ है या नहीं, यह जानने की उत्सुकता है.
अगर 100x मशीन में निवेश किया गया, जबकि 10x से भी काम हो सकता है, तो यह समझना मुश्किल है कि 10x मशीनें 10 क्यों नहीं रखी जातीं। हार्डवेयर और डेटा को reuse करके कई instances के साथ ज़्यादा कुशल मॉडल बनाए जा सकते हैं.
Danielhanchen का काम प्रभावशाली है। Unsloth शानदार है, और नए मॉडलों के साथ तेज़ी से अनुकूलन करने तथा बेस implementation के bugs को ठीक करने की इसकी क्षमता चौंकाने वाली है। गंभीर research labs को कुछ घंटों की बढ़त मिलनी चाहिए.
मॉडल का आकार घटाना और consistency बनाए रखना चौंकाने वाला है। लेकिन असर कितना बरकरार रहा, इस पर सवाल है। Flappy bird एक जाना-पहचाना गेम है, लेकिन बेहतर टेस्ट यह है कि क्या R1 और o1 उन समस्याओं को हल कर सकते हैं जिन्हें दूसरे मॉडल हल नहीं कर पाते.
अच्छा होगा अगर अगली पीढ़ी के base models को इस तरह डिज़ाइन किया जाए कि वे 128GB VRAM पर 8-bit quantization के साथ inference कर सकें। उदाहरण के लिए, 16 billion active parameters और 6~7 experts वाला एक मज़बूत MoE base 128GB RAM MacBook पर चल सकता है.