- llama-cpp के
--cpu-moe ऑप्शन का उपयोग करके MOE expert layers को CPU पर प्रोसेस किया जाता है, और सिर्फ attention layers को GPU पर offload करके 5~8GB VRAM में तेज prefill performance हासिल की जाती है
- GPU पर केवल KV cache, Attention weights·activations, routing table, LayerNorm आदि जैसे non-expert parameters ही रहते हैं, इसलिए memory usage कम रहता है
- RTX 3060Ti-स्तर के GPU और 64GB~96GB system RAM के साथ भी 120B मॉडल को आसानी से चलाया जा सकता है, और BF16 सपोर्ट वाले GPU (RTX 3000+) पर सबसे अच्छा performance मिलता है
- 5GB VRAM उपयोग करने पर 8.15ms प्रति token (122.66 tokens/sec) performance रिकॉर्ड किया गया, और 8GB VRAM पर यह 7.44ms (134.44 tokens/sec) तक बेहतर हुआ
- 120B architecture को consumer hardware के लिए optimized तरीके से डिज़ाइन किया गया है, इसलिए GPU resources कम होने पर भी high-speed execution संभव है
CPU-MOE और GPU offloading संरचना
--cpu-moe ऑप्शन के साथ expert (MOE) layers को पूरी तरह CPU पर प्रोसेस किया जाता है
- उदाहरण:
--n-cpu-moe 36 → सभी 36 MOE blocks CPU पर चलते हैं
- ज़रूरत पड़ने पर कुछ MOE को GPU पर भेजकर performance tune किया जा सकता है
- VRAM बचाने के लिए GPU पर केवल निम्न चीज़ें रखी जाती हैं
- KV cache (sequence)
- Attention weights और activations
- Routing table
- LayerNorm और अन्य non-expert parameters
- MOE weights GPU पर resident नहीं रहते, इसलिए बड़े MLP parameters का बोझ नहीं पड़ता
मेमोरी और हार्डवेयर आवश्यकताएँ
- GPU: 5~8GB VRAM पर्याप्त (उदाहरण: RTX 3060Ti)
- BF16 सपोर्ट होने पर GPU सबसे उपयुक्त (RTX 3000 series या उससे ऊपर)
- System RAM: कम से कम 64GB, आदर्श रूप से 96GB
- Linux mmap का उपयोग करके, पूरा मॉडल memory में न आने पर भी ‘hot’ expert layers memory में रखे जा सकते हैं
प्रदर्शन आँकड़े
5GB VRAM वातावरण
- Prompt processing: 8.15ms/token (122.66 tokens/sec)
- Inference: 55.44ms/token (18.04 tokens/sec)
8GB VRAM वातावरण (--n-cpu-moe 36, बाकी GPU)
- Prompt processing: 7.44ms/token (134.44 tokens/sec)
- Inference: 39.03ms/token (25.62 tokens/sec)
22GB VRAM वातावरण (कुछ MOE GPU पर)
- Prompt processing: 6.13ms/token (163.01 tokens/sec)
- Inference: 32.45ms/token (30.82 tokens/sec)
निष्कर्ष
- GPT-OSS-120B का डिज़ाइन consumer hardware पर भी बड़े मॉडल को high-speed में चलाने के लिए optimized है
- VRAM usage कम रखते हुए speed बनाए रखने वाली CPU-MOE संरचना के कारण यह सीमित GPU resources वाले वातावरण के लिए खास तौर पर उपयुक्त है
मुख्य प्रश्न और उत्तर
Q1. इस सेटअप में वास्तविक VRAM usage कितना है?
- मूल लेखक: जब पूरा MOE CPU पर चलता है, तब लगभग 5GB VRAM लगता है, और केवल attention layers GPU पर जाती हैं
- अतिरिक्त विवरण: GPU पर केवल KV cache, Attention weights·activations, routing table, LayerNorm रहते हैं
Q2. न्यूनतम कितनी RAM चाहिए?
- मूल लेखक: कम से कम 64GB, आदर्श रूप से 96GB recommended
- कारण: Linux mmap ‘hot’ expert layers को memory में रखता है, जिससे पूरे मॉडल को लोड किए बिना भी तेज access संभव होता है
Q3. अगर कुछ MOE layers को GPU पर भेजें, तो क्या speed बहुत बढ़ती है?
- मूल लेखक: थोड़ा तेज हो सकता है, लेकिन बहुत बड़ा फर्क नहीं है
- उदाहरण:
- पूरा MOE CPU पर: prompt 134 tokens/sec, inference 25 tokens/sec
- 8 MOE GPU पर: prompt 163 tokens/sec, inference 30 tokens/sec
- VRAM usage 22GB तक बढ़ जाता है
Q4. कौन-सा GPU उपयुक्त है?
- मूल लेखक: RTX 3060Ti या उससे ऊपर पर्याप्त है, BF16 सपोर्ट (RTX 3000+) recommended है
- कारण: MOE के अलावा बाकी सभी layers BF16 में चलते हैं
Q5. कमांड सेटिंग कैसे करें?
अभी कोई टिप्पणी नहीं है.