llama.cpp में पूर्ण CUDA GPU acceleration जोड़ा गया
(github.com/ggerganov)- सभी बाकी ggml tensors के लिए GPU acceleration जोड़ने वाला PR
- RTX 3090 पर prompt processing 2 गुना, और token generation 1.3~1.8 गुना तक तेज
- 4090+i9 पर 7B q4 model के मामले में प्रति सेकंड 109 tokens generate
अभी कोई टिप्पणी नहीं है.