llama.cpp में पूर्ण CUDA GPU acceleration जोड़ा गया

xguru · 2023-06-14T10:46:02+09:00

सभी बाकी ggml tensors के लिए GPU acceleration जोड़ने वाला PR RTX 3090 पर prompt processing 2 गुना, और token generation 1.3~1.8 गुना तक तेज 4090+i9 पर 7B q4 model के मामले में प्रति सेकंड 109 tokens generate

(github.com/ggerganov)

8 पॉइंट द्वारा xguru 2023-06-14 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

सभी बाकी ggml tensors के लिए GPU acceleration जोड़ने वाला PR
RTX 3090 पर prompt processing 2 गुना, और token generation 1.3~1.8 गुना तक तेज
4090+i9 पर 7B q4 model के मामले में प्रति सेकंड 109 tokens generate

llama.cpp में पूर्ण CUDA GPU acceleration जोड़ा गया

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.