FlexGen - ChatGPT जैसे LLM को single GPU पर चलाना

xguru · 2023-02-22T10:16:02+09:00

16GB T4 / 24GB RTX3090 जैसे सीमित GPU वातावरण में LLM चलाने के लिए उच्च-प्रदर्शन generation engine लगभग 100x तक बेहद तेज offloading के साथ single GPU पर 175B model चलाना संभव parameters और attention cache को अधिकतम compress करना (लगभग बिना accuracy loss के 4-bit तक कम करना) distributed parallel runtime के साथ GPU जोड़ने पर आसानी से scale करना संभव

(github.com/FMInference)

14 पॉइंट द्वारा xguru 2023-02-22 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

16GB T4 / 24GB RTX3090 जैसे सीमित GPU वातावरण में LLM चलाने के लिए उच्च-प्रदर्शन generation engine
लगभग 100x तक बेहद तेज offloading के साथ single GPU पर 175B model चलाना संभव
parameters और attention cache को अधिकतम compress करना (लगभग बिना accuracy loss के 4-bit तक कम करना)
distributed parallel runtime के साथ GPU जोड़ने पर आसानी से scale करना संभव

FlexGen - ChatGPT जैसे LLM को single GPU पर चलाना

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.