FlexGen - ChatGPT जैसे LLM को single GPU पर चलाना
(github.com/FMInference)- 16GB T4 / 24GB RTX3090 जैसे सीमित GPU वातावरण में LLM चलाने के लिए उच्च-प्रदर्शन generation engine
- लगभग 100x तक बेहद तेज offloading के साथ single GPU पर 175B model चलाना संभव
- parameters और attention cache को अधिकतम compress करना (लगभग बिना accuracy loss के 4-bit तक कम करना)
- distributed parallel runtime के साथ GPU जोड़ने पर आसानी से scale करना संभव
अभी कोई टिप्पणी नहीं है.