vLLM PagedAttention: LLM inference throughput में क्रांति

(aleksagordic.com)

14 पॉइंट द्वारा darjeeling 2025-09-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

विस्तृत जानकारी के लिए url लिंक देखें। यह उसका सारांश है.

LLM (Large Language Model) serving की मुख्य चुनौती KV cache (Key-Value Cache) मेमोरी को कुशलतापूर्वक प्रबंधित करना है। मौजूदा सिस्टमों में memory fragmentation की समस्या के कारण GPU utilization घट जाता है और throughput सीमित हो जाता है।

vLLM इस समस्या को operating system की virtual memory और paging तकनीकों से प्रेरित PagedAttention algorithm के जरिए हल करता है। PagedAttention, KV cache को भौतिक रूप से लगातार न होने वाले 'blocks' में बाँटकर प्रबंधित करता है, जिससे memory wastage नाटकीय रूप से कम होती है और flexible memory allocation संभव होता है।

इसी PagedAttention के आधार पर vLLM निम्नलिखित प्रमुख तकनीकों को लागू करता है, ताकि inference performance को अधिकतम किया जा सके।

Continuous batching: request आते ही उसे batch में जोड़ दिया जाता है, और पूरी हो चुकी sequence को batch से हटा दिया जाता है। इस dynamic तरीके से GPU के idle time को न्यूनतम किया जाता है, और पारंपरिक static batching की तुलना में throughput को अधिकतम 24 गुना तक बढ़ाया जाता है।
Advanced inference features का समर्थन: vLLM, PagedAttention की flexibility का उपयोग करके निम्नलिखित विभिन्न advanced features को कुशलतापूर्वक support करता है।
- Chunked prefill: लंबे prompt के prefill चरण को कई chunks में बाँट दिया जाता है, ताकि कोई एक request पूरे सिस्टम पर कब्ज़ा न कर ले और अन्य requests की latency बेहतर हो।
- Prefix caching: कई requests में साझा होने वाले prompt prefix के लिए KV cache को दोबारा compute किए बिना साझा किया जाता है, जिससे redundant computation हटती है।
- Guided and speculative decoding: output को किसी विशेष format (जैसे JSON) का पालन करने के लिए नियंत्रित करना, या generation को तेज़ करने के लिए छोटे draft model का उपयोग करना जैसी तकनीकों का समर्थन किया जाता है।
- Disaggregated prefill/decoding: computation-intensive prefill चरण और memory bandwidth-intensive decoding चरण को अलग-अलग instances पर चलाकर resource utilization को optimize किया जाता है।

निष्कर्षतः, vLLM, PagedAttention के माध्यम से KV cache management की बुनियादी अक्षमताओं को हल करता है, और उसी आधार पर continuous batching जैसी optimization techniques लागू करके LLM inference systems के throughput और performance को बढ़ाता है।

1 टिप्पणियां

doolayer 2025-09-02

PagedAttention की memory management सीमाओं को पूरा करने के लिए vAttention प्रस्तावित किया गया था.
संबंधित पेपर यहाँ देखा जा सकता है: https://arxiv.org/pdf/2405.04437

vLLM PagedAttention: LLM inference throughput में क्रांति

संबंधित पढ़ाई

1 टिप्पणियां