मौजूदा KV compression तकनीकों की तुलना में अधिकतम 25% अतिरिक्त बचत, और प्रदर्शन उल्टा बेहतर — CASK

(arxiv.org)

9 पॉइंट द्वारा skyline23 17 일 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

CASK एक ऐसा शोधपत्र है जो LLM inference के दौरान बढ़ते KV cache की समस्या को हल करने के लिए
मौजूदा token importance-आधारित pruning तरीके के बजाय
संरचनात्मक (role-based) दृष्टिकोण प्रस्तावित करता है।

यह शोध केवल 5 दिनों में निकाला गया, और यह भी उल्लेखनीय है कि यह बिना किसी मार्गदर्शक प्रोफेसर के दो स्वतंत्र शोधकर्ताओं का परिणाम है।

📌 समस्या की परिभाषा

लंबे chain-of-thought inference के दौरान KV cache तेज़ी से बढ़ता है, जिससे:

memory उपयोग में तेज़ बढ़ोतरी
inference latency में वृद्धि
long-term reasoning प्रदर्शन में गिरावट

मौजूदा तरीका:

token importance scoring आधारित
कम score वाले token को eviction

❌ मौजूदा तरीकों की सीमाएँ

शोधपत्र के प्रयोगों के अनुसार:

importance scoring को बहुत परिष्कृत करने पर भी
→ वास्तव में बनाए रखे जाने वाले token सेट में बदलाव सीमित रहता है

अर्थात,

केवल eviction रणनीति में सुधार से
प्रदर्शन और दक्षता सुधारने की एक सीमा है

🔥 मुख्य विचार

CASK token को importance नहीं, बल्कि भूमिका-आधारित तरीके से अलग करता है।

Core

अंतिम output generation में सीधे योगदान
reasoning की मुख्य state
हमेशा बनाए रखा जाता है

Scratch

intermediate computation और exploration प्रक्रिया में बनने वाली state
इसमें दोहराव और अनावश्यक जानकारी शामिल हो सकती है
compression और merge का लक्ष्य

⚙️ काम करने का तरीका

Prefix Phase

input (prompt) खंड
कुछ KV eviction किया जाता है

Decode Phase

inference चलने वाला खंड
केवल Scratch क्षेत्र पर selective compression लागू किया जाता है

👉 मौजूदा तरीकों से अंतर:

साधारण deletion → चयनात्मक संरक्षण + संरचनात्मक compression

📊 प्रदर्शन

शोधपत्र के परिणामों के अनुसार:

मौजूदा KV compression तकनीकों की तुलना में
→ अधिकतम 25% अतिरिक्त memory बचत
समान KV cache budget पर
→ अधिक उच्च accuracy बनाए रखी
कुछ खंडों में
→ कम KV cache के साथ अधिक बेहतर प्रदर्शन हासिल

उदाहरण:

CASK (KV 384) > मौजूदा तरीका (KV 512)

👉 memory उपयोग में कमी + प्रदर्शन में सुधार, दोनों साथ हासिल

📌 तकनीकी विशेषताएँ

token-level pruning → structure-aware compression
eviction-केंद्रित तरीका → preserve + reuse रणनीति
reasoning प्रक्रिया में जानकारी के पुनः उपयोग को मज़बूत करना

📌 महत्व

CASK, KV cache optimization को

“कितना हटाना है” से
“क्या चीज़ हर हाल में बनाए रखनी है” की ओर मोड़ता है

यह एक ऐसा दृष्टिकोण है।

🚀 सारांश

अधिकतम 25% अतिरिक्त KV cache बचत
समान या बेहतर inference प्रदर्शन सुनिश्चित
संरचना-आधारित KV प्रबंधन तरीका प्रस्तुत