- compression के लिए GPT2-small या LLaMA-7B जैसे aligned और अच्छी तरह प्रशिक्षित छोटे language model का उपयोग
- prompt में गैर-ज़रूरी tokens का पता लगाकर black-box LLM में compressed prompt के साथ inference संभव बनाता है
- LLM की inference speed बढ़ाने और मुख्य जानकारी के प्रति LLM की समझ बेहतर करने के लिए prompt और KV-Cache को compress करता है
- performance loss को न्यूनतम रखते हुए अधिकतम 20x compression हासिल
- prompt और generated context को कम करके लागत घटाता है
- prompt के भीतर महत्वपूर्ण जानकारी की density बढ़ाकर लंबे context को support करना संभव
अभी कोई टिप्पणी नहीं है.