Microsoft LLMLingua - अनुमान को तेज़ करने और लागत घटाने के लिए prompt compression

xguru · 2023-12-22T10:02:02+09:00

compression के लिए GPT2-small या LLaMA-7B जैसे aligned और अच्छी तरह प्रशिक्षित छोटे language model का उपयोग prompt में गैर-ज़रूरी tokens का पता लगाकर black-box LLM में compressed prompt के साथ inference संभव बनाता है LLM की inference speed बढ़ाने और मुख्य जानकारी के प्रति LLM की समझ बेहतर करने के लिए prompt और KV-Cache को compress करता है performance loss को न्यूनतम रखते हुए अधिकतम 20x compression हासिल prompt और generated context को कम करके लागत घटाता है prompt के भीतर महत्वपूर्ण जानकारी की density बढ़ाकर लंबे context को support करना संभव

(github.com/microsoft)

10 पॉइंट द्वारा xguru 2023-12-22 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

compression के लिए GPT2-small या LLaMA-7B जैसे aligned और अच्छी तरह प्रशिक्षित छोटे language model का उपयोग
prompt में गैर-ज़रूरी tokens का पता लगाकर black-box LLM में compressed prompt के साथ inference संभव बनाता है
- LLM की inference speed बढ़ाने और मुख्य जानकारी के प्रति LLM की समझ बेहतर करने के लिए prompt और KV-Cache को compress करता है
- performance loss को न्यूनतम रखते हुए अधिकतम 20x compression हासिल
prompt और generated context को कम करके लागत घटाता है
prompt के भीतर महत्वपूर्ण जानकारी की density बढ़ाकर लंबे context को support करना संभव

Microsoft LLMLingua - अनुमान को तेज़ करने और लागत घटाने के लिए prompt compression

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.