- DFloat11 एक lossless compression framework है जो बड़े language model (LLM) का आकार 30% घटाता है, जबकि मूल मॉडल के साथ bit-level पर समान output बनाए रखता है
- BFloat16 weight representation की low entropy का उपयोग करके मौजूदा storage format की inefficiency को बेहतर बनाता है
- GPU पर efficient inference के लिए custom GPU kernels विकसित किए गए हैं, जो तेज online decompression को support करते हैं
- Llama-3.1, Qwen-2.5, Gemma-3 जैसे नवीनतम मॉडलों पर किए गए प्रयोगों में 30% model size reduction और सटीक output बनाए रखने की पुष्टि हुई
- स्थिर GPU memory budget में uncompressed मॉडल की तुलना में 5.3-13.17 गुना लंबी context length संभव होती है
70% आकार, 100% सटीकता: कुशल GPU inference के लिए lossless LLM compression
- बड़े language model (LLM) का आकार तेज़ी से बढ़ रहा है, जिससे resource-constrained hardware पर उनकी efficient deployment एक बड़ी चुनौती बन गई है
- Dynamic-Length Float (DFloat11) एक lossless compression framework है, जो LLM का आकार 30% घटाता है, जबकि bit-level पर समान output बनाए रखता है
- यह BFloat16 weight representation की low entropy का उपयोग करके मौजूदा storage format की inefficiency को बेहतर बनाता है
- entropy coding लागू करके, weight की frequency के आधार पर उन्हें dynamic-length encoding दी जाती है, जिससे information-optimal compression हासिल होती है
- efficient inference के लिए custom GPU kernels विकसित किए गए हैं, जो तेज online decompression को support करते हैं
DFloat11 का डिज़ाइन
- memory-intensive lookup table (LUT) को GPU SRAM में फिट होने वाले compressed LUT में विभाजित किया गया है
- हल्के auxiliary variables का उपयोग करके thread read/write position को समायोजित करने वाले two-stage kernels विकसित किए गए हैं
- transformer block-level decompression के जरिए latency को न्यूनतम किया गया है
प्रयोगों के परिणाम
- Llama-3.1, Qwen-2.5, Gemma-3 जैसे नवीनतम मॉडलों पर DFloat11 ने 30% model size reduction और सटीक output बनाए रखने की पुष्टि की
- uncompressed मॉडल के कुछ हिस्सों को CPU पर offload करने वाले विकल्पों की तुलना में 1.9-38.8 गुना अधिक throughput हासिल किया गया
- स्थिर GPU memory budget में uncompressed मॉडल की तुलना में 5.3-13.17 गुना लंबी context length संभव हुई
DFloat11 के फायदे
- Llama-3.1-405B, 810GB मॉडल पर 8x80GB GPU वाले एक single node में lossless inference संभव बनाता है
- code और model public URL पर उपलब्ध हैं
1 टिप्पणियां
Hacker News टिप्पणियाँ
bfloat16 की उच्च dynamic range का अधिकांश हिस्सा उपयोग नहीं होता
405B-parameter मॉडल को single node पर चलाने की संभावना
ML/transformer मॉडल के तेज़ विकास के लिए आभार
weight format की लड़ाई खत्म होने पर hardware इसका समर्थन कर सकेगा
वास्तविक agent उपयोग मामलों में quality, cost और performance का संतुलन बनाना कठिन है
xmad.ai में काम करता हूँ
तकनीकी प्रगति की रफ्तार तेज़ है
DFloat11, uncompressed मॉडल को CPU पर offload करने की तुलना में 1.9-38.8 गुना अधिक throughput देता है
जिज्ञासा है कि LLM memory bandwidth से सीमित होते हैं या नहीं
LLM का उपयोग करके images को और अधिक compress करने का तरीका खोजा है
जिज्ञासा है कि यह ZipNN से अलग है या नहीं
मेरा मानना है कि binary की जगह ternary का उपयोग करने पर अधिक compression ratio मिल सकता है