2 पॉइंट द्वारा GN⁺ 2025-04-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • DFloat11 एक lossless compression framework है जो बड़े language model (LLM) का आकार 30% घटाता है, जबकि मूल मॉडल के साथ bit-level पर समान output बनाए रखता है
  • BFloat16 weight representation की low entropy का उपयोग करके मौजूदा storage format की inefficiency को बेहतर बनाता है
  • GPU पर efficient inference के लिए custom GPU kernels विकसित किए गए हैं, जो तेज online decompression को support करते हैं
  • Llama-3.1, Qwen-2.5, Gemma-3 जैसे नवीनतम मॉडलों पर किए गए प्रयोगों में 30% model size reduction और सटीक output बनाए रखने की पुष्टि हुई
  • स्थिर GPU memory budget में uncompressed मॉडल की तुलना में 5.3-13.17 गुना लंबी context length संभव होती है

70% आकार, 100% सटीकता: कुशल GPU inference के लिए lossless LLM compression

  • बड़े language model (LLM) का आकार तेज़ी से बढ़ रहा है, जिससे resource-constrained hardware पर उनकी efficient deployment एक बड़ी चुनौती बन गई है
  • Dynamic-Length Float (DFloat11) एक lossless compression framework है, जो LLM का आकार 30% घटाता है, जबकि bit-level पर समान output बनाए रखता है
  • यह BFloat16 weight representation की low entropy का उपयोग करके मौजूदा storage format की inefficiency को बेहतर बनाता है
  • entropy coding लागू करके, weight की frequency के आधार पर उन्हें dynamic-length encoding दी जाती है, जिससे information-optimal compression हासिल होती है
  • efficient inference के लिए custom GPU kernels विकसित किए गए हैं, जो तेज online decompression को support करते हैं

DFloat11 का डिज़ाइन

  • memory-intensive lookup table (LUT) को GPU SRAM में फिट होने वाले compressed LUT में विभाजित किया गया है
  • हल्के auxiliary variables का उपयोग करके thread read/write position को समायोजित करने वाले two-stage kernels विकसित किए गए हैं
  • transformer block-level decompression के जरिए latency को न्यूनतम किया गया है

प्रयोगों के परिणाम

  • Llama-3.1, Qwen-2.5, Gemma-3 जैसे नवीनतम मॉडलों पर DFloat11 ने 30% model size reduction और सटीक output बनाए रखने की पुष्टि की
  • uncompressed मॉडल के कुछ हिस्सों को CPU पर offload करने वाले विकल्पों की तुलना में 1.9-38.8 गुना अधिक throughput हासिल किया गया
  • स्थिर GPU memory budget में uncompressed मॉडल की तुलना में 5.3-13.17 गुना लंबी context length संभव हुई

DFloat11 के फायदे

  • Llama-3.1-405B, 810GB मॉडल पर 8x80GB GPU वाले एक single node में lossless inference संभव बनाता है
  • code और model public URL पर उपलब्ध हैं

1 टिप्पणियां

 
GN⁺ 2025-04-26
Hacker News टिप्पणियाँ
  • bfloat16 की उच्च dynamic range का अधिकांश हिस्सा उपयोग नहीं होता

    • लोग 0.01 जैसे hyperparameter पसंद करते हैं
    • नेटवर्क के सभी तत्वों को 10^6 से गुणा करने पर भी बड़ा अंतर नहीं पड़ता
    • bfloat16 मानों की सामान्य entropy 10-12 बिट होती है
    • sign और mantissa बिट्स ऐसे noise हैं जिन्हें compress नहीं किया जा सकता
    • Martin Burtscher की लैब, LLNL के fpzip, Facebook के dietgpu आदि में lossless compression तकनीकें उपयोग होती हैं
    • rANS, SIMD instruction sets पर Huffman coding से अधिक कुशल है
  • 405B-parameter मॉडल को single node पर चलाने की संभावना

    • शोध संस्थानों और startup के लिए बड़ा अवसर प्रदान करती है
  • ML/transformer मॉडल के तेज़ विकास के लिए आभार

    • जिज्ञासा है कि llama.cpp, cublas का अच्छी तरह उपयोग करता है या नहीं
  • weight format की लड़ाई खत्म होने पर hardware इसका समर्थन कर सकेगा

    • optimal weight format के अनुरूप matrix multiplication hardware की आवश्यकता है
  • वास्तविक agent उपयोग मामलों में quality, cost और performance का संतुलन बनाना कठिन है

    • dfloat11 लागत घटाने में मदद कर सकता है
  • xmad.ai में काम करता हूँ

  • तकनीकी प्रगति की रफ्तार तेज़ है

    • efficiency सुधारों में रुचि है
  • DFloat11, uncompressed मॉडल को CPU पर offload करने की तुलना में 1.9-38.8 गुना अधिक throughput देता है

    • स्थिर GPU memory budget में अधिक लंबी context length प्रदान करता है
  • जिज्ञासा है कि LLM memory bandwidth से सीमित होते हैं या नहीं

  • LLM का उपयोग करके images को और अधिक compress करने का तरीका खोजा है

    • संबंधित whitepaper प्रकाशित करने की योजना है
  • जिज्ञासा है कि यह ZipNN से अलग है या नहीं

    • यह समझना कठिन है कि यह उसी पर आधारित है, अलग है, या बेहतर है
  • मेरा मानना है कि binary की जगह ternary का उपयोग करने पर अधिक compression ratio मिल सकता है