- MVDRAM एक ऐसा सिस्टम है जो बिना संशोधित DRAM का उपयोग करके low-bit LLM inference के लिए GeMV ऑपरेशंस को तेज करता है
- DRAM को GeMV engine के रूप में उपयोग करके यह उच्च throughput प्रदान करता है
- यह मौजूदा PUD approach में input pre-arrangement और output bit flipping की लागत को हटाता है
- प्रयोगों में low-bit LLM पर processor-आधारित implementations की तुलना में बेहतर प्रदर्शन दिखा
- यह AI hardware के लिए नई संभावनाएँ प्रस्तुत करता है
MVDRAM: बिना संशोधित DRAM का उपयोग करने वाला low-bit LLM accelerator
- GeMV operations बड़े language models (LLM) के inference में एक महत्वपूर्ण latency bottleneck बने हुए हैं
- Processing-Using-DRAM (PUD) में DRAM को GeMV engine के रूप में पुनः उपयोग करने की क्षमता है
- लेकिन PUD को LLM inference pipeline में लागू करने पर काफ़ी overhead उत्पन्न होता है
MVDRAM का अभिनव दृष्टिकोण
- MVDRAM data sharing patterns और mathematical linearity का उपयोग करके processor और DRAM के बीच समन्वय करता है
- यह मौजूदा PUD approach की लागत हटाकर GeMV operations को तेज करता है
प्रयोगात्मक परिणाम
- चार DDR4 DRAM modules का उपयोग करने वाले प्रयोगों में MVDRAM ने low-bit (4-bit या उससे कम) LLM पर processor-आधारित implementations से बेहतर प्रदर्शन दिखाया
- इसने अधिकतम 7.29x speedup और 30.5x energy efficiency हासिल की
LLM inference में समग्र सुधार
- 2-bit और 4-bit quantized low-bit models में क्रमशः 2.18x और 1.31x throughput improvement देखा गया
- energy efficiency भी क्रमशः 3.04x और 2.35x बढ़ी
AI hardware की नई संभावनाएँ
- MVDRAM यह साबित करता है कि standard DRAM को LLM accelerator के रूप में उपयोग किया जा सकता है
- इसमें AI hardware के लिए नए क्षितिज खोलने की क्षमता है
1 टिप्पणियां
Hacker News राय
DRAM के भीतर computation पर शुरुआती प्रस्तावों में से एक के बारे में जानकारी है
DRAM Benderनामक टूल का उपयोग करके implementation किया जा रहा हैकिसी ने ध्यान दिया कि संदर्भ 1 और 3 की author lists बहुत लंबी हैं
DRAM commands को जानबूझकर manufacturer द्वारा निर्दिष्ट timing parameters का उल्लंघन करते हुए जारी करके बड़े पैमाने पर parallel processing हासिल की जा सकती है
यह विचार बहुत मौलिक और रचनात्मक है
hardware की दुनिया में bugs का उपयोग करना खतरनाक हो सकता है
DRAM के भीतर ही matrix operations किए जा रहे हैं
सामान्य matrix-vector multiplication (GeMV) का उल्लेख है
एक राय है कि 1997 के मूल Intelligent RAM (IRAM) source का citation न करना गैर-वैज्ञानिक है
कुछ लोग सोच रहे हैं कि क्या matrix multiplication और अन्य operations पारंपरिक CPU से DRAM की ओर शिफ्ट हो सकते हैं
यह बड़े LLMs के लिए सस्ते inference devices बनाने का एक शानदार तरीका हो सकता है