1 पॉइंट द्वारा GN⁺ 2025-05-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • MVDRAM एक ऐसा सिस्टम है जो बिना संशोधित DRAM का उपयोग करके low-bit LLM inference के लिए GeMV ऑपरेशंस को तेज करता है
  • DRAM को GeMV engine के रूप में उपयोग करके यह उच्च throughput प्रदान करता है
  • यह मौजूदा PUD approach में input pre-arrangement और output bit flipping की लागत को हटाता है
  • प्रयोगों में low-bit LLM पर processor-आधारित implementations की तुलना में बेहतर प्रदर्शन दिखा
  • यह AI hardware के लिए नई संभावनाएँ प्रस्तुत करता है

MVDRAM: बिना संशोधित DRAM का उपयोग करने वाला low-bit LLM accelerator

  • GeMV operations बड़े language models (LLM) के inference में एक महत्वपूर्ण latency bottleneck बने हुए हैं
  • Processing-Using-DRAM (PUD) में DRAM को GeMV engine के रूप में पुनः उपयोग करने की क्षमता है
  • लेकिन PUD को LLM inference pipeline में लागू करने पर काफ़ी overhead उत्पन्न होता है

MVDRAM का अभिनव दृष्टिकोण

  • MVDRAM data sharing patterns और mathematical linearity का उपयोग करके processor और DRAM के बीच समन्वय करता है
  • यह मौजूदा PUD approach की लागत हटाकर GeMV operations को तेज करता है

प्रयोगात्मक परिणाम

  • चार DDR4 DRAM modules का उपयोग करने वाले प्रयोगों में MVDRAM ने low-bit (4-bit या उससे कम) LLM पर processor-आधारित implementations से बेहतर प्रदर्शन दिखाया
  • इसने अधिकतम 7.29x speedup और 30.5x energy efficiency हासिल की

LLM inference में समग्र सुधार

  • 2-bit और 4-bit quantized low-bit models में क्रमशः 2.18x और 1.31x throughput improvement देखा गया
  • energy efficiency भी क्रमशः 3.04x और 2.35x बढ़ी

AI hardware की नई संभावनाएँ

  • MVDRAM यह साबित करता है कि standard DRAM को LLM accelerator के रूप में उपयोग किया जा सकता है
  • इसमें AI hardware के लिए नए क्षितिज खोलने की क्षमता है

1 टिप्पणियां

 
GN⁺ 2025-05-06
Hacker News राय
  • DRAM के भीतर computation पर शुरुआती प्रस्तावों में से एक के बारे में जानकारी है

    • commercial components का उपयोग करने वाला पहला demonstration मौजूद है
    • DRAM Bender नामक टूल का उपयोग करके implementation किया जा रहा है
    • DRAM के भीतर processing में हाल की प्रगति पर एक paper है
  • किसी ने ध्यान दिया कि संदर्भ 1 और 3 की author lists बहुत लंबी हैं

    • 2016 के लेख के लिए उम्मीद थी, लेकिन उसे शामिल नहीं किया गया
    • 2019 का लेख शामिल है
    • DRAM का spec से बाहर का behavior, खासकर copy function, कुख्यात bugs से जुड़ा है
  • DRAM commands को जानबूझकर manufacturer द्वारा निर्दिष्ट timing parameters का उल्लंघन करते हुए जारी करके बड़े पैमाने पर parallel processing हासिल की जा सकती है

    • यह DRAM training के लिए binary blobs के लिए एक चुनौती है
  • यह विचार बहुत मौलिक और रचनात्मक है

    • बारीक विवरणों पर काम करना सार्थक हो सकता है
  • hardware की दुनिया में bugs का उपयोग करना खतरनाक हो सकता है

    • software की दुनिया में platform bugs का उपयोग करके features सक्रिय करना अच्छा नहीं माना जाता
    • bug ठीक हो जाने पर system अप्रत्याशित रूप से काम कर सकता है
  • DRAM के भीतर ही matrix operations किए जा रहे हैं

    • यह बहुत दिलचस्प और चौंकाने वाला विचार है
  • सामान्य matrix-vector multiplication (GeMV) का उल्लेख है

    • कुछ लोगों की गणितीय समझ कम है
    • quaternions matrix की तुलना में computationally कम complex होने के कारण लोकप्रिय हुए
    • कुछ लोग यह भी सोच रहे हैं कि क्या quaternion का उपयोग करके LLM बनाया गया है
  • एक राय है कि 1997 के मूल Intelligent RAM (IRAM) source का citation न करना गैर-वैज्ञानिक है

  • कुछ लोग सोच रहे हैं कि क्या matrix multiplication और अन्य operations पारंपरिक CPU से DRAM की ओर शिफ्ट हो सकते हैं

    • यह सवाल है कि क्या processing का यह shift Samsung जैसी कंपनियों को फायदा देगा
    • NVIDIA जैसी कंपनियों पर इसका क्या असर होगा, इसे लेकर जिज्ञासा है
  • यह बड़े LLMs के लिए सस्ते inference devices बनाने का एक शानदार तरीका हो सकता है