1 पॉइंट द्वारा GN⁺ 2024-09-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

हार्डवेयर-एक्सेलरेटेड LLMs: व्यापक सर्वेक्षण और तुलना

  • LLM प्राकृतिक भाषा प्रसंस्करण कार्यों में एक शक्तिशाली उपकरण के रूप में उभरे हैं और मानव-जैसे टेक्स्ट को समझने और उत्पन्न करने की क्षमता के साथ इस क्षेत्र में क्रांतिकारी बदलाव ला रहे हैं
  • यह शोधपत्र हार्डवेयर एक्सेलरेटर का उपयोग करके बड़े भाषा मॉडलों के लिए transformer network acceleration पर किए गए विभिन्न शोध प्रयासों का व्यापक सर्वेक्षण करता है

फ्रेमवर्क और तुलना

  • प्रस्तावित फ्रेमवर्क का परिचय देता है और तकनीक, processing platform (FPGA, ASIC, In-Memory, GPU), speedup, energy efficiency, performance (GOPs), और energy efficiency (GOPs/W) पर गुणात्मक और मात्रात्मक तुलना करता है
  • मुख्य चुनौती यह है कि प्रत्येक प्रस्तावित scheme अलग-अलग process technology में implement की गई है, जिससे निष्पक्ष तुलना करना कठिन हो जाता है
  • इस शोधपत्र का मुख्य योगदान समान technology पर performance और energy efficiency के परिणामों का अनुमान लगाना है, जिससे निष्पक्ष तुलना संभव होती है

प्रयोग और परिणाम

  • कई FPGA chips पर LLMs के कुछ हिस्सों को implement करके समान process technology पर परिणामों का अनुमान लगाया गया है और performance की निष्पक्ष तुलना की गई है

GN⁺ की संक्षिप्त प्रस्तुति

  • यह शोधपत्र बड़े भाषा मॉडलों (LLMs) के हार्डवेयर एक्सेलरेशन पर एक व्यापक सर्वेक्षण प्रदान करता है
  • विभिन्न processing platforms पर performance और energy efficiency की तुलना करके निष्पक्ष तुलना को संभव बनाता है
  • FPGA chips का उपयोग करके प्रयोगों के माध्यम से समान technology पर परिणामों का अनुमान लगाता है
  • यह प्राकृतिक भाषा प्रसंस्करण क्षेत्र में LLMs के performance सुधार में रुचि रखने वालों के लिए उपयोगी हो सकता है
  • समान कार्यक्षमता वाले अन्य प्रोजेक्ट्स में NVIDIA के GPU accelerators और Google का TPU शामिल हैं

1 टिप्पणियां

 
GN⁺ 2024-09-08
Hacker News राय
  • 1990 के दशक से CPU की गति मेमोरी बैंडविड्थ की तुलना में तेज़ी से बढ़ी है

    • William Wulf और Sally Mckee ने 1995 में "memory wall" की भविष्यवाणी की थी
    • पिछले 20 वर्षों में सर्वर हार्डवेयर के FLOPS हर 2 साल में 3 गुना बढ़े हैं, लेकिन DRAM और इंटरकनेक्ट बैंडविड्थ क्रमशः 1.6 गुना और 1.4 गुना ही बढ़े हैं
    • LLM की training और inference में performance bottleneck धीरे-धीरे मेमोरी बैंडविड्थ की ओर शिफ्ट हो रहा है
    • खासकर autoregressive Transformer decoder models में मेमोरी बैंडविड्थ मुख्य bottleneck बन सकती है
    • Compute-in-memory (CIM) या processing-in-memory (PIM) जैसी नई तकनीकों की ज़रूरत बढ़ रही है
    • CIM/PIM CPU registers में डेटा भेजे बिना सीधे मेमोरी में computation करते हैं, जिससे latency और power consumption बेहतर होते हैं
    • पेपर विभिन्न semiconductor process sizes में ASIC और FPGA हार्डवेयर की तुलना करने के लिए 16nm process पर performance का अनुमान लगाता है
    • CIM/PIM के लिए अनुमान नहीं लगाया गया, क्योंकि उनका performance केवल process technology पर निर्भर नहीं करता
    • अतिरिक्त जानकारी नीचे दिए गए लिंक में देखी जा सकती है
  • Systolic arrays के लिए व्यक्तिगत पसंद है

    • दशकों तक कई विकल्पों की समीक्षा करने के बाद, Cartesian grid of cells को सबसे अच्छा समाधान चुना गया
    • हर cell में 4 input bits और 4 output bits होते हैं, और बीच में 64-bit shift register होता है
    • graph coloring के जादू से सभी cells को clock किया जाता है ताकि डेटा किसी भी दिशा में बह सके
    • इसमें FPGA जैसी flexibility है, लेकिन timing issues या race conditions की चिंता नहीं करनी पड़ती
    • सभी operations parallel में होते हैं
    • यह विचार 1982 से है, और उम्मीद है कि कोई इसे अमल में लाए
    • इस विचार को BitGrid कहा गया है
    • संबंधित पेपर यहाँ देखा जा सकता है
  • WebGL में ऐसा LLM देखना चाहूँगा जिसमें सब कुछ textures से बना हो

    • architecture के अंतर को visual रूप में देखना मज़ेदार हो सकता है
  • Groq के ASIC-आधारित LPU की सफलता का ज़िक्र है

    • Groq Cloud में LLM inference बहुत तेज़ है
    • कम energy consumption भी इसका फ़ायदा है
  • आजकल bottleneck मेमोरी मूवमेंट है

    • इसलिए महँगी HBM की ज़रूरत पड़ती है
    • Nvidia का design भी memory-optimized है
  • सोच रहा हूँ कि FPGA + ASIC + in-mem hybrid architecture scalability/flexibility में भूमिका निभा सकती है या नहीं

    • क्या इनके अलग-अलग फ़ायदे, जैसे FPGA की flexibility, ASIC की performance, और in-memory की energy efficiency, को मिलाकर LLM performance को और बेहतर किया जा सकता है
  • एक पेपर था जिसमें LLM को बल्ब जितनी बिजली पर चलाया गया था

  • सोच रहा हूँ कि Arxiv पर कंटेंट को "अच्छी तरह" पढ़ने का कोई तरीका है या नहीं

    • साइट का interface इतना उलझा हुआ लगता है कि कई बार बिना कंटेंट देखे ही निकल जाता हूँ
  • सोच रहा हूँ कि "in-memory" क्या CPU और RAM को जोड़ने वाला कोई विशेष हार्डवेयर है