• Taalas एक startup है जिसने Llama 3.1 8B मॉडल को सीधे ASIC चिप पर उकेरकर प्रति सेकंड 17,000 tokens की inference speed हासिल की है
  • कंपनी का दावा है कि यह GPU-आधारित सिस्टम की तुलना में 10 गुना सस्ता, 10 गुना कम बिजली, और 10 गुना तेज inference performance देता है
  • यह मॉडल के weights को सीधे silicon transistors में उकेरने वाली संरचना का उपयोग करता है, जिससे GPU की memory bottleneck खत्म हो जाती है
  • बाहरी DRAM/HBM के बिना, चिप के अंदर मौजूद SRAM से ही KV cache और LoRA adapters को संभाला जाता है
  • हर मॉडल के लिए चिप बनाते समय ऊपर की सिर्फ दो layers को customize किया जाता है, और Llama 3.1 के लिए चिप 2 महीने में पूरी की गई

Taalas चिप का अवलोकन

  • Taalas की स्थापना को 2.5 साल हुए हैं, और यह चिप उसका पहला प्रोडक्ट है
  • यह चिप एक fixed-function ASIC है, जिसमें सिर्फ एक मॉडल स्टोर किया जा सकता है और इसे दोबारा लिखा नहीं जा सकता
    • CD-ROM या game cartridge की तरह इसका single-model dedicated structure है

GPU-आधारित LLM inference की अकार्यकुशलता

  • LLM कई layers से मिलकर बनता है, और उदाहरण के तौर पर Llama 3.1 8B में 32 layers हैं
  • GPU हर layer के weight matrix को VRAM से लाकर computation करता है और फिर उसे वापस स्टोर करता है
    • हर token generate करते समय यह प्रक्रिया 32 बार दोहरानी पड़ती है
  • यह memory round-trip process latency और energy consumption बढ़ाती है, जिसे memory bandwidth bottleneck या Von Neumann bottleneck कहा जाता है

Taalas का ‘hardwired’ approach

  • Taalas ने Llama 3.1 की 32 layers को क्रमवार silicon पर उकेर दिया है
    • मॉडल के weights को physical transistors के रूप में लागू किया गया है
  • input vector आते ही वह हर layer के transistors से गुजरते हुए electrical signals के रूप में लगातार process होता है
    • बीच के नतीजों को VRAM में स्टोर करने के बजाय, उन्हें wiring (pipeline registers) के जरिए सीधे अगली layer तक भेज दिया जाता है
  • कंपनी का कहना है कि उसने ऐसा ‘magic multiplier’ structure विकसित किया है जो 4-bit data storage और multiplication operation को एक ही transistor में कर सकता है

memory structure

  • बाहरी DRAM/HBM का उपयोग नहीं किया जाता, बल्कि चिप के अंदर कम मात्रा में SRAM लगाया जाता है
    • क्योंकि DRAM और logic gates को साथ में बनाना कठिन होता है
  • यह on-chip SRAM KV cache (बातचीत के दौरान अस्थायी मेमोरी) और LoRA adapters को स्टोर करने के लिए इस्तेमाल होता है

मॉडल-विशिष्ट चिप बनाने का तरीका

  • आम तौर पर हर मॉडल के लिए नई चिप बनाना महंगा होता है
  • Taalas बेसिक चिप structure को common रखता है और किसी खास मॉडल के लिए सिर्फ ऊपरी दो layers (masks) में बदलाव करता है
    • यह पूरी तरह नई चिप बनाने की तुलना में कहीं तेज तरीका है
  • Llama 3.1 8B के लिए चिप विकसित करने में लगभग 2 महीने लगे
    • AI उद्योग के हिसाब से यह धीमा है, लेकिन custom chip development speed के लिहाज से काफी तेज है

आगे की उम्मीद

  • GPU के बिना local models चलाने वाले उपयोगकर्ताओं के लिए, ऐसे hardware के mass production की उम्मीद की जा रही है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.