- Taalas एक startup है जिसने Llama 3.1 8B मॉडल को सीधे ASIC चिप पर उकेरकर प्रति सेकंड 17,000 tokens की inference speed हासिल की है
- कंपनी का दावा है कि यह GPU-आधारित सिस्टम की तुलना में 10 गुना सस्ता, 10 गुना कम बिजली, और 10 गुना तेज inference performance देता है
- यह मॉडल के weights को सीधे silicon transistors में उकेरने वाली संरचना का उपयोग करता है, जिससे GPU की memory bottleneck खत्म हो जाती है
- बाहरी DRAM/HBM के बिना, चिप के अंदर मौजूद SRAM से ही KV cache और LoRA adapters को संभाला जाता है
- हर मॉडल के लिए चिप बनाते समय ऊपर की सिर्फ दो layers को customize किया जाता है, और Llama 3.1 के लिए चिप 2 महीने में पूरी की गई
Taalas चिप का अवलोकन
- Taalas की स्थापना को 2.5 साल हुए हैं, और यह चिप उसका पहला प्रोडक्ट है
- यह चिप एक fixed-function ASIC है, जिसमें सिर्फ एक मॉडल स्टोर किया जा सकता है और इसे दोबारा लिखा नहीं जा सकता
- CD-ROM या game cartridge की तरह इसका single-model dedicated structure है
GPU-आधारित LLM inference की अकार्यकुशलता
- LLM कई layers से मिलकर बनता है, और उदाहरण के तौर पर Llama 3.1 8B में 32 layers हैं
- GPU हर layer के weight matrix को VRAM से लाकर computation करता है और फिर उसे वापस स्टोर करता है
- हर token generate करते समय यह प्रक्रिया 32 बार दोहरानी पड़ती है
- यह memory round-trip process latency और energy consumption बढ़ाती है, जिसे memory bandwidth bottleneck या Von Neumann bottleneck कहा जाता है
Taalas का ‘hardwired’ approach
- Taalas ने Llama 3.1 की 32 layers को क्रमवार silicon पर उकेर दिया है
- मॉडल के weights को physical transistors के रूप में लागू किया गया है
- input vector आते ही वह हर layer के transistors से गुजरते हुए electrical signals के रूप में लगातार process होता है
- बीच के नतीजों को VRAM में स्टोर करने के बजाय, उन्हें wiring (pipeline registers) के जरिए सीधे अगली layer तक भेज दिया जाता है
- कंपनी का कहना है कि उसने ऐसा ‘magic multiplier’ structure विकसित किया है जो 4-bit data storage और multiplication operation को एक ही transistor में कर सकता है
memory structure
- बाहरी DRAM/HBM का उपयोग नहीं किया जाता, बल्कि चिप के अंदर कम मात्रा में SRAM लगाया जाता है
- क्योंकि DRAM और logic gates को साथ में बनाना कठिन होता है
- यह on-chip SRAM KV cache (बातचीत के दौरान अस्थायी मेमोरी) और LoRA adapters को स्टोर करने के लिए इस्तेमाल होता है
मॉडल-विशिष्ट चिप बनाने का तरीका
- आम तौर पर हर मॉडल के लिए नई चिप बनाना महंगा होता है
- Taalas बेसिक चिप structure को common रखता है और किसी खास मॉडल के लिए सिर्फ ऊपरी दो layers (masks) में बदलाव करता है
- यह पूरी तरह नई चिप बनाने की तुलना में कहीं तेज तरीका है
- Llama 3.1 8B के लिए चिप विकसित करने में लगभग 2 महीने लगे
- AI उद्योग के हिसाब से यह धीमा है, लेकिन custom chip development speed के लिहाज से काफी तेज है
आगे की उम्मीद
- GPU के बिना local models चलाने वाले उपयोगकर्ताओं के लिए, ऐसे hardware के mass production की उम्मीद की जा रही है
अभी कोई टिप्पणी नहीं है.