LLM को चिप पर ‘प्रिंट’ करने का Taalas का तरीका
(anuragk.com)- Taalas एक startup है जिसने Llama 3.1 8B मॉडल को सीधे ASIC चिप पर उकेरकर प्रति सेकंड 17,000 tokens की inference speed हासिल की है
- कंपनी का दावा है कि यह GPU-आधारित सिस्टम की तुलना में 10 गुना सस्ता, 10 गुना कम बिजली, और 10 गुना तेज inference performance देता है
- यह मॉडल के weights को सीधे silicon transistors में उकेरने वाली संरचना का उपयोग करता है, जिससे GPU की memory bottleneck खत्म हो जाती है
- बाहरी DRAM/HBM के बिना, चिप के अंदर मौजूद SRAM से ही KV cache और LoRA adapters को संभाला जाता है
- हर मॉडल के लिए चिप बनाते समय ऊपर की सिर्फ दो layers को customize किया जाता है, और Llama 3.1 के लिए चिप 2 महीने में पूरी की गई
Taalas चिप का अवलोकन
- Taalas की स्थापना को 2.5 साल हुए हैं, और यह चिप उसका पहला प्रोडक्ट है
- यह चिप एक fixed-function ASIC है, जिसमें सिर्फ एक मॉडल स्टोर किया जा सकता है और इसे दोबारा लिखा नहीं जा सकता
- CD-ROM या game cartridge की तरह इसका single-model dedicated structure है
GPU-आधारित LLM inference की अकार्यकुशलता
- LLM कई layers से मिलकर बनता है, और उदाहरण के तौर पर Llama 3.1 8B में 32 layers हैं
- GPU हर layer के weight matrix को VRAM से लाकर computation करता है और फिर उसे वापस स्टोर करता है
- हर token generate करते समय यह प्रक्रिया 32 बार दोहरानी पड़ती है
- यह memory round-trip process latency और energy consumption बढ़ाती है, जिसे memory bandwidth bottleneck या Von Neumann bottleneck कहा जाता है
Taalas का ‘hardwired’ approach
- Taalas ने Llama 3.1 की 32 layers को क्रमवार silicon पर उकेर दिया है
- मॉडल के weights को physical transistors के रूप में लागू किया गया है
- input vector आते ही वह हर layer के transistors से गुजरते हुए electrical signals के रूप में लगातार process होता है
- बीच के नतीजों को VRAM में स्टोर करने के बजाय, उन्हें wiring (pipeline registers) के जरिए सीधे अगली layer तक भेज दिया जाता है
- कंपनी का कहना है कि उसने ऐसा ‘magic multiplier’ structure विकसित किया है जो 4-bit data storage और multiplication operation को एक ही transistor में कर सकता है
memory structure
- बाहरी DRAM/HBM का उपयोग नहीं किया जाता, बल्कि चिप के अंदर कम मात्रा में SRAM लगाया जाता है
- क्योंकि DRAM और logic gates को साथ में बनाना कठिन होता है
- यह on-chip SRAM KV cache (बातचीत के दौरान अस्थायी मेमोरी) और LoRA adapters को स्टोर करने के लिए इस्तेमाल होता है
मॉडल-विशिष्ट चिप बनाने का तरीका
- आम तौर पर हर मॉडल के लिए नई चिप बनाना महंगा होता है
- Taalas बेसिक चिप structure को common रखता है और किसी खास मॉडल के लिए सिर्फ ऊपरी दो layers (masks) में बदलाव करता है
- यह पूरी तरह नई चिप बनाने की तुलना में कहीं तेज तरीका है
- Llama 3.1 8B के लिए चिप विकसित करने में लगभग 2 महीने लगे
- AI उद्योग के हिसाब से यह धीमा है, लेकिन custom chip development speed के लिहाज से काफी तेज है
आगे की उम्मीद
- GPU के बिना local models चलाने वाले उपयोगकर्ताओं के लिए, ऐसे hardware के mass production की उम्मीद की जा रही है
5 टिप्पणियां
Hacker News की राय
8B coefficients को 53B ट्रांजिस्टर में पैक किया गया है। प्रति coefficient लगभग 6.5 ट्रांजिस्टर इस्तेमाल हो रहे हैं
लगता है कि block quantization का उपयोग किया गया है। उदाहरण के लिए, अगर 3-bit coefficient वाले 4 के ब्लॉक हों, तो केवल 330 अलग-अलग ब्लॉकों की ज़रूरत होगी
Llama 3.1 की matrix 4096x4096 है, यानी इसमें 1.6 करोड़ coefficients हैं, और इसे 330 ब्लॉकों में compress किया जा सकता है
अगर प्रति block लगभग 2.5 लाख ट्रांजिस्टर का बजट मानें, तो यह प्रति coefficient लगभग 5 ट्रांजिस्टर बैठता है। FP4 स्तर पर भी यह काफ़ी व्यावहारिक लगता है
model.toVHDL()जैसी कोई feature आएलोगों का इस बात पर हैरान होना कि यह संभव है, वही अपने आप में ज़्यादा हैरान करने वाली बात है
GPU भी आख़िरकार software operations को hardware में ले जाने से ही आए थे। LLM भी वही गणितीय संरचना रखते हैं, इसलिए यह दिशा स्वाभाविक evolution लगती है
form factor से भी बड़ा innovation असल में latency है
cloud inference में सिर्फ network overhead ही 50~200ms हो सकता है, जबकि PCIe में लगी dedicated ASIC first token को microseconds में निकाल सकती है
real-time video generation या 100ms से कम response चाहने वाले agents के लिए यह निर्णायक है। cost GPU से ज़्यादा हो सकती है, लेकिन यह नई real-time applications संभव बनाती है
स्थानीय hardware पर सीधे चलने वाले Gemma 5 Mini जैसे models का भविष्य काफ़ी रोचक है
H.264 या AV1 encoder की तरह किसी specific model के लिए “AI cores” आ सकते हैं
Structured ASIC platform की वजह से structural ASIC के दौर को फिर खोलते हुए cost भी कम हो सकती है
यह कुछ-कुछ CD-ROM या game cartridge जैसा लगता है, जहाँ chip में सिर्फ एक model हो। कंप्यूटर में slot लगाकर model बदला जाए
अगर ASIC को सस्ते में print करना संभव हो जाए, तो model इस्तेमाल करने का तरीका पूरी तरह बदल जाएगा
models USB device के रूप में बिकेंगे, और 20B से कम dense model निजी assistant के लिए काफ़ी होंगे
यह graphics card के दोबारा आने जैसा लगता है। अब जब open-weight models बढ़ रहे हैं, तो कम खरीद और संचालन लागत पर भी बड़ा बाज़ार खुल सकता है
जिज्ञासा है कि MoE architecture में यह कैसे काम करेगा
dense LLM में सभी weights को पास रखना फ़ायदेमंद है, लेकिन MoE ज़्यादा memory access-centric है, इसलिए MAC और memory के बीच imbalance पैदा होता है। अंततः फिर chiplet approach की तरफ़ लौटना पड़ सकता है
लगता है कि कभी न कभी AI-dedicated PCIe expansion card mainstream बन जाएगा
पुराने graphics card या sound card की तरह, नया model आने पर card बदलकर PC की “बुद्धिमत्ता” upgrade करने का दौर आ सकता है
computing में हमेशा local बनाम server का चक्र चलता रहा है, लेकिन on-premise demand कभी पूरी तरह ख़त्म नहीं होगी
आख़िरकार AI chip slot वाले motherboard या high-speed port में लगने वाले AI peripherals आने की संभावना लगती है
जिज्ञासा है कि Apple जैसी कंपनियाँ क्या 3 साल के भीतर ऐसे chips को सीधे embed कर पाएँगी। आज के model स्तर का ultra-fast local performance देखने की उम्मीद है
डिजिटल तरीके से calculus करने और analog तरीके से calculus करने के बीच का फ़र्क याद आ रहा है।
अगर LLM मॉडल की बजाय इससे text embedding मॉडल बनाया जाए तो अच्छा रहेगा।
सही है, एक बार बना लो तो फिर लगातार इस्तेमाल कर सकते हो
अगर AI की वजह से नए chip के design और development की रफ्तार तेज हो जाए, तो शायद यही सचमुच भविष्य हो सकता है। इससे लगभग 25 साल पहले का वह दौर भी याद आता है, जब hardware performance प्रतिस्पर्धा में तेज़ी से बढ़ रही थी।