23 पॉइंट द्वारा GN⁺ 2026-02-23 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • Taalas एक startup है जिसने Llama 3.1 8B मॉडल को सीधे ASIC चिप पर उकेरकर प्रति सेकंड 17,000 tokens की inference speed हासिल की है
  • कंपनी का दावा है कि यह GPU-आधारित सिस्टम की तुलना में 10 गुना सस्ता, 10 गुना कम बिजली, और 10 गुना तेज inference performance देता है
  • यह मॉडल के weights को सीधे silicon transistors में उकेरने वाली संरचना का उपयोग करता है, जिससे GPU की memory bottleneck खत्म हो जाती है
  • बाहरी DRAM/HBM के बिना, चिप के अंदर मौजूद SRAM से ही KV cache और LoRA adapters को संभाला जाता है
  • हर मॉडल के लिए चिप बनाते समय ऊपर की सिर्फ दो layers को customize किया जाता है, और Llama 3.1 के लिए चिप 2 महीने में पूरी की गई

Taalas चिप का अवलोकन

  • Taalas की स्थापना को 2.5 साल हुए हैं, और यह चिप उसका पहला प्रोडक्ट है
  • यह चिप एक fixed-function ASIC है, जिसमें सिर्फ एक मॉडल स्टोर किया जा सकता है और इसे दोबारा लिखा नहीं जा सकता
    • CD-ROM या game cartridge की तरह इसका single-model dedicated structure है

GPU-आधारित LLM inference की अकार्यकुशलता

  • LLM कई layers से मिलकर बनता है, और उदाहरण के तौर पर Llama 3.1 8B में 32 layers हैं
  • GPU हर layer के weight matrix को VRAM से लाकर computation करता है और फिर उसे वापस स्टोर करता है
    • हर token generate करते समय यह प्रक्रिया 32 बार दोहरानी पड़ती है
  • यह memory round-trip process latency और energy consumption बढ़ाती है, जिसे memory bandwidth bottleneck या Von Neumann bottleneck कहा जाता है

Taalas का ‘hardwired’ approach

  • Taalas ने Llama 3.1 की 32 layers को क्रमवार silicon पर उकेर दिया है
    • मॉडल के weights को physical transistors के रूप में लागू किया गया है
  • input vector आते ही वह हर layer के transistors से गुजरते हुए electrical signals के रूप में लगातार process होता है
    • बीच के नतीजों को VRAM में स्टोर करने के बजाय, उन्हें wiring (pipeline registers) के जरिए सीधे अगली layer तक भेज दिया जाता है
  • कंपनी का कहना है कि उसने ऐसा ‘magic multiplier’ structure विकसित किया है जो 4-bit data storage और multiplication operation को एक ही transistor में कर सकता है

memory structure

  • बाहरी DRAM/HBM का उपयोग नहीं किया जाता, बल्कि चिप के अंदर कम मात्रा में SRAM लगाया जाता है
    • क्योंकि DRAM और logic gates को साथ में बनाना कठिन होता है
  • यह on-chip SRAM KV cache (बातचीत के दौरान अस्थायी मेमोरी) और LoRA adapters को स्टोर करने के लिए इस्तेमाल होता है

मॉडल-विशिष्ट चिप बनाने का तरीका

  • आम तौर पर हर मॉडल के लिए नई चिप बनाना महंगा होता है
  • Taalas बेसिक चिप structure को common रखता है और किसी खास मॉडल के लिए सिर्फ ऊपरी दो layers (masks) में बदलाव करता है
    • यह पूरी तरह नई चिप बनाने की तुलना में कहीं तेज तरीका है
  • Llama 3.1 8B के लिए चिप विकसित करने में लगभग 2 महीने लगे
    • AI उद्योग के हिसाब से यह धीमा है, लेकिन custom chip development speed के लिहाज से काफी तेज है

आगे की उम्मीद

  • GPU के बिना local models चलाने वाले उपयोगकर्ताओं के लिए, ऐसे hardware के mass production की उम्मीद की जा रही है

5 टिप्पणियां

 
GN⁺ 2026-02-23
Hacker News की राय
  • 8B coefficients को 53B ट्रांजिस्टर में पैक किया गया है। प्रति coefficient लगभग 6.5 ट्रांजिस्टर इस्तेमाल हो रहे हैं
    लगता है कि block quantization का उपयोग किया गया है। उदाहरण के लिए, अगर 3-bit coefficient वाले 4 के ब्लॉक हों, तो केवल 330 अलग-अलग ब्लॉकों की ज़रूरत होगी
    Llama 3.1 की matrix 4096x4096 है, यानी इसमें 1.6 करोड़ coefficients हैं, और इसे 330 ब्लॉकों में compress किया जा सकता है
    अगर प्रति block लगभग 2.5 लाख ट्रांजिस्टर का बजट मानें, तो यह प्रति coefficient लगभग 5 ट्रांजिस्टर बैठता है। FP4 स्तर पर भी यह काफ़ी व्यावहारिक लगता है

    • उम्मीद है कि PyTorch में model.toVHDL() जैसी कोई feature आए
  • लोगों का इस बात पर हैरान होना कि यह संभव है, वही अपने आप में ज़्यादा हैरान करने वाली बात है
    GPU भी आख़िरकार software operations को hardware में ले जाने से ही आए थे। LLM भी वही गणितीय संरचना रखते हैं, इसलिए यह दिशा स्वाभाविक evolution लगती है

    • लोग शायद ROI के समय को लेकर हैरान हैं। असली सवाल यह है कि कब model-specific chip का tape-out करना मुनाफ़ेदार होगा। MoE architecture इस प्रक्रिया में नई चुनौतियाँ लाएगा
    • यह CPU बनाम GPU नहीं, बल्कि CPU/GPU बनाम ASIC की तुलना है। ASIC speed, power और cost में बेहतर हो सकते हैं, लेकिन design करना कठिन है और इन्हें दोबारा program नहीं किया जा सकता। LLM जैसी performance-sensitive functionality के लिए ASIC उपयुक्त है
    • weights को gates में सीधे bake कर देना निश्चित रूप से नया approach है। “Weights to gates” इसके लिए सही phrase लगता है
    • लेकिन flexibility कम होना समस्या है। datacenter demand बदलने या नया model आने पर अनुकूलन मुश्किल होगा। फिर भी drone और defense जैसे क्षेत्रों में, जहाँ energy efficiency और speed महत्वपूर्ण हैं, यह व्यावहारिक हो सकता है
    • लगता है Nvidia भी निश्चित ही इस पर प्रयोग कर रही होगी। अभी commercial रूप से जल्दी है, लेकिन efficiency-focused AI hardware की दिशा साफ़ है
  • form factor से भी बड़ा innovation असल में latency है
    cloud inference में सिर्फ network overhead ही 50~200ms हो सकता है, जबकि PCIe में लगी dedicated ASIC first token को microseconds में निकाल सकती है
    real-time video generation या 100ms से कम response चाहने वाले agents के लिए यह निर्णायक है। cost GPU से ज़्यादा हो सकती है, लेकिन यह नई real-time applications संभव बनाती है

    • सिर्फ latency नहीं, bandwidth reliability और control भी महत्वपूर्ण हैं। centralized और local computing के बीच हमेशा tug-of-war रहा है। कंपनियाँ control चाहती हैं, users autonomy चाहते हैं। आख़िरकार बाज़ार में हमेशा “मैं अपने कंप्यूटर पर पूरा नियंत्रण चाहता हूँ” जैसी मांग बनी रहेगी
    • जिज्ञासा है कि AI services वास्तव में serve कहाँ से की जाती हैं। उदाहरण के लिए, London में Claude इस्तेमाल करते समय request कहाँ जाती है, यह जानना कठिन है। अगर LLM के लिए edge network हो तो आदर्श होगा, और शायद ASIC उसे संभव बना दे
  • स्थानीय hardware पर सीधे चलने वाले Gemma 5 Mini जैसे models का भविष्य काफ़ी रोचक है
    H.264 या AV1 encoder की तरह किसी specific model के लिए “AI cores” आ सकते हैं
    Structured ASIC platform की वजह से structural ASIC के दौर को फिर खोलते हुए cost भी कम हो सकती है

    • बड़ी कंपनियाँ इसमें कम दिलचस्पी क्यों ले रही हैं, इसके दो कारण लगते हैं। पहला, AI की प्रगति इतनी तेज़ है कि chip mass production तक पहुँचते-पहुँचते वह पहले ही पुरानी हो सकती है। दूसरा, cloud subscription model और data collection आधारित business structure offline chips के अनुकूल नहीं है
    • लगता है Apple को यह कल ही शुरू कर देना चाहिए था। मेरे phone या MacBook पर पूरी तरह local AI चलना ही वह भविष्य है जो वास्तव में चाहिए। cloud-based AI, AOL युग का अवशेष लगता है
    • Cerebras और Groq जैसे programmable ASIC पहले से GPU की तुलना में कई गुना speed दे रहे हैं, फिर भी बाज़ार की प्रतिक्रिया हल्की है
  • यह कुछ-कुछ CD-ROM या game cartridge जैसा लगता है, जहाँ chip में सिर्फ एक model हो। कंप्यूटर में slot लगाकर model बदला जाए

    • वह slot व्यावहारिक रूप से शायद USB-C होगा। power bank जैसे inference ASIC को plug-in करके इस्तेमाल करने की कल्पना की जा सकती है
    • पुराने eGPU की तरह desk के नीचे रखा local model device चाहिए। पूरी तरह offline, पूरी तरह private
    • ऐसा hardware open-weight models को बढ़ावा देगा और privacy भी मज़बूत करेगा। काम के अनुसार model cartridge बदलने वाला hardware MoE भी संभव लग सकता है
    • model-specific cartridge performance/power efficiency में काफ़ी बेहतर लगते हैं। लेकिन consumer market के लिए उनकी economics बैठती है या नहीं, इस पर सवाल है
    • power usage बड़ा variable है। अगर घर में 2.5W पर 170 tokens प्रति second मिले तो कमाल होगा। ऐसा विकास कभी positronic brain तक भी पहुँच सकता है(https://en.wikipedia.org/wiki/Positronic_brain)
  • अगर ASIC को सस्ते में print करना संभव हो जाए, तो model इस्तेमाल करने का तरीका पूरी तरह बदल जाएगा
    models USB device के रूप में बिकेंगे, और 20B से कम dense model निजी assistant के लिए काफ़ी होंगे
    यह graphics card के दोबारा आने जैसा लगता है। अब जब open-weight models बढ़ रहे हैं, तो कम खरीद और संचालन लागत पर भी बड़ा बाज़ार खुल सकता है

  • जिज्ञासा है कि MoE architecture में यह कैसे काम करेगा
    dense LLM में सभी weights को पास रखना फ़ायदेमंद है, लेकिन MoE ज़्यादा memory access-centric है, इसलिए MAC और memory के बीच imbalance पैदा होता है। अंततः फिर chiplet approach की तरफ़ लौटना पड़ सकता है

    • Google का TPUv4 Optical Circuit Switch से 3D torus संरचना बनाता है और MoE communication patterns के अनुरूप dynamic rewiring करता है। यह 4,096 chips को एक pod में जोड़ता है, और SparseCore के ज़रिए discontinuous memory access संभालता है। यह datacenter-scale की बात है, लेकिन scalability के उदाहरण के रूप में दिलचस्प है
    • अगर हर Expert model को silicon पर उकेर दिया जाए, तो speed बहुत ज़बरदस्त होगी। आख़िरकार सबसे बड़ी सीमा ASIC printing cost ही है
  • लगता है कि कभी न कभी AI-dedicated PCIe expansion card mainstream बन जाएगा
    पुराने graphics card या sound card की तरह, नया model आने पर card बदलकर PC की “बुद्धिमत्ता” upgrade करने का दौर आ सकता है

    • यह दिशा लगभग अनिवार्य evolution लगती है। पहले सरकारें और बड़ी कंपनियाँ इसकी मांग करेंगी, और फिर यह consumer market तक फैल जाएगी।
      computing में हमेशा local बनाम server का चक्र चलता रहा है, लेकिन on-premise demand कभी पूरी तरह ख़त्म नहीं होगी
  • आख़िरकार AI chip slot वाले motherboard या high-speed port में लगने वाले AI peripherals आने की संभावना लगती है

  • जिज्ञासा है कि Apple जैसी कंपनियाँ क्या 3 साल के भीतर ऐसे chips को सीधे embed कर पाएँगी। आज के model स्तर का ultra-fast local performance देखने की उम्मीद है

    • क्या model को modular memory update(diff) के रूप में update किया जा सकेगा? performance degradation कितना होगा, यह जानना रोचक होगा
    • लेकिन 3 साल तक पुराना model चलाना शायद अर्थहीन भी हो सकता है। प्रगति की रफ़्तार बहुत तेज़ है
 
dolsangodkimchi 2026-03-04

डिजिटल तरीके से calculus करने और analog तरीके से calculus करने के बीच का फ़र्क याद आ रहा है।

 
chcv0313 2026-03-04

अगर LLM मॉडल की बजाय इससे text embedding मॉडल बनाया जाए तो अच्छा रहेगा।

 
bungker 2026-03-04

सही है, एक बार बना लो तो फिर लगातार इस्तेमाल कर सकते हो

 
parkindani 2026-02-23

अगर AI की वजह से नए chip के design और development की रफ्तार तेज हो जाए, तो शायद यही सचमुच भविष्य हो सकता है। इससे लगभग 25 साल पहले का वह दौर भी याद आता है, जब hardware performance प्रतिस्पर्धा में तेज़ी से बढ़ रही थी।