- Taalas ने AI models को custom silicon chips में बदलने वाला platform विकसित किया है, जिससे models को hardware में लागू करने में सिर्फ दो महीने लगते हैं
- पहला उत्पाद, Llama 3.1 8B hardwired model, प्रति सेकंड 17K tokens प्रोसेस करता है; यह मौजूदा विकल्पों की तुलना में 10 गुना तेज, 20 गुना सस्ता और बिजली की खपत 10वें हिस्से तक कम रखता है
- यह कम-शक्ति, कम-लागत, उच्च-गति inference संभव बनाता है और memory व computation को एकीकृत करने वाली नई chip architecture के जरिए मौजूदा GPU-आधारित systems की जटिलता हटाता है
- Taalas इस approach के जरिए AI के real-time उपयोग और जनसुलभता को तेज करना चाहता है, ताकि developers ultra-low-latency और ultra-low-cost माहौल में नए applications पर प्रयोग कर सकें
AI की मौजूदा सीमाएँ और आवश्यकता
- AI पहले से ही कुछ क्षेत्रों में इंसानों से बेहतर है, लेकिन latency और cost इसके व्यापक उपयोग की सबसे बड़ी बाधाएँ मानी जाती हैं
- language models के साथ interaction इंसानी सोच की गति से धीमा है, और coding assistants अक्सर जवाब के लिए कई मिनट इंतज़ार करवाते हैं
- automated agent-type AI को millisecond स्तर की प्रतिक्रिया चाहिए, लेकिन मौजूदा systems इसे पूरा नहीं कर पाते
- नवीनतम models को deploy करने के लिए सैकड़ों kW बिजली और जटिल cooling, packaging, और memory structures वाली supercomputer-स्तर की बड़ी infrastructure की आवश्यकता होती है
- यह ढाँचा शहर-स्तर के data centers और satellite networks तक फैलकर operating cost में विस्फोटक वृद्धि लाता है
- Taalas इस बात पर ज़ोर देता है कि जैसे ENIAC से transistor तक बदलाव हुआ, वैसे ही AI को भी अधिक efficient और low-cost संरचना की ओर विकसित होना चाहिए
Taalas का तकनीकी दर्शन
- स्थापना के ढाई साल के भीतर Taalas ने AI models को custom silicon में बदलने वाला platform पूरा कर लिया
- नया model मिलने के बाद 2 महीनों के भीतर उसे hardware में बदला जा सकता है
- इसका परिणाम, Hardcore Models, पारंपरिक software-आधारित systems की तुलना में speed, cost और power efficiency में 10 गुना स्तर का सुधार देता है
- तीन मुख्य सिद्धांत पेश किए गए
- पूर्ण विशेषीकरण (Total specialization)
- हर AI model के लिए optimized silicon बनाकर अत्यधिक efficiency हासिल करना
- storage और computation का एकीकरण (Merging storage and computation)
- DRAM और compute chips के अलगाव से पैदा bottleneck को हटाकर, एक ही chip में DRAM-density स्तर की integrated संरचना बनाना
- कट्टरपंथी सरलीकरण (Radical simplification)
- HBM, 3D stacking, liquid cooling जैसी जटिल तकनीकों को हटाकर system cost को single-digit स्तर तक घटाना
पहला उत्पाद: Llama 3.1 8B hardwired model
- इसे दुनिया का सबसे तेज, कम-लागत और कम-शक्ति inference platform बताया गया है
- Llama 3.1 8B model को सीधे silicon में लागू कर प्रति सेकंड 17K tokens प्रोसेसिंग, मौजूदा विकल्पों से 10 गुना तेज़ी, 20 गुना कम निर्माण लागत और 10 गुना कम बिजली खपत हासिल की गई
- open source model पर आधारित होने से व्यावहारिक उपयोग और development में आसानी मिलती है
- context window size adjustment और LoRA-आधारित fine-tuning का समर्थन
- पहली पीढ़ी की chip 3-bit और 6-bit mixed quantization का उपयोग करती है, इसलिए GPU की तुलना में quality में कुछ कमी है
- दूसरी पीढ़ी का silicon (HC2) standard 4-bit floating-point format अपनाकर quality और efficiency बेहतर करता है
आगे का model roadmap
- दूसरा model मध्यम आकार का reasoning LLM होगा, जो वसंत में lab में पूरा होने के बाद inference service में integrate किया जाएगा
- तीसरा model HC2 platform पर आधारित frontier-grade LLM होगा, जो अधिक density और speed देगा और सर्दियों में deploy होने वाला है
developer accessibility और team structure
- अभी beta service के रूप में उपलब्ध Llama model ultra-low-latency और ultra-low-cost environment का अनुभव करने के लिए दिया गया है
- Taalas ने 24 लोगों की team और 30 million dollars की लागत से पहला उत्पाद पूरा किया, जिसे सटीक लक्ष्य निर्धारण और केंद्रित execution का परिणाम बताया गया
- team 20 साल से अधिक समय से साथ काम कर रहे छोटे expert समूह से बनी है और quality, precision और craftsmanship को महत्व देती है
निष्कर्ष: AI का real-time उपयोग और जनसुलभता
- Taalas की तकनीक performance, power efficiency और cost में चरणबद्ध छलांग प्रदान करती है
- यह मौजूदा GPU-केंद्रित ढाँचे से अलग AI system architecture की नई सोच पेश करती है
- latency और cost की बाधाएँ हटाकर यह developers को ऐसा environment देती है जहाँ AI का real-time उपयोग संभव हो
- आगे और शक्तिशाली models तक विस्तार करते हुए यह AI की सार्वभौमिक पहुँच को साकार करने की दिशा में बढ़ने वाली है
2 टिप्पणियां
पता नहीं इसका कितना मतलब है। बाज़ार को Hype पसंद है, इसलिए फंडिंग तो अच्छी मिल जाएगी, लेकिन जब सब लोग होड़ में नए मॉडल लगातार निकाल रहे हैं, तो 2 महीने भी बहुत लंबा समय लगते हैं।
Hacker News की राय
यह chip general-purpose नहीं है, बल्कि high-speed·low-latency inference के लिए विशेष रूप से डिज़ाइन की गई है
8B dense 3bit quant (Llama 3.1) के आधार पर यह प्रति सेकंड 15k tokens प्रोसेस करती है, 6nm process का 880mm² die, 53B transistors, लगभग 200W खपत, production cost 20 गुना सस्ती और per-token energy 10 गुना कम बताई गई है
founding team AMD·Nvidia पृष्ठभूमि से है और उसके पास 25 साल का अनुभव है, साथ ही VC funding में 200 million dollars जुटाए गए हैं
अगर 1mm² पर लगभग 0.2 dollars के हिसाब से देखें तो 1 billion parameters पर लागत लगभग 20 dollars बैठती है, हालांकि बड़े die में yield कम हो जाती है
अधिक जानकारी के लिए founder interview देखें
यह 10k tokens से कम वाले ultra-low-latency applications के लिए उपयुक्त है, और spring launch के समय VC पूंजी का बड़ा प्रवाह आ सकता है
Nvidia H200 लगभग 12k tok/s देता है, लेकिन वह batch processing में है इसलिए first-token latency बहुत अधिक है
Taalas millisecond स्तर पर जवाब देता है, इसलिए real-time voice·video generation के लिए उपयुक्त है
हालांकि 2 महीने के भीतर chip production बहुत ज़्यादा आशावादी लगता है। फिर भी उम्मीद है कि v3 version वास्तविक API requests संभालने लायक होगा
tokens की खपत ज़्यादा होगी, लेकिन अगर tokens सस्ते हों तो accuracy बढ़ाने में फायदा हो सकता है
die size बढ़ने पर yield गिरती है, इसलिए यह सवाल है कि क्या कुछ bit errors वास्तव में बड़ा मुद्दा न हों
कई comments model accuracy पर बहस कर रहे हैं, लेकिन लगता है कि वे यह नहीं समझ रहे कि यह Llama 3.1 8B model है
असली मुद्दा model नहीं बल्कि custom hardware performance है
अगर इसके ऊपर GLM-5 जैसा नया model लगाया जाए तो यह सचमुच प्रभावशाली होगा
response इतना तुरंत आता है जैसे ‘Enter दबाते ही’ जवाब मिल जाए
हालांकि model बदलने पर पूरा hardware बदलना पड़े, यह बाज़ार क्षमता को प्रभावित कर सकता है
यह अभी बाज़ार की प्रतिक्रिया देखने वाली exploratory pricing policy जैसी लगती है
flexibility के बजाय speed maximization चुना गया है, लेकिन कहा गया है कि LoRA-based fine-tuning supported है
simple data tagging या large-scale parallel processing में यह बहुत उपयोगी हो सकता है
मैंने ChatJimmy demo इस्तेमाल किया, और जवाब पलक झपकते ही आ गया, यह देखकर हैरानी हुई
chatjimmy.ai
सामग्री भी उम्मीद से ज़्यादा specific और उपयोगी थी
ऐसा लगता है कि development का एक बिल्कुल नया तरीका खुल सकता है
बहुत लोग skeptical हैं, लेकिन non-frontier models के लिए भी पर्याप्त demand है
सिर्फ Llama 3.1 activity graph देखें, तो यह साप्ताहिक 22% growth पर है
latency घटने पर web page load जैसी responsiveness पर भी LLM इस्तेमाल किए जा सकते हैं
यह chip LLM को real-time interface में बदल देती है
यह मज़ाक किया गया कि इतनी तेज़ी से गलत जवाब कभी नहीं देखा, लेकिन तकनीक बहुत promising है
8B model छोटा है, लेकिन लंबे समय में इसका बड़ा market बन सकता है
अभी यह उपयोगी नहीं है, लेकिन पूरी तरह नया अनुभव देने वाली तकनीक है
वास्तविक कामों में frontier model हमेशा ज़रूरी नहीं होता
80B के ऊपर अंतर बहुत मामूली हो जाता है
किसी ने कल्पना की कि क्या ऐसी card को personal PC में लगाकर Claude Code का विकल्प बनाया जा सकता है
प्रति सेकंड 17k tokens हों तो कई agent pipelines एक साथ चलाई जा सकती हैं
हर agent code modification·verification की भूमिका लेकर तेज़ iteration improvement कर सकता है
यह भी सवाल है कि top model न होने पर भी mid-tier models को कई बार loop में घुमाकर बेहतर परिणाम पाए जा सकते हैं या नहीं
अगर तेज़ token output और अच्छी tooling मिल जाए, तो frontier models से अंतर कम किया जा सकता है
संशोधित जानकारी के अनुसार, वास्तव में यह एक single-chip architecture है जिसमें model silicon में उकेरा गया है
यह Llama 8B q3 model को 1k context के साथ उकेरने जैसा लगता है, और इसके लिए 10 chips (कुल 2.4kW) चाहिए
model बदला नहीं जा सकता, इसलिए यह केवल लंबे समय तक स्थिर रहने वाले कार्यों के लिए उपयुक्त है
प्रति सेकंड 17k tokens की गति सिर्फ deployment efficiency नहीं, बल्कि evaluation methodology को ही बदल देने वाली गति है
MMLU जैसे मौजूदा static benchmarks मानव गति पर आधारित हैं, लेकिन इस throughput पर दसियों हज़ार interactive tests संभव हो जाते हैं
यह दिखाता है कि speed बढ़ने के साथ मौजूदा evaluations और भी अनुपयुक्त हो जाते हैं
किसी ने chatbot चलाकर देखा और 15k tok/s पर लंबा जवाब तुरंत आता देखकर स्तब्ध रह गया
वह local coding के लिए इसका frontier-model version चाहता है
नकारात्मक प्रतिक्रियाएँ हैं, फिर भी low-latency models की ज़रूरत वाले applications बहुत अधिक हैं
उदाहरण के लिए, free-form input search को structured query में बदलने वाला काम मौजूदा models की latency के कारण संभव नहीं था
ऐसे chips उपयोगकर्ता को महसूस होने वाली तुरंत प्रतिक्रिया स्तर की AI responsiveness संभव बनाते हैं