AI के सार्वभौमिककरण की राह (17K tokens प्रति सेकंड)

(taalas.com)

5 पॉइंट द्वारा GN⁺ 2026-02-21 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Taalas ने AI models को custom silicon chips में बदलने वाला platform विकसित किया है, जिससे models को hardware में लागू करने में सिर्फ दो महीने लगते हैं
पहला उत्पाद, Llama 3.1 8B hardwired model, प्रति सेकंड 17K tokens प्रोसेस करता है; यह मौजूदा विकल्पों की तुलना में 10 गुना तेज, 20 गुना सस्ता और बिजली की खपत 10वें हिस्से तक कम रखता है
यह कम-शक्ति, कम-लागत, उच्च-गति inference संभव बनाता है और memory व computation को एकीकृत करने वाली नई chip architecture के जरिए मौजूदा GPU-आधारित systems की जटिलता हटाता है
Taalas इस approach के जरिए AI के real-time उपयोग और जनसुलभता को तेज करना चाहता है, ताकि developers ultra-low-latency और ultra-low-cost माहौल में नए applications पर प्रयोग कर सकें

AI की मौजूदा सीमाएँ और आवश्यकता

AI पहले से ही कुछ क्षेत्रों में इंसानों से बेहतर है, लेकिन latency और cost इसके व्यापक उपयोग की सबसे बड़ी बाधाएँ मानी जाती हैं
- language models के साथ interaction इंसानी सोच की गति से धीमा है, और coding assistants अक्सर जवाब के लिए कई मिनट इंतज़ार करवाते हैं
- automated agent-type AI को millisecond स्तर की प्रतिक्रिया चाहिए, लेकिन मौजूदा systems इसे पूरा नहीं कर पाते
नवीनतम models को deploy करने के लिए सैकड़ों kW बिजली और जटिल cooling, packaging, और memory structures वाली supercomputer-स्तर की बड़ी infrastructure की आवश्यकता होती है
- यह ढाँचा शहर-स्तर के data centers और satellite networks तक फैलकर operating cost में विस्फोटक वृद्धि लाता है
Taalas इस बात पर ज़ोर देता है कि जैसे ENIAC से transistor तक बदलाव हुआ, वैसे ही AI को भी अधिक efficient और low-cost संरचना की ओर विकसित होना चाहिए

Taalas का तकनीकी दर्शन

स्थापना के ढाई साल के भीतर Taalas ने AI models को custom silicon में बदलने वाला platform पूरा कर लिया
- नया model मिलने के बाद 2 महीनों के भीतर उसे hardware में बदला जा सकता है
- इसका परिणाम, Hardcore Models, पारंपरिक software-आधारित systems की तुलना में speed, cost और power efficiency में 10 गुना स्तर का सुधार देता है
तीन मुख्य सिद्धांत पेश किए गए
1. पूर्ण विशेषीकरण (Total specialization)
  - हर AI model के लिए optimized silicon बनाकर अत्यधिक efficiency हासिल करना
2. storage और computation का एकीकरण (Merging storage and computation)
  - DRAM और compute chips के अलगाव से पैदा bottleneck को हटाकर, एक ही chip में DRAM-density स्तर की integrated संरचना बनाना
3. कट्टरपंथी सरलीकरण (Radical simplification)
  - HBM, 3D stacking, liquid cooling जैसी जटिल तकनीकों को हटाकर system cost को single-digit स्तर तक घटाना

पहला उत्पाद: Llama 3.1 8B hardwired model

इसे दुनिया का सबसे तेज, कम-लागत और कम-शक्ति inference platform बताया गया है
- Llama 3.1 8B model को सीधे silicon में लागू कर प्रति सेकंड 17K tokens प्रोसेसिंग, मौजूदा विकल्पों से 10 गुना तेज़ी, 20 गुना कम निर्माण लागत और 10 गुना कम बिजली खपत हासिल की गई
open source model पर आधारित होने से व्यावहारिक उपयोग और development में आसानी मिलती है
- context window size adjustment और LoRA-आधारित fine-tuning का समर्थन
पहली पीढ़ी की chip 3-bit और 6-bit mixed quantization का उपयोग करती है, इसलिए GPU की तुलना में quality में कुछ कमी है
- दूसरी पीढ़ी का silicon (HC2) standard 4-bit floating-point format अपनाकर quality और efficiency बेहतर करता है

आगे का model roadmap

दूसरा model मध्यम आकार का reasoning LLM होगा, जो वसंत में lab में पूरा होने के बाद inference service में integrate किया जाएगा
तीसरा model HC2 platform पर आधारित frontier-grade LLM होगा, जो अधिक density और speed देगा और सर्दियों में deploy होने वाला है

developer accessibility और team structure

अभी beta service के रूप में उपलब्ध Llama model ultra-low-latency और ultra-low-cost environment का अनुभव करने के लिए दिया गया है
- chatjimmy.ai demo और API service के माध्यम से उपलब्ध
Taalas ने 24 लोगों की team और 30 million dollars की लागत से पहला उत्पाद पूरा किया, जिसे सटीक लक्ष्य निर्धारण और केंद्रित execution का परिणाम बताया गया
team 20 साल से अधिक समय से साथ काम कर रहे छोटे expert समूह से बनी है और quality, precision और craftsmanship को महत्व देती है

निष्कर्ष: AI का real-time उपयोग और जनसुलभता

Taalas की तकनीक performance, power efficiency और cost में चरणबद्ध छलांग प्रदान करती है
यह मौजूदा GPU-केंद्रित ढाँचे से अलग AI system architecture की नई सोच पेश करती है
latency और cost की बाधाएँ हटाकर यह developers को ऐसा environment देती है जहाँ AI का real-time उपयोग संभव हो
आगे और शक्तिशाली models तक विस्तार करते हुए यह AI की सार्वभौमिक पहुँच को साकार करने की दिशा में बढ़ने वाली है

2 टिप्पणियां

colus001 2026-02-21

पता नहीं इसका कितना मतलब है। बाज़ार को Hype पसंद है, इसलिए फंडिंग तो अच्छी मिल जाएगी, लेकिन जब सब लोग होड़ में नए मॉडल लगातार निकाल रहे हैं, तो 2 महीने भी बहुत लंबा समय लगते हैं।

GN⁺ 2026-02-21

Hacker News की राय

यह chip general-purpose नहीं है, बल्कि high-speed·low-latency inference के लिए विशेष रूप से डिज़ाइन की गई है
8B dense 3bit quant (Llama 3.1) के आधार पर यह प्रति सेकंड 15k tokens प्रोसेस करती है, 6nm process का 880mm² die, 53B transistors, लगभग 200W खपत, production cost 20 गुना सस्ती और per-token energy 10 गुना कम बताई गई है
founding team AMD·Nvidia पृष्ठभूमि से है और उसके पास 25 साल का अनुभव है, साथ ही VC funding में 200 million dollars जुटाए गए हैं
अगर 1mm² पर लगभग 0.2 dollars के हिसाब से देखें तो 1 billion parameters पर लागत लगभग 20 dollars बैठती है, हालांकि बड़े die में yield कम हो जाती है
अधिक जानकारी के लिए founder interview देखें
यह 10k tokens से कम वाले ultra-low-latency applications के लिए उपयुक्त है, और spring launch के समय VC पूंजी का बड़ा प्रवाह आ सकता है
- गणितीय हिसाब उपयोगी है। प्रति सेकंड 16k tokens चौंकाने वाली गति है, और इसे एक नई product category माना जा सकता है
  Nvidia H200 लगभग 12k tok/s देता है, लेकिन वह batch processing में है इसलिए first-token latency बहुत अधिक है
  Taalas millisecond स्तर पर जवाब देता है, इसलिए real-time voice·video generation के लिए उपयुक्त है
  हालांकि 2 महीने के भीतर chip production बहुत ज़्यादा आशावादी लगता है। फिर भी उम्मीद है कि v3 version वास्तविक API requests संभालने लायक होगा
- मज़ाक में कहा गया कि अगर die की कीमत 20 dollars है, तो इसे हर model के लिए Game Boy cartridge की तरह भी बेचा जा सकता है
- यह जिज्ञासा है कि Recursive Language Model(paper link) का उपयोग करके context limit की कमी पूरी की जा सकती है या नहीं
  tokens की खपत ज़्यादा होगी, लेकिन अगर tokens सस्ते हों तो accuracy बढ़ाने में फायदा हो सकता है
- 880mm², M1 Ultra से बड़ा है और H100 से भी बड़ा
  die size बढ़ने पर yield गिरती है, इसलिए यह सवाल है कि क्या कुछ bit errors वास्तव में बड़ा मुद्दा न हों
- यह देखना रोचक होगा कि ऐसे chips से intelligent robots कैसे विकसित होते हैं
कई comments model accuracy पर बहस कर रहे हैं, लेकिन लगता है कि वे यह नहीं समझ रहे कि यह Llama 3.1 8B model है
असली मुद्दा model नहीं बल्कि custom hardware performance है
अगर इसके ऊपर GLM-5 जैसा नया model लगाया जाए तो यह सचमुच प्रभावशाली होगा
response इतना तुरंत आता है जैसे ‘Enter दबाते ही’ जवाब मिल जाए
हालांकि model बदलने पर पूरा hardware बदलना पड़े, यह बाज़ार क्षमता को प्रभावित कर सकता है
- pricing information इस image में है
  यह अभी बाज़ार की प्रतिक्रिया देखने वाली exploratory pricing policy जैसी लगती है
  flexibility के बजाय speed maximization चुना गया है, लेकिन कहा गया है कि LoRA-based fine-tuning supported है
  simple data tagging या large-scale parallel processing में यह बहुत उपयोगी हो सकता है
- व्यक्तिगत रूप से किसी ने कहा कि Cerebras इससे कहीं आगे है। tok/s comparison उचित नहीं है
मैंने ChatJimmy demo इस्तेमाल किया, और जवाब पलक झपकते ही आ गया, यह देखकर हैरानी हुई
chatjimmy.ai
- किसी ने कहा कि उसने बिल्ली के लिए submarine design करने को कहा और तुरंत जवाब मिल गया
  सामग्री भी उम्मीद से ज़्यादा specific और उपयोगी थी
- इस speed पर test pass होने तक automatic code iteration generation संभव हो सकती है
  ऐसा लगता है कि development का एक बिल्कुल नया तरीका खुल सकता है
- अगर कोई investor हो, तो शायद उसे OpenAI की जगह ChatJimmy में निवेश करना चाहिए
- हालांकि file attachment feature काम नहीं कर रहा था, और context understanding थोड़ा असंगत था
- किसी ने कहा कि उसने खुद प्रति सेकंड 16,000 tokens की speed देखकर आश्चर्य किया
बहुत लोग skeptical हैं, लेकिन non-frontier models के लिए भी पर्याप्त demand है
सिर्फ Llama 3.1 activity graph देखें, तो यह साप्ताहिक 22% growth पर है
latency घटने पर web page load जैसी responsiveness पर भी LLM इस्तेमाल किए जा सकते हैं
- frontier models के लिए भी बाज़ार हो सकता है। उदाहरण के लिए, अगर Anthropic Opus 4.6 को chip पर उकेरे, तो inference cost कम हो सकती है
- पुराने models अब भी creative work में मजबूत हैं। नए models ज़्यादा code·reasoning-केंद्रित tuning के कारण creativity में कुछ कमज़ोर हो गए हैं
- structured content extraction या markdown conversion जैसे कामों के लिए यह आदर्श है
  यह chip LLM को real-time interface में बदल देती है
- यह robot जैसे low-latency·narrow task path वाले क्षेत्रों में भी उपयुक्त है
यह मज़ाक किया गया कि इतनी तेज़ी से गलत जवाब कभी नहीं देखा, लेकिन तकनीक बहुत promising है
8B model छोटा है, लेकिन लंबे समय में इसका बड़ा market बन सकता है
- किसी ने कहा कि सवाल का जवाब तो नहीं दे पाया, लेकिन उसे यकीन से परे तेज़ी से नहीं दे पाया
  अभी यह उपयोगी नहीं है, लेकिन पूरी तरह नया अनुभव देने वाली तकनीक है
- अगर यह Qwen 2.5 के लिए आए, तो वह तुरंत खरीद लेगा
  वास्तविक कामों में frontier model हमेशा ज़रूरी नहीं होता
- 7~9B models भी काफी अच्छे हैं। कई models को parallel query करके consensus-based accuracy बढ़ाना ज़रूरी है
  80B के ऊपर अंतर बहुत मामूली हो जाता है
- spelling error की ओर इशारा करते हुए हास्यपूर्ण प्रतिक्रिया भी दी गई
किसी ने कल्पना की कि क्या ऐसी card को personal PC में लगाकर Claude Code का विकल्प बनाया जा सकता है
प्रति सेकंड 17k tokens हों तो कई agent pipelines एक साथ चलाई जा सकती हैं
हर agent code modification·verification की भूमिका लेकर तेज़ iteration improvement कर सकता है
यह भी सवाल है कि top model न होने पर भी mid-tier models को कई बार loop में घुमाकर बेहतर परिणाम पाए जा सकते हैं या नहीं
- model से ज़्यादा tools और harness result quality तय करते हैं
  अगर तेज़ token output और अच्छी tooling मिल जाए, तो frontier models से अंतर कम किया जा सकता है
- हालांकि model अपना ही output आधार बनाकर खुद को बेहतर नहीं कर सकता। reality-based learning ज़रूरी है
संशोधित जानकारी के अनुसार, वास्तव में यह एक single-chip architecture है जिसमें model silicon में उकेरा गया है
यह Llama 8B q3 model को 1k context के साथ उकेरने जैसा लगता है, और इसके लिए 10 chips (कुल 2.4kW) चाहिए
model बदला नहीं जा सकता, इसलिए यह केवल लंबे समय तक स्थिर रहने वाले कार्यों के लिए उपयुक्त है
- data tagging जैसे 100 tokens से कम वाले छोटे tasks के लिए आदर्श है
- संभव है कि RAG या agent-style search ज़्यादा करने वाली model design भी बनाई जा सके
- जब model replacement cycle इतनी तेज़ है, तब 6 महीने से ज़्यादा लगने वाली chip production व्यावहारिक रूप से कठिन है
- इसे व्यापक NLP tasks में लागू किया जा सकता है
- यह video game के NPC chips के लिए भी उपयुक्त हो सकता है
प्रति सेकंड 17k tokens की गति सिर्फ deployment efficiency नहीं, बल्कि evaluation methodology को ही बदल देने वाली गति है
MMLU जैसे मौजूदा static benchmarks मानव गति पर आधारित हैं, लेकिन इस throughput पर दसियों हज़ार interactive tests संभव हो जाते हैं
यह दिखाता है कि speed बढ़ने के साथ मौजूदा evaluations और भी अनुपयुक्त हो जाते हैं
किसी ने chatbot चलाकर देखा और 15k tok/s पर लंबा जवाब तुरंत आता देखकर स्तब्ध रह गया
वह local coding के लिए इसका frontier-model version चाहता है
- जिसे पढ़ने में 2 मिनट लगते, ऐसा text 1 सेकंड से भी कम समय में बनते देखना अविश्वसनीय दृश्य था
- इस पर मज़ाक आया कि शायद हम alien civilization इसलिए नहीं ढूंढ पाते क्योंकि वे किसी दूसरे time scale पर काम करते हैं
- अगर ऐसी speed को reasoning loops या code generation harness में लगाया जाए, तो AI innovation हो सकता है
नकारात्मक प्रतिक्रियाएँ हैं, फिर भी low-latency models की ज़रूरत वाले applications बहुत अधिक हैं
उदाहरण के लिए, free-form input search को structured query में बदलने वाला काम मौजूदा models की latency के कारण संभव नहीं था
ऐसे chips उपयोगकर्ता को महसूस होने वाली तुरंत प्रतिक्रिया स्तर की AI responsiveness संभव बनाते हैं