• Taalas ने AI models को custom silicon chips में बदलने वाला platform विकसित किया है, जिससे models को hardware में लागू करने में सिर्फ दो महीने लगते हैं
  • पहला उत्पाद, Llama 3.1 8B hardwired model, प्रति सेकंड 17K tokens प्रोसेस करता है; यह मौजूदा विकल्पों की तुलना में 10 गुना तेज, 20 गुना सस्ता और बिजली की खपत 10वें हिस्से तक कम रखता है
  • यह कम-शक्ति, कम-लागत, उच्च-गति inference संभव बनाता है और memory व computation को एकीकृत करने वाली नई chip architecture के जरिए मौजूदा GPU-आधारित systems की जटिलता हटाता है
  • Taalas इस approach के जरिए AI के real-time उपयोग और जनसुलभता को तेज करना चाहता है, ताकि developers ultra-low-latency और ultra-low-cost माहौल में नए applications पर प्रयोग कर सकें

AI की मौजूदा सीमाएँ और आवश्यकता

  • AI पहले से ही कुछ क्षेत्रों में इंसानों से बेहतर है, लेकिन latency और cost इसके व्यापक उपयोग की सबसे बड़ी बाधाएँ मानी जाती हैं
    • language models के साथ interaction इंसानी सोच की गति से धीमा है, और coding assistants अक्सर जवाब के लिए कई मिनट इंतज़ार करवाते हैं
    • automated agent-type AI को millisecond स्तर की प्रतिक्रिया चाहिए, लेकिन मौजूदा systems इसे पूरा नहीं कर पाते
  • नवीनतम models को deploy करने के लिए सैकड़ों kW बिजली और जटिल cooling, packaging, और memory structures वाली supercomputer-स्तर की बड़ी infrastructure की आवश्यकता होती है
    • यह ढाँचा शहर-स्तर के data centers और satellite networks तक फैलकर operating cost में विस्फोटक वृद्धि लाता है
  • Taalas इस बात पर ज़ोर देता है कि जैसे ENIAC से transistor तक बदलाव हुआ, वैसे ही AI को भी अधिक efficient और low-cost संरचना की ओर विकसित होना चाहिए

Taalas का तकनीकी दर्शन

  • स्थापना के ढाई साल के भीतर Taalas ने AI models को custom silicon में बदलने वाला platform पूरा कर लिया
    • नया model मिलने के बाद 2 महीनों के भीतर उसे hardware में बदला जा सकता है
    • इसका परिणाम, Hardcore Models, पारंपरिक software-आधारित systems की तुलना में speed, cost और power efficiency में 10 गुना स्तर का सुधार देता है
  • तीन मुख्य सिद्धांत पेश किए गए
    1. पूर्ण विशेषीकरण (Total specialization)
      • हर AI model के लिए optimized silicon बनाकर अत्यधिक efficiency हासिल करना
    2. storage और computation का एकीकरण (Merging storage and computation)
      • DRAM और compute chips के अलगाव से पैदा bottleneck को हटाकर, एक ही chip में DRAM-density स्तर की integrated संरचना बनाना
    3. कट्टरपंथी सरलीकरण (Radical simplification)
      • HBM, 3D stacking, liquid cooling जैसी जटिल तकनीकों को हटाकर system cost को single-digit स्तर तक घटाना

पहला उत्पाद: Llama 3.1 8B hardwired model

  • इसे दुनिया का सबसे तेज, कम-लागत और कम-शक्ति inference platform बताया गया है
    • Llama 3.1 8B model को सीधे silicon में लागू कर प्रति सेकंड 17K tokens प्रोसेसिंग, मौजूदा विकल्पों से 10 गुना तेज़ी, 20 गुना कम निर्माण लागत और 10 गुना कम बिजली खपत हासिल की गई
  • open source model पर आधारित होने से व्यावहारिक उपयोग और development में आसानी मिलती है
    • context window size adjustment और LoRA-आधारित fine-tuning का समर्थन
  • पहली पीढ़ी की chip 3-bit और 6-bit mixed quantization का उपयोग करती है, इसलिए GPU की तुलना में quality में कुछ कमी है
    • दूसरी पीढ़ी का silicon (HC2) standard 4-bit floating-point format अपनाकर quality और efficiency बेहतर करता है

आगे का model roadmap

  • दूसरा model मध्यम आकार का reasoning LLM होगा, जो वसंत में lab में पूरा होने के बाद inference service में integrate किया जाएगा
  • तीसरा model HC2 platform पर आधारित frontier-grade LLM होगा, जो अधिक density और speed देगा और सर्दियों में deploy होने वाला है

developer accessibility और team structure

  • अभी beta service के रूप में उपलब्ध Llama model ultra-low-latency और ultra-low-cost environment का अनुभव करने के लिए दिया गया है
  • Taalas ने 24 लोगों की team और 30 million dollars की लागत से पहला उत्पाद पूरा किया, जिसे सटीक लक्ष्य निर्धारण और केंद्रित execution का परिणाम बताया गया
  • team 20 साल से अधिक समय से साथ काम कर रहे छोटे expert समूह से बनी है और quality, precision और craftsmanship को महत्व देती है

निष्कर्ष: AI का real-time उपयोग और जनसुलभता

  • Taalas की तकनीक performance, power efficiency और cost में चरणबद्ध छलांग प्रदान करती है
  • यह मौजूदा GPU-केंद्रित ढाँचे से अलग AI system architecture की नई सोच पेश करती है
  • latency और cost की बाधाएँ हटाकर यह developers को ऐसा environment देती है जहाँ AI का real-time उपयोग संभव हो
  • आगे और शक्तिशाली models तक विस्तार करते हुए यह AI की सार्वभौमिक पहुँच को साकार करने की दिशा में बढ़ने वाली है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.