- AWS ने 3nm प्रोसेस वाले Trainium3 चिप से लैस Trainium3 UltraServer का अनावरण किया और AI training तथा inference performance में बड़ा सुधार दिखाया
- नया सिस्टम पिछले संस्करण की तुलना में 4 गुना तेज़ गति और 4 गुना अधिक मेमोरी, तथा 40% बेहतर ऊर्जा दक्षता देता है
- अधिकतम 1,000,000 Trainium3 चिप्स को जोड़ा जा सकता है, जिससे बड़े पैमाने की AI application processing के लिए बेहतर उपयुक्तता मिलती है
- Anthropic, Karakuri, SplashMusic, Decart जैसे ग्राहक पहले से ही इसका उपयोग कर रहे हैं और inference लागत में स्पष्ट कटौती देख रहे हैं
- AWS ने बताया कि आने वाला Trainium4 चिप Nvidia NVLink Fusion को सपोर्ट करेगा और Nvidia GPU के साथ interoperability संभव करेगा; इसलिए इसे AI infrastructure competition में एक महत्वपूर्ण मोड़ के रूप में देखा जा रहा है
Trainium3 की घोषणा
- AWS ने re:Invent 2025 में Trainium3 UltraServer की आधिकारिक घोषणा की
- यह सिस्टम 3nm Trainium3 chip और AWS की in-house networking technology पर चलता है
- AI training और inference दोनों में 2nd generation की तुलना में performance में भारी सुधार बताया गया है
- AWS ने कहा कि Trainium3 सिस्टम 4 गुना तेज़ प्रोसेसिंग speed और 4 गुना अधिक मेमोरी capacity देता है
- प्रत्येक UltraServer में 144 चिप्स लगे हैं
- हजारों servers को जोड़कर 1,000,000 chीप्स तक को एक ही application में deploy किया जा सकता है
- नया चिप 40% बेहतर energy efficiency देता है, जो large-scale data center में power consumption घटाने में मदद करता है
- AWS ने इसे AI cloud ग्राहकों के खर्च में बचत के लिए भी महत्वपूर्ण बताया
प्रमुख ग्राहक और उपयोग केस
- Anthropic, जापान की LLM Karakuri, SplashMusic, Decart पहले से ही Trainium3 का इस्तेमाल कर रहे हैं
- इन ग्राहकों ने inference लागत में बड़ी बचत देखने की बात कही
- AWS के अनुसार इन performance और cost-efficiency gains से AI applications की scalability बढ़ाने की मजबूत आधारशिला बनती है
अगली पीढ़ी के चिप Trainium4 का रोडमैप
- AWS ने बताया कि Trainium4 पहले से ही development में है और आगे जाकर Nvidia के NVLink Fusion हाइ-स्पीड इंटरकनेक्ट टेक्नोलॉजी को सपोर्ट करेगा
- इससे Nvidia GPU के साथ interoperability संभव होगी और इसे AWS की low-cost server rack तकनीक के साथ जोड़ा जा सकेगा
- जबकि Nvidia CUDA प्रमुख AI applications का standard बना हुआ है, Trainium4 सिस्टम में Nvidia GPU-based apps को AWS cloud पर आसानी से migrate करने की संभावना है
- Trainium4 की लॉन्चिंग टाइमिंग अभी सार्वजनिक नहीं की गई है, लेकिन अगले साल के re:Invent इवेंट में अतिरिक्त विवरण आने की संभावना है
ऊर्जा दक्षता और लागत बचत का रणनीतिक महत्व
- AWS डेटा सेंटरों में power use तेज़ी से बढ़ने की स्थिति में “कम बिजली खर्च करने वाला सिस्टम” बनाने पर काम कर रही कंपनी है
- यह approach operating cost reduction और sustainability—इन दोनो लक्ष्यों को एक साथ साधने की कोशिश के रूप में देखी जा रही है
- AWS की cost-cutting centric strategy AI infrastructure प्रतिस्पर्धा में cloud customer pull बढ़ाने में मदद कर सकती है
सार
- Trainium3 performance, memory और efficiency तीनों में बड़ी छलांग वाला 3rd-gen AI chip है
- Trainium4 Nvidia compatibility के माध्यम से AWS ecosystem expansion को लक्ष्य करता है
- AWS high-performance, low-cost और eco-friendly AI infrastructure को साथ-साथ pursue करते हुए AI cloud market competitiveness बढ़ाने की कोशिश कर रहा है
1 टिप्पणियां
Hacker News राय
क्योंकि इस बात का कोई पक्का सबूत नहीं है कि वे standard libraries Transformers या PyTorch के साथ स्थिर रूप से compatible हैं
AWS कहता है कि सब ठीक चलता है, लेकिन वह सिर्फ उनके अपने specific AMI और neuron SDK वाले ‘happy path’ में ही संभव है
असल में जब हम अपनी dependencies के साथ काम करते हैं, तो चीज़ें तुरंत टूट जाती हैं
GCP के TPU भी तभी इस्तेमाल लायक बने जब Google ने software support में भारी निवेश किया
AWS chips इस्तेमाल करने के लिए मेरे पास beta tester बनने का समय नहीं है
कुछ ही चीज़ें stable हैं, बाकी में बहुत rough edges हैं
Amazon उस स्तर का निवेश करेगा, ऐसा कल्पना करना भी मुश्किल है
vLLM version 6 महीने से update नहीं हुआ, और सामान्य endpoints 8 साल पहले तय किए गए 60-second timeout की वजह से काम के नहीं हैं
ऐसे में कोई developer custom silicon इस्तेमाल करते हुए कितना दर्द झेलेगा, यह सोचकर ही डर लगता है
जिन्होंने इसे सच में इस्तेमाल किया है, उनका कहना है कि deployment और operations की तकलीफ़ की वजह से उन्होंने हार मान ली
अंदरूनी तौर पर शायद इसका काफ़ी इस्तेमाल हो रहा है, लेकिन बाहरी adoption लगभग नहीं के बराबर है
फिर भी Amazon का अपने chip पर निवेश करना मैं सकारात्मक रूप से देखता हूँ
Trn1 अभी उस स्तर तक नहीं पहुँचा, तो लगता है कोई न कोई इसे इस्तेमाल कर रहा है
शायद उसे AWS का पूरा support मिल रहा है
अगर SDK और tooling में और निवेश नहीं किया गया, तो कोई भी ऐसा cloud इस्तेमाल नहीं करेगा
AI उन basic data types को आगे बढ़ा रहा है जो दशकों से नहीं बदले थे
Block floating point wiki लेख
ज़्यादा जानकारी के लिए Semianalysis newsletter देखें
लगता है Amazon AI में भी logistics की तरह cost cutting करना चाहता है
लेकिन उसका आत्मविश्वास कम दिखता है, और यह Nvidia के साथ संबंध बनाए रखने की दिखावटी रणनीति जैसा लगता है
Intel भी इसमें शामिल है, और यह कुछ-कुछ PCI → AGP transition वाले दौर जैसा पल है
AMD ने पुराने HyperTransport दौर में मौका लगभग पकड़ लिया था, लेकिन मौजूदा Infinity Fabric अंदरूनी इस्तेमाल तक सीमित है
UALink और CXL भी ध्यान खींच रहे हैं, लेकिन अब भी PCIe speed limits मौजूद हैं
आदर्श रूप से chip में networking integration default रूप से होना चाहिए
जैसे पुराने Intel Xeon में 100Gb Omni-Path लगभग मुफ़्त में मिलता था
Intel की मजबूरी समझ में आती है, लेकिन AWS का उसी रास्ते पर जाना अच्छा नहीं लगता
AMD के लिए SolarFlare NIC को I/O die में डालना बेहतर होगा, ऐसा मुझे लगता है
जैसे PCIe/SATA switching संभव है, वैसे PCIe/Ethernet switching भी संभव होनी चाहिए, लेकिन UEC शायद बहुत niche market हो सकता है