2 पॉइंट द्वारा GN⁺ 2025-12-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • AWS ने 3nm प्रोसेस वाले Trainium3 चिप से लैस Trainium3 UltraServer का अनावरण किया और AI training तथा inference performance में बड़ा सुधार दिखाया
  • नया सिस्टम पिछले संस्करण की तुलना में 4 गुना तेज़ गति और 4 गुना अधिक मेमोरी, तथा 40% बेहतर ऊर्जा दक्षता देता है
  • अधिकतम 1,000,000 Trainium3 चिप्स को जोड़ा जा सकता है, जिससे बड़े पैमाने की AI application processing के लिए बेहतर उपयुक्तता मिलती है
  • Anthropic, Karakuri, SplashMusic, Decart जैसे ग्राहक पहले से ही इसका उपयोग कर रहे हैं और inference लागत में स्पष्ट कटौती देख रहे हैं
  • AWS ने बताया कि आने वाला Trainium4 चिप Nvidia NVLink Fusion को सपोर्ट करेगा और Nvidia GPU के साथ interoperability संभव करेगा; इसलिए इसे AI infrastructure competition में एक महत्वपूर्ण मोड़ के रूप में देखा जा रहा है

Trainium3 की घोषणा

  • AWS ने re:Invent 2025 में Trainium3 UltraServer की आधिकारिक घोषणा की
    • यह सिस्टम 3nm Trainium3 chip और AWS की in-house networking technology पर चलता है
    • AI training और inference दोनों में 2nd generation की तुलना में performance में भारी सुधार बताया गया है
  • AWS ने कहा कि Trainium3 सिस्टम 4 गुना तेज़ प्रोसेसिंग speed और 4 गुना अधिक मेमोरी capacity देता है
    • प्रत्येक UltraServer में 144 चिप्स लगे हैं
    • हजारों servers को जोड़कर 1,000,000 chीप्स तक को एक ही application में deploy किया जा सकता है
  • नया चिप 40% बेहतर energy efficiency देता है, जो large-scale data center में power consumption घटाने में मदद करता है
    • AWS ने इसे AI cloud ग्राहकों के खर्च में बचत के लिए भी महत्वपूर्ण बताया

प्रमुख ग्राहक और उपयोग केस

  • Anthropic, जापान की LLM Karakuri, SplashMusic, Decart पहले से ही Trainium3 का इस्तेमाल कर रहे हैं
    • इन ग्राहकों ने inference लागत में बड़ी बचत देखने की बात कही
  • AWS के अनुसार इन performance और cost-efficiency gains से AI applications की scalability बढ़ाने की मजबूत आधारशिला बनती है

अगली पीढ़ी के चिप Trainium4 का रोडमैप

  • AWS ने बताया कि Trainium4 पहले से ही development में है और आगे जाकर Nvidia के NVLink Fusion हाइ-स्पीड इंटरकनेक्ट टेक्नोलॉजी को सपोर्ट करेगा
    • इससे Nvidia GPU के साथ interoperability संभव होगी और इसे AWS की low-cost server rack तकनीक के साथ जोड़ा जा सकेगा
  • जबकि Nvidia CUDA प्रमुख AI applications का standard बना हुआ है, Trainium4 सिस्टम में Nvidia GPU-based apps को AWS cloud पर आसानी से migrate करने की संभावना है
  • Trainium4 की लॉन्चिंग टाइमिंग अभी सार्वजनिक नहीं की गई है, लेकिन अगले साल के re:Invent इवेंट में अतिरिक्त विवरण आने की संभावना है

ऊर्जा दक्षता और लागत बचत का रणनीतिक महत्व

  • AWS डेटा सेंटरों में power use तेज़ी से बढ़ने की स्थिति में “कम बिजली खर्च करने वाला सिस्टम” बनाने पर काम कर रही कंपनी है
  • यह approach operating cost reduction और sustainability—इन दोनो लक्ष्यों को एक साथ साधने की कोशिश के रूप में देखी जा रही है
  • AWS की cost-cutting centric strategy AI infrastructure प्रतिस्पर्धा में cloud customer pull बढ़ाने में मदद कर सकती है

सार

  • Trainium3 performance, memory और efficiency तीनों में बड़ी छलांग वाला 3rd-gen AI chip है
  • Trainium4 Nvidia compatibility के माध्यम से AWS ecosystem expansion को लक्ष्य करता है
  • AWS high-performance, low-cost और eco-friendly AI infrastructure को साथ-साथ pursue करते हुए AI cloud market competitiveness बढ़ाने की कोशिश कर रहा है

1 टिप्पणियां

 
GN⁺ 2025-12-03
Hacker News राय
  • हमारी टीम ने AWS प्रतिनिधि से कई बार कहा है कि हमें Trainium या Inferentia instances में कोई दिलचस्पी नहीं है
    क्योंकि इस बात का कोई पक्का सबूत नहीं है कि वे standard libraries Transformers या PyTorch के साथ स्थिर रूप से compatible हैं
    AWS कहता है कि सब ठीक चलता है, लेकिन वह सिर्फ उनके अपने specific AMI और neuron SDK वाले ‘happy path’ में ही संभव है
    असल में जब हम अपनी dependencies के साथ काम करते हैं, तो चीज़ें तुरंत टूट जाती हैं
    GCP के TPU भी तभी इस्तेमाल लायक बने जब Google ने software support में भारी निवेश किया
    AWS chips इस्तेमाल करने के लिए मेरे पास beta tester बनने का समय नहीं है
    • AWS, core services (S3, Dynamo, Lambda, ECS आदि) से बाहर निकलते ही beta services से भरा पड़ा है
      कुछ ही चीज़ें stable हैं, बाकी में बहुत rough edges हैं
    • Google ने TPU को ecosystem में घोलने-मिलाने के लिए जबरदस्त मेहनत की
      Amazon उस स्तर का निवेश करेगा, ऐसा कल्पना करना भी मुश्किल है
    • स्पॉइलर: बहुत सारा custom code लिखे बिना यह काम नहीं करता
  • SageMaker में LMI container को सीधे build करने की कोशिश करते हुए नरक जैसा अनुभव हुआ
    vLLM version 6 महीने से update नहीं हुआ, और सामान्य endpoints 8 साल पहले तय किए गए 60-second timeout की वजह से काम के नहीं हैं
    ऐसे में कोई developer custom silicon इस्तेमाल करते हुए कितना दर्द झेलेगा, यह सोचकर ही डर लगता है
  • AWS Trainium को लेकर बड़ी-बड़ी बातें करता है, लेकिन मंच पर आकर उसकी तारीफ़ करने वाला एक भी customer नहीं है
    जिन्होंने इसे सच में इस्तेमाल किया है, उनका कहना है कि deployment और operations की तकलीफ़ की वजह से उन्होंने हार मान ली
    अंदरूनी तौर पर शायद इसका काफ़ी इस्तेमाल हो रहा है, लेकिन बाहरी adoption लगभग नहीं के बराबर है
    फिर भी Amazon का अपने chip पर निवेश करना मैं सकारात्मक रूप से देखता हूँ
    • Inf1/Inf2 spot instances इतने अलोकप्रिय हैं कि वे CPU instances से 10~20% सस्ते हैं
      Trn1 अभी उस स्तर तक नहीं पहुँचा, तो लगता है कोई न कोई इसे इस्तेमाल कर रहा है
    • सुना है Anthropic भी Trainium का काफ़ी इस्तेमाल करता है
      शायद उसे AWS का पूरा support मिल रहा है
      अगर SDK और tooling में और निवेश नहीं किया गया, तो कोई भी ऐसा cloud इस्तेमाल नहीं करेगा
  • Block floating point (MXFP8/4) का concept दिलचस्प है
    AI उन basic data types को आगे बढ़ा रहा है जो दशकों से नहीं बदले थे
    Block floating point wiki लेख
  • दिलचस्प बात यह है कि लेख में एक बार भी यह नहीं बताया गया कि यह chip असल में करती क्या है
    • मूल बात यह है कि यह कई 128x128 systolic array संरचनाओं पर आधारित है
      ज़्यादा जानकारी के लिए Semianalysis newsletter देखें
    • नाम से ही साफ है, यह Training के लिए chip है
    • आखिरकार यह vector operations करने वाली chip है
    • शायद इस chip का असली काम shareholders को खुश रखना है, इसलिए developers को इसे समझाने की ज़रूरत नहीं समझी गई
  • performance या benchmarks का कोई ज़िक्र ही नहीं है
    • “4 गुना ज़्यादा” कहा गया है, लेकिन इसका मतलब 4 गुना तेज़ नहीं है, और 4 गुना ज़्यादा memory कहने पर भी कोई baseline नहीं दी गई
  • असली खबर “Nvidia-friendly roadmap” वाला हिस्सा है
    लगता है Amazon AI में भी logistics की तरह cost cutting करना चाहता है
    लेकिन उसका आत्मविश्वास कम दिखता है, और यह Nvidia के साथ संबंध बनाए रखने की दिखावटी रणनीति जैसा लगता है
  • NVLink का फैलना दिलचस्प है
    Intel भी इसमें शामिल है, और यह कुछ-कुछ PCI → AGP transition वाले दौर जैसा पल है
    AMD ने पुराने HyperTransport दौर में मौका लगभग पकड़ लिया था, लेकिन मौजूदा Infinity Fabric अंदरूनी इस्तेमाल तक सीमित है
    UALink और CXL भी ध्यान खींच रहे हैं, लेकिन अब भी PCIe speed limits मौजूद हैं
    आदर्श रूप से chip में networking integration default रूप से होना चाहिए
    जैसे पुराने Intel Xeon में 100Gb Omni-Path लगभग मुफ़्त में मिलता था
    • NVLink Fusion आखिरकार Nvidia lock-in के जाल जैसा दिखता है
      Intel की मजबूरी समझ में आती है, लेकिन AWS का उसी रास्ते पर जाना अच्छा नहीं लगता
      AMD के लिए SolarFlare NIC को I/O die में डालना बेहतर होगा, ऐसा मुझे लगता है
      जैसे PCIe/SATA switching संभव है, वैसे PCIe/Ethernet switching भी संभव होनी चाहिए, लेकिन UEC शायद बहुत niche market हो सकता है
  • Amazon का आधिकारिक पोस्ट: Trainium 3 UltraServer परिचय