AMD का AI भविष्य rack-scale ‘Helios’ है

(morethanmoore.substack.com)

1 पॉइंट द्वारा GN⁺ 2025-06-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

AMD Instinct MI355X GPU में AI compute performance दोगुना, ज़्यादा HBM memory, और NVIDIA के मुकाबले token/$ efficiency में 40% सुधार
ROCm 7 software performance improvement के साथ Day-0 support पर ज़ोर देता है और AI ecosystem के विस्तार पर फोकस करता है
Rack-scale integrated solution AMD CPU+GPU+network को जोड़कर turnkey AI infrastructure उपलब्ध कराता है
Roadmap: 2026 में 4x performance, HBM4, scalability सहित next-generation architecture और Helios rack का अनावरण होने वाला है
Energy efficiency: 2030 तक rack-scale आधार पर 20x efficiency improvement का लक्ष्य, जिसके लिए hardware और software दोनों में innovation आगे बढ़ाई जा रही है

समग्र सारांश

rack-scale AI growth के आधार पर AMD की दिशा

AI hardware demand में तेज़ बढ़ोतरी के साथ industry की सभी प्रमुख semiconductor कंपनियाँ market share और growth acceleration पर ध्यान दे रही हैं
AMD ने Instinct MI300X के साथ AI server GPU market में तेज़ी से प्रवेश किया और हाल में core features और performance पर पूरी तरह केंद्रित अपनी पहली architecture launch के अनुभव के आधार पर सफल high-margin revenue दर्ज किया
इसी के बल पर कंपनी ने next-generation AI server hardware में अपनी मौजूदगी लगातार बढ़ाने की रणनीति घोषित की

Instinct MI350 accelerator में प्रमुख innovation

AI compute performance में बड़ी छलांग

Instinct MI350 series नई CDNA4 architecture पर आधारित है और MI300X की तुलना में matrix operation (tensor operation) throughput को प्रति clock दो गुने से अधिक बढ़ाती है
FP6, FP4 जैसे low-precision floating-point processing को पूरी तरह support किया गया है, जिससे inference load कम होता है और कुल compute volume में बड़ा इज़ाफ़ा होता है
FP6 operation के मामले में इसे competitor NVIDIA Blackwell की तुलना में दो गुनी गति से प्रोसेस करने के लिए डिज़ाइन किया गया है, ताकि performance advantage हासिल किया जा सके
288GB HBM3E memory (8 stack) और 8TB/sec bandwidth सहित memory configuration भी काफ़ी अपग्रेड की गई है
TSMC N3P process पर आधारित 185 billion transistor वाला विशाल chip, efficient die-stacking structure के साथ बनाया गया है

अलग-अलग SKU और high-performance/high-power trend

यह liquid-cooled MI355X (2.4GHz, 5PFLOPS) और air-cooled MI350X (2.2GHz, 4.6PFLOPS) में बंटा है
Power consumption MI300X की तुलना में बढ़ा है: air-cooled मॉडल 1000W और liquid-cooled मॉडल 1400W है
एक rack में 128 MI355X लगाने पर केवल GPU से ही 180kW स्तर की power consumption हो सकती है
Price competitiveness पर भी ज़ोर है, और NVIDIA के मुकाबले token/$ के आधार पर 40% से अधिक बढ़त (30% सस्ता) की उम्मीद है
2024 की तीसरी तिमाही से partners को supply शुरू होगी, हालांकि वास्तविक supply speed परिवर्तनीय रह सकती है

ROCm 7 software strategy

Day-0 support और performance maximization

ROCm 7 में CDNA4, MI350 series accelerator support, performance, और enterprise management सहित हर दिशा में सुधार किया गया है
Pytorch जैसे प्रमुख frameworks के लिए Day-0 support लक्ष्य है
2024 की तीसरी तिमाही में Windows native Pytorch, ONNX runtime, और RDNA 4/3 GPU support भी शुरू होगा
केवल software optimization से MI300X generation की performance ROCm 7 में ROCm 6 की तुलना में अधिकतम 3.8x तक बेहतर हुई है
ROCm Enterprise AI के ज़रिए large-scale AI cluster operation, model fine-tuning आदि के लिए enterprise-focused tools दिए जाते हैं

network ecosystem पूरा करना: Pollara 400 AI NIC

Pensando acquisition के बाद AMD का पहला network card Pollara 400 AI NIC (400G Ethernet, TSMC N4 process) लॉन्च किया गया
Scalability और programmable P4 NIC capabilities के साथ यह AMD-based supercomputer rack configuration को support करता है
यह Ultra Ethernet Consortium-compatible पहला AI NIC है, जो next-generation scale-out networking की नींव रखता है

MI400 आधारित rack-scale future roadmap

MI400 (2026): FP8 आधार पर AI performance दोगुना करने, HBM4 432GB/19.6TB/sec bandwidth, और नई architecture (CDNA Next) को लक्ष्य बनाया गया है
Ultra Accelerator Link के ज़रिए 8 GPU → 1024 GPU scale-up expansion संभव होगा, जिससे large-scale parallel processing को support मिलेगा
Helios rack system: MI400, EPYC Venice (6th gen), और Vulcano (800G NIC) का संयोजन, और next-gen rival camp (NVIDIA Vera Rubin) की तुलना में memory/network advantage पर ज़ोर
Open roadmap के माध्यम से हर साल CPU, GPU, और rack system की core architecture innovation plans पेश किए गए हैं
2030 तक rack-scale energy efficiency में 20x और overall efficiency में 100x improvement लक्ष्य है, जिसके लिए hardware और software optimization पर लगातार काम किया जाएगा

निष्कर्ष

AMD, Instinct MI350~Helios series, CDNA 4~Next, और rack-scale turnkey solutions के ज़रिए AI infrastructure market में अलग पहचान वाली leadership हासिल करना चाहता है
निकट अवधि में नया MI350, CDNA4 architecture, और ROCm 7 software इसकी रणनीति के मुख्य स्तंभ होंगे
NVIDIA के साथ AI server market competition में performance, cost, scalability, और efficiency सभी को मज़बूत करने की रणनीति अपनाई जा रही है

1 टिप्पणियां

GN⁺ 2025-06-16

Hacker News टिप्पणियाँ

ऐसा लगता है कि ROCm का अनुभव सच में use case के हिसाब से बहुत अलग-अलग है, और consumer graphics card support भी ईमानदारी से कहें तो भरोसेमंद नहीं लगता। इच्छा थी कि यह एक अच्छा alternative बने, लेकिन CUDA पर जाने के बाद झंझट वाले issues और समय की बर्बादी काफी कम हो गई। खासकर HIP में MiOpen benchmark चलाने में बहुत ज़्यादा समय लगने की समस्या रही।
ऐसा लगता है कि लगभग 2010 से, जब scientific computing के लिए CUDA उभरना शुरू हुआ, तब से वही कहानी दोहराई जा रही है। 15 साल बाद भी AMD उस सफलता के तरीके को नहीं पकड़ पाया, यह समझ से बाहर है, और अब जबकि NVIDIA software ecosystem पर पूरी तरह कब्ज़ा जमा चुका है, काफ़ी देर हो चुकी लगती है।
काश AMD के software को अच्छी तरह समझने वाला कोई व्यक्ति इसका एक overall overview समझाता। जानना है कि neural network inference या training के लिए वास्तव में कौन-सा SDK काम का है। Options इतने ज़्यादा हैं कि कुछ समय तक ढूँढने के बाद भी लगा कि दिशा बहुत जगह बिखरी हुई है, इसलिए समझना मुश्किल है कि चीज़ें जा किधर रही हैं।
महसूस होता है कि Jensen को CUDA stack और workstation क्षेत्र की पक्की समझ है। AMD के लिए हकीकत यह है कि उसे सिर्फ hardware का आकार बढ़ाने से आगे बढ़कर इस stack को ही पार करना होगा। बाज़ार के ज़्यादातर लोग ऐसी संरचना के लिए, जिसकी market share 10% से भी कम हो, लंबे समय तक पढ़ाई करके जटिल stack सीखना नहीं चाहते।
हकीकत यह है कि CUDA API को सीधे call करने वाले developers बहुत कम हैं। इसलिए AMD को ROCm backend को XLA और PyTorch से ठीक से जोड़ने पर ध्यान देना चाहिए — यही असली कुंजी है। सिर्फ यह काम सही हो जाए तो भी काफ़ी बड़ा बाज़ार खुल सकता है। और जैसे करीब 10 साल पहले Nvidia ने किया था, वैसे ही AMD को भी universities वगैरह में लगभग मुफ्त GPU बाँटकर researcher ecosystem बनाना चाहिए। आजकल AI compute resources की कमी के कारण universities अक्सर 2~3 पीढ़ी पुराना hardware इस्तेमाल कर रही हैं। अगर AMD आधी कीमत पर स्थिर GPU दे सके, तो PhD students स्वाभाविक रूप से AMD ecosystem में आएँगे, और यह अनुभव आगे industry तक जा सकता है।
लोग जब CUDA की बात करते हैं तो अक्सर सिर्फ C language सोचते हैं, लेकिन असल में CUDA 3.0 से C++ default है, और Fortran support भी शामिल है। NVIDIA सक्रिय रूप से support देता है ताकि कई भाषाएँ PTX environment का इस्तेमाल कर सकें। 2025 में Python CUDA JIT DSL लाने की भी योजना है। भले latest version न हो, CUDA SDK entry-level laptop पर भी चल जाता है, इसलिए कमजोर hardware पर भी धीरे-धीरे सीखने का फायदा है।
entry-level hardware software support के बारे में बहुत खराब बातें सुनी हैं। इसलिए कम entry barrier वाला in-ramp बहुत महत्वपूर्ण है। दूसरी ओर, अगर data center hardware पर ज़ोर दिया जाए, तो portfolio को छोटा रखकर भी cloud providers के ज़रिए ज़्यादा व्यापक access मिल सकता है। MI350-A workstation जैसे beginner-friendly devices आते तो अच्छा होता, लेकिन हकीकत में ऐसा होना मुश्किल लगता है।
अभी की स्थिति देखकर लगता है कि AMD के अंदर गंभीर समस्याओं के कारण software stack कमज़ोर है। अलग-अलग समस्याओं पर customer feedback सुनने और टीम बढ़ाने के लिए काफी समय था, फिर भी असली प्रगति बहुत कम दिखती है। incentives भी बड़े हैं, फिर भी बदलाव कम है। Lisa Su CEO एक शानदार manager हैं, इस बात से सहमति है, लेकिन शायद hardware background होने के कारण software innovation पर उतना आक्रामक फोकस नहीं है।
एक राय यह भी है कि ROCm support अभी आम AI users के लिए कोई बहुत बड़ा मुद्दा नहीं है। लगभग 10 साल पहले से standard AMD driver में शामिल Vulkan API की वजह से llama.cpp या LM Studio जैसे बड़े one-click LLM apps भी चल रहे हैं। speed धीमी है, लेकिन environment वास्तव में उपयोगी है।
NVIDIA और AMD की भविष्य की प्रतिस्पर्धा पर थोड़ा मज़ाकिया अंदाज़ में, "जब वह भविष्य सच बन जाएगा, हम पहले आपसे संपर्क करेंगे" जैसी टिप्पणी।
"क्या इसे Bob Page लीड कर रहे हैं?" — ऐसा एक छोटा सवाल।
"Atropos log, abandoning Helios" जैसी game line पर भावनात्मक प्रतिक्रिया आने की बात, और इस तरह की खबर आते ही वही याद आ जाना।
उम्मीद कि AMD H100 को पीछे छोड़ने वाला training chip बनाए।
पिछले साल MI300X पर training करते समय कुछ समस्याएँ थीं, और मुश्किल से चलने पर भी H100 के मुकाबले 20~30% धीमा अनुभव मिला। हाल में latest ROCm और PyTorch setup के साथ OpenRLHF (transformers/DeepSpeed आधारित) DPO training करके देखा, तो छोटे 12-घंटे वाले jobs में प्रति GPU-hour performance लगभग H200 जैसी लगी। पहले 8-GPU node पर test किया था, और अब single MI300X GPU पर experiment कर रहा हूँ, इसलिए यह पूरी तरह fair comparison नहीं है। multi-GPU या multi-node training अभी भी अनजान क्षेत्र है, इसलिए इसे सिर्फ एक sample मानें।
यह सोचकर gap और बड़ा महसूस होता है कि H100 को रिलीज़ हुए पहले ही 3 साल हो चुके हैं — innovation की रफ़्तार का एहसास होता है।
मेरा समझना है कि बात अपेक्षाकृत धीमे chip की हो रही है। असल में MI300 series पहले ही H100 से आगे है और MI400 भी जल्द आ सकता है — ऐसी राय।
असल में महत्वपूर्ण बात यह है कि "software++: ROCm 7 Released" की मुख्य बातों में से कितना कुछ मैं CUDA की तरह आम consumer laptop पर इस्तेमाल कर सकता हूँ।
ईमानदारी से कहूँ तो वह article पढ़ना मुश्किल था, और article के लेखक ने जितनी मेहनत की उसके लिए उन्हें एक mi355 दे देना भी ज़्यादा नहीं होगा। AMD पर article में जितना भरोसा दिखाया गया, उसके लायक बनने की AMD के पास कोई वजह नहीं है। खास निराशा यह रही कि RDNA4 lineup को ROCm में महीनों तक support नहीं मिला। AMD का यह गैर-जिम्मेदाराना रवैया कि schedule के हिसाब से day 120 पर support दिया जा सकता है, बहुत खराब लगा। और benchmarks में performance वास्तव में कहाँ से आ रही है, यह भी साफ़ नहीं बताया गया। बहुत शक है कि FP4 performance को FP8 या 16 से तुलना करके गलत तरीके से quote किया गया।
यह अब भी चौंकाने वाला और उलझाने वाला है कि AMD ने consumer ROCm में ठीक से investment नहीं किया और support देर से दिया। लेकिन हाल में यह आधिकारिक घोषणा हुई है कि client cards पर भी day 1 support होगा। बेशक असली बात यह है कि वादा निभाया जाए। फिर भी लगता है कि AMD को आखिरकार समझ आ रहा है कि पूरे stack में ROCm support को मज़बूती से देना कितना महत्वपूर्ण है। Ryzen और Radeon दोनों बनाने वाली कंपनी का ऐसा होना अजीब लगता है। मुझे लगता है कि इस साल Radeon काफ़ी अच्छा कर रहा है, इसलिए RDNA4 के official ROCm support में इतनी देरी खलती है। फिर भी consumer side पर 9070 XT और FSR4 की वजह से पहली छाप बुरी नहीं थी, और AMD अब पहले की तरह मौके से बचने की कोशिश नहीं कर रहा बल्कि कुछ कदम उठाता दिख रहा है, इसलिए बहुत सावधानी के साथ आशावाद है। बस उम्मीद है कि ये वादे लंबे समय तक टिकें। संबंधित लिंक
हकीकत यह है कि AMD को consumer GPU पर computing support में बहुत दिलचस्पी नहीं है, जबकि data center GPU के लिए वह काफ़ी अच्छा software stack और support देता है।
"इस लेख में AMD पर कुछ ज़्यादा ही भरोसा किया गया है" वाली मूल टिप्पणी के जवाब में, यह दोबारा पूछना कि क्या बात AnandTech के मशहूर Ryan Smith की हो रही है। लिंक
दावा कि AMD अब एक marketing company बन चुकी है, और मूलतः तकनीकी क्षमता नहीं बल्कि marketing से बाज़ार में मुकाबला करती है।

AMD का AI भविष्य rack-scale ‘Helios’ है

समग्र सारांश

rack-scale AI growth के आधार पर AMD की दिशा

Instinct MI350 accelerator में प्रमुख innovation

AI compute performance में बड़ी छलांग

अलग-अलग SKU और high-performance/high-power trend

ROCm 7 software strategy

Day-0 support और performance maximization

network ecosystem पूरा करना: Pollara 400 AI NIC

MI400 आधारित rack-scale future roadmap

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ