CUDA को चुनौती देता ROCm: ‘एक-एक कदम आगे बढ़ना’
(eetimes.com)- AMD, Nvidia CUDA ecosystem का मुकाबला करने के लिए AI software stack ROCm को केंद्र में रखकर अपनी datacenter GPU रणनीति को मजबूत कर रहा है
- ROCm शुरुआती साधारण firmware bundle से विकसित होकर एक पूर्ण software platform बन चुका है, और 6-सप्ताह release cycle अपनाकर स्थिर usability सुनिश्चित कर रहा है
- OneROCm के जरिए CPU, GPU, FPGA के बीच AI stack integration और portability को आगे बढ़ाया जा रहा है, और Triton·MLIR आधारित code reuse से development efficiency बढ़ाई जा रही है
- ROCm में firmware को छोड़कर सभी components को open source किया गया है, ताकि community innovation की गति का लाभ लिया जा सके, और Strix Halo laptop और Windows version में भी यह default support के साथ आता है
- AMD developer feedback पर प्रतिक्रिया और community trust की बहाली को महत्व देता है, और ROCm को आने वाले 10 वर्षों तक टिकाऊ, developer-centric platform के रूप में विकसित करने का लक्ष्य रखता है
AMD ROCm का विकास और CUDA से प्रतिस्पर्धा की रणनीति
- AMD, datacenter GPU market में Nvidia के CUDA ecosystem का मुकाबला करने के लिए AI software stack ROCm को अपनी प्रमुख रणनीति के रूप में आगे बढ़ा रहा है
- AI software division के vice president Anush Elangovan ने ROCm के विकास को “पहाड़ पर चढ़ने की तरह एक-एक कदम आगे बढ़ने की प्रक्रिया” बताया, और लगातार सुधार व integration पर जोर दिया
- वे startup Nod.ai के acquisition के जरिए AMD में शामिल हुए, और Nod टीम ने Shark, Torch.MLIR, IREE जैसे प्रमुख open source projects में योगदान दिया है
- AMD, ROCm के जरिए CPU, GPU, FPGA के बीच AI stack integration (OneROCm) को आगे बढ़ा रहा है, और software development cycle को 6 सप्ताह तक घटाकर “ऐसे स्तर” पर ले जाना चाहता है जहाँ “यूज़र को version के बारे में सोचना न पड़े”
- ROCm अभी AI-supported engineering transition की तैयारी में है, और open source ecosystem व developer community केंद्रित विस्तार को तेज कर रहा है
ROCm की प्रगति और software रणनीति
- ROCm शुरुआती दौर में कई firmware टुकड़ों के bundle जैसा था, लेकिन ढाई साल के निवेश के बाद यह एक पूर्ण software platform में विकसित हो गया
- Elangovan ने Google Chrome टीम की development culture को benchmark बनाकर नियमित release cycle और स्थिर user experience को लक्ष्य बनाया
- ROCm अब ऐसे software के रूप में स्थापित हो चुका है जो “बस काम करता है”, और आगे 6-सप्ताह release system में बदलने वाला है
- AMD hardware-centric company से software-centric company में बदल रही है, और अगले चरण में AI-assisted engineering को प्रमुख turning point मान रही है
AI stack integration और portability
- AMD, OneROCm के जरिए CPU, GPU, FPGA जैसे विभिन्न hardware के बीच AI stack integration को साकार कर रहा है
- कुछ components अभी भी hardware-dependent हैं, लेकिन सभी acceleration ROCm stack के जरिए होने से portability सुनिश्चित होती है
- Triton framework के प्रसार से GPUs के बीच compatibility issues कम हुए हैं
- पहले CUDA kernel को HIP kernel में बदला जाता था, लेकिन अब Triton kernel लिखकर उसे AMD और Nvidia दोनों पर चलाया जा सकता है
- AMD, Triton और MLIR compiler infrastructure में सक्रिय निवेश कर रहा है, और Torch.MLIR maintenance के जरिए विभिन्न hardware targets पर code retargeting को support करता है
- अधिकांश inference customers vLLM, SGLang जैसे LLM frameworks का उपयोग करते हैं, इसलिए CUDA code conversion की मांग कम हुई है
- जब नए attention algorithms आते हैं, तो Triton-based kernels को एक-दो दिन में optimize किया जा सकता है
- HIPify अभी भी HPC customers के लिए उपलब्ध है, और नए kernels लिखने में Claude AI का उपयोग verification और code generation के लिए किया जाता है
open source रणनीति
- ROCm में firmware को छोड़कर सभी components 100% open source के रूप में उपलब्ध हैं
- open source होने से developer community द्वारा verification मिलता है, साथ ही AMD से भी तेज community innovation की गति का लाभ उठाया जा सकता है
- कोई भी compiler, runtime या किसी भी इच्छित स्तर पर योगदान दे सकता है, और AMD की collaboration speed तक सीमित नहीं रहता
- AMD developer community expansion को सक्रिय रूप से आगे बढ़ा रहा है, और Strix Halo वाले laptops में ROCm default support के साथ आता है
- Instinct datacenter hardware के उसी दिन Windows version ROCm update भी जारी किया जाता है
developer community और feedback संस्कृति
- Elangovan developers के साथ सीधे संवाद को महत्व देते हैं, और X(Twitter) के जरिए real-time feedback इकट्ठा करते हैं
- वे “ROCm”, “ROCm sucks”, “AMD software not working” जैसे keywords को monitor करते हैं, और हर post का सीधे जवाब देते हैं
- अधिकांश समस्याएँ शिक्षा और support की कमी से आती हैं, और वे anonymous developers को भी सीधे सलाह देते हैं
- AMD ने GitHub पर ROCm से जुड़ी 1,000 से अधिक शिकायतों की जांच की, और एक साल के भीतर सभी को हल कर दिया
- पुराने hardware support की मांग काफी थी, और अब उसका maintenance AMD या community द्वारा किया जा रहा है
- इस तरह की प्रतिक्रिया से developers का भरोसा लौटा, और “AMD समस्याएँ हल करता है” जैसी धारणा फैलने लगी
- Elangovan ने MI450 GPU (2026 की दूसरी छमाही में अपेक्षित रिलीज़) को लेकर उम्मीद जताई, और जोर दिया कि ROCm को आने वाले 10 वर्षों के लिए टिकाऊ platform बनाया जाएगा
- लक्ष्य यह है कि नया hardware आने पर भी developers को चिंता न करनी पड़े, ऐसा स्थिर ecosystem बनाया जाए
भविष्य की दिशा और दर्शन
- Elangovan ने Nod.ai के दौर के अनुभव के आधार पर कहा कि compiler technology को लगभग सभी accelerator कंपनियों ने अपनाया है
- उनका कहना है, “आत्मविश्वास के साथ एक-एक कदम आगे बढ़ना चाहिए”, और वे ROCm की प्रगति को लगातार execution का परिणाम मानते हैं
- AMD, CUDA की केवल नकल करने से आगे बढ़कर, ROCm की अलग पहचान वाली क्षमताएँ विकसित कर रहा है, और लंबे समय में इसे developer-centric platform के रूप में स्थापित करना चाहता है
2 टिप्पणियां
ड्राइवर से ही थोड़ा...
Hacker News की राय
पिछले हफ़्ते TheRock को stagex पर पोर्ट करते हुए ROCm को musl/mimalloc-आधारित toolchain से build करने की कोशिश की
क्योंकि security·privacy-संवेदनशील workloads में सिर्फ़ एक compiler से बने binaries पर भरोसा नहीं किया जा सकता
30 से ज़्यादा dependencies और custom LLVM को package करने में बुरे सपने जैसा समय लगा, लेकिन आज सुबह आख़िरकार runtime build करने में सफलता मिली
AMD hardware का पूरी तरह open environment में चलना उच्च-सुरक्षा workloads के लिए उम्मीद देता है
custom LLVM fork और कई packages को पार कर लिया था, लेकिन आख़िर में इसे समय की बर्बादी मानकर छोड़ दिया
अभी Vulkan support वाला llama.cpp इस्तेमाल कर रहा हूँ, और उससे काफ़ी संतुष्ट हूँ
अगर build recipe साझा कर सकें, तो शायद Alpine porting के आख़िरी चरण को पार करने में मदद मिले
पिछले साल AMD के वादों पर भरोसा करके shareholder campaign रोक दी थी, लेकिन अब सच में कार्रवाई की ज़रूरत महसूस होती है
unlockgpu.com/action-plan
यह ऐसे नहीं होना चाहिए, यह काम साफ़ तौर पर उपयोग योग्य होना चाहिए
Nvidia ने भी open-source drivers को बेहतर करने का वादा किया है
व्यक्तिगत रूप से मुझे Intel का 32GB VRAM लगभग 1000 डॉलर में देना ज़्यादा आकर्षक लगता है
क्या इसका मतलब अलग-अलग compilers से बने .o files को मिलाकर link करना है?
क्या यह सच में Reflections on Trusting Trust समस्या से बचने की कोशिश करने वाला workload है, यह जानने की जिज्ञासा है
फ़रवरी से AMD से gfx1201 के लिए tuned Tensile kernels को rcom-libs में शामिल करने का अनुरोध कर रहा हूँ, लेकिन किसी को नहीं पता कि ज़िम्मेदार कौन है
developer Discord पर भी कोई जवाब नहीं मिला, इसलिए निराशा होती है। तकनीकी समस्या से आगे बढ़कर यह AMD की संगठनात्मक bottleneck का उदाहरण लगता है
zichguan-amd या harkgill-amd शायद संबंधित लोग हों
ROCm के मामले में AMD को अभी भी कई वर्षों का फ़ासला पाटना है
AI compute करने में सक्षम अपनी सभी GPUs को भी यह support नहीं करता, और जहाँ support है वहाँ भी bugs बहुत हैं
Linux के लिए AMDGPU driver 6.6 के बाद से लगातार unstable है
AI के महत्वपूर्ण होने को न देख पाना साफ़ ग़लती थी
अगर AMD competitive बने, तो पूरे industry के लिए अच्छा होगा, लेकिन यह स्थिति उसने ख़ुद बनाई है
पुराने ATI दौर से ही buggy drivers के लिए बदनामी थी, और AMD के अधिग्रहण के बाद भी वह संस्कृति बदली नहीं लगती
पिछले साल AMD ने GitHub पर ROCm से जुड़ी शिकायतें इकट्ठा कीं और कहा कि सभी 1000 मामले हल कर दिए गए
लेकिन हक़ीक़त में पुराने hardware का support लगभग बढ़ा ही नहीं
जिस दिन ROCm सभी AMD cards पर launch के साथ ही support देगा, तभी शायद उसके प्रचार पर भरोसा कर पाऊँगा
पहले 400 series जैसी नई cards को छोड़ देना बड़ी ग़लती थी
उम्मीद है management software stack में ज़्यादा निवेश करे
ROCm आम consumer GPUs, जैसे RX 580, पर support नहीं करता
उसकी जगह Vulkan backend अच्छी तरह काम करता है
मुझे लगता है GCN architecture का अब support खत्म होना स्वाभाविक है, लेकिन RDNA पीढ़ी में भी support की कमी समस्या बनी हुई है
अभी RDNA3·RDNA4 ही संभव हैं, जबकि CUDA अब भी Turing तक support करता है
आधिकारिक दस्तावेज़ देखें
Vulkan backend ठीक चलता है, लेकिन official support आने में 1–2 साल लग गए
काश ROCm stack की clean-up हो जाए
बस
git clone --recurse-submodules rocmके बाद configure/make से build हो सके, और missing dependencies साफ़-साफ़ दिखा देअभी हाल यह है कि बिना किसी ढाँचे के कई components बस इकट्ठा कर दिए गए हैं, इसलिए सुसंगत architecture दिखता ही नहीं
मैं OpenVINO और SYCL के साथ CUDA को चुनौती देने वाली टीम में हूँ
Intel के iGPU·dGPU हाल में क़ीमत के लिहाज़ से भी ठीक हैं और software support भी बेहतर हुआ है
gaming नहीं बल्कि CV या data science workloads में ये काफ़ी अच्छी तरह scale करते हैं
AMD management को ROCm पर देना चाहूँगा यह feedback
(1) सिर्फ़ server-grade GPUs support करना और consumer GPUs/APUs को नज़रअंदाज़ करना रणनीतिक ग़लती थी
ज़्यादातर developers पहले अपने निजी laptop पर प्रयोग करते हैं और बाद में server तक scale करते हैं
CUDA की तरह, performance कम हो तब भी consumer GPUs पर चलना चाहिए
(2) सिर्फ़ दो पीढ़ियों को support करने की नीति ग्राहक के नज़रिए से अतार्किक है
आधिकारिक दस्तावेज़ देखें
CUDA मज़बूत backward compatibility बनाए रखता है
(3) सिर्फ़ Triton पर ध्यान देना और HIP को second-class मानना ग़लत दिशा है
अब भी C/C++-आधारित HPC·simulation·scientific code बहुत हैं
AMD GPU की FP64 performance उसकी ताक़त है, और इस तरह वह ख़ुद ही उसे छोड़ रहा है
(4) आख़िर में packaging quality बेहतर करनी चाहिए
distro packagers के साथ सहयोग करना कोई बहुत महँगा काम नहीं है, और यह Nvidia पर competitive advantage दे सकता है
Python, Julia जैसी कई languages में kernels सीधे लिखे जा सकते हैं, और IDE·debugger·library integration भी शानदार है
पूरे GPGPU ecosystem को देखें तो AMD और Intel अभी भी CUDA की ecosystem completeness तक नहीं पहुँचे हैं
ज़्यादातर कंपनियाँ
/opt/foo/जैसे vendor install model को चुनती हैंइससे बाद में distros के लिए अपना packaging करना आसान हो जाता है
लेकिन इसे समझने के लिए open-source ecosystem का अनुभव रखने वाले लोगों की ज़रूरत होती है
वह high-VRAM consumer GPUs के launch को टालते हुए server market पर ध्यान दे रहा है
अगर AMD इस मौके का सही इस्तेमाल करे, तो यह अवसर बन सकता है
उदाहरण के लिए 7900 XT पर यह अच्छी तरह चलता है
बस AMD testing resources नहीं लगाता, इसलिए उसे “official support” के रूप में नहीं लिखता
पहले compute shaders के साथ काम करने के अनुभव से कहूँ तो CUDA, ROCm, OpenCV सभी की installation बहुत झंझटभरी है
dependencies भी भारी हैं, और CUDA तो 11GB का है
मुझे लगता है सीधे Vulkan इस्तेमाल करना बेहतर है। platform lock-in भी नहीं है और “बस काम करता है”
सिर्फ़ shader compilation और resource setup में ही सैकड़ों lines लगती हैं, और GPU addresses संभालने के लिए extensions चाहिए
समझ नहीं आता कि इसमें घंटों क्यों लगें
पहले NVIDIA में graphics mode पर स्विच करने से performance 20% बढ़ जाने वाला bug(?) भी था