कम्प्यूट का भविष्य: Nvidia का ताज डगमगाने लगा है

(mohitdagarwal.substack.com)

2 पॉइंट द्वारा GN⁺ 2025-04-24 | 3 टिप्पणियां | WhatsApp पर शेयर करें

NVIDIA ने AI बूम और GPU एकाधिकार के दम पर तेज़ी से वृद्धि की, लेकिन cloud दिग्गजों के इन-हाउस chip development और vertical integration strategy की वजह से उसकी दीर्घकालिक स्थिति पर खतरा मंडरा रहा है
startup और independent cloud providers की GPU मांग घट रही है, और NVIDIA पर उच्च निर्भरता वाले business model की profitability में गिरावट अब साफ़ दिख रही है
Google, Amazon, Microsoft, Meta आदि high-performance custom chips और vertically integrated systems के जरिए NVIDIA पर अपनी निर्भरता तेज़ी से कम कर रहे हैं
distributed infrastructure और cluster interconnect-based optimization AI training के मुख्य तत्व बनते जा रहे हैं, और यह NVIDIA के लिए जवाब देना कठिन एक संरचनात्मक बदलाव है
NVIDIA hardware और software सुधारने की कोशिश कर रही है, लेकिन hyperscaler की गहरी vertical integration strategy के मुकाबले उसकी competitive edge कमजोर पड़ने की आशंका है

NVIDIA के प्रभुत्व से संकट तक: AI computing बाज़ार में उथल-पुथल

NVIDIA ने AI बूम, GPU एकाधिकार, और DGX server सप्लाई के सहारे तेज़ी से बढ़ते हुए 13 महीनों में market cap में $2 trillion की बढ़ोतरी जैसी ऐतिहासिक उपलब्धि हासिल की
लेकिन H100 generation profitability की चोटी थी, और उसके बाद आई B200 series के साथ profitability में गिरावट और manufacturing cost में बढ़ोतरी भी आई
लंबी अवधि में hyperscalers मांग को समेकित कर रहे हैं, और custom chip development से अपनी प्रतिस्पर्धात्मक बढ़त बना रहे हैं, जिससे NVIDIA की एकाधिकार संरचना हिल रही है

AI मांग का पुनर्गठन और startup बाज़ार का सिमटना

NVIDIA के datacenter demand का आधे से अधिक हिस्सा Google, Microsoft, Amazon, Meta जैसे hyperscalers से आता है
बाकी मांग startup, VC, और mid-size cloud कंपनियों से आती थी, लेकिन GPU की ज़रूरत से ज़्यादा खरीद के कारण ROI कम है, और GPU rental business घाटे में है
BloombergGPT जैसे छोटे custom models बाज़ार में संघर्ष कर रहे हैं, जबकि closed large API-based models मानक बन गए हैं
Coreweave, Lambda जैसे independent cloud खिलाड़ी NVIDIA के समर्थन के बावजूद आर्थिक व्यवहार्यता की कमी, profitability में गिरावट, और मांग की सुस्ती के कारण संकट में हैं
GPU rental pricing तेज़ी से गिरकर $1.99 प्रति घंटा तक आ गई है, ROE 10% से नीचे है, और यह स्तर टिकाऊ नहीं है

hyperscaler की custom chip development strategy

Google TPU पहले ही 6वीं पीढ़ी तक पहुँच चुका है, और Gemini-Ultra, DeepMind, YouTube जैसे मॉडलों में उसने NVIDIA को पूरी तरह बदल दिया है
Amazon के Trainium और Inferentia Anthropic के साथ सहयोग के जरिए large-model inference और training को बदल रहे हैं, और CUDA के बिना चलने वाला Neuron SDK भी दे रहे हैं
Microsoft का Maia accelerator और Cobalt CPU internal AI workloads में इस्तेमाल हो रहे हैं, और Triton-based SDK CUDA के विकल्प की संभावना बढ़ाता है
Meta अपने MTIA chip के जरिए Instagram और WhatsApp के AI features को इन-हाउस चला रही है, और Llama 3.1 की कुछ training भी अपने chip-based सिस्टम पर कर रही है
यह रुझान inference-केंद्रित AI market structure के लिए अधिक उपयुक्त है, और आगे चलकर GPU-based inference के custom chips, यहाँ तक कि CPU-based solutions से पीछे छूटने की संभावना है

system-केंद्रित संरचना की ओर बदलाव और NVIDIA की सीमाएँ

hyperscalers अब single-chip performance से ज़्यादा पूरे system optimization पर ध्यान दे रहे हैं
Google छोटे TPU की बड़ी संख्या को जोड़कर, अपने optical network (Apollo) और torus network topology की मदद से power consumption और latency को न्यूनतम कर रहा है
Microsoft ने fiber network और ColorZ transceiver बनाकर multi-datacenter training की क्षमता हासिल की है, और NVIDIA की तुलना में कम लागत पर उच्च-प्रदर्शन infrastructure तैयार किया है
इसके चलते कई छोटे datacenter को network से जोड़कर training करने वाली distributed संरचना मुख्यधारा बनती जा रही है
power constraints और infrastructure expansion limits को पार करने के लिए देश-स्तरीय datacenter interconnection की कोशिशें चल रही हैं (जैसे Microsoft का Three Mile Island restart, AWS का nuclear power plant acquisition)

NVIDIA की hardware·software प्रतिक्रिया और संरचनात्मक कठिनाइयाँ

NVIDIA GB200 server, Spectrum-X, DCGM, RAS आदि के जरिए जवाब देने की कोशिश कर रही है
InfiniBand-based network design बड़े cluster में कमजोर पड़ता है, और fault tolerance design भी अपर्याप्त है
Google का Pathways, Microsoft का Singularity आदि इन-हाउस fault-tolerant systems और GPU memory error detection में मज़बूत हैं
Kubernetes-आधारित NVIDIA BaseCommand, hyperscaler के Borg, MegaScaler आदि की तुलना में scalability और integration में पीछे है
cooling systems में देर से प्रवेश करने वाले खिलाड़ी के रूप में NVIDIA, Google की तुलना में power efficiency, lifespan, और space efficiency तीनों में पीछे है (उदा.: Google PUE 1.1 vs NVIDIA 1.4+)

निष्कर्ष

NVIDIA के पास अभी भी मज़बूत GPU performance है, लेकिन system optimization, infrastructure integration, और cost efficiency में वह hyperscalers से पीछे रहने वाली संरचनात्मक सीमाओं का सामना कर रही है
hyperscalers पहले ही chip से लेकर infrastructure और software तक vertical integration पूरा कर चुके हैं, जिससे पूर्ण प्रतिस्थापन की संभावना बन गई है
NVIDIA अगर पुरानी GPU-केंद्रित strategy से आगे बढ़कर पूरे system में innovation नहीं करती, तो भविष्य के AI computing बाज़ार में सतत leadership बनाए रखना उसके लिए कठिन हो सकता है

3 टिप्पणियां

kandk 2025-04-24

Google Tensor, Tesla Dojo, और AMD की वजह से Nvidia का stock नहीं खरीदने वाला एक व्यक्ति..

kimjoin2 2025-04-24

मुझे भी "हाइपरस्केलर के कस्टम चिप्स" के नुकसान जानने की जिज्ञासा है।
क्योंकि ऐसा लगता है मानो उन्हें हर मायने में ज़्यादा बेहतर बताया जा रहा हो।

GN⁺ 2025-04-24

Hacker News राय

यह एक और लेख है जो इस धारणा पर आधारित है कि जब Nvidia कुछ नहीं कर रही होगी, तब प्रतिस्पर्धी अचानक सफल होकर Nvidia के लिए खतरा बन जाएंगे
- Nvidia को लेकर निराशावादी लोग कभी न कभी सही साबित हो सकते हैं, लेकिन अब तक वे कई बार गलत साबित हुए हैं
इस साल Marvell के शेयर 50% से अधिक गिरने के बावजूद, Nvidia के GPU की मांग अब भी मजबूत है
- यह जोर दिया गया है कि cloud जो सुविधाएँ देता है, उन्हें GPU प्रतिस्थापित नहीं कर सकते
- Jensen के इस विज़न से सहमति है कि Nvidia 10 ट्रिलियन डॉलर की कंपनी बनेगी
- यह भी उल्लेख है कि Nvidia AI phone, LLM प्रतिस्पर्धी सेवाएँ, AI PC, self-driving car, robot आदि लॉन्च कर सकती है
- जैसे Warren Buffet ने Google और Apple में निवेश न करने का अफसोस किया था, वैसे ही अभी भी वैसी ही स्थिति बन रही है
यह राय है कि services Nvidia की रक्षा करेंगी
- CUDA, Infiniband, NGC, NVLink आदि के जरिए वह ecosystem का मालिक है, और AI Foundry जैसे अतिरिक्त applications के माध्यम से उसे और विस्तार करने की जरूरत है
- custom design और GPU project consulting के जरिए बाजार धीमा होने पर भी राजस्व कमाया जा सकता है
यह राय है कि Nvidia की रणनीतिक स्थिति को कम करके आंका जा रहा है
- Nvidia को hardware game में हमेशा जीतते रहना जरूरी नहीं है, क्योंकि वह पूरा AI stack बना रही है
- hardware, networking, software, model और developer tools को समग्र रूप से देने वाली वह एकमात्र कंपनी है
- Nvidia एक integrated platform बना रही है, और यही उद्योग मानक बनेगा
यह राय भी है कि AMD ने Nvidia के साथ गुप्त समझौता किया है और जानबूझकर ऐसी स्थिति बनाई है
- Nvidia, TSMC में Apple के साथ विशेषाधिकार वाली स्थिति साझा कर रही है
Nvidia अब functional monopoly से ऐसी स्थिति में जा रही है जहाँ उसे प्रतिस्पर्धा करनी पड़ेगी
- यह आदर्श नहीं है, लेकिन घातक झटका भी नहीं है
यह राय है कि H100 पीढ़ी अपनी सबसे ऊँची pricing power दिखाती है, और विकल्पों की कमी के कारण आगे भी राजस्व लाती रहेगी
- इसकी दीर्घकालिक टिकाऊपन को लेकर सवाल हैं
- hyperscaler AI मांग को समेकित कर रहे हैं और प्रतिस्पर्धी chip development पर काम कर रहे हैं
- बड़ी GPU farm बनाने वाली दूसरी कंपनियाँ भी मौजूद हैं
यह राय है कि Nvidia के GPU driver की quality control गिर रही है
- लेकिन उत्पाद कई वर्षों से sold out हैं, इसलिए यह कहना मुश्किल है कि quality control खराब है