- NVIDIA ने AI बूम और GPU एकाधिकार के दम पर तेज़ी से वृद्धि की, लेकिन cloud दिग्गजों के इन-हाउस chip development और vertical integration strategy की वजह से उसकी दीर्घकालिक स्थिति पर खतरा मंडरा रहा है
- startup और independent cloud providers की GPU मांग घट रही है, और NVIDIA पर उच्च निर्भरता वाले business model की profitability में गिरावट अब साफ़ दिख रही है
- Google, Amazon, Microsoft, Meta आदि high-performance custom chips और vertically integrated systems के जरिए NVIDIA पर अपनी निर्भरता तेज़ी से कम कर रहे हैं
- distributed infrastructure और cluster interconnect-based optimization AI training के मुख्य तत्व बनते जा रहे हैं, और यह NVIDIA के लिए जवाब देना कठिन एक संरचनात्मक बदलाव है
- NVIDIA hardware और software सुधारने की कोशिश कर रही है, लेकिन hyperscaler की गहरी vertical integration strategy के मुकाबले उसकी competitive edge कमजोर पड़ने की आशंका है
NVIDIA के प्रभुत्व से संकट तक: AI computing बाज़ार में उथल-पुथल
- NVIDIA ने AI बूम, GPU एकाधिकार, और DGX server सप्लाई के सहारे तेज़ी से बढ़ते हुए 13 महीनों में market cap में $2 trillion की बढ़ोतरी जैसी ऐतिहासिक उपलब्धि हासिल की
- लेकिन H100 generation profitability की चोटी थी, और उसके बाद आई B200 series के साथ profitability में गिरावट और manufacturing cost में बढ़ोतरी भी आई
- लंबी अवधि में hyperscalers मांग को समेकित कर रहे हैं, और custom chip development से अपनी प्रतिस्पर्धात्मक बढ़त बना रहे हैं, जिससे NVIDIA की एकाधिकार संरचना हिल रही है
AI मांग का पुनर्गठन और startup बाज़ार का सिमटना
- NVIDIA के datacenter demand का आधे से अधिक हिस्सा Google, Microsoft, Amazon, Meta जैसे hyperscalers से आता है
- बाकी मांग startup, VC, और mid-size cloud कंपनियों से आती थी, लेकिन GPU की ज़रूरत से ज़्यादा खरीद के कारण ROI कम है, और GPU rental business घाटे में है
- BloombergGPT जैसे छोटे custom models बाज़ार में संघर्ष कर रहे हैं, जबकि closed large API-based models मानक बन गए हैं
- Coreweave, Lambda जैसे independent cloud खिलाड़ी NVIDIA के समर्थन के बावजूद आर्थिक व्यवहार्यता की कमी, profitability में गिरावट, और मांग की सुस्ती के कारण संकट में हैं
- GPU rental pricing तेज़ी से गिरकर $1.99 प्रति घंटा तक आ गई है, ROE 10% से नीचे है, और यह स्तर टिकाऊ नहीं है
hyperscaler की custom chip development strategy
- Google TPU पहले ही 6वीं पीढ़ी तक पहुँच चुका है, और Gemini-Ultra, DeepMind, YouTube जैसे मॉडलों में उसने NVIDIA को पूरी तरह बदल दिया है
- Amazon के Trainium और Inferentia Anthropic के साथ सहयोग के जरिए large-model inference और training को बदल रहे हैं, और CUDA के बिना चलने वाला Neuron SDK भी दे रहे हैं
- Microsoft का Maia accelerator और Cobalt CPU internal AI workloads में इस्तेमाल हो रहे हैं, और Triton-based SDK CUDA के विकल्प की संभावना बढ़ाता है
- Meta अपने MTIA chip के जरिए Instagram और WhatsApp के AI features को इन-हाउस चला रही है, और Llama 3.1 की कुछ training भी अपने chip-based सिस्टम पर कर रही है
- यह रुझान inference-केंद्रित AI market structure के लिए अधिक उपयुक्त है, और आगे चलकर GPU-based inference के custom chips, यहाँ तक कि CPU-based solutions से पीछे छूटने की संभावना है
system-केंद्रित संरचना की ओर बदलाव और NVIDIA की सीमाएँ
- hyperscalers अब single-chip performance से ज़्यादा पूरे system optimization पर ध्यान दे रहे हैं
- Google छोटे TPU की बड़ी संख्या को जोड़कर, अपने optical network (Apollo) और torus network topology की मदद से power consumption और latency को न्यूनतम कर रहा है
- Microsoft ने fiber network और ColorZ transceiver बनाकर multi-datacenter training की क्षमता हासिल की है, और NVIDIA की तुलना में कम लागत पर उच्च-प्रदर्शन infrastructure तैयार किया है
- इसके चलते कई छोटे datacenter को network से जोड़कर training करने वाली distributed संरचना मुख्यधारा बनती जा रही है
- power constraints और infrastructure expansion limits को पार करने के लिए देश-स्तरीय datacenter interconnection की कोशिशें चल रही हैं (जैसे Microsoft का Three Mile Island restart, AWS का nuclear power plant acquisition)
NVIDIA की hardware·software प्रतिक्रिया और संरचनात्मक कठिनाइयाँ
- NVIDIA GB200 server, Spectrum-X, DCGM, RAS आदि के जरिए जवाब देने की कोशिश कर रही है
- InfiniBand-based network design बड़े cluster में कमजोर पड़ता है, और fault tolerance design भी अपर्याप्त है
- Google का Pathways, Microsoft का Singularity आदि इन-हाउस fault-tolerant systems और GPU memory error detection में मज़बूत हैं
- Kubernetes-आधारित NVIDIA BaseCommand, hyperscaler के Borg, MegaScaler आदि की तुलना में scalability और integration में पीछे है
- cooling systems में देर से प्रवेश करने वाले खिलाड़ी के रूप में NVIDIA, Google की तुलना में power efficiency, lifespan, और space efficiency तीनों में पीछे है (उदा.: Google PUE 1.1 vs NVIDIA 1.4+)
निष्कर्ष
- NVIDIA के पास अभी भी मज़बूत GPU performance है, लेकिन system optimization, infrastructure integration, और cost efficiency में वह hyperscalers से पीछे रहने वाली संरचनात्मक सीमाओं का सामना कर रही है
- hyperscalers पहले ही chip से लेकर infrastructure और software तक vertical integration पूरा कर चुके हैं, जिससे पूर्ण प्रतिस्थापन की संभावना बन गई है
- NVIDIA अगर पुरानी GPU-केंद्रित strategy से आगे बढ़कर पूरे system में innovation नहीं करती, तो भविष्य के AI computing बाज़ार में सतत leadership बनाए रखना उसके लिए कठिन हो सकता है
3 टिप्पणियां
Google Tensor, Tesla Dojo, और AMD की वजह से Nvidia का stock नहीं खरीदने वाला एक व्यक्ति..
मुझे भी "हाइपरस्केलर के कस्टम चिप्स" के नुकसान जानने की जिज्ञासा है।
क्योंकि ऐसा लगता है मानो उन्हें हर मायने में ज़्यादा बेहतर बताया जा रहा हो।
Hacker News राय
यह एक और लेख है जो इस धारणा पर आधारित है कि जब Nvidia कुछ नहीं कर रही होगी, तब प्रतिस्पर्धी अचानक सफल होकर Nvidia के लिए खतरा बन जाएंगे
इस साल Marvell के शेयर 50% से अधिक गिरने के बावजूद, Nvidia के GPU की मांग अब भी मजबूत है
यह राय है कि services Nvidia की रक्षा करेंगी
यह राय है कि Nvidia की रणनीतिक स्थिति को कम करके आंका जा रहा है
यह राय भी है कि AMD ने Nvidia के साथ गुप्त समझौता किया है और जानबूझकर ऐसी स्थिति बनाई है
Nvidia अब functional monopoly से ऐसी स्थिति में जा रही है जहाँ उसे प्रतिस्पर्धा करनी पड़ेगी
यह राय है कि H100 पीढ़ी अपनी सबसे ऊँची pricing power दिखाती है, और विकल्पों की कमी के कारण आगे भी राजस्व लाती रहेगी
यह राय है कि Nvidia के GPU driver की quality control गिर रही है