- AI बूम के बाद Nvidia GPU की मांग तेज़ी से बढ़ी है, और नई Blackwell पीढ़ी का यह ऐलान बड़े मॉडल की training और deployment के लिए आपूर्तिकर्ता के रूप में उसकी स्थिति को और मजबूत करने की कोशिश है
- पहला Blackwell चिप GB200 इस साल के अंत तक शिप होने वाला है, और AI performance Hopper पीढ़ी के H100 के 4 petaflops से बढ़कर 20 petaflops हो गई है
- GB200 में दो B200 Blackwell GPU और Arm-आधारित Grace CPU को जोड़ा गया है, और Amazon, Google, Microsoft, Oracle इसकी cloud access बेचेंगे
- नया software NIM मौजूदा Nvidia GPU पर भी AI inference deployment को आसान बनाता है, और Nvidia enterprise license की कीमत प्रति GPU सालाना 4,500 डॉलर है
- Nvidia सिर्फ चिप बेचने से आगे बढ़कर software platform रणनीति को मजबूत कर रहा है, ताकि ग्राहक प्रतिस्पर्धी चिप्स की बजाय Nvidia ecosystem में बने रहें
Blackwell की घोषणा और AI आपूर्तिकर्ता के रूप में Nvidia की स्थिति
- Nvidia ने 18 मार्च 2024 को San Jose डेवलपर कॉन्फ्रेंस में नई AI चिप पीढ़ी और AI मॉडल चलाने के लिए software की घोषणा की
- घोषणा के समय भी कंपनियां और software vendor मौजूदा पीढ़ी के Hopper H100 और इसी तरह के चिप्स हासिल करने की होड़ में थीं
- Jensen Huang ने कहा, “Hopper शानदार है, लेकिन हमें और बड़ा GPU चाहिए”
- 2022 के अंत में OpenAI के ChatGPT द्वारा AI बूम शुरू होने के बाद Nvidia का शेयर 5 गुना बढ़ा है, और कुल revenue 3 गुना से अधिक हो गया है
- Microsoft और Meta जैसी कंपनियों ने Nvidia के हाई-एंड server GPU खरीदने पर अरबों डॉलर खर्च किए हैं
- सोमवार के after-hours trading में Nvidia का शेयर 1% से अधिक गिरा
-
GB200 की संरचना और प्रदर्शन
- नई AI graphics processor पीढ़ी का नाम Blackwell है, और पहला Blackwell चिप GB200 है
- Nvidia लगभग हर 2 साल में अपनी GPU architecture को अपडेट करता है और बड़ा performance jump देता है
- 2022 में घोषित Hopper architecture का इस्तेमाल H100 जैसे चिप्स में हुआ था, और पिछले 1 साल में जारी कई AI मॉडल Hopper-आधारित सिस्टम पर train किए गए
- Blackwell-आधारित GB200 की AI performance 20 petaflops है, जो H100 के 4 petaflops से अधिक है
- यह बढ़ी हुई compute performance AI कंपनियों को और बड़े तथा अधिक जटिल मॉडल train करने में मदद कर सकती है
- इस चिप में transformer engine शामिल है, जो ChatGPT के आधारभूत core technologies में से एक transformer-आधारित AI चलाने के लिए है
- Blackwell GPU का निर्माण TSMC करेगा, और इसमें अलग-अलग बनाए गए दो dies को जोड़कर एक चिप बनाया गया है
-
सर्वर और cloud उपलब्धता
- GB200 में दो B200 Blackwell GPU और एक Arm-आधारित Grace CPU को जोड़ा गया है
- Nvidia 72 Blackwell GPU और अन्य Nvidia components को जोड़कर पूरा server GB200 NVLink 2 भी उपलब्ध कराएगा
- Amazon, Google, Microsoft, Oracle cloud service के रूप में GB200 access बेचेंगे
- Amazon Web Services 20,000 GB200 चिप्स वाला server cluster बनाएगा
- यह सिस्टम 27 ट्रिलियन parameter model deploy कर सकता है, जो रिपोर्ट के अनुसार 1.7 ट्रिलियन parameters वाले GPT-4 से कहीं बड़ा है
- Nvidia ने GB200 या इसका उपयोग करने वाले सिस्टम की कीमत सार्वजनिक नहीं की
- analyst estimates के अनुसार Hopper-आधारित H100 की कीमत प्रति चिप 25,000~40,000 डॉलर है, जबकि पूरा सिस्टम 200,000 डॉलर तक का हो सकता है
- Nvidia B200 graphics processor को पूरे server rack घेरने वाले complete system के रूप में भी बेचेगा
NIM और Nvidia की platform रणनीति
- Nvidia ने Nvidia enterprise software subscription में NIM(Nvidia Inference Microservice) नाम का नया product जोड़ा है
- NIM inference यानी AI software चलाने की प्रक्रिया को मौजूदा Nvidia GPU पर और आसान बनाता है
- inference की compute demand नए AI model की शुरुआती training की तुलना में कम होती है
- इसका उद्देश्य कंपनियों के पास पहले से मौजूद करोड़ों Nvidia GPU का उपयोग जारी रखना है
- OpenAI जैसी कंपनियों से AI output को service के रूप में खरीदने के बजाय, अपने खुद के AI model चलाना चाहने वाली कंपनियां NIM की मुख्य target हैं
- Nvidia-आधारित server खरीदने वाले ग्राहकों को Nvidia enterprise subscription से जोड़ना इसकी मुख्य रणनीति है
- license fee प्रति GPU सालाना 4,500 डॉलर है
-
मॉडल deployment और डेवलपर उपयोग का तरीका
- Nvidia, Microsoft और Hugging Face जैसी AI कंपनियों के साथ मिलकर AI models को सभी compatible Nvidia chips पर चलने लायक optimize करेगा
- developer, NIM का उपयोग करके लंबी setup process के बिना अपने server या cloud-आधारित Nvidia server पर models को प्रभावी ढंग से चला सकते हैं
- Manuvir Das ने कहा कि यह मौजूदा code में OpenAI को call करने वाली लाइन को Nvidia से मिले NIM की ओर point करने के लिए एक लाइन बदलने जैसा है
- Nvidia के अनुसार यह software केवल cloud server ही नहीं, बल्कि GPU वाले laptop पर भी AI चलाने में मदद करता है
-
चिप कंपनी से software platform तक
- NIM ऐसा product है जो ग्राहकों को प्रतिस्पर्धी chips की जगह Nvidia chips पर बने रहने का अतिरिक्त कारण देता है
- Nvidia केवल एक mercenary-style chip supplier बनकर नहीं रहना चाहता, बल्कि ऐसा platform provider बन रहा है जिस पर दूसरी कंपनियां software बना सकें
- Huang ने कहा, “Blackwell किसी chip का नहीं, बल्कि एक platform का नाम है”
- Das ने कहा कि पहले GPU ही बेचने योग्य commercial product था और software का काम GPU का उपयोग आसान बनाना था, लेकिन अब Nvidia के पास commercial software business भी है
2 टिप्पणियां
यह CNET वीडियो की सामग्री का corely.ai द्वारा तैयार किया गया सारांश है (https://www.youtube.com/watch?v=bMIRhOXAjYk)
Hacker News की राय
कीनोट के现场 और कॉन्फ्रेंस की सामग्री देखें तो Nvidia वही कर रही है जो अच्छी hardware कंपनियां अक्सर करती हैं: stack में ऊपर जा रही है
जाहिर है, वे बड़े hardware भी बनाते रहेंगे, लेकिन मुख्य बात यह है कि वे NIM बना रहे हैं, जो LLM के लिए Docker जैसा है। वे एक container system बना रहे हैं जिसे डाउनलोड या खरीदा जा सके और Nvidia hardware पर आसानी से deploy किया जा सके, इसलिए यह देखना दिलचस्प होगा कि इसका AI startups पर क्या असर पड़ेगा
बड़ा खतरा तब है जब business की core functionality mainstream software में शामिल हो जाए। जैसे आजकल iPhone background removal कर देता है, जिससे paid background removal की मांग खत्म हो गई है; उसी तरह अगर कोई AI product मौजूदा work apps की सिर्फ एक feature के रूप में आसानी से शामिल हो सकता है, तो वह business उधार के समय पर चल रहा है
क्या “infrastructure” देने वाले AI-as-a-Service startups जैसी चीज़?
“Nvidia एक mercenary-style chip supplier से Microsoft या Apple की तरह ऐसे platform provider के करीब जा रही है, जिस पर दूसरी कंपनियां software बना सकें” — growth के नजरिए से यह दिशा समझ आती है
अगर वह AI के लिए platform service बनती है, तो Nvidia के लिए ज्यादा profitable होगा, लेकिन AWS और Microsoft जैसी existing partnerships के साथ balance बनाना मुश्किल है। आगे acquisitions या competition के लिए custom solutions आते दिखते हैं, और Nvidia के लिए अच्छी बात यह है कि AI का काफी हिस्सा अभी भी CUDA पर निर्भर है, इसलिए आगे की कहानी दिलचस्प होगी
उसके पास customers को एक तरफ धकेलने जितना leverage नहीं है, और सिर्फ GPU बेचना आसान होगा, लेकिन लगता है उसे पता है कि sophisticated customers दूसरे chips पर migrate कर सकते हैं, जबकि platform छोटे customers को बांधे रखने का असर रखता है
अगर Nvidia चाहे तो ऐसे मुकदमों से बचने के लिए voluntarily standard खोल सकती है, और निजी तौर पर मुझे लगता है कि यह समझदारी होगी, लेकिन इतिहास में लगभग हर कंपनी ने voluntary opening के बजाय lawsuit वाला रास्ता चुना है
अगर AWS neural networks के लिए अपना hardware+software solution बना भी ले, तो CUDA platform से निकलने में कई साल, शायद दशकों लग सकते हैं
Microsoft की OpenAI से भी partnership है, Mistral से भी। आज की सुविधा भविष्य में भी बनी रहेगी, इसकी कोई guarantee नहीं, और Nvidia यह अच्छी तरह जानती है
FP4 क्या है, 4-bit floating point? अगर हां, तो Hopper की तुलना में 30x वाला comparison graph [0] थोड़ा misleading था
[0] https://youtu.be/Y2F8yisiS6E?t=4698
कुछ लोग इसे 4-bit LLMs पर इस paper [1] से जोड़कर देख रहे हैं, और authors में Nvidia का एक कर्मचारी भी है
1: https://arxiv.org/pdf/2310.16836.pdf
अगर आपके पास FP4 में बेहद powerful gear है, तो आप उसे इस्तेमाल करेंगे और accuracy loss को minimize करते हुए speed gains पा सकते हैं। इसमें marketing वाली creativity तो है, लेकिन actual usage मापने के metric के रूप में यह पूरी तरह गलत नहीं है
इस पर पहले की post में भी चर्चा हुई थी: https://news.ycombinator.com/item?id=37930663
असल में यह थोड़ा improved process node पर Hopper के दो chips को साथ-साथ रखने जैसा है, इसलिए चौंकाने वाली बात नहीं; और अगर उन नए features या बढ़ी हुई memory का इस्तेमाल नहीं होता, तो लगभग 2.5x ज्यादा plausible लगता है
कुछ साल पहले Bright Cluster Manager acquire किया था; अगला acquisition target कौन होगा? लगता है वे customers को पूरी stack देना चाहते हैं
दो अंकों वाले petaflops का mass production वाला दौर है
“मानव मस्तिष्क की relevant activity को replicate करने के लिए जरूरी compute power को विभिन्न authors ने 10^12 से 10^28 FLOPS तक estimate किया है।” petaflop 10^15 है। यह पागल कर देने वाला दौर है
Softbank के Masayoshi Son के लिए अफसोस की बात हुई। 2019 में उनके पास Nvidia में 3.1 billion डॉलर की हिस्सेदारी थी, जो आज 19 गुना होकर 60 billion डॉलर होती
वे AI और robotics को लेकर बेहद optimistic थे, लेकिन अपने समय से बहुत आगे थे
यहाँ “platform company” से मतलब multi-chip है क्या?
एक ही die में इतने सारे transistors ठूँसना अब अव्यावहारिक होता जा रहा है, इसलिए यह तार्किक लगता है
proprietary chassis, proprietary cluster interconnect, और proprietary middleware पर चलने वाले advanced applications को बाँधकर रखने की दिशा है। Mellanox acquisition याद आती है
hardware में GPU, GPU-GPU fabric NVLINK, CPU, NIC, network fabric InfiniBand, और switches शामिल हैं। इसके साथ CUDA, Riva, Megatron, Omniverse जैसे कई software stack layers को लोग इसके ऊपर बनाएँ, इसमें वे योगदान दे रहे हैं और इसे आगे बढ़ा रहे हैं
कल्पना करें कि AWS दुनिया के सारे computers भी बेचता हो। अब संरचना ऐसी हो रही है कि आप उन्हें सिर्फ वहीं से rent कर सकेंगे
सोच रहा हूँ कि industry LLM की scalability problem से निपटना कब शुरू करेगी। Nvidia के लिए बड़े और बेहतर GPU लगातार लाना स्वाभाविक रूप से फ़ायदेमंद है, लेकिन साझा हित क्या है?
यह पहले ही साबित हो चुका है कि पर्याप्त resources हों तो अच्छा language model संभव है। अब challenge यह है कि इन models को ऐसे solutions में डालना, जिनके लिए average use case में कल्पना से परे मात्रा में resources न चाहिए हों
यह सिर्फ AI की समस्या नहीं, बल्कि हमारे इस्तेमाल के हर software की समस्या है। optimize करने और छोटे systems के हिसाब से fit करने की कोशिश करने वाले समूह बस दो तरह के हैं: passionate programmers, और वे लोग जिन्हें यह काम करने के पैसे मिलते हैं। जैसे mobile phone manufacturers की software teams
after-hours trading में stock price बदला नहीं। बहुत लोगों को उम्मीद थी कि बड़ी announcement से बड़ा उछाल आएगा
बस उसका stock सच में हास्यास्पद हद तक overvalued है
फिलहाल Microsoft और OpenAI इस chip का इस्तेमाल करेंगे, लेकिन long term में वे इसे देखकर अपने chips बनाएँगे और Nvidia पर dependence घटाने की कोशिश करेंगे, और contract खत्म होने पर switch करने के लिए तैयार रहेंगे
दावा है कि power consumption 25x घटा दिया गया है, लेकिन क्या यह सही हो सकता है? यह number कहाँ से आया, किसी को पता है?
हालांकि मुझे लगता है कि typo भी हो सकता है। शायद यह liquid cooling बनाम air cooling तक शामिल करके किया गया comparison होगा
[1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
शायद 5x performance improvement से efficiency gain और अब 1.7 trillion नहीं बल्कि 27 trillion parameters इस्तेमाल कर पाने की वजह से वही workload 1/25 समय में खत्म हो सकता है, इसलिए इसे power consumption reduction कहा गया होगा। जैसा कहा, मुझे शक है कि maximum power draw खुद 25x कम हुआ है