Nvidia के Jensen Huang ने नया AI चिप Blackwell पेश किया: “हमें और बड़ा GPU चाहिए”

(cnbc.com)

2 पॉइंट द्वारा GN⁺ 2024-03-19 | 2 टिप्पणियां | WhatsApp पर शेयर करें

AI बूम के बाद Nvidia GPU की मांग तेज़ी से बढ़ी है, और नई Blackwell पीढ़ी का यह ऐलान बड़े मॉडल की training और deployment के लिए आपूर्तिकर्ता के रूप में उसकी स्थिति को और मजबूत करने की कोशिश है
पहला Blackwell चिप GB200 इस साल के अंत तक शिप होने वाला है, और AI performance Hopper पीढ़ी के H100 के 4 petaflops से बढ़कर 20 petaflops हो गई है
GB200 में दो B200 Blackwell GPU और Arm-आधारित Grace CPU को जोड़ा गया है, और Amazon, Google, Microsoft, Oracle इसकी cloud access बेचेंगे
नया software NIM मौजूदा Nvidia GPU पर भी AI inference deployment को आसान बनाता है, और Nvidia enterprise license की कीमत प्रति GPU सालाना 4,500 डॉलर है
Nvidia सिर्फ चिप बेचने से आगे बढ़कर software platform रणनीति को मजबूत कर रहा है, ताकि ग्राहक प्रतिस्पर्धी चिप्स की बजाय Nvidia ecosystem में बने रहें

Blackwell की घोषणा और AI आपूर्तिकर्ता के रूप में Nvidia की स्थिति

Nvidia ने 18 मार्च 2024 को San Jose डेवलपर कॉन्फ्रेंस में नई AI चिप पीढ़ी और AI मॉडल चलाने के लिए software की घोषणा की
घोषणा के समय भी कंपनियां और software vendor मौजूदा पीढ़ी के Hopper H100 और इसी तरह के चिप्स हासिल करने की होड़ में थीं
Jensen Huang ने कहा, “Hopper शानदार है, लेकिन हमें और बड़ा GPU चाहिए”
2022 के अंत में OpenAI के ChatGPT द्वारा AI बूम शुरू होने के बाद Nvidia का शेयर 5 गुना बढ़ा है, और कुल revenue 3 गुना से अधिक हो गया है
- Microsoft और Meta जैसी कंपनियों ने Nvidia के हाई-एंड server GPU खरीदने पर अरबों डॉलर खर्च किए हैं
- सोमवार के after-hours trading में Nvidia का शेयर 1% से अधिक गिरा
GB200 की संरचना और प्रदर्शन
- नई AI graphics processor पीढ़ी का नाम Blackwell है, और पहला Blackwell चिप GB200 है
- Nvidia लगभग हर 2 साल में अपनी GPU architecture को अपडेट करता है और बड़ा performance jump देता है
- 2022 में घोषित Hopper architecture का इस्तेमाल H100 जैसे चिप्स में हुआ था, और पिछले 1 साल में जारी कई AI मॉडल Hopper-आधारित सिस्टम पर train किए गए
- Blackwell-आधारित GB200 की AI performance 20 petaflops है, जो H100 के 4 petaflops से अधिक है
- यह बढ़ी हुई compute performance AI कंपनियों को और बड़े तथा अधिक जटिल मॉडल train करने में मदद कर सकती है
- इस चिप में transformer engine शामिल है, जो ChatGPT के आधारभूत core technologies में से एक transformer-आधारित AI चलाने के लिए है
- Blackwell GPU का निर्माण TSMC करेगा, और इसमें अलग-अलग बनाए गए दो dies को जोड़कर एक चिप बनाया गया है
सर्वर और cloud उपलब्धता
- GB200 में दो B200 Blackwell GPU और एक Arm-आधारित Grace CPU को जोड़ा गया है
- Nvidia 72 Blackwell GPU और अन्य Nvidia components को जोड़कर पूरा server GB200 NVLink 2 भी उपलब्ध कराएगा
- Amazon, Google, Microsoft, Oracle cloud service के रूप में GB200 access बेचेंगे
- Amazon Web Services 20,000 GB200 चिप्स वाला server cluster बनाएगा
- यह सिस्टम 27 ट्रिलियन parameter model deploy कर सकता है, जो रिपोर्ट के अनुसार 1.7 ट्रिलियन parameters वाले GPT-4 से कहीं बड़ा है
- Nvidia ने GB200 या इसका उपयोग करने वाले सिस्टम की कीमत सार्वजनिक नहीं की
- analyst estimates के अनुसार Hopper-आधारित H100 की कीमत प्रति चिप 25,000~40,000 डॉलर है, जबकि पूरा सिस्टम 200,000 डॉलर तक का हो सकता है
- Nvidia B200 graphics processor को पूरे server rack घेरने वाले complete system के रूप में भी बेचेगा

NIM और Nvidia की platform रणनीति

Nvidia ने Nvidia enterprise software subscription में NIM(Nvidia Inference Microservice) नाम का नया product जोड़ा है
NIM inference यानी AI software चलाने की प्रक्रिया को मौजूदा Nvidia GPU पर और आसान बनाता है
- inference की compute demand नए AI model की शुरुआती training की तुलना में कम होती है
- इसका उद्देश्य कंपनियों के पास पहले से मौजूद करोड़ों Nvidia GPU का उपयोग जारी रखना है
OpenAI जैसी कंपनियों से AI output को service के रूप में खरीदने के बजाय, अपने खुद के AI model चलाना चाहने वाली कंपनियां NIM की मुख्य target हैं
Nvidia-आधारित server खरीदने वाले ग्राहकों को Nvidia enterprise subscription से जोड़ना इसकी मुख्य रणनीति है
- license fee प्रति GPU सालाना 4,500 डॉलर है
मॉडल deployment और डेवलपर उपयोग का तरीका
- Nvidia, Microsoft और Hugging Face जैसी AI कंपनियों के साथ मिलकर AI models को सभी compatible Nvidia chips पर चलने लायक optimize करेगा
- developer, NIM का उपयोग करके लंबी setup process के बिना अपने server या cloud-आधारित Nvidia server पर models को प्रभावी ढंग से चला सकते हैं
- Manuvir Das ने कहा कि यह मौजूदा code में OpenAI को call करने वाली लाइन को Nvidia से मिले NIM की ओर point करने के लिए एक लाइन बदलने जैसा है
- Nvidia के अनुसार यह software केवल cloud server ही नहीं, बल्कि GPU वाले laptop पर भी AI चलाने में मदद करता है
चिप कंपनी से software platform तक
- NIM ऐसा product है जो ग्राहकों को प्रतिस्पर्धी chips की जगह Nvidia chips पर बने रहने का अतिरिक्त कारण देता है
- Nvidia केवल एक mercenary-style chip supplier बनकर नहीं रहना चाहता, बल्कि ऐसा platform provider बन रहा है जिस पर दूसरी कंपनियां software बना सकें
- Huang ने कहा, “Blackwell किसी chip का नहीं, बल्कि एक platform का नाम है”
- Das ने कहा कि पहले GPU ही बेचने योग्य commercial product था और software का काम GPU का उपयोग आसान बनाना था, लेकिन अब Nvidia के पास commercial software business भी है

2 टिप्पणियां

corelyai 2024-03-20

Nvidia डेवलपर कॉन्फ्रेंस: Blackwell चिप और भविष्य की तकनीकों का परिचय

Nvidia ने Blackwell पेश किया, जो एक इनोवेटिव प्लेटफ़ॉर्म है जिसमें 28 अरब ट्रांजिस्टर वाले दो dies को पास-पास रखकर एक विशाल चिप बनाई गई है, जो प्रति सेकंड 10TB डेटा ट्रांसफर कर सकती है, और Hopper के साथ form-fit function compatibility प्रदान करती है।
50 अरब ट्रांजिस्टर से लैस Blackwell का MVY link switch GPUs के बीच सबसे तेज़ संचार संभव बनाता है, जिससे एक ही rack में exaflops AI system बनाया जा सकता है।
Nvidia ने घोषणा की कि वह AWS, Google, Oracle और Microsoft के साथ साझेदारी कर विभिन्न AI services को तेज़ करेगा और Nvidia technology को उन platforms में integrate करेगा।
Nvidia ने एक AI foundry भी पेश की, जो generative AI solutions और AI factory निर्माण के लिए SAP, ServiceNow, Cohesity, Snowflake और Dell जैसी कंपनियों के साथ काम करती है।
Omniverse Cloud को Vision Pro पर stream करके विभिन्न design tools के बीच seamless integration और workflow को support किया जाता है, और Nvidia ने AI-आधारित robots के लिए Project Groot, Isaac Lab और Osmo का परिचय दिया।
Jetson से संचालित Disney का bdx robot विशेष रूप से दिखाई दिया और Isaac Sim में अपनी learning capabilities का प्रदर्शन किया।

यह CNET वीडियो की सामग्री का corely.ai द्वारा तैयार किया गया सारांश है (https://www.youtube.com/watch?v=bMIRhOXAjYk)

GN⁺ 2024-03-19

Hacker News की राय

कीनोट के现场 और कॉन्फ्रेंस की सामग्री देखें तो Nvidia वही कर रही है जो अच्छी hardware कंपनियां अक्सर करती हैं: stack में ऊपर जा रही है
जाहिर है, वे बड़े hardware भी बनाते रहेंगे, लेकिन मुख्य बात यह है कि वे NIM बना रहे हैं, जो LLM के लिए Docker जैसा है। वे एक container system बना रहे हैं जिसे डाउनलोड या खरीदा जा सके और Nvidia hardware पर आसानी से deploy किया जा सके, इसलिए यह देखना दिलचस्प होगा कि इसका AI startups पर क्या असर पड़ेगा
- consumer-facing AI के ज्यादातर हिस्से पर शायद खास असर नहीं पड़ेगा। क्योंकि UI और सुविधा पहले से ही बड़े selling points हैं
  बड़ा खतरा तब है जब business की core functionality mainstream software में शामिल हो जाए। जैसे आजकल iPhone background removal कर देता है, जिससे paid background removal की मांग खत्म हो गई है; उसी तरह अगर कोई AI product मौजूदा work apps की सिर्फ एक feature के रूप में आसानी से शामिल हो सकता है, तो वह business उधार के समय पर चल रहा है
- open source विकल्प भी है: https://github.com/geniusrise
- मैं AI field की हर चीज़ follow नहीं कर पा रहा हूं, इसलिए जिज्ञासा है कि यहां किस तरह के AI startup की बात सोची जा रही है
  क्या “infrastructure” देने वाले AI-as-a-Service startups जैसी चीज़?
“Nvidia एक mercenary-style chip supplier से Microsoft या Apple की तरह ऐसे platform provider के करीब जा रही है, जिस पर दूसरी कंपनियां software बना सकें” — growth के नजरिए से यह दिशा समझ आती है
अगर वह AI के लिए platform service बनती है, तो Nvidia के लिए ज्यादा profitable होगा, लेकिन AWS और Microsoft जैसी existing partnerships के साथ balance बनाना मुश्किल है। आगे acquisitions या competition के लिए custom solutions आते दिखते हैं, और Nvidia के लिए अच्छी बात यह है कि AI का काफी हिस्सा अभी भी CUDA पर निर्भर है, इसलिए आगे की कहानी दिलचस्प होगी
- Nvidia शायद ऐसी दुनिया की तैयारी कर रही है जहां उसके आधे customer यानी hyperscalers सिर्फ GPU और CUDA इस्तेमाल करें, और बाकी long-tail customers ज्यादा profitable upper platform इस्तेमाल करें
  उसके पास customers को एक तरफ धकेलने जितना leverage नहीं है, और सिर्फ GPU बेचना आसान होगा, लेकिन लगता है उसे पता है कि sophisticated customers दूसरे chips पर migrate कर सकते हैं, जबकि platform छोटे customers को बांधे रखने का असर रखता है
- आखिरकार antitrust lawsuit आएगा और CUDA standard खोलने की मांग होगी, फिर AMD competitor बनेगा — मुझे ऐसा लगता है
  अगर Nvidia चाहे तो ऐसे मुकदमों से बचने के लिए voluntarily standard खोल सकती है, और निजी तौर पर मुझे लगता है कि यह समझदारी होगी, लेकिन इतिहास में लगभग हर कंपनी ने voluntary opening के बजाय lawsuit वाला रास्ता चुना है
- AWS ARM को जोर से push कर रहा है, फिर भी लोग अभी भी भारी मात्रा में x86/x64 compute खरीदते हैं
  अगर AWS neural networks के लिए अपना hardware+software solution बना भी ले, तो CUDA platform से निकलने में कई साल, शायद दशकों लग सकते हैं
- अगर AMD/Intel GPU Nvidia जितने performant और widely used होते, तो Microsoft और AWS ने उनके साथ भी partnership की होती
  Microsoft की OpenAI से भी partnership है, Mistral से भी। आज की सुविधा भविष्य में भी बनी रहेगी, इसकी कोई guarantee नहीं, और Nvidia यह अच्छी तरह जानती है
FP4 क्या है, 4-bit floating point? अगर हां, तो Hopper की तुलना में 30x वाला comparison graph [0] थोड़ा misleading था
[0] https://youtu.be/Y2F8yisiS6E?t=4698
- FP4 4-bit floating point है, और 8-bit floating point से दोगुनी speed देता है। FP6 भी है, जो FP8 से computation में faster नहीं है, लेकिन 6-bit format की बेहतर memory bandwidth और cache usage का फायदा ले सकता है
  कुछ लोग इसे 4-bit LLMs पर इस paper [1] से जोड़कर देख रहे हैं, और authors में Nvidia का एक कर्मचारी भी है
  1: https://arxiv.org/pdf/2310.16836.pdf
- यह सिर्फ आंशिक रूप से misleading है। LLMs में FP4, FP8 की सिर्फ आधी usefulness नहीं रखता
  अगर आपके पास FP4 में बेहद powerful gear है, तो आप उसे इस्तेमाल करेंगे और accuracy loss को minimize करते हुए speed gains पा सकते हैं। इसमें marketing वाली creativity तो है, लेकिन actual usage मापने के metric के रूप में यह पूरी तरह गलत नहीं है
- https://arxiv.org/pdf/2310.10537.pdf
  इस पर पहले की post में भी चर्चा हुई थी: https://news.ycombinator.com/item?id=37930663
- जिज्ञासा है कि 4-bit कैसे sufficient हो सकता है। क्या intermediate calculations ज्यादा wide precision में होती हैं और फिर वापस FP4 तक downcast की जाती हैं?
- सही। precision-aware transformer engine की बात हुई थी, और वह FP4 usage को आसान बना सकता है, लेकिन same conditions में यह 30x faster नहीं है
  असल में यह थोड़ा improved process node पर Hopper के दो chips को साथ-साथ रखने जैसा है, इसलिए चौंकाने वाली बात नहीं; और अगर उन नए features या बढ़ी हुई memory का इस्तेमाल नहीं होता, तो लगभग 2.5x ज्यादा plausible लगता है
कुछ साल पहले Bright Cluster Manager acquire किया था; अगला acquisition target कौन होगा? लगता है वे customers को पूरी stack देना चाहते हैं
- Canonical एक पका हुआ target है। Canonical ने पिछले कुछ सालों में Ubuntu और दूसरे tools को enterprise world में बढ़ाने की कोशिश की, लेकिन बड़ी सफलता नहीं मिली, और Nvidia development kits का बड़ा हिस्सा Ubuntu के इर्द-गिर्द बना है
- Run:AI https://news.ycombinator.com/item?id=39738342
- Anthropic या Mistral को acquire करके AGI/ASI भी बना सकते हैं
दो अंकों वाले petaflops का mass production वाला दौर है
“मानव मस्तिष्क की relevant activity को replicate करने के लिए जरूरी compute power को विभिन्न authors ने 10^12 से 10^28 FLOPS तक estimate किया है।” petaflop 10^15 है। यह पागल कर देने वाला दौर है
- अगर इससे viable nuclear fusion power plant design हो जाए, तो खुशी होगी। अगर इसका ज्यादातर इस्तेमाल ad targeting में हुआ, तो बहुत निराशा होगी
Softbank के Masayoshi Son के लिए अफसोस की बात हुई। 2019 में उनके पास Nvidia में 3.1 billion डॉलर की हिस्सेदारी थी, जो आज 19 गुना होकर 60 billion डॉलर होती
वे AI और robotics को लेकर बेहद optimistic थे, लेकिन अपने समय से बहुत आगे थे
- छोटी correction: Masayoshi Son
यहाँ “platform company” से मतलब multi-chip है क्या?
एक ही die में इतने सारे transistors ठूँसना अब अव्यावहारिक होता जा रहा है, इसलिए यह तार्किक लगता है
- product family की बड़ी तस्वीर मुझे ठीक से नहीं पता, लेकिन Jensen जिन physical numbers और configuration की डींग मार रहे थे, उन्हें देखकर लगता है कि वे असल में mainframe-style game खेलना चाहते हैं
  proprietary chassis, proprietary cluster interconnect, और proprietary middleware पर चलने वाले advanced applications को बाँधकर रखने की दिशा है। Mellanox acquisition याद आती है
- बड़े data centers के लिए ज़रूरी लगभग सभी मुख्य chips और उनके ऊपर software layers के बड़े हिस्से का मतलब है
  hardware में GPU, GPU-GPU fabric NVLINK, CPU, NIC, network fabric InfiniBand, और switches शामिल हैं। इसके साथ CUDA, Riva, Megatron, Omniverse जैसे कई software stack layers को लोग इसके ऊपर बनाएँ, इसमें वे योगदान दे रहे हैं और इसे आगे बढ़ा रहे हैं
- नहीं, इसका मतलब rent-seeking है
  कल्पना करें कि AWS दुनिया के सारे computers भी बेचता हो। अब संरचना ऐसी हो रही है कि आप उन्हें सिर्फ वहीं से rent कर सकेंगे
सोच रहा हूँ कि industry LLM की scalability problem से निपटना कब शुरू करेगी। Nvidia के लिए बड़े और बेहतर GPU लगातार लाना स्वाभाविक रूप से फ़ायदेमंद है, लेकिन साझा हित क्या है?
यह पहले ही साबित हो चुका है कि पर्याप्त resources हों तो अच्छा language model संभव है। अब challenge यह है कि इन models को ऐसे solutions में डालना, जिनके लिए average use case में कल्पना से परे मात्रा में resources न चाहिए हों
- wasteful software development आसान है और development momentum बनाए रखता है। जब तक growth राजा है, fast and dirty तरीका हमेशा अच्छी तरह optimized छोटे system को हरा देगा
  यह सिर्फ AI की समस्या नहीं, बल्कि हमारे इस्तेमाल के हर software की समस्या है। optimize करने और छोटे systems के हिसाब से fit करने की कोशिश करने वाले समूह बस दो तरह के हैं: passionate programmers, और वे लोग जिन्हें यह काम करने के पैसे मिलते हैं। जैसे mobile phone manufacturers की software teams
after-hours trading में stock price बदला नहीं। बहुत लोगों को उम्मीद थी कि बड़ी announcement से बड़ा उछाल आएगा
- stock price Nvidia के development status के लिए, या किसी भी company के लिए, अच्छा short-term indicator नहीं है। Nvidia बहुत अच्छा काम कर रही है
  बस उसका stock सच में हास्यास्पद हद तक overvalued है
- market cap 2 trillion dollars हो तो सब कुछ पहले ही price in हो चुका है
- अगर ऐसा surge चाहिए, तो लोग earnings guidance का इंतज़ार कर रहे होंगे। अभी यह बेहद overbought हालत में है, इसलिए $1,000 प्रति share से ऊपर बढ़ना मुश्किल हो रहा है
  फिलहाल Microsoft और OpenAI इस chip का इस्तेमाल करेंगे, लेकिन long term में वे इसे देखकर अपने chips बनाएँगे और Nvidia पर dependence घटाने की कोशिश करेंगे, और contract खत्म होने पर switch करने के लिए तैयार रहेंगे
- Nvidia कोई secret stock नहीं है। अगर stock में hidden value है, तो उसकी ज़्यादातर कीमत पहले ही reflect हो चुकी होने की संभावना है
- इतना ही नहीं, intraday में भी momentum कमजोर पड़ा। यह इतना overheated था कि शायद अब कोई भी news इसे और ऊपर खींचना मुश्किल बना रही थी
दावा है कि power consumption 25x घटा दिया गया है, लेकिन क्या यह सही हो सकता है? यह number कहाँ से आया, किसी को पता है?
- यह number यहाँ [1] से आया है। मूल रूप से H 100 rack बनाम B 8 rack comparison है
  हालांकि मुझे लगता है कि typo भी हो सकता है। शायद यह liquid cooling बनाम air cooling तक शामिल करके किया गया comparison होगा
  [1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
- linked article में पढ़ा था? मुझे नहीं मिला
  शायद 5x performance improvement से efficiency gain और अब 1.7 trillion नहीं बल्कि 27 trillion parameters इस्तेमाल कर पाने की वजह से वही workload 1/25 समय में खत्म हो सकता है, इसलिए इसे power consumption reduction कहा गया होगा। जैसा कहा, मुझे शक है कि maximum power draw खुद 25x कम हुआ है

Nvidia के Jensen Huang ने नया AI चिप Blackwell पेश किया: “हमें और बड़ा GPU चाहिए”

Blackwell की घोषणा और AI आपूर्तिकर्ता के रूप में Nvidia की स्थिति

GB200 की संरचना और प्रदर्शन

सर्वर और cloud उपलब्धता

NIM और Nvidia की platform रणनीति

मॉडल deployment और डेवलपर उपयोग का तरीका

चिप कंपनी से software platform तक

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय