NVIDIA, H200 Tensor Core GPU रिलीज़

(nvidia.com)

4 पॉइंट द्वारा GN⁺ 2023-11-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

दुनिया का सबसे शक्तिशाली GPU

NVIDIA H200 Tensor Core GPU अपने गेम-चेंजिंग प्रदर्शन और मेमोरी क्षमता के साथ generative AI और high-performance computing (HPC) workloads को तेज करता है।
HBM3e से लैस पहला GPU होने के नाते, H200 generative AI, large language models (LLMs) की acceleration और scientific computing के लिए HPC workloads को आगे बढ़ाता है।

NVIDIA Hopper आर्किटेक्चर पर आधारित प्रदर्शन वृद्धि

NVIDIA Hopper™ आर्किटेक्चर पर आधारित NVIDIA HGX H200 में NVIDIA H200 Tensor Core GPU शामिल है, जो बड़े पैमाने के डेटा को संभालने के लिए उन्नत मेमोरी से लैस है।

प्रदर्शन वृद्धि का अनुभव

Llama2 70B inference 1.9 गुना तेज हो जाता है, और GPT-3 175B inference 1.6 गुना तेज हो जाता है।
high-performance computing, CPU की तुलना में अधिकतम 110 गुना तेज हो जाती है।

अधिक प्रदर्शन और बड़ी, तेज मेमोरी

NVIDIA H200, 141GB HBM3e मेमोरी और 4.8TB/s मेमोरी bandwidth प्रदान करता है, जिससे generative AI और LLMs तेज होते हैं, energy efficiency बढ़ती है और total cost of ownership कम होती है।

उच्च-प्रदर्शन LLM inference से इनसाइट प्राप्त करें

AI inference accelerators को बड़े user base पर deploy किए जाने पर सर्वोच्च throughput और सबसे कम TCO देना चाहिए।
H200, LLMs को प्रोसेस करते समय H100 GPU की तुलना में अधिकतम 2 गुना तेज inference speed प्रदान करता है।

high-performance computing को तेज करना

मेमोरी bandwidth, HPC applications के लिए महत्वपूर्ण है, क्योंकि यह तेज डेटा ट्रांसफर संभव बनाती है और जटिल processing bottlenecks को कम करती है।
H200 की उच्च मेमोरी bandwidth, डेटा access और manipulation को अधिक कुशल बनाती है, जिससे CPU की तुलना में अधिकतम 110 गुना तेज परिणाम मिलते हैं।

ऊर्जा और TCO में कमी

H200 को अपनाने से energy efficiency और TCO नए स्तर पर पहुंचते हैं।
यह समान power profile के भीतर उत्कृष्ट प्रदर्शन देता है और अधिक पर्यावरण-अनुकूल तथा किफायती लाभ प्रदान करता है।

प्रदर्शन

NVIDIA Hopper आर्किटेक्चर अभूतपूर्व प्रदर्शन वृद्धि प्रदान करता है, और H100 के लिए लगातार software improvements के माध्यम से प्रदर्शन के मानक लगातार ऊंचे करता है।
H200 की शुरुआत और supported software के लिए निरंतर सुधार वर्तमान और भविष्य में performance leadership सुनिश्चित करते हैं।

enterprise-ready: AI software विकास और deployment को सरल बनाता है

NVIDIA AI Enterprise के साथ NVIDIA H200, AI-ready platform बनाना सरल करता है और generative AI, computer vision, speech AI आदि के विकास और deployment को तेज करता है।
ये enterprise-grade security, manageability, reliability और support प्रदान करते हैं, जिससे actionable insights जल्दी मिलते हैं और ठोस business value तेजी से हासिल की जा सकती है।

NVIDIA H200 Tensor Core GPU विनिर्देश

फॉर्म फैक्टर: H200 SXM
FP64: 34 TFLOPS
FP64 Tensor Core: 67 TFLOPS
FP32: 67 TFLOPS
TF32 Tensor Core: 989 TFLOPS
BFLOAT16 Tensor Core: 1,979 TFLOPS
FP16 Tensor Core: 1,979 TFLOPS
FP8 Tensor Core: 3,958 TFLOPS
INT8 Tensor Core: 3,958 TFLOPS
GPU मेमोरी: 141GB
GPU मेमोरी bandwidth: 4.8TB/s
डिकोडर: 7 NVDEC
अधिकतम thermal design power (TDP): अधिकतम 700W (configurable)
multi-instance GPU: अधिकतम 7 MIGs @16.5GB प्रत्येक

GN⁺ की राय

इस लेख की सबसे महत्वपूर्ण बात यह है कि NVIDIA ने H200 Tensor Core GPU के माध्यम से AI और HPC workloads के लिए दुनिया का सबसे शक्तिशाली GPU पेश किया है। उम्मीद है कि यह GPU न केवल generative AI और large language models की acceleration में, बल्कि scientific computing के लिए HPC workloads की प्रगति में भी योगदान देगा। यह तकनीकी प्रगति शुरुआती software engineers के लिए भी दिलचस्प होगी और उन परियोजनाओं में नवोन्मेषी बदलाव ला सकती है जिनमें वे भाग लेते हैं। H200 की उन्नत मेमोरी और processing क्षमता तेज गणना, बेहतर energy efficiency और कम TCO को संभव बनाती है, जिससे AI और scientific research के क्षेत्रों की प्रगति तेज होने की उम्मीद है।

1 टिप्पणियां

GN⁺ 2023-11-15

Hacker News की राय

H200 GPU die, H100 जैसा ही है, लेकिन इसमें पूरे बोर्ड पर तेज़ 24GB memory stack का उपयोग किया गया है।

NVIDIA का H200 accelerator H100 141GB वाले उसी silicon पर आधारित है, लेकिन जैसा कि Nvidia वेबसाइट संकेत देती है, यह नया silicon नहीं है.
इस बात को लेकर जिज्ञासा कि क्या अगले कुछ वर्षों में कोई दूसरा chip निर्माता AI क्षेत्र में NVIDIA की बराबरी कर पाएगा या उससे आगे निकल पाएगा.

यह सवाल कि AI क्षेत्र में NVIDIA की leadership और expertise को आने वाले कुछ वर्षों में दूसरे chip निर्माता चुनौती दे पाएंगे या नहीं, या उनका बढ़त वास्तव में अछूती है.
कम समय में NVIDIA की performance वृद्धि प्रभावशाली है, लेकिन इस क्षेत्र में दूसरे competitors की ज़रूरत महसूस होती है.

कम समय में NVIDIA द्वारा हासिल की गई performance प्रगति पर प्रभाव के साथ, इस बाज़ार में AMD जैसे दूसरे competitors के आने की उम्मीद व्यक्त की गई.
inference में इस्तेमाल होने वाले metrics को लेकर सवाल, और क्या training में भी इसी तरह की performance वृद्धि की उम्मीद करनी चाहिए.

AI model के inference चरण के performance metrics ज़्यादातर चर्चा में हैं, लेकिन क्या model training चरण में भी ऐसी ही performance बढ़त देखने को मिलेगी, इस पर सवाल उठाया गया.
उसी साल रिलीज़ होने वाले B100 की तुलना में H200 की position को लेकर सवाल.

जब B100 उसी साल रिलीज़ होकर 2x अधिक performance देगा, तब H200 की भूमिका और उसकी pricing क्या होगी, इसे लेकर जिज्ञासा.
H100 GPU की कीमत देखकर झटका, और personal experiments व hackathon के लिए इसका उपयोग करने पर लागत कितनी होगी, इस पर सवाल.

निजी प्रयोगों और hackathon के लिए H100 GPU इस्तेमाल करने की सोच पर उसकी अप्रत्याशित ऊँची कीमत देखकर आश्चर्य, और H200 की कीमत क्या होगी, इस पर सवाल.
मोबाइल डिवाइस पर webpage में cookie banner और ad banner की वजह से वास्तव में दिखने वाली screen space बहुत सीमित हो जाती है.

मोबाइल वातावरण में cookie banner और ad banner के कारण webpage का वास्तविक visible area केवल एक-चौथाई रह जाने की समस्या उठाई गई.
"GPU" शब्द की कोई व्याख्या नहीं है, और इसमें built-in video output capability बिल्कुल नहीं है.

इस तथ्य का उल्लेख कि GPU में video output functionality built-in नहीं है.
तस्वीर में क्या है, इसे समझाना चाहिए; यह कुछ वैसा दिखता है जैसे Blade Runner के किसी शहर या इमारत का दृश्य.

तस्वीर में मौजूद components को समझना मुश्किल है, इसलिए स्पष्टीकरण मांगा गया, और यह प्रभाव व्यक्त किया गया कि यह Blade Runner के किसी शहर या इमारत जैसा दिखता है.
inference speed की सीमा memory bandwidth की समस्या है या compute capability की, इस पर सवाल.

यह जिज्ञासा कि AI model की inference speed को सीमित करने वाला मुख्य कारक memory bandwidth है या compute processing capability.