Intel Gaudi 2 चिप ने Diffusion Transformer बेंचमार्क में Nvidia H100 को पीछे छोड़ा

xguru · 2024-03-12T10:46:01+09:00

"Behind the Compute" सीरीज़ Stability AI के बिज़नेस रिकॉर्ड का हिस्सा है और एक ब्लॉग पोस्ट सीरीज़ है, जो दूसरों को generative AI की ताकत का उपयोग करने में मदद करने के लिए insights प्रदान करती है इस संस्करण में विभिन्न computing solutions के performance benchmarks और उनके फायदों पर और गहराई से चर्चा की गई है प्रदर्शन विश्लेषण प्रदर्शन विश्लेषण के लिए दो मॉडलों को train किया गया, जिनमें से एक बहुत प्रतीक्षित Stable Diffusion 3 है ट्रेनिंग स्पीड मापने के लिए Intel Gaudi 2 accelerator की तुलना Nvidia के A100 और H100 से की गई बड़े language models को train करने के लिए startups और developers सबसे आम तौर पर इन्हीं विकल्पों को चुनते हैं मॉडल 1: Stable Diffusion 3 Stable Diffusion 3 सबसे सक्षम text-to-image मॉडल है, जो जल्द ही शुरुआती preview चरण में प्रवेश करने वाला है Stable Diffusion 3 का public version 800M से 8B parameters तक के आकार में उपलब्ध कराया जाएगा 2B parameter version का उपयोग कर किए गए विश्लेषण में अपेक्षा से बेहतर नतीजे मिले 2B Multimodal Diffusion Transformer (MMDiT) architecture मॉडल की training throughput मापी गई, जिसमें d=24, BFloat16 mixed precision, optimized attention (A100 के लिए xFormers और Intel Gaudi के लिए FusedSDPA) का उपयोग किया गया इस मॉडल version को MMDiT-ps2-d24 कहा जाता है 2 nodes, कुल 16 accelerators (Gaudi/GPU) के साथ किए गए training benchmark में, Gaudi 2 सिस्टम ने accelerator per batch size 16 बनाए रखते हुए प्रति सेकंड 927 training images प्रोसेस कीं — H100-80GB से 1.5 गुना तेज़ Gaudi 2 की 96GB high-bandwidth memory (HBM2E) का उपयोग कर accelerator per batch size 32 तक बढ़ाया गया, जिससे training speed और बढ़कर 1,254 images per second हो गई 32 Gaudi 2 nodes (कुल 256 accelerators) तक distributed training scale करने पर भी लगातार बेहद प्रतिस्पर्धी प्रदर्शन मापा गया इस configuration में Gaudi 2 क्लस्टर ने A100-80GB GPU की तुलना में प्रति सेकंड 3 गुना से अधिक images प्रोसेस कीं। यह खास तौर पर प्रभावशाली है क्योंकि A100 के पास बेहद optimized software stack है Stable Diffusion 3 के 8B parameter मॉडल पर inference टेस्ट में, Gaudi 2 चिप ने base PyTorch का उपयोग करते हुए Nvidia A100 चिप के समान inference speed दी हालांकि, TensorRT optimization के साथ A100 चिप ने Gaudi 2 की तुलना में 40% तेज़ image generation किया अतिरिक्त optimization के साथ उम्मीद है कि Gaudi 2 जल्द ही इस मॉडल में A100 को पीछे छोड़ देगा base PyTorch का उपयोग करने वाले पिछले टेस्ट में, Gaudi 2 ने 1024x1024 images को 30 steps में सिर्फ 3.2 सेकंड में generate किया, जबकि A100 पर PyTorch के साथ 3.6 सेकंड और TensorRT के साथ 2.7 सेकंड लगे Gaudi 2 की अधिक memory, तेज़ interconnect और अन्य design considerations के कारण, अगली पीढ़ी के media models को support करने वाली Diffusion Transformer architecture को चलाने में यह प्रतिस्पर्धी साबित होता है मॉडल 2: Stable Beluga 2.5 70B Stable Beluga 2.5 70B, LLaMA 2 70B का fine-tuned version है, और यह Stable Beluga 2 पर आधारित है, जो कुछ benchmarks में ChatGPT 3.5 को पीछे छोड़ने वाला पहला open model था यह training benchmark 256 Gaudi 2 accelerators पर चलाया गया, और बिना अतिरिक्त optimization के सीधे PyTorch code चलाकर औसत कुल throughput 116,777 tokens/second मापा गया इसमें FP16 data type, global batch size 1024, gradient accumulation steps 2, और micro-batch size 2 का उपयोग किया गया जब Gaudi 2 पर 70B language model के लिए inference टेस्ट किया गया, तो input token size 128 और output token size 2048 के साथ accelerator per 673 tokens/second उत्पन्न हुए TensorRT-LLM की तुलना में, Gaudi 2, A100 के 525 tokens/second से 28% तेज़ था FP8 के साथ और अधिक speed improvements की उम्मीद है computing solutions की मांग हमारी जैसी कंपनियों में अधिक शक्तिशाली और अधिक efficient computing solutions की मांग लगातार बढ़ रही है हमारी खोजें Gaudi 2 जैसे विकल्पों की ज़रूरत को रेखांकित करती हैं। यह न केवल अन्य 7nm chips की तुलना में बेहतर performance देता है, बल्कि price-performance ratio, कम कीमत, और कम lead time जैसी बाज़ार की महत्वपूर्ण ज़रूरतों को भी पूरा करता है computing options में पसंद का अवसर भागीदारी और innovation को बढ़ाता है, और उन्नत AI तकनीकों को सभी के लिए अधिक सुलभ बनाता है

(stability.ai)

6 पॉइंट द्वारा xguru 2024-03-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

"Behind the Compute" सीरीज़ Stability AI के बिज़नेस रिकॉर्ड का हिस्सा है और एक ब्लॉग पोस्ट सीरीज़ है, जो दूसरों को generative AI की ताकत का उपयोग करने में मदद करने के लिए insights प्रदान करती है
इस संस्करण में विभिन्न computing solutions के performance benchmarks और उनके फायदों पर और गहराई से चर्चा की गई है

प्रदर्शन विश्लेषण

प्रदर्शन विश्लेषण के लिए दो मॉडलों को train किया गया, जिनमें से एक बहुत प्रतीक्षित Stable Diffusion 3 है
ट्रेनिंग स्पीड मापने के लिए Intel Gaudi 2 accelerator की तुलना Nvidia के A100 और H100 से की गई
बड़े language models को train करने के लिए startups और developers सबसे आम तौर पर इन्हीं विकल्पों को चुनते हैं

मॉडल 1: Stable Diffusion 3

Stable Diffusion 3 सबसे सक्षम text-to-image मॉडल है, जो जल्द ही शुरुआती preview चरण में प्रवेश करने वाला है
Stable Diffusion 3 का public version 800M से 8B parameters तक के आकार में उपलब्ध कराया जाएगा
2B parameter version का उपयोग कर किए गए विश्लेषण में अपेक्षा से बेहतर नतीजे मिले
2B Multimodal Diffusion Transformer (MMDiT) architecture मॉडल की training throughput मापी गई, जिसमें d=24, BFloat16 mixed precision, optimized attention (A100 के लिए xFormers और Intel Gaudi के लिए FusedSDPA) का उपयोग किया गया
इस मॉडल version को MMDiT-ps2-d24 कहा जाता है
2 nodes, कुल 16 accelerators (Gaudi/GPU) के साथ किए गए training benchmark में, Gaudi 2 सिस्टम ने accelerator per batch size 16 बनाए रखते हुए प्रति सेकंड 927 training images प्रोसेस कीं — H100-80GB से 1.5 गुना तेज़
Gaudi 2 की 96GB high-bandwidth memory (HBM2E) का उपयोग कर accelerator per batch size 32 तक बढ़ाया गया, जिससे training speed और बढ़कर 1,254 images per second हो गई
32 Gaudi 2 nodes (कुल 256 accelerators) तक distributed training scale करने पर भी लगातार बेहद प्रतिस्पर्धी प्रदर्शन मापा गया
इस configuration में Gaudi 2 क्लस्टर ने A100-80GB GPU की तुलना में प्रति सेकंड 3 गुना से अधिक images प्रोसेस कीं। यह खास तौर पर प्रभावशाली है क्योंकि A100 के पास बेहद optimized software stack है
Stable Diffusion 3 के 8B parameter मॉडल पर inference टेस्ट में, Gaudi 2 चिप ने base PyTorch का उपयोग करते हुए Nvidia A100 चिप के समान inference speed दी
हालांकि, TensorRT optimization के साथ A100 चिप ने Gaudi 2 की तुलना में 40% तेज़ image generation किया
अतिरिक्त optimization के साथ उम्मीद है कि Gaudi 2 जल्द ही इस मॉडल में A100 को पीछे छोड़ देगा
base PyTorch का उपयोग करने वाले पिछले टेस्ट में, Gaudi 2 ने 1024x1024 images को 30 steps में सिर्फ 3.2 सेकंड में generate किया, जबकि A100 पर PyTorch के साथ 3.6 सेकंड और TensorRT के साथ 2.7 सेकंड लगे
Gaudi 2 की अधिक memory, तेज़ interconnect और अन्य design considerations के कारण, अगली पीढ़ी के media models को support करने वाली Diffusion Transformer architecture को चलाने में यह प्रतिस्पर्धी साबित होता है

मॉडल 2: Stable Beluga 2.5 70B

Stable Beluga 2.5 70B, LLaMA 2 70B का fine-tuned version है, और यह Stable Beluga 2 पर आधारित है, जो कुछ benchmarks में ChatGPT 3.5 को पीछे छोड़ने वाला पहला open model था
यह training benchmark 256 Gaudi 2 accelerators पर चलाया गया, और बिना अतिरिक्त optimization के सीधे PyTorch code चलाकर औसत कुल throughput 116,777 tokens/second मापा गया
इसमें FP16 data type, global batch size 1024, gradient accumulation steps 2, और micro-batch size 2 का उपयोग किया गया
जब Gaudi 2 पर 70B language model के लिए inference टेस्ट किया गया, तो input token size 128 और output token size 2048 के साथ accelerator per 673 tokens/second उत्पन्न हुए
TensorRT-LLM की तुलना में, Gaudi 2, A100 के 525 tokens/second से 28% तेज़ था
FP8 के साथ और अधिक speed improvements की उम्मीद है

computing solutions की मांग

हमारी जैसी कंपनियों में अधिक शक्तिशाली और अधिक efficient computing solutions की मांग लगातार बढ़ रही है
हमारी खोजें Gaudi 2 जैसे विकल्पों की ज़रूरत को रेखांकित करती हैं। यह न केवल अन्य 7nm chips की तुलना में बेहतर performance देता है, बल्कि price-performance ratio, कम कीमत, और कम lead time जैसी बाज़ार की महत्वपूर्ण ज़रूरतों को भी पूरा करता है
computing options में पसंद का अवसर भागीदारी और innovation को बढ़ाता है, और उन्नत AI तकनीकों को सभी के लिए अधिक सुलभ बनाता है

1 टिप्पणियां

xguru 2024-03-12

Hacker News टिप्पणियाँ

यह दिलचस्प है कि TPUs आसानी से A100s को हरा देते हैं। dreamlook.ai, जो TPUs का उपयोग करके Stable Diffusion fine-tuning उपलब्ध कराता है, वहाँ लोग प्रोविजनिंग स्पीड और लागत देखकर हैरान होते हैं। लेकिन इसमें कोई बड़ा रहस्य नहीं है; बस प्रति work unit तेज़ और सस्ता हार्डवेयर इस्तेमाल किया जा रहा है।
नए हार्डवेयर के साथ मॉडल ट्रेनिंग में प्रतिस्पर्धा बढ़ाना अच्छा है, लेकिन इन मशीनों की उपलब्धता बहुत सीमित है। बड़े cloud providers Gaudi2 VM को प्रति घंटा किराये पर लेने की अनुमति नहीं देते, और Intel की अपनी साइट 40k USD से अधिक की 8x GPU server खरीदने की ओर ले जाती है। अभी भी Nvidia को software stack और availability में बढ़त हासिल है, लेकिन इस साल के अंत तक बदलाव शुरू हो सकता है।
NVIDIA H100 पर लगभग 92% मार्जिन छोड़ रहा है। यह हैरानी की बात है कि और अधिक chip companies "ML accelerator" क्षेत्र में नहीं उतरी हैं।
अगर इस पर विश्लेषण हो कि hardware metrics 3 गुना बेहतर न होने के बावजूद यह 3 गुना तेज़ कैसे हो सकता है, तो वह वास्तव में उपयोगी और insightful जानकारी होगी। नहीं तो यह सिर्फ विज्ञापन है।
H100 लगभग 1 साल पहले लॉन्च हुआ था, इसलिए अगर Intel पिछले साल के मॉडल से प्रतिस्पर्धा करने के लिए तैयार है तो यह ठीक है। यह याद रखना चाहिए कि CUDA बहुत महत्वपूर्ण हिस्सा है, और hardware तथा software दोनों को साथ में परिपक्व होने में 10 साल लगे हैं।
H100 पहले ही लगभग 1 साल से बड़े पैमाने पर शिप हो रहा है। क्या Gaudi2 भी इसी पैमाने पर उपलब्ध है? जब तक NVIDIA समान समयसीमा में प्रतिस्पर्धी पार्ट्स पर स्पष्ट बढ़त बनाना बंद नहीं करता, तब तक NVIDIA को कभी नज़रअंदाज़ नहीं करना चाहिए।
Gaudi और Ponte Vecchio दोनों के मौजूद होने का कारण Intel AXG के कर्मचारियों सहित कोई भी संतोषजनक ढंग से नहीं बता पाया। क्या Intel के लिए एक ही product line पर ध्यान केंद्रित करना उसकी सफलता की संभावना नहीं बढ़ाएगा?
यह जानने की उत्सुकता है कि आजकल AI scientists कैसे काम करते हैं। क्या वे सचमुच Cudakernels को हैक करते हैं, या pytorch जैसे high-level toolkit से मॉडल जोड़ते हैं? अगर दूसरा सही है, तो यदि pytorch अलग-अलग हार्डवेयर के लिए optimized backends दे, तो क्या CUDA वाकई इतनी बड़ी बाधा है?