- "Behind the Compute" सीरीज़ Stability AI के बिज़नेस रिकॉर्ड का हिस्सा है और एक ब्लॉग पोस्ट सीरीज़ है, जो दूसरों को generative AI की ताकत का उपयोग करने में मदद करने के लिए insights प्रदान करती है
- इस संस्करण में विभिन्न computing solutions के performance benchmarks और उनके फायदों पर और गहराई से चर्चा की गई है
प्रदर्शन विश्लेषण
- प्रदर्शन विश्लेषण के लिए दो मॉडलों को train किया गया, जिनमें से एक बहुत प्रतीक्षित Stable Diffusion 3 है
- ट्रेनिंग स्पीड मापने के लिए Intel Gaudi 2 accelerator की तुलना Nvidia के A100 और H100 से की गई
- बड़े language models को train करने के लिए startups और developers सबसे आम तौर पर इन्हीं विकल्पों को चुनते हैं
मॉडल 1: Stable Diffusion 3
- Stable Diffusion 3 सबसे सक्षम text-to-image मॉडल है, जो जल्द ही शुरुआती preview चरण में प्रवेश करने वाला है
- Stable Diffusion 3 का public version 800M से 8B parameters तक के आकार में उपलब्ध कराया जाएगा
- 2B parameter version का उपयोग कर किए गए विश्लेषण में अपेक्षा से बेहतर नतीजे मिले
- 2B Multimodal Diffusion Transformer (MMDiT) architecture मॉडल की training throughput मापी गई, जिसमें d=24, BFloat16 mixed precision, optimized attention (A100 के लिए xFormers और Intel Gaudi के लिए FusedSDPA) का उपयोग किया गया
- इस मॉडल version को MMDiT-ps2-d24 कहा जाता है
- 2 nodes, कुल 16 accelerators (Gaudi/GPU) के साथ किए गए training benchmark में, Gaudi 2 सिस्टम ने accelerator per batch size 16 बनाए रखते हुए प्रति सेकंड 927 training images प्रोसेस कीं — H100-80GB से 1.5 गुना तेज़
- Gaudi 2 की 96GB high-bandwidth memory (HBM2E) का उपयोग कर accelerator per batch size 32 तक बढ़ाया गया, जिससे training speed और बढ़कर 1,254 images per second हो गई
- 32 Gaudi 2 nodes (कुल 256 accelerators) तक distributed training scale करने पर भी लगातार बेहद प्रतिस्पर्धी प्रदर्शन मापा गया
- इस configuration में Gaudi 2 क्लस्टर ने A100-80GB GPU की तुलना में प्रति सेकंड 3 गुना से अधिक images प्रोसेस कीं। यह खास तौर पर प्रभावशाली है क्योंकि A100 के पास बेहद optimized software stack है
- Stable Diffusion 3 के 8B parameter मॉडल पर inference टेस्ट में, Gaudi 2 चिप ने base PyTorch का उपयोग करते हुए Nvidia A100 चिप के समान inference speed दी
- हालांकि, TensorRT optimization के साथ A100 चिप ने Gaudi 2 की तुलना में 40% तेज़ image generation किया
- अतिरिक्त optimization के साथ उम्मीद है कि Gaudi 2 जल्द ही इस मॉडल में A100 को पीछे छोड़ देगा
- base PyTorch का उपयोग करने वाले पिछले टेस्ट में, Gaudi 2 ने 1024x1024 images को 30 steps में सिर्फ 3.2 सेकंड में generate किया, जबकि A100 पर PyTorch के साथ 3.6 सेकंड और TensorRT के साथ 2.7 सेकंड लगे
- Gaudi 2 की अधिक memory, तेज़ interconnect और अन्य design considerations के कारण, अगली पीढ़ी के media models को support करने वाली Diffusion Transformer architecture को चलाने में यह प्रतिस्पर्धी साबित होता है
मॉडल 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B, LLaMA 2 70B का fine-tuned version है, और यह Stable Beluga 2 पर आधारित है, जो कुछ benchmarks में ChatGPT 3.5 को पीछे छोड़ने वाला पहला open model था
- यह training benchmark 256 Gaudi 2 accelerators पर चलाया गया, और बिना अतिरिक्त optimization के सीधे PyTorch code चलाकर औसत कुल throughput 116,777 tokens/second मापा गया
- इसमें FP16 data type, global batch size 1024, gradient accumulation steps 2, और micro-batch size 2 का उपयोग किया गया
- जब Gaudi 2 पर 70B language model के लिए inference टेस्ट किया गया, तो input token size 128 और output token size 2048 के साथ accelerator per 673 tokens/second उत्पन्न हुए
- TensorRT-LLM की तुलना में, Gaudi 2, A100 के 525 tokens/second से 28% तेज़ था
- FP8 के साथ और अधिक speed improvements की उम्मीद है
computing solutions की मांग
- हमारी जैसी कंपनियों में अधिक शक्तिशाली और अधिक efficient computing solutions की मांग लगातार बढ़ रही है
- हमारी खोजें Gaudi 2 जैसे विकल्पों की ज़रूरत को रेखांकित करती हैं। यह न केवल अन्य 7nm chips की तुलना में बेहतर performance देता है, बल्कि price-performance ratio, कम कीमत, और कम lead time जैसी बाज़ार की महत्वपूर्ण ज़रूरतों को भी पूरा करता है
- computing options में पसंद का अवसर भागीदारी और innovation को बढ़ाता है, और उन्नत AI तकनीकों को सभी के लिए अधिक सुलभ बनाता है
1 टिप्पणियां
Hacker News टिप्पणियाँ