Google DeepMind पेपर की लागत की गणना करके देखना

(152334H.github.io)

4 पॉइंट द्वारा GN⁺ 2024-07-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें

"arXiv प्रीप्रिंट पर लगभग $10M (130 करोड़ रुपये) खर्च करने का तरीका"
हाल ही में DeepMind (GDM) ने "Scaling Exponents Across Parameterizations and Optimizers" नाम का एक शानदार पेपर प्रकाशित किया
- इस पेपर में 10,000 से अधिक LLM training runs चलाकर अलग-अलग परिस्थितियों में optimal hyperparameters निकाले गए
पेपर पढ़ने के बाद, उसमें दिए गए सभी experiment results को जोड़कर पेपर को reproduce करने के लिए आवश्यक कुल compute cost की गणना करने की कोशिश की गई
नतीजे के तौर पर, कुल आवश्यक FLOPS 5.42e24 है, और लागत $12.9M (178 करोड़ रुपये) है ($3/H100/घंटा के हिसाब से)
- बड़े परिप्रेक्ष्य में देखें तो 5.42e24 का पैमाना "इतना बड़ा नहीं" है
- यह Llama 3 में इस्तेमाल हुई computing का 15% भी नहीं है, और 100,000 H100 के cluster के साथ इन सभी experiments को सिर्फ 2 दिनों में चलाया जा सकता है

H100 के मूल्य पर अतिरिक्त स्पष्टीकरण

चूँकि यह Google DeepMind के लोगों का पेपर है, इसलिए लगभग तय है कि experiments TPU पर किए गए होंगे
पेपर में int8 के उपयोग का ज़िक्र नहीं है, इसलिए अनुमान है कि bfloat16 precision इस्तेमाल की गई होगी
H100-SXM में 989.40TFLOP/s की 16-bit tensor operation performance है
हाल के PyTorch ब्लॉग और torchtitan में H100 MFU को लगभग 40% बताया गया है
H100 node की लागत लगभग $3 प्रति घंटा मानी गई है (कहाँ इस्तेमाल किया जा रहा है उसके अनुसार थोड़ा अलग हो सकता है, इसलिए इसे औसत माना गया है)

1 टिप्पणियां

parkindani 2024-08-01

कीमत से ज़्यादा, इस्तेमाल हुई कुल ऊर्जा की मात्रा जानने की जिज्ञासा हो रही है।

Google DeepMind पेपर की लागत की गणना करके देखना

H100 के मूल्य पर अतिरिक्त स्पष्टीकरण

संबंधित पढ़ाई

1 टिप्पणियां