- "arXiv प्रीप्रिंट पर लगभग $10M (130 करोड़ रुपये) खर्च करने का तरीका"
- हाल ही में DeepMind (GDM) ने "Scaling Exponents Across Parameterizations and Optimizers" नाम का एक शानदार पेपर प्रकाशित किया
- इस पेपर में 10,000 से अधिक LLM training runs चलाकर अलग-अलग परिस्थितियों में optimal hyperparameters निकाले गए
- पेपर पढ़ने के बाद, उसमें दिए गए सभी experiment results को जोड़कर पेपर को reproduce करने के लिए आवश्यक कुल compute cost की गणना करने की कोशिश की गई
- नतीजे के तौर पर, कुल आवश्यक FLOPS 5.42e24 है, और लागत $12.9M (178 करोड़ रुपये) है ($3/H100/घंटा के हिसाब से)
- बड़े परिप्रेक्ष्य में देखें तो 5.42e24 का पैमाना "इतना बड़ा नहीं" है
- यह Llama 3 में इस्तेमाल हुई computing का 15% भी नहीं है, और 100,000 H100 के cluster के साथ इन सभी experiments को सिर्फ 2 दिनों में चलाया जा सकता है
H100 के मूल्य पर अतिरिक्त स्पष्टीकरण
- चूँकि यह Google DeepMind के लोगों का पेपर है, इसलिए लगभग तय है कि experiments TPU पर किए गए होंगे
- पेपर में int8 के उपयोग का ज़िक्र नहीं है, इसलिए अनुमान है कि bfloat16 precision इस्तेमाल की गई होगी
- H100-SXM में 989.40TFLOP/s की 16-bit tensor operation performance है
- हाल के PyTorch ब्लॉग और torchtitan में H100 MFU को लगभग 40% बताया गया है
- H100 node की लागत लगभग $3 प्रति घंटा मानी गई है (कहाँ इस्तेमाल किया जा रहा है उसके अनुसार थोड़ा अलग हो सकता है, इसलिए इसे औसत माना गया है)
1 टिप्पणियां
कीमत से ज़्यादा, इस्तेमाल हुई कुल ऊर्जा की मात्रा जानने की जिज्ञासा हो रही है।