Tesla के Project Dojo का ओवरव्यू
(perspectives.mvdirona.com)<p>AWS VP James Hamilton की पोस्ट<br />
- Dojo machine learning system तीन पहलुओं में दिलचस्प है <br />
1. बड़े पैमाने का नेटवर्क <br />
→ हर D1 chip 16,000Gbps (4Tbps 4-channel) networking देता है, और 25-chip MCM (Multi-Chip Modules) में जोड़ने पर 36,000Gbps (4x 9Tb) bandwidth देता है<br />
2. मेमोरी के मुकाबले बेहद छोटा compute ratio <br />
→ हर D1 chip में 354 functional units हैं, और हर unit में सिर्फ 1.25 mega SRAM है तथा DRAM नहीं है, इसलिए एक D1 chip में 1GB के आधे से भी कम memory है (442.5Mb)<br />
→ 5-unit rack के अंत में बड़ा DRAM pool रखा गया है और compute rack खुद में DRAM नहीं रखता<br />
→ इतना कम memory लेकर यह कैसे काम कर सकता है, इस पर सोचें तो संभवतः यह विशाल network bandwidth और ऐसे system design का संयोजन है जो सामान्य ML training workloads की तुलना में बहुत कम memory इस्तेमाल करने वाले vision models चलाने के लिए बनाया गया है<br />
3. बहुत अधिक power density <br />
→ हर D1 chip सिर्फ 400W consume करता है, जो इस आकार के लिए latest-level expected value के बराबर है, लेकिन इसे काफी dense 25-chip MCM में जोड़कर सिर्फ 15kW (D1 के 10kW और voltage regulators के 5kW) consume करने लायक बनाया गया है<br />
→ इस तरह पूरी तरह भरा हुआ 10-rack Dojo training system 1.8 megawatt का होता है<br />
→ scale के नज़रिए से देखें तो एक mid-size data center आम तौर पर 30~40 megawatt range में operate करेगा<br />
<br />
- यह छोटी बात है, लेकिन VRD (Voltage Regulator Down) को tile पर सीधे रखना असामान्य रूप से ऊँची 52V power supply देने की एक अच्छी कोशिश लगता है. 15kW power consumption को देखते हुए भी, 52V पर यह अब भी 288A consume करता है<br />
- 354 functional units एक 645mm^2 D1 chip में जोड़े गए हैं. 25 D1 chips मिलकर training tile कहलाने वाला multi-chip module बनाते हैं, 12 training tiles एक rack बनाते हैं, और 10 racks मिलकर Exapod भरते हैं.<br />
- "काफी innovative system"</p>
1 टिप्पणियां