Google का liquid cooling: Hot Chips 2025 में पेश

(chipsandcheese.com)

4 पॉइंट द्वारा GN⁺ 2025-08-26 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Liquid cooling डेटा सेंटर में high-power chips से पैदा होने वाली heat की समस्या को हल करने के लिए तेज़ी से फैल रहा है
यह हवा की तुलना में लगभग 4,000 गुना अधिक thermal conductivity देता है, और खासकर AI boom से बढ़ी TPU cooling demand के जवाब में Google इसे सक्रिय रूप से अपना रहा है
Google, CDU(Coolant Distribution Unit) आधारित rack-level liquid cooling loop चलाता है, जिससे maintenance और scalability बेहतर होती है
Split-flow cold plate, bare-die cooling (TPUv4) जैसी high-performance PC market की तकनीकों को data center scale पर लागू किया गया है
Liquid cooling, fans की तुलना में 5% से कम power consumption के साथ अधिक efficient है, और leakage व microbial growth जैसी समस्याओं के लिए Google सख्त validation, alert system और preventive maintenance साथ में चलाता है
NVIDIA, Rebellions AI जैसी कंपनियां भी liquid cooling अपना रही हैं, जिससे data center cooling के standardization का रुझान तेज़ हो रहा है

Liquid cooling की ज़रूरत और पृष्ठभूमि

Liquid cooling PC enthusiasts के बीच परिचित है, और enterprise computing environment में भी इसका लंबा इतिहास रहा है
हाल के वर्षों में AI और machine learning workloads की power consumption बढ़ने से data centers में liquid cooling का महत्व काफी बढ़ गया है
Google ने इस बात पर ध्यान दिया कि पानी की thermal conductivity हवा की तुलना में लगभग 4,000 गुना अधिक है, और इसी वजह से इसे modern chips की high-heat situation के समाधान के रूप में अपनाया
Hot Chips 2025 में Google ने TPU(machine learning accelerator) cooling से जुड़ा data center-scale liquid cooling approach पेश किया

Google के liquid cooling system की संरचना

Google 2018 से TPU पर liquid cooling लागू कर रहा है और इस दौरान कई प्रयोग व सुधार किए गए हैं
नवीनतम cooling solution सिर्फ server के भीतर सीमित नहीं है, बल्कि पूरे rack पर liquid cooling loop लागू करता है
एक cooling rack, 6 CDU(Coolant Distribution Unit) से बना होता है, जो PC के radiator + pump combo जैसी भूमिका निभाते हैं
Flexible hoses और quick-disconnect couplings अपनाकर maintenance convenience और installation tolerance को बेहतर बनाया गया है
6 में से केवल 5 CDU चलने पर भी पर्याप्त cooling संभव है, इसलिए एक unit की maintenance के दौरान पूरे सिस्टम को बंद करना ज़रूरी नहीं होता

Heat exchange और chip layout

CDU आंतरिक coolant और data center की external supply water के बीच केवल heat exchange करता है; दोनों liquids सीधे नहीं मिलते
CDU से निकला coolant, manifold के ज़रिए कई TPU servers में वितरित किया जाता है
TPU chip connections sequential(series) structure में हैं, और loop के आखिरी chip की heat demand के आधार पर पूरा cooling budget तय किया जाता है

Cooling technology का optimization

Split-flow cold plate structure अपनाकर पारंपरिक linear design की तुलना में बेहतर cooling performance हासिल की गई है
इसके अलावा bare-die cooling(TPUv4, जबकि पुराने TPUv3 में lidded design था) लागू किया गया है, जो कुछ हद तक उन high-end PC enthusiasts के ‘delidding’ जैसा है जो heat transfer efficiency बढ़ाने के लिए ऐसा करते हैं
TPUv4 को v3 की तुलना में 1.6 गुना अधिक power consumption के कारण ऐसे अतिरिक्त cooling approach की ज़रूरत पड़ी

Power efficiency और heat movement

Liquid cooling pumps की power consumption पारंपरिक air-cooling fan power की तुलना में 5% से कम पाई गई
Google system, water-to-water heat exchange method का उपयोग करता है, जिसमें वास्तविक cooling power का अधिकांश हिस्सा pumps संभालते हैं
PC enthusiast setups में आमतौर पर fan-radiator combination बना रहता है, इसलिए उन्हें data center जितना power advantage नहीं मिलता

Maintenance, reliability, safety

Maintenance के नज़रिए से microbial growth या leakage risk जैसी water-cooling systems की सामान्य समस्याएं data center scale पर भी मौजूद हैं
Quick-disconnect fittings, spare CDU और maintenance-friendly design की मदद से बिना downtime के बड़े पैमाने पर management का लक्ष्य रखा गया है
Preventive maintenance, leak tests, विभिन्न anomaly signals की detection और व्यवस्थित response protocols के जरिए organization-wide consistency और reliability सुनिश्चित की गई है
यह individual PC enthusiasts के अनौपचारिक management तरीकों से अलग है

Industry trends और AI boom

NVIDIA, Rebellions AI आदि ने भी Hot Chips 2025 प्रदर्शनी में कई external liquid cooling systems दिखाए
- NVIDIA GB300 server: external liquid cooling ports और fans साथ में लगाए गए
- Rebellions AI एक Korean company है, जिसने अपने नए ML accelerator ‘REBEL Quad’ prototype को cooler और chiller के संयोजन वाली समान पद्धति से प्रदर्शित किया
AI workloads की वृद्धि आगे भी data center liquid cooling की demand और adoption को और तेज़ करने की संभावना रखती है

Google का liquid cooling: Hot Chips 2025 में पेश

Liquid cooling की ज़रूरत और पृष्ठभूमि

Google के liquid cooling system की संरचना

Heat exchange और chip layout

Cooling technology का optimization

Power efficiency और heat movement

Maintenance, reliability, safety

Industry trends और AI boom

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.