45°C कूलिंग डिज़ाइन से डेटा सेंटर का पानी उपयोग लगभग शून्य तक घटा
(blogs.nvidia.com)- AI सर्वरों की power density बढ़ने के साथ cooling डेटा सेंटर की लागत और पानी उपयोग का प्रमुख bottleneck बन गई है, और NVIDIA ने Rubin पीढ़ी में coolant को अधिकतम 45°C पर चलाने वाला डिज़ाइन पेश किया है
- Rubin पीढ़ी का AI infrastructure चिप्स और networking components तक को बिना fan के ठंडा करने वाली 100% liquid cooling संरचना अपनाता है, जिसमें closed loop और dry cooler केंद्र में हैं
- अनुकूल climate में, मौजूदा cooling tower-आधारित सिस्टम द्वारा प्रति megawatt सालाना उपयोग किए जाने वाले लगभग 26 लाख gallon पानी को लगभग शून्य तक घटाकर अधिकतम 100% बचत की जा सकती है
- 45°C coolant चिप से गर्मी सोखकर लगभग 55°C पर बाहर आने पर भी verified operating limits के भीतर रहता है, इसलिए सर्वर ठंडी हवा पर कम निर्भर होते हैं
- पूर्ण liquid cooling fan, cold/hot aisle और air-cooling infrastructure space को घटाकर rack density बढ़ाती है, जिससे AI computing demand बढ़ने पर cooling cost burden कम होता है
Rubin पीढ़ी की 100% liquid cooling
- NVIDIA के नवीनतम AI सर्वर coolant को अधिकतम 45°C, यानी 113°F तक चला सकते हैं
- Rubin पीढ़ी का NVIDIA AI infrastructure सभी chips और networking components को liquid से cool करने वाली 100% liquid cooling हासिल करता है
- सिस्टम में कहीं भी fan नहीं है
- cooling एक closed loop के भीतर होती है
- यह तरीका AI factory infrastructure stack के design, build और operation best practices को समेटने वाले NVIDIA DSX AI factory reference design में शामिल है
- हर पीढ़ी में प्रति watt computing performance बढ़ने के साथ, पूर्ण liquid-cooled AI compute infrastructure hyperscale डेटा सेंटर की cooling energy consumption को काफी घटा सकता है
पानी और बिजली उपयोग घटाने वाली संरचना
- NVIDIA DSX AI factory reference design का लक्ष्य zero water consumption है, और यह बड़े power use तथा लगभग पूरे पानी उपयोग को घटाने की दिशा में बना है
- dry cooler-आधारित डिज़ाइन एक closed loop system है, इसलिए यह evaporative water cooling का उपयोग नहीं करता
- कुछ climates में साल भर में केवल लगभग 1% समय chiller की जरूरत पड़ सकती है
- ऐतिहासिक रूप से cooling डेटा सेंटर बिजली खपत का अधिकतम 40% तक हिस्सा रही है
- industry estimates के अनुसार chiller plant temperature को 1°C बढ़ाने पर cooling energy cost लगभग 4% घट सकती है
- 50MW श्रेणी की hyperscale facility liquid cooling infrastructure में बदलने पर cooling-संबंधित energy और water cost में सालाना 40 लाख डॉलर से अधिक बचा सकती है
- अनुकूल climate में 45°C liquid cooling architecture chiller-मुक्त operation संभव बनाती है, और पारंपरिक cooling tower-आधारित सिस्टम के प्रति megawatt सालाना लगभग 26 लाख gallon पानी उपयोग को लगभग शून्य तक ला सकती है
ठंडा डेटा सेंटर हमेशा अधिक efficient नहीं होता
- industry में लंबे समय से यह धारणा रही है कि ठंडा डेटा सेंटर अधिक efficient होता है
- वास्तव में chips सहज अनुमान से कहीं अधिक गर्म वातावरण में भी काम कर सकते हैं
- जब पूर्ण liquid-cooled chip में 45°C coolant प्रवेश करता है, तो वह chip surface से गर्मी सोखकर लगभग 55°C पर बाहर निकलता है
- इस प्रक्रिया में भी performance कम नहीं होती
- liquid-cooled cold plate device temperature को verified operating limits के भीतर रखती है
- rack में जाने वाला coolant 45°C होने पर भी processor अधिकतम performance पर लगातार काम करता है
- क्योंकि सर्वर ठंडी हवा पर निर्भर नहीं होते, इसलिए डेटा सेंटर के ambient air temperature को अधिक लचीले ढंग से सेट किया जा सकता है
fan और cold/hot aisle कम करने वाली सर्वर संरचना
- पारंपरिक डेटा सेंटर fan noise और cold/hot aisle management पर काफी निर्भर करते हैं
- cooling fan कुल noise को 85dB से अधिक तक बढ़ा सकते हैं
- यह स्तर इतना ऊँचा है कि कानों की सुरक्षा के उपकरण की जरूरत पड़ सकती है
- Rubin architecture cooling को airflow के बजाय liquid loop-केंद्रित बनाती है
- coolant में 75% पानी और 25% propylene glycol होता है
- यह coolant processor के ऊपर सीधे रखी गई cold plate से गुजरते हुए स्रोत पर ही गर्मी सोख लेता है
- coolant को अधिकतम 45°C पर चलाने से कई climates में facility loop mechanical chiller और शोर वाले fan के बिना गर्मी बाहर निकाल सकता है
- उपयुक्त क्षेत्रों में cooling distribution unit गर्मी को स्रोत पर पकड़कर इमारत के बाहर बड़े radiator coil के रूप में मौजूद dry cooler तक भेजती है
- loop एक बार भरने के बाद facility के जीवनकाल भर closed state में चलता है
- यह पारंपरिक air-cooling infrastructure की तुलना में AI factory के भीतर घेरा गया स्थान काफी कम करता है
climate conditions और waste heat का उपयोग
- भौगोलिक स्थितियाँ एक महत्वपूर्ण constraint हैं
- Scottish Highlands का डेटा सेंटर और Phoenix, Arizona का डेटा सेंटर cooling के मामले में अलग वास्तविकताएँ रखते हैं
- गर्म climates में भी 45°C coolant chiller-मुक्त operation के और करीब ले जाता है
- बाहरी हवा के तापमान के कारण केवल कुछ दिनों के लिए chiller चालू करना पड़ सकता है
- नया AI factory model waste heat recovery की संभावना भी देता है
- AI factory operation से बची गर्मी को पास के commercial या residential buildings की heating में दोबारा इस्तेमाल किया जा सकता है
पूर्ण liquid cooling के लिए engineering बदलाव
- पहले के liquid-cooled सर्वर hybrid structure वाले थे
- GPU और CPU cold plate का उपयोग करते थे
- बाकी सिस्टम fin-type heat sink और air cooling पर निर्भर था
- पूर्ण liquid-cooled सर्वर में इन components की cooling method को liquid-आधारित रूप में फिर से design करना पड़ा
- NVIDIA की thermal engineering team ने कई high-power chips तक liquid पहुँचाने के तरीके को सरल बनाया
- board के कई chips तक single inlet और outlet से liquid route किया गया
- इससे tray-level cooling architecture अधिक साफ-सुथरी बनी
- सर्वर का बाहरी रूप और installation density भी बदलती है
- Rubin सर्वर में air-cooled सर्वर के perforated bezel की जगह साफ और sealed front panel होता है
- पूर्ण liquid-cooled सर्वर air-cooled सर्वर की तुलना में अधिक rack density संभव बनाते हैं
- पहले 6U जगह लेने वाला सिस्टम 2U में समा जाता है, और कम जगह व कम शोर में अधिक computing देता है
AI infrastructure विस्तार और cooling efficiency
- AI workloads हल्के नहीं हो रहे हैं
- डेटा सेंटर निर्माण को आगे बढ़ाने वाली computing demand लगभग हर infrastructure investment category से तेज़ बढ़ रही है
- यदि computing cooling method की efficiency में सुधार न हो, तो बड़े पैमाने के AI operation की energy cost hardware वृद्धि के साथ बढ़ती जाएगी
- अधिकतम 45°C liquid cooling hardware expansion और cooling cost के बीच की खाई कम करने का एक साधन बनती है
1 टिप्पणियां
Hacker News की राय
“ऐसे क्षेत्र जहां बाहरी हवा भरोसेमंद रूप से ठंडी रहती है” वाली शर्त ही असली पेंच है
यह कुछ ऐसा सुनाई देता है: “ठंडी जगहों पर डेटा सेंटर बनाकर cooling resources बचाएं, और waste heat को पूरा का पूरा आसपास के environment में फेंककर उसे प्रदूषित करें”
मुझे लगा था Nvidia ने शायद कुछ अच्छा बनाया है
कम तापमान, बहुत सारी खाली जगह, बड़े environmental issues कम, और अगर हों भी तो विरोध करने वाले नागरिक बहुत ज्यादा नहीं
cooling के लिए और पानी चाहिए हो तो पिघलती बर्फ से शायद काफी मिल सकता है
मुफ्त heating—बुरा तो नहीं है
Linus भी बची हुई CPU heat से swimming pool गरम करता है
मुख्य बात है घबराने के बजाय समझदारी से इस्तेमाल करना, और AI व डेटा सेंटर तो बने रहेंगे ही, इसलिए लड़ने के बजाय waste heat को revenue में बदला जा सकता है
मैंने सिर्फ यह सुना है कि जब cooling water को समुद्र के बजाय सीधे नदी में छोड़ा जाता है, तब nuclear power plant की waste heat समस्या बनती है
उदाहरण के लिए घरों की heating में इस्तेमाल किया जा सकता है
एक दिलचस्प synergy बनती है: district heating
45°C कम है, लेकिन district heating circulation network में इस्तेमाल न हो सके इतना भी कम नहीं; और अगर डेटा सेंटर heat मुफ्त में दें, तो स्थानीय समुदाय के लिए यह काफी अच्छा प्रस्ताव हो सकता है
पास के डेटा सेंटर का community value लगभग शून्य से बढ़कर सालाना कई मिलियन डॉलर तक पहुंच सकता है
गर्मी का मौसम अभी भी समस्या है, लेकिन कुछ रोचक समाधान भी संभव हैं
अगर geological conditions सही हों, तो गर्मियों में underground space को गर्म करके सर्दियों में उस heat का कुछ हिस्सा वापस लिया जा सकता है
कई climate zones में, जब तक लोग skylight का बेवकूफी भरा उपयोग नहीं करते, सालाना cooling cost की तुलना में heating cost कहीं ज्यादा होती है [0]
[0] मोटे हिसाब से, conduction और air exchange के कारण heating/cooling load indoor-outdoor temperature difference के proportional होता है
सर्दियों में outdoor temperature -10°F~30°F होना असामान्य नहीं है, और indoor 70°F से इसका अंतर 40~80°F होता है
इसके उलट, ऐसे climate में summer outdoor temperature 95°F से ऊपर कम ही जाता है और आम तौर पर उससे कम रहता है, इसलिए cooling difference करीब 15~25°F होता है
temperature difference जितना छोटा हो, heat pump की efficiency भी उतनी बेहतर होती है
radiant heating पूरी तरह अलग बात है
नई इमारतों में आम तौर पर heat pump इस्तेमाल करने का चलन है [1]
Mäntsälä का 75MW डेटा सेंटर 10 साल से कस्बे की heating का 2/3, यानी 2,500 घरों के बराबर, सप्लाई कर रहा है [2]
heat pump वाकई कमाल के हैं
seasonal heat storage भी पहले से इस्तेमाल होने वाली technology है, और Espoo के पास कई दसियों GWh capacity वाला storage है; 90GWh का नया cave storage भी चल रहा है
ये systems आपस में जुड़े हैं या नहीं, यह मुझे नहीं पता
article में यह कहना भी दिलचस्प है कि यह engineering problem पहले कभी solve नहीं हुई थी
Google ने chips को पहले से ज्यादा गरम चलाने का तरीका पहले pioneer किया था, और consumer PCs में भी liquid cooling काफी पहले से मौजूद है
कम से कम 30 साल से
नया दिखने वाला पहलू यह है कि सभी chips को circulation loop से जोड़ा गया है, लेकिन PSU को कैसे handle किया गया, यह मुझे नहीं मिला
और हो सकता है कि लौटते समय वह 45°C या उससे कम होकर वापस आता हो
ठंडी सर्दियों वाले उत्तरी गोलार्ध के ज्यादातर डेटा सेंटरों में भी शायद ऐसा ही हो सकता है
हो सकता है मैंने कुछ मिस किया हो, लेकिन यहाँ innovation क्या है, यह ठीक से समझ नहीं आ रहा
यह समझ आता है कि वे सामान्य से ज़्यादा तापमान वाला liquid coolant इस्तेमाल कर रहे हैं, लेकिन पहले ऐसा क्यों नहीं किया जा सकता था, यह समझ नहीं आता
आर्टिकल की तुलना ज़्यादातर air-cooled data center से है, लेकिन दूसरे water-cooled data center से तुलना करें तो कैसा है
पुराने data center design में भी किसी ने ज़रूरी operating temperature, energy usage, generated heat वगैरह की गणना की ही होगी
एडिट: अभी यह हिस्सा देखा
“पुराने water-cooled server hybrid थे। GPU और CPU पर cold plate लगे थे, लेकिन बाकी system air-cooled ही रहा, और fin वाले heatsink को चलती हवा से heat निकालने के लिए design किया गया था। पूरी तरह water-cooled server में इन components की cooling को liquid-based तरीके से पूरी तरह दोबारा design करना पड़ा।”
बाकी ज़्यादातर marketing जैसा है
Cray supercomputer 1980s में ही fluid cooling इस्तेमाल करते थे, और पूरे board पर inert liquid बहता था
वहाँ से थोड़ा और ऊपर जाना भले बहुत रोमांचक न हो, फिर भी innovation माना जा सकता है
cooling cost और failure rate/capital expenditure के बीच trade-off होता है
ऐसे parts आसानी से 100°C से ऊपर तक गर्म हो सकते हैं, इसलिए circulation loop को 55°C पर stable रखने के लिए काफ़ी काम करना पड़ता होगा
innovation यह हो सकता है कि data center के अलग-अलग हिस्सों में temperature control के लिए coolant कितनी तेज़ी से और कितनी मात्रा में बहाया जाए
इसमें सभी parts को fanless design के compatible बनाने के लिए redesign करना भी शामिल है
लगता है Nvidia के पहले से कहीं ज़्यादा vertically integrated होने से यह संभव हुआ है
लेकिन latest तरीका पानी इस्तेमाल करके बाहर निकालने वाली दिशा में जम गया
data center भी दूसरे industrial facilities की तरह ऐसे city/county/state ढूँढ लेते हैं जहाँ मनमानी की जा सके, फिर सुविधा के हिसाब से चलाते हैं, और लगता है जैसे वही एकमात्र तरीका हो
कई communities ने विरोध किया और environmental damage की शिकायत की, फिर भी अनदेखा किया गया; लेकिन अगर इसे technical specification कहा जाए तो शायद स्वीकार कर लिया जाए
“अनुकूल climate में Nvidia का 45-degree liquid cooling architecture…” कहा गया है, तो स्वाभाविक रूप से Greenland के अलावा अनुकूल climate क्या है, यह जानने की उत्सुकता है
लेख में outside temperature और efficiency/cost के correlation की बहुत कमी है
कम से कम मोटा-मोटा explanation होता तो अच्छा होता
Germany का मौसम काफ़ी ऊँचे temperature तक जाता है, लेकिन technical staff के मुताबिक active cooling, यानी air-conditioner जैसी cooling, सिर्फ़ high 30s में ही चाहिए होती है
technology अपने-आप में काफ़ी interesting है
https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
45°C supply-water temperature guarantee करने के लिए outside air लगभग 37°C या उससे कम होनी चाहिए
ज़्यादातर जगहों पर कुछ समय के लिए cooling tower या compressor फिर भी चाहिए होगा, इसलिए उससे जुड़ी पूरी infrastructure बनानी पड़ेगी
फिर भी usage घटाने भर से पानी या energy की बड़ी बचत हो सकती है
उदाहरण के लिए London के बाहर का इलाका काफ़ी mild माना जा सकता है, लेकिन इस हफ़्ते ही शायद auxiliary cooling की ज़रूरत पड़ी होगी
यहाँ data center हो तो cooling system को 40°C से ऊपर outside temperature झेलने के लिए design किया जाता है, और अब वह आंकड़ा conservative assumption भी नहीं रहा
साथ ही, भले Nvidia 45°C water supply से संतुष्ट हो, 35°C जैसे कम temperature पर hardware life ज़्यादा होने की संभावना है
GPU महंगे हैं, और उनकी life बढ़ाना थोड़ा ज़्यादा पानी या energy इस्तेमाल करने से अधिक मूल्यवान हो सकता है
असल में AI compute equipment के “पास” storage server, extra CPU compute equipment, network switch जैसे air-cooled systems भी होने की संभावना अधिक है
इसलिए अलग space और cooling system की ज़रूरत पड़ सकती है
फिर भी यह बड़ा progress है
यह पढ़कर भी समझ नहीं आ रहा कि यह breakthrough क्यों है
यह ज़्यादातर commercial/industrial cooling applications में पहले से मौजूद closed cooling circulation loop जैसा दिखता है
article में कहा गया है कि suitable climate में water/glycol circulation loop की heat dissipate करने के लिए radiator बाहर रखा जा सकता है
तो क्या इसका मतलब यह नहीं कि Arctic के अलावा जगहों पर अभी भी condensing circulation loop चाहिए होगा
मैं क्या miss कर रहा हूँ
NASA Ames Research Center की Modular Supercomputing Facility बिजली और पानी के इस्तेमाल के लिहाज़ से बहुत efficient है
यह facility air conditioning इस्तेमाल नहीं करती
chips water-cooled हैं, और जहाँ तक मुझे पता है inlet temperature भी काफ़ी high है। शायद करीब 90 degrees Fahrenheit
https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...
क्या US military और NASA भी अब metric system इस्तेमाल नहीं करते
भयानक AI-स्टाइल लेखन से निराश लोगों के लिए संक्षेप में: यह पूरी तरह water-cooled data center design की बात है
server cooling का आम तरीका desktop या laptop जैसा होता है: गर्म hardware पर heatsink लगाकर उसे हवा से ठंडा करना
जैसे-जैसे hardware ज्यादा dense और powerful होता जाता है, बड़े heatsink और ज्यादा ठंडी हवा की जरूरत पड़ती है
किसी बिंदु पर जगह की सीमा के कारण heatsink को और बड़ा नहीं किया जा सकता, और शोर व efficiency की वजह से हवा को भी और तेज नहीं फूंका जा सकता
तब intake air को ठंडा करने के लिए पानी evaporate करने वाले cooler चलाए जाते हैं
पानी की भारी खपत, जिससे हम बचना चाहते हैं, यहीं पैदा होती है
अगला कदम स्वाभाविक रूप से liquid cooling है
यह भी high-end gaming desktop जैसा ही है
अंदर, जहां जगह सीमित होती है, छोटे heat exchanger से बहुत सारी heat liquid medium में ट्रांसफर की जाती है; बाहर, coolant और बाहरी हवा के तापमान में अंतर कम होने पर भी विशाल heat exchanger से heat बाहर निकाली जा सकती है
यह article CPU, GPU, memory और networking तक सब कुछ पूरी तरह liquid-cool करने वाले system के बारे में है
असल में शानदार बात यही है
इसके अलावा, यह solution coolant को काफी warm temperature पर चलाने के लिए optimized है
इससे hardware-side heat flux सीमित होता है, लेकिन बाहरी heat exchanger को “dry” mode में चलाना संभव होता है, जिससे पानी की latent heat बर्बाद नहीं होती
कई दूसरे उपयोगों से तुलना करें तो data center का water use पहले से ही लगभग 0 के करीब था
जो चीज शुरू से ही PR या image problem के ज्यादा करीब थी, उसे “problem solved” बताकर बड़े प्रचार के साथ उस पर इतनी मेहनत लगते देखना हमेशा उदास कर देता है
आखिर 45°C ही क्यों, और water cooling क्यों
सब कुछ room temperature या थोड़ी ठंडी हवा के हिसाब से बनाना अजीब choice लगता है
यह पहले से ही करीब 290K~300K है; अब बात बस इतनी है कि 320K या 330K पर भी ठीक चलता है, है न
मुझे लगा, क्यों न इसे सीधे 200°C के आसपास operate करने के लिए design किया जाए और आसपास की हवा धकेलने वाली free cooling इस्तेमाल की जाए
data center मुर्गीखाने जैसा क्यों नहीं दिखता
क्या कुछ पिघल जाता है
high temperature पर क्या किसी और तरह की errors ज्यादा होती हैं
ये ऐसे materials हैं जो बहुत थोड़ी extra energy मिलने पर भी insulator से conductor बन सकते हैं
इसके उलट, अच्छे insulator conduct करना शुरू करने से पहले जल जाते हैं या plasma बन जाते हैं
energy आखिर energy ही है, इसलिए अगर ambient heat काफी ज्यादा हो तो छोटे band gap की वजह से electrons को ऊंचे orbit में धकेला जा सकता है
normal ambient temperature पर भी ऐसा होता है, लेकिन electrons दूर नहीं जा पाते और उनकी संख्या ज्यादा नहीं होती
200°C पर closed gate electron movement को पर्याप्त रूप से रोक नहीं पाता
मोटे तौर पर हाथ हिलाकर दी गई technical explanation यही है, और YouTube के Project in Flight पर semiconductor operation principles को अच्छी तरह समझाने वाला video है
semiconductors की electrical characteristics temperature के साथ काफी बदलती हैं
इसके लिए पूरी तरह अलग chip और पूरी तरह अलग manufacturing process की जरूरत होगी