Kubernetes को 7500 nodes तक scale करना

(openai.com)

4 पॉइंट द्वारा xguru 2021-01-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने GPT-3, DALL·E आदि के लिए k8s को scale करने का अपना अनुभव साझा किया
आम तौर पर single cluster को 7500 nodes तक scale नहीं किया जाता, इसलिए इसके लिए विशेष प्रबंधन की ज़रूरत होती है, लेकिन ऐसा करने से infrastructure सरल रहता है और code में बदलाव किए बिना आसानी से scale किया जा सकता है
application/hardware का environment सामान्य कंपनियों से थोड़ा अलग है

→ GPU को NVLink/GPUDirect आदि के ज़रिए node के hardware का पूरा उपयोग करना होता है

→ इसलिए आम तौर पर एक Pod पूरे node पर कब्ज़ा कर लेता है

→ यानी nodes बहुत हैं, लेकिन scheduler पर तुलनात्मक रूप से कम भार पड़ता है

→ Pods/nodes की संख्या बढ़ने पर Native Pod Networking में बदलाव किया गया

→ Alias-आधारित IP address processing में बदलने से 2 लाख IP कभी भी उपयोग किए जा सकते हैं

→ kube-prometheus द्वारा दिए गए Grafana dashboard का उपयोग

→ HTTP 429(Too Many Requests) और 5xx(Server Error) को high-level problem signal के रूप में alert करना उपयोगी है

→ API server हमेशा cluster के बाहर चलाया जाता है

1 टिप्पणियां

xguru 2021-01-27

काफी लंबा लेख है.. लगा नहीं कि इस स्तर के scale पर cluster configure करने का काम कभी पड़ेगा, इसलिए बस संक्षेप में ही अनुवाद किया है.