Kubernetes को 7500 nodes तक scale करना
(openai.com)-
OpenAI ने GPT-3, DALL·E आदि के लिए
k8sको scale करने का अपना अनुभव साझा किया -
आम तौर पर single cluster को 7500 nodes तक scale नहीं किया जाता, इसलिए इसके लिए विशेष प्रबंधन की ज़रूरत होती है, लेकिन ऐसा करने से infrastructure सरल रहता है और code में बदलाव किए बिना आसानी से scale किया जा सकता है
-
application/hardware का environment सामान्य कंपनियों से थोड़ा अलग है
→ GPU को NVLink/GPUDirect आदि के ज़रिए node के hardware का पूरा उपयोग करना होता है
→ इसलिए आम तौर पर एक Pod पूरे node पर कब्ज़ा कर लेता है
→ यानी nodes बहुत हैं, लेकिन scheduler पर तुलनात्मक रूप से कम भार पड़ता है
- networking
→ Pods/nodes की संख्या बढ़ने पर Native Pod Networking में बदलाव किया गया
→ Alias-आधारित IP address processing में बदलने से 2 लाख IP कभी भी उपयोग किए जा सकते हैं
- API Server
→ kube-prometheus द्वारा दिए गए Grafana dashboard का उपयोग
→ HTTP 429(Too Many Requests) और 5xx(Server Error) को high-level problem signal के रूप में alert करना उपयोगी है
→ API server हमेशा cluster के बाहर चलाया जाता है
1 टिप्पणियां
काफी लंबा लेख है.. लगा नहीं कि इस स्तर के scale पर cluster configure करने का काम कभी पड़ेगा, इसलिए बस संक्षेप में ही अनुवाद किया है.