- 2 से 4 नवंबर 2023 तक Cloudflare के कंट्रोल प्लेन और analytics services में outage रहा.
- कंट्रोल प्लेन में मुख्य रूप से Cloudflare services के customer-facing interfaces शामिल हैं, जबकि analytics services में logging और analytics reporting शामिल हैं.
- यह घटना Flexential data center में power failure के कारण हुई, जहां Cloudflare का सबसे बड़ा analytics cluster और high-availability cluster का एक महत्वपूर्ण हिस्सा मौजूद है.
- हालांकि ऐसे outage को रोकने के लिए high-availability system स्थापित थे, कुछ महत्वपूर्ण systems में undisclosed dependencies थीं, जिनकी वजह से वे घटना के दौरान अनुपलब्ध हो गए.
- Cloudflare के कंट्रोल प्लेन और analytics systems मुख्य रूप से Oregon के Hillsboro के आसपास स्थित तीन data centers से संचालित होते हैं, जिन्हें इस तरह डिज़ाइन किया गया है कि वे स्वतंत्र रूप से काम करें और एक के offline होने पर भी चलते रहें.
- इस outage ने दिखाया कि कुछ services, खासकर नई services, अभी तक high-availability cluster में नहीं जोड़ी गई थीं, और logging system भी इस cluster का हिस्सा नहीं था.
- Flexential data center में power failure एक unplanned maintenance event के कारण हुआ, जिसने building में आने वाली independent power supplies को प्रभावित किया, और इसकी वजह से transformer में ground fault उत्पन्न हुआ.
- Cloudflare अपने अधिकांश कंट्रोल प्लेन को disaster recovery facility से restore करने में सक्षम था, और यह facility online होने के बाद अधिकांश customers को अधिकांश products में समस्याएं नहीं हुई होंगी.
- हालांकि, कुछ अन्य services को restore होने में अधिक समय लगा, और उनका उपयोग करने वाले customers को घटना पूरी तरह सुलझने तक समस्याएं हुई होंगी.
- Cloudflare इस घटना से मिली सीख के आधार पर बदलाव लागू कर रहा है, जिनमें core data centers पर निर्भरता हटाना, यह सुनिश्चित करना कि सभी core data centers के offline होने पर भी कंट्रोल प्लेन functionality जारी रहे, और यह अनिवार्य करना शामिल है कि सभी products और features high-availability cluster पर निर्भर हों और उनके पास भरोसेमंद disaster recovery plan हो.
- कंपनी सभी data center functions के लिए अधिक कठोर chaos testing भी कर रही है, सभी core data centers का audit कर रही है, और logging तथा analytics के लिए disaster recovery plan विकसित कर रही है.
1 टिप्पणियां
Hacker News टिप्पणियाँ