2 पॉइंट द्वारा GN⁺ 2023-11-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 2 से 4 नवंबर 2023 तक Cloudflare के कंट्रोल प्लेन और analytics services में outage रहा.
  • कंट्रोल प्लेन में मुख्य रूप से Cloudflare services के customer-facing interfaces शामिल हैं, जबकि analytics services में logging और analytics reporting शामिल हैं.
  • यह घटना Flexential data center में power failure के कारण हुई, जहां Cloudflare का सबसे बड़ा analytics cluster और high-availability cluster का एक महत्वपूर्ण हिस्सा मौजूद है.
  • हालांकि ऐसे outage को रोकने के लिए high-availability system स्थापित थे, कुछ महत्वपूर्ण systems में undisclosed dependencies थीं, जिनकी वजह से वे घटना के दौरान अनुपलब्ध हो गए.
  • Cloudflare के कंट्रोल प्लेन और analytics systems मुख्य रूप से Oregon के Hillsboro के आसपास स्थित तीन data centers से संचालित होते हैं, जिन्हें इस तरह डिज़ाइन किया गया है कि वे स्वतंत्र रूप से काम करें और एक के offline होने पर भी चलते रहें.
  • इस outage ने दिखाया कि कुछ services, खासकर नई services, अभी तक high-availability cluster में नहीं जोड़ी गई थीं, और logging system भी इस cluster का हिस्सा नहीं था.
  • Flexential data center में power failure एक unplanned maintenance event के कारण हुआ, जिसने building में आने वाली independent power supplies को प्रभावित किया, और इसकी वजह से transformer में ground fault उत्पन्न हुआ.
  • Cloudflare अपने अधिकांश कंट्रोल प्लेन को disaster recovery facility से restore करने में सक्षम था, और यह facility online होने के बाद अधिकांश customers को अधिकांश products में समस्याएं नहीं हुई होंगी.
  • हालांकि, कुछ अन्य services को restore होने में अधिक समय लगा, और उनका उपयोग करने वाले customers को घटना पूरी तरह सुलझने तक समस्याएं हुई होंगी.
  • Cloudflare इस घटना से मिली सीख के आधार पर बदलाव लागू कर रहा है, जिनमें core data centers पर निर्भरता हटाना, यह सुनिश्चित करना कि सभी core data centers के offline होने पर भी कंट्रोल प्लेन functionality जारी रहे, और यह अनिवार्य करना शामिल है कि सभी products और features high-availability cluster पर निर्भर हों और उनके पास भरोसेमंद disaster recovery plan हो.
  • कंपनी सभी data center functions के लिए अधिक कठोर chaos testing भी कर रही है, सभी core data centers का audit कर रही है, और logging तथा analytics के लिए disaster recovery plan विकसित कर रही है.

1 टिप्पणियां

 
GN⁺ 2023-11-05
Hacker News टिप्पणियाँ
  • Cloudflare की बड़ी आउटेज पर एक लेख, जिसमें कंपनी इस समस्या का कारण Flexential vendor द्वारा संचालित data center में power failure को बताती है.
  • कुछ commenters Cloudflare की आलोचना करते हैं कि वह Flexential पर दोष मढ़ रही है और vendor के बारे में गोपनीय जानकारी उजागर कर रही है.
  • आउटेज का मूल कारण यह था कि Cloudflare एक ही data center पर निर्भर थी; कुछ commenters का मानना है कि यह Cloudflare की प्रतिष्ठा के लिए शर्मनाक है.
  • recovery process, आउटेज से भी ज़्यादा लंबा चला, और कुछ services को पूरी तरह बहाल होने में लगभग 30 घंटे लगे. इसका कारण यह था कि कई services एक-दूसरे पर निर्भर थीं.
  • कुछ commenters ने आउटेज के दौरान Cloudflare की communication को लेकर असंतोष जताया, खासकर enterprise customers के लिए.
  • समस्याओं के बावजूद, कुछ commenters ने Cloudflare की transparency और postmortem report की thoroughness की सराहना की.
  • कुछ commenters ने Cloudflare की redundancy failure और control plane के geographic distribution की कमी को लेकर चिंता जताई.
  • commenters ने यह भी आलोचना की कि Cloudflare ने सभी services को high-availability cluster में नहीं रखा और power outage के हर संभावित scenario का परीक्षण नहीं किया.
  • कुछ commenters ने report में human element की सराहना की, क्योंकि उसमें यह स्वीकार किया गया कि recovery process के दौरान अतिरिक्त गलतियों से बचने के लिए Cloudflare को आराम की ज़रूरत थी.
  • commenters ने इस बात पर ज़ोर दिया कि data center के पूरी तरह offline होने की स्थिति से recovery करने की क्षमता महत्वपूर्ण है, और Cloudflare की आलोचना की कि उसने इस scenario का परीक्षण नहीं किया.
  • कुछ commenters ने लेख की संरचना पर आश्चर्य जताया, क्योंकि पोस्ट का अधिकांश हिस्सा third-party vendor पर चर्चा करता है और Cloudflare के अपने recovery efforts पर कम ध्यान देता है.