2 जुलाई 2019 की Cloudflare आउटेज रिपोर्ट [अनुवाद]
(ryanking13.github.io)यह Cloudflare के CTO द्वारा घटना के सारांश और उससे निपटने के तरीके आदि को संकलित किया गया लेख है, और यह बताता है कि बड़े संगठनों में किस तरह समस्याएँ उत्पन्न होती हैं और उनका सामना कैसे किया जाता है
5 टिप्पणियां
मूल लेख का appendix भी दिलचस्प है। इसमें इस बात की विस्तृत व्याख्या भी है कि समस्या पैदा करने वाला पैटर्न
.*.*=.*क्यों CPU को पूरी तरह खपा रहा था, और regular expression को ठीक करना तो अच्छा है ही, लेकिन विकल्प के तौर पर engine बदलने के बारे में सोचना भी काफ़ी मायने रखता है।यह वाकई एक शानदार outage report है। उन्होंने इससे कैसे निपटा, इसे विस्तार से समझाना अपने आप में काबिले-तारीफ़ है, लेकिन इससे भी ज़्यादा सीखने वाली बात यह है कि उन्होंने इसे सिर्फ़ एक engineer की साधारण गलती मानकर नहीं छोड़ा, बल्कि कई जटिल कारणों को ढूँढकर एक-एक करके हल किया। outage हुआ, लेकिन फिर भी लगता है कि इससे कंपनी पर भरोसा और बढ़ेगा।
इससे मैं बहुत सहमत हूँ। मुझे भी यह बात प्रभावशाली लगी कि उन्होंने जटिल कारणों को पहचाना। इसे सिर्फ़ एक इंजीनियर की गलती के रूप में न देखना, मुझे लगता है, सीखने लायक बात है.
सही कहा। शायद इनके पास outage report के लिए कोई executive भी होगा? इतनी विस्तार से root causes ढूंढकर उनका analysis कर पाना भी कमाल है, लेकिन रिपोर्ट भी इतनी अच्छी लिखी है कि लगता है क्या वाकई इतना विस्तार से लिखना ज़रूरी था।
यह लेख लिखने वाले Cloudflare के CTO John Graham-Cumming पहले से ही एक प्रसिद्ध ब्लॉगर हैं। https://blog.jgc.org/