12 पॉइंट द्वारा xguru 2019-07-21 | 5 टिप्पणियां | WhatsApp पर शेयर करें

यह Cloudflare के CTO द्वारा घटना के सारांश और उससे निपटने के तरीके आदि को संकलित किया गया लेख है, और यह बताता है कि बड़े संगठनों में किस तरह समस्याएँ उत्पन्न होती हैं और उनका सामना कैसे किया जाता है

5 टिप्पणियां

 
blurblah 2019-07-24

मूल लेख का appendix भी दिलचस्प है। इसमें इस बात की विस्तृत व्याख्या भी है कि समस्या पैदा करने वाला पैटर्न .*.*=.* क्यों CPU को पूरी तरह खपा रहा था, और regular expression को ठीक करना तो अच्छा है ही, लेकिन विकल्प के तौर पर engine बदलने के बारे में सोचना भी काफ़ी मायने रखता है।

 
curioe 2019-07-21

यह वाकई एक शानदार outage report है। उन्होंने इससे कैसे निपटा, इसे विस्तार से समझाना अपने आप में काबिले-तारीफ़ है, लेकिन इससे भी ज़्यादा सीखने वाली बात यह है कि उन्होंने इसे सिर्फ़ एक engineer की साधारण गलती मानकर नहीं छोड़ा, बल्कि कई जटिल कारणों को ढूँढकर एक-एक करके हल किया। outage हुआ, लेकिन फिर भी लगता है कि इससे कंपनी पर भरोसा और बढ़ेगा।

 
mytory 2019-07-23

इससे मैं बहुत सहमत हूँ। मुझे भी यह बात प्रभावशाली लगी कि उन्होंने जटिल कारणों को पहचाना। इसे सिर्फ़ एक इंजीनियर की गलती के रूप में न देखना, मुझे लगता है, सीखने लायक बात है.

 
quake21 2019-07-22

सही कहा। शायद इनके पास outage report के लिए कोई executive भी होगा? इतनी विस्तार से root causes ढूंढकर उनका analysis कर पाना भी कमाल है, लेकिन रिपोर्ट भी इतनी अच्छी लिखी है कि लगता है क्या वाकई इतना विस्तार से लिखना ज़रूरी था।

 
lifthrasiir 2019-07-22

यह लेख लिखने वाले Cloudflare के CTO John Graham-Cumming पहले से ही एक प्रसिद्ध ब्लॉगर हैं। https://blog.jgc.org/