- Google की Site Reliability Engineering (SRE) के 20 वर्षों के विकास पर लेख
- पिछले 20 वर्षों में Google की computing power 1,000 गुना और network 10,000 गुना बढ़ा
- SRE tools Python scripts से विकसित होकर एकीकृत service ecosystem और reliability को मूल रूप से देने वाले integrated platform तक पहुँचे
- Google के 20 वर्षों के SRE से सीखे गए 11 प्रमुख सबक पर ज़ोर देने वाला लेख
- सबक 1: mitigation actions का जोखिम outage की गंभीरता के अनुसार बदलना चाहिए
- सबक 2: आपात स्थिति से पहले recovery mechanisms का पूरी तरह परीक्षण होना चाहिए
- सबक 3: बड़े पैमाने के प्रभाव को रोकने के लिए सभी बदलावों को क्रमिक रूप से लागू किया जाना चाहिए
- सबक 4: हर service dependency के पास अवांछित स्थिति को वापस करने के लिए एक "बड़ा लाल बटन" होना चाहिए
- सबक 5: केवल unit tests काफ़ी नहीं हैं; integration tests भी ज़रूरी हैं
- सबक 6: outage के दौरान backup सहित कई communication channels अनिवार्य हैं
- सबक 7: services को असाधारण परिस्थितियों में जानबूझकर और सहज तरीके से performance degrade करने में सक्षम होना चाहिए
- सबक 8: disaster resilience और recovery testing business continuity strategy का हिस्सा होना चाहिए
- सबक 9: mitigation actions को mean time to resolution (MTTR) घटाने के लिए automated होना चाहिए
- सबक 10: उचित testing के साथ बार-बार rollout करने से rollout के ग़लत होने की संभावना कम हो सकती है
- सबक 11: एकल global hardware version एक single point of failure है, और विविध infrastructure बनाए रखने से पूर्ण outage रोका जा सकता है
- ये सबक उन वास्तविक घटनाओं पर आधारित हैं जिन्हें Google ने वर्षों में अनुभव किया और उनसे सीखा
अभी कोई टिप्पणी नहीं है.