• Google की Site Reliability Engineering (SRE) के 20 वर्षों के विकास पर लेख
  • पिछले 20 वर्षों में Google की computing power 1,000 गुना और network 10,000 गुना बढ़ा
  • SRE tools Python scripts से विकसित होकर एकीकृत service ecosystem और reliability को मूल रूप से देने वाले integrated platform तक पहुँचे
  • Google के 20 वर्षों के SRE से सीखे गए 11 प्रमुख सबक पर ज़ोर देने वाला लेख
  • सबक 1: mitigation actions का जोखिम outage की गंभीरता के अनुसार बदलना चाहिए
  • सबक 2: आपात स्थिति से पहले recovery mechanisms का पूरी तरह परीक्षण होना चाहिए
  • सबक 3: बड़े पैमाने के प्रभाव को रोकने के लिए सभी बदलावों को क्रमिक रूप से लागू किया जाना चाहिए
  • सबक 4: हर service dependency के पास अवांछित स्थिति को वापस करने के लिए एक "बड़ा लाल बटन" होना चाहिए
  • सबक 5: केवल unit tests काफ़ी नहीं हैं; integration tests भी ज़रूरी हैं
  • सबक 6: outage के दौरान backup सहित कई communication channels अनिवार्य हैं
  • सबक 7: services को असाधारण परिस्थितियों में जानबूझकर और सहज तरीके से performance degrade करने में सक्षम होना चाहिए
  • सबक 8: disaster resilience और recovery testing business continuity strategy का हिस्सा होना चाहिए
  • सबक 9: mitigation actions को mean time to resolution (MTTR) घटाने के लिए automated होना चाहिए
  • सबक 10: उचित testing के साथ बार-बार rollout करने से rollout के ग़लत होने की संभावना कम हो सकती है
  • सबक 11: एकल global hardware version एक single point of failure है, और विविध infrastructure बनाए रखने से पूर्ण outage रोका जा सकता है
  • ये सबक उन वास्तविक घटनाओं पर आधारित हैं जिन्हें Google ने वर्षों में अनुभव किया और उनसे सीखा

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.