2020/12/18 अपडेट (कारण और प्रतिक्रिया उपाय जोड़े गए)

#ROOT CAUSE

पिछले अक्टूबर से Google user ID service में एक नया automatic storage allocation system लागू किया गया था। कुछ services अब भी मौजूदा quota system का उपयोग कर रही थीं, और उनमें usage को 0 के रूप में report करने की समस्या थी। 0 के रूप में report होने का तुरंत प्रभाव नहीं पड़ा क्योंकि expire time बाकी था, लेकिन समय समाप्त होने के बाद User ID service का quota कम होने से outage हुआ। अनचाहे quota change को validate करने के लिए safety checks मौजूद थे, लेकिन वे 0 वाले scenario को handle नहीं करते थे.

account database का quota कम हो गया, Paxos leader पर write असंभव हो गया, और अधिकांश read operations expire हो गईं, जिससे authentication lookup के समय errors हुए.

#REMEDIATION AND PREVENTION

  1. global changes के तेज implementation को रोकने के लिए quota management automation की review

  2. monitoring और alerts में सुधार ताकि गलत configuration को जल्दी पकड़ा जा सके

  3. internal tools की वजह से outage होने पर external communication के लिए tools और processes की reliability में सुधार

  4. User ID service database के लिए write error resilience लागू करना

  5. User ID service failure की स्थिति में data plane पर प्रभाव को सख्ती से सीमित करके GCP services की resilience में सुधार

  • 14 दिसंबर को हुई outage के बारे में detailed report update हुई थी, उसे पढ़ते हुए मैंने जल्दी में अनुवाद किया। अगर कोई गलती हो तो बताइए। और GeekNews मैं हमेशा दिलचस्पी से पढ़ता हूँ, इसलिए अगर outage से जुड़ी कोई मजेदार सामग्री मिली तो साझा करूँगा।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.