Slack की 2020-5-12 आउटेज रिपोर्ट
(slack.engineering)Slack में पहली बार काफी लंबे समय तक पूरी तरह डाउन रहने वाली समस्या का विवरण
-
DB configuration change deploy करने के बाद एक performance bug मिला, जिससे DB load बढ़ गया, इसलिए कुछ ही मिनटों में rollback किया गया
-
इसके बावजूद इस समस्या के कारण web app autoscaling सक्रिय हो गया, और Hard Limit से अधिक instances बढ़ गए
-
इसकी वजह से load balancer में host list update वाले हिस्से में bug आ गया, जिससे नए instances register नहीं हो पाए
→ HAProxy + Consul
-
8 घंटे बाद host list में केवल सबसे पुराने instances ही बचे थे, और scale-down होने पर वे पुराने instances shutdown हो गए
-
नए instances को यह जिम्मेदारी संभालनी थी, लेकिन load balancer host list में नए instances थे ही नहीं.
अभी कोई टिप्पणी नहीं है.