Slack में पहली बार काफी लंबे समय तक पूरी तरह डाउन रहने वाली समस्या का विवरण

  1. DB configuration change deploy करने के बाद एक performance bug मिला, जिससे DB load बढ़ गया, इसलिए कुछ ही मिनटों में rollback किया गया

  2. इसके बावजूद इस समस्या के कारण web app autoscaling सक्रिय हो गया, और Hard Limit से अधिक instances बढ़ गए

  3. इसकी वजह से load balancer में host list update वाले हिस्से में bug आ गया, जिससे नए instances register नहीं हो पाए

→ HAProxy + Consul

  1. 8 घंटे बाद host list में केवल सबसे पुराने instances ही बचे थे, और scale-down होने पर वे पुराने instances shutdown हो गए

  2. नए instances को यह जिम्मेदारी संभालनी थी, लेकिन load balancer host list में नए instances थे ही नहीं.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.