2025-06-12 GCP आउटेज रिपोर्ट
(status.cloud.google.com)- Service Control: Google और Google Cloud API द्वारा इस्तेमाल किए जाने वाले मुख्य मॉड्यूल्स में से एक
- 2025-05-29 को Service Control में एक नया फीचर deploy किया गया। यह नई policy को जांचने वाला फीचर था
- 2025-06-12 को नई policy जोड़े जाने पर समस्या शुरू हुई:
- null pointer के कारण crash loop* हुआ
- feature flag नहीं था। लेकिन emergency shutdown के लिए red-button चलाया गया
- us-central-1 जैसे बड़े region में, इस action की वजह से इस पर निर्भर internal services में herd effect* हुआ। क्योंकि randomized exponential backoff** strategy लागू नहीं की गई थी
- इसका मतलब है कि एक साथ बहुत सारा traffic आ गया।
** यह traffic overload को रोकने की एक तकनीक है।
5 टिप्पणियां
GN+ पर भी इसी रिपोर्ट पर एक पोस्ट आई है.
Google जैसी बड़ी कंपनी में भी शायद यहाँ-वहाँ ऐसा code छिपा हुआ है, जहाँ retry handling के समय Jitter जोड़ने जैसी बुनियादी सावधानी तक लागू नहीं की गई।
शायद पहले ऐसी समस्या सामने नहीं आई, इसलिए उसे वैसे ही छोड़ दिया गया होगा; लगता है, अच्छी तरह चल रहे code को बिना वजह न छेड़ने वाली बात बड़ी कंपनियों पर भी उतनी ही लागू होती है।
अब देख रहा हूँ कि फ़ॉर्मैट थोड़ा टूट गया है। आख़िरी दो पंक्तियाँ क्रमशः crash loop और randomized exponential backoff पर टिप्पणियाँ हैं।
क्या यह कुछ दिन पहले हुई इंटरनेट डाउन पोस्ट में बताए गए आउटेज से जुड़ा हो सकता है?
हाँ, सही है, यह उसी outage की बात है।