- विश्व की सबसे बड़ी AWS क्लाउड सेवा में आउटेज के कारण हजारों वेबसाइट और ऐप बंद हो गए, जिससे इंटरनेट इंफ्रास्ट्रक्चर में कुछ ही कंपनियों पर अत्यधिक निर्भरता का खतरा उजागर हुआ।
- Snapchat, Roblox, Signal, Duolingo जैसी प्रमुख सेवाओं के साथ Lloyds Bank, Ring, HMRC जैसी सार्वजनिक और वित्तीय संस्थाएँ भी इस आउटेज के दायरे में आईं।
- AWS ने कारण के रूप में अमेरिकी पूर्वी रिजन की आंतरिक सिस्टम गड़बड़ी बताया, साइबर अटैक की संभावना को खारिज किया, और अधिकांश सेवाएँ कुछ ही घंटों में बहाल हो गईं।
- विशेषज्ञों ने कहा कि “लोकतांत्रिक विमर्श और स्वतंत्र पत्रकारिता की बुनियाद को कुछ चुनिंदा कंपनियों पर निर्भर नहीं होना चाहिए” और क्लाउड इंफ्रास्ट्रक्चर के विविधीकरण की जरूरत पर जोर दिया।
- बड़े क्लाउड कंपनियों पर केंद्रित ढांचे को वैश्विक इंटरनेट की कमजोरियों को उजागर करने वाला माना गया, तथा पब्लिक इंफ्रास्ट्रक्चर की टेक्नोलॉजी संप्रभुता पर नई बहस शुरू हुई।
आउटेज का सार
- AWS के अमेरिका के पूर्वी रिजन (US-East-1) में हुई आंतरिक त्रुटि से वैश्विक सेवाओं में व्यापक रुकावट आई।
- स्थानीय समयानुसार सोमवार सुबह 8 बजे (यूके समय लगभग 4 बजे) से आउटेज शुरू हुआ।
- Amazon ने कहा कि “API error rate और latency बढ़ गई थी।”
- Downdetector के अनुसार दुनिया भर में करीब 2,000 कंपनियाँ प्रभावित हुईं, और अमेरिका में 19 लाख+, यूके में 10 लाख+, ऑस्ट्रेलिया में 41 लाख+ से अधिक उपयोगकर्ताओं ने समस्या की रिपोर्ट की।
- AWS ने “आंतरिक लोड बैलेंसर मॉनिटरिंग सबसिस्टम” में खराबी को कारण बताया और साइबर अटैक की संभावना से इनकार किया।
- AWS के DynamoDB से जुड़े error के कारण API responses असफल हो रहे थे।
- ट्रैफिक स्पाइक रोकने के लिए अस्थायी रूप से request rate limiting लागू की गई।
- AWS ने शाम को “नॉर्मल ऑपरेशन” में वापसी की आधिकारिक घोषणा की, लेकिन कुछ सेवाओं में लगातार आउटेज की रिपोर्ट मिली।
प्रभाव क्षेत्र
- प्रमुख सेवाएँ: Snapchat, Roblox, Signal, Duolingo, Coinbase, Slack, Wordle, PlayStation Network, Peloton आदि कई अन्य
- यूके में Lloyds, Halifax, Bank of Scotland जैसी वित्तीय सेवाओं और HMRC (हिज मैजेस्टी रेवेन्यू एंड कस्टम्स) वेबसाइट एक्सेस में समस्या आई।
- Ring डोरबेल उपयोगकर्ताओं ने शिकायत की कि दरवाज़ा खुलने की मॉनिटरिंग सेवा बंद हो गई।
- Epic Games, Pokémon Go, Wordle जैसी वैश्विक प्लेटफॉर्म पर भी पहुँच न हो पाने की रिपोर्टें मिलीं।
विशेषज्ञ विश्लेषण
- Dr. Corinne Cath-Speth (Article 19): “लोकतांत्रिक विमर्श और स्वतंत्र मीडिया का आधार कुछ चुनिंदा कंपनियों के इंफ्रास्ट्रक्चर पर निर्भर होना खतरनाक है। क्लाउड विविधीकरण बेहद जरूरी है।”
- Cori Crider (Future of Technology Institute): “यूके को अमेरिकी बिग टेक निर्भरता से बाहर आना चाहिए। AWS के एक स्थान पर आउटेज से पूरी आधुनिक अर्थव्यवस्था रुक जाने का उदाहरण सामने आया।”
- Madeline Carr (UCL): “बड़ी क्लाउड कंपनियों की पूंजी शक्ति से सुरक्षा और scalability बनी रह सकती है, लेकिन विश्व को एक ही जोखिम में बाँधने वाली संरचना बहुत खतरनाक है।”
- Steven Murdoch (UCL): “साइबर अटैक के बजाय अनुमान है कि यह AWS की आंतरिक ऑपरेशनल गलती थी।”
सरकारी और नियामक प्रतिक्रिया
- यूके सरकार ने कहा कि उसने AWS के साथ आपातकालीन संपर्क तंत्र सक्रिय किया और रिकवरी की स्थिति की मॉनिटरिंग की।
- यूके हाउस ऑफ कॉमन्स की फाइनेंस कमेटी ने कहा कि AWS को वित्तीय क्षेत्र के ‘critical third party’ के रूप में नामित किया जाना चाहिए।
- नामित होने पर यह फाइनेंस रेगुलेटरी बॉडीज़ की निगरानी में आएगा और वित्तीय इंफ्रास्ट्रक्चर की स्थिरता सुनिश्चित की जा सकेगी।
- अध्यक्ष Meg Hillier ने कहा कि AWS ने खुद को ‘resilience’ देने वाला बताया, लेकिन उसने अपनी vulnerability सामने लाई।
पृष्ठभूमि और निहितार्थ
- AWS के पास विश्व क्लाउड बाजार में 30% से अधिक शेयर है और यह नंबर एक पर बना हुआ है।
- Microsoft Azure और Google Cloud के साथ मिलकर ‘3 बड़े क्लाउड प्लेटफॉर्म का एकछत्र नियंत्रण’ बन रहा है।
- 2024 में CrowdStrike की सॉफ्टवेयर गलती से दुनिया भर के Windows PC पर फिर से ‘Blue Screen’ की घटना हुई थी।
- इस घटना ने फिर से दिखाया कि डिजिटल इंफ्रास्ट्रक्चर के केंद्रीकरण से जो सिस्टम रिस्क पैदा होता है, वह बड़ा है, और कई देशों की सरकारों में टेक्नोलॉजी संप्रभुता और क्लाउड विविधीकरण रणनीतियों की चर्चा तेज़ हो गई है।
3 टिप्पणियां
हिम्मत मत हारिए, Naver Cloud!
“अगर आपको क्लाउड पसंद नहीं है तो इसे खुद सेटअप करके इस्तेमाल कीजिए” इसलिए कोई चर्चा संभव है क्या, ऐसा लगता है।
मल्टी-क्लाउड? निर्माण और मैनेजमेंट भी तो किसी के लिए कोई "Josangnim" जैसा नहीं करेगा।
Hacker News टिप्पणी
अभी AWS us-east-1 में कई सेवाएँ डाउन होने पर चर्चा चल रही है, और उससे जुड़ा लंबा थ्रेड यहाँ मौजूद है
2021 में Fastly आउटेज के समय भी ऐसे ही ‘विशेषज्ञ’ों ने समान आलोचना की थी, लेकिन कोई स्पष्ट बदलाव नहीं दिखा. ऐसे मुद्दे एक हफ्ते बाद खबरों में भी नहीं दिखते. काम करने वाले लोग जानते हैं कि AWS के स्केल पर ऑपरेशन कितना कठिन होता है. इस तरह की स्थिति के लिए असली बैकअप बनाना बहुत महँगा है, इसलिए ज़्यादातर कंपनियों के लिए इसका लाभ बहुत कम होता है. अगर कोई सेवा सच में “मिशन-क्रिटिकल” हो, तो उसे ऐसे आउटेज के खिलाफ डिज़ाइन किया जाना चाहिए. Fortnite में लॉगिन न कर पाना यह दिखाता है कि ऐसी तैयारी व्यवहार में कितनी कठिन और कितनी महँगी है. मीडिया भी सामान्यतः मल्टी-रीजन या मल्टी-क्लाउड की अहमियत पर चर्चा नहीं करता, लेकिन हादसा होते ही याद करता है और जल्द भूल जाता है. आख़िरकार सवाल बस यही रहता है कि तकनीकी कारण क्या था. फॉलो-अप के बिना ‘विशेषज्ञ’ों की निंदा का कोई खास मतलब नहीं; असली बात है ब्लेम-फ्री, निर्माणात्मक postmortem.
अगर “क्लाउड” या “इंटरनेट” के बजाय “वर्जीनिया का गोदाम” शब्द प्रयोग करने की आदत डालें तो क्या बेहतर समझ बनेगी, यह देखने की जरूरत है. जैसे, “हमारी सेवा पूरी तरह वर्जीनिया के गोदाम में है”, “मेरी सभी फाइलें वर्जीनिया के गोदाम में हैं”, “वर्जीनिया का गोदाम परमाणु युद्ध सहन करने के लिए डिज़ाइन किया गया है” आदि. मूल पोस्ट
पहले से ही कई VPS providers मौजूद हैं, और ऐसे में शिफ्ट करने पर लागत घटने के कई उदाहरण मिलते हैं; हकीकत में यह क्लाउड लॉक-इन और मार्केटिंग का ही मामला है.
विशेषज्ञों की राय में असल फोकस तकनीक पर कम और भू-राजनीतिक संदर्भ पर ज्यादा होता है (जैसे किसी देश की पूरी सिस्टम के विदेश की कंपनियों पर रियल-टाइम निर्भरता). सामान्य कंपनी के लिए अक्सर single provider पर निर्भर रहना complexity घटाता है और outage frequency के हिसाब से भी ज्यादा बोझिल नहीं होता. ज़रूरी नहीं कि मल्टी-क्लाउड उपयोग ही किया जाए; सिर्फ एक side उपयोग करने से भी शायद डाउनटाइम frequency बेहतर हो.
मुझे लगता है उद्योग-भर cloud lock-in में फँसा है. आगे इसे कैसे उलटा जा सकता है, यही बड़ा सवाल है. Docker को भी मैं बड़े cloud vendors की तरह lock-in के कारणों में से एक मानता/मानती हूँ.
मुझे क्लाउड operations छोड़े कई साल हो गए, लेकिन उस समय foundational primitives सभी providers में लगभग standardized हो चुके थे. समझ नहीं आता कि मल्टी-क्लाउड redundancy की लागत बहुत ज्यादा थी, तकनीकी gap बड़ा था, या इसे बिज़नेस की नज़र से तौलना ही शायद ज़रूरी नहीं समझा गया. pets vs cattle स्लाइड
इस साल पहले से यह अनुमान नहीं लगाया जा सकता था कि AWS us-east-1 शायद दो अंकों वाला “9” यानी केवल लगभग 99% uptime ही दे पाएगा.
सबका साथ में down होने से immunity मिल जाएगी, ऐसा सोचना गलत है; सामान्य ग्राहक-facing service के साथ यह काम नहीं करता—मेरे अनुभव में ऐसा नहीं होता.
इस आउटेज की जड़ में नेटवर्क लोड बैलेंसर की health check सँभालने वाली internal sub-system में fault था. AWS सेवा स्थिति पृष्ठ