- Cloudflare global network में internal service performance degradation हुआ, जिससे कई services बीच-बीच में प्रभावित हुईं
- Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers जैसी प्रमुख services ने अस्थायी outage का सामना किया
- Engineering team ने समस्या की पहचान की और fix पर काम शुरू किया, तथा WARP और Access services सबसे पहले बहाल हुईं
- इसके बाद दुनिया भर में error rate और latency धीरे-धीरे सामान्य स्तर पर लौटे, और Dashboard service भी restore हो गई
- फिलहाल सभी services सामान्य रूप से चल रही हैं, और incident पूरी तरह resolve हो चुका है
घटना का सारांश
- Cloudflare को internal service performance degradation (Internal Service Degradation) का सामना करना पड़ा, जिससे कुछ services बीच-बीच में बाधित हुईं
- प्रभावित services में Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers शामिल थीं
- कंपनी ने तुरंत recovery work शुरू किया और समस्या समाधान की प्रगति पर लगातार updates दिए
समस्या की पहचान और शुरुआती प्रतिक्रिया
- Cloudflare ने जांच जारी है (Investigating) चरण में internal service degradation की पुष्टि की
- कुछ customers ने बीच-बीच में errors और latency का अनुभव किया
- Engineering team ने root cause analysis और recovery work समानांतर रूप से किया
- इसके बाद समस्या के कारण की पहचान (Identified) कर fix लागू करना शुरू किया गया
- fix के दौरान London region में WARP access अस्थायी रूप से disable कर दिया गया, जिससे उस क्षेत्र के users को internet connection failure का सामना करना पड़ा
service recovery की प्रगति
- fix के बाद Access और WARP services सबसे पहले restore हुईं और error rate incident से पहले के स्तर पर लौट आया
- London region में WARP access फिर से enable किया गया
- इसके बाद Application Services customers के लिए service restoration work जारी रहा
- Dashboard service recovery के लिए changes deploy किए गए
- कुछ customers को अब भी login या Dashboard इस्तेमाल करने में समस्या हुई, लेकिन अतिरिक्त fixes से यह हल हो गया
पूरे network की स्थिरता की बहाली
- दुनिया भर में error rate और latency धीरे-धीरे कम हुए और सामान्य स्तर पर लौटे
- Bot Management के bot scores अस्थायी रूप से प्रभावित हुए थे, लेकिन recovery process के दौरान सामान्य हो गए
- Engineering team ने बाकी errors को हटाया और पूरे network की recovery को तेज किया
- इसके बाद सभी services सामान्य रूप से काम करने लगीं, और error rate व latency पूरी तरह सामान्य हो गए
घटना का समापन और आगे की कार्रवाई
- Cloudflare ने पुष्टि की कि सभी services सामान्य रूप से चल रही हैं और incident को बंद कर दिया
- फिलहाल कोई अतिरिक्त configuration changes नहीं किए गए हैं, और platform की बारीकी से monitoring की जा रही है
- incident के कारण पर post-incident investigation जारी है, और उसका परिणाम बाद में साझा किया जाएगा
- यह outage global network के व्यापक हिस्से को प्रभावित करने वाली घटना के रूप में दर्ज किया गया
1 टिप्पणियां
Hacker News राय
Cloudflare API token रखने वाला कोई भी व्यक्ति CF proxy को disable करने वाला command साझा कर रहा था
curlcommand से zone ID और DNS record लाए जा सकते हैं, औरPATCHrequest में"proxied": falseसेट करना होता हैहालांकि SSL certificate खोने, security/performance में गिरावट, और backend IP उजागर होने का जोखिम है, इसलिए सावधानी ज़रूरी है
X-Auth-EmailऔरX-Auth-Keyheader इस्तेमाल किए जा सकते हैंऔर जिन्होंने सिर्फ Cloudflare traffic को allow किया हुआ है, उन्हें वह rule थोड़ी देर के लिए बंद करना होगा
अच्छी बात है कि अब सब फिर से online हो गया है
curlमें GET request default होती है, इसलिए-X GETकी ज़रूरत नहीं है-doption इस्तेमाल करने पर वह अपने-आप POST हो जाता है, और PATCH के लिए-X PATCHसही हैलेकिन tunneling के बाद भी कुछ site अब भी आंशिक रूप से down हैं
Cloudflare CTO के मुताबिक, bot blocking system में एक संभावित bug configuration change के बाद बेकाबू हो गया और पूरे network में outage का कारण बना
source में बताया गया कि यह हमला नहीं, बल्कि आंतरिक समस्या थी
code हो या config, दोनों data ही हैं, और इन्हें दुनिया भर में एक साथ push करके बड़े outage की वही पुरानी गलती दोहराई जाती है
एक सहकर्मी अचानक भागते हुए आया और बोला कि Cloudflare config बदलने के तुरंत बाद site down हो गई, तो उसे लगा कि उसी से गड़बड़ हो गई
यह पोस्ट देखकर उसे राहत मिली
“Cloudflare down” message देखकर सच में राहत मिली
नीदरलैंड में जांचने पर लगभग सारी services down थीं
Cloudflare dashboard भी नहीं खुल रहा था, और Betterstack dashboard का भी वही हाल था
विडंबना यह थी कि status page चालू थी, इसलिए customers को notice तक नहीं दे पा रहे थे
मैंने “ज़रूरत न हो तो Cloudflare के पीछे मत रखो” पर एक blog post भी लिखी है
फिर भी ऐसे बड़े outage में customers उम्मीद से ज़्यादा समझदारी दिखा देते हैं
कुछ मिनट लगे, लेकिन मैंने hcker.news को CF से अलग कर दिया
नीचे external status page से जुड़ा real-time uptime widget लगा है
status SVG और
external status page देख सकते हैं
Cloudflare या AWS रुकने पर मेरी self-hosted service का सामान्य रूप से चलते रहना एक अलग ही संतोष देता है
उनकी 99.999% availability से इस समय तो मैं ज़्यादा stable हूं
अब शायद एक uptime tracker लगा ही दूं
यह नए SaaS startups के लिए सीख है
इसलिए मेरी छोटी-सी site का down होना मज़ेदार भी लगा और अजीब तरह से संतोषजनक भी
हाल के दिनों में बड़े infrastructure outage तेज़ी से बढ़े लगते हैं। AWS और Cloudflare दोनों ही SLA से काफ़ी नीचे दिख रहे हैं
यह वास्तविक uptime नहीं, बल्कि कंपनी द्वारा मनमाने ढंग से परिभाषित किया गया आंकड़ा है
Cloudflare या AWS रुक जाएं तो web का आधा हिस्सा रुक जाना centralization की समस्या को गंभीर रूप से दिखाता है
यही वजह है कि यह ढांचा बदलता नहीं
छोटे CDN के लिए मुकाबला कठिन हो जाता है, और अंततः natural monopoly जैसा ढांचा बनता है
Cloudflare का free tier भी इसी network effect को पाने की रणनीति थी
और सरकारों की censorship का केंद्रित target भी बन सकती है
web के 2/3 हिस्से की निर्भरता उस पर है, certificate की उम्र लगातार घट रही है, और अगर hack या outage हो जाए तो पूरा web ठप पड़ सकता है
अभी वह एक अच्छी संस्था है, लेकिन यह नहीं भूलना चाहिए कि कभी Google के बारे में भी ऐसा ही सोचा जाता था
software level पर backup बहुत हैं, लेकिन infrastructure level पर multi-hosting की सामान्य समझ लगभग गायब हो गई है
विडंबना यह रही कि DownDetector भी Cloudflare Turnstile इस्तेमाल कर रहा था, इसलिए वह भी साथ में down हो गया
Cloudflare का “Your browser: Working / Host: Working / Cloudflare: Error” वाला दृश्यात्मक माफ़ीनामा काफ़ी प्रभावशाली लगा
Cloudflare Challenge (“I’m not a robot”) इस्तेमाल करने वाली sites भी HTTP 500 error देने लगीं और रुक गईं
“challenges.cloudflare.com को unblock करें” जैसा message दिख रहा था
या infinite loading screen दिखाती रहती हैं। जबकि backend साफ़ error लौटाता है, frontend उसे छिपा देता है
हाल में मैंने ऐसा case भी देखा जहां password बहुत लंबा होने की error को “email पहले से इस्तेमाल हो रहा है” बनाकर दिखाया गया
विडंबना यह हो गई कि AI को इंसान होने का सबूत देना पड़ रहा था
Cloudflare Captcha कभी down नहीं हो सकता — इस तरह का /s वाला व्यंग्यात्मक इनकार काफ़ी मज़ेदार था