- 5 दिसंबर 2025 को 08:47 UTC पर Cloudflare नेटवर्क के कुछ हिस्सों में गंभीर आउटेज हुआ और लगभग 25 मिनट बाद, यानी 09:12 UTC पर, इसे पूरी तरह ठीक कर दिया गया
- कुल लगभग 28% HTTP ट्रैफिक प्रभावित हुआ, और केवल वे ग्राहक प्रभावित हुए जो कुछ विशिष्ट शर्तों को पूरा कर रहे थे
- कारण था React Server Components कमजोरी (CVE-2025-55182) के लिए कार्रवाई के दौरान किया गया WAF (body parsing logic) परिवर्तन, जो किसी साइबर अटैक या दुर्भावनापूर्ण गतिविधि से जुड़ा नहीं था
- FL1 proxy की कोड त्रुटि के कारण HTTP 500 errors आए, जबकि नए Rust आधारित FL2 proxy में यही त्रुटि नहीं दिखी
- Cloudflare ने 18 नवंबर की आउटेज के बाद भी इसी तरह की समस्या दोबारा होने को स्वीकार किया और डिप्लॉयमेंट सेफ्टी व रेज़िलिएन्स बढ़ाने के प्रोजेक्ट को शीर्ष प्राथमिकता के रूप में आगे बढ़ा रहा है
आउटेज का अवलोकन
- 5 दिसंबर 2025 को 08:47 UTC पर Cloudflare नेटवर्क के एक हिस्से में आउटेज हुआ
- 09:12 UTC पर सभी सेवाएं बहाल हो गईं, कुल प्रभाव अवधि लगभग 25 मिनट रही
- कुल HTTP ट्रैफिक का करीब 28% प्रभावित हुआ
- आउटेज साइबर अटैक या किसी malicious action का नतीजा नहीं था; यह आंतरिक सेटिंग बदलाव के दौरान हुआ
- React Server Components की नई कमजोरी को हैंडल करने के लिए किया गया WAF body parsing logic अपडेट इसका मूल कारण था
कारण और तकनीकी पृष्ठभूमि
- Cloudflare WAF, malicious payloads खोजने के लिए HTTP request body को memory में buffer करता है
- मौजूदा buffer आकार 128KB से बढ़ाकर 1MB किया जा रहा था
- नया buffer size आंतरिक टेस्ट टूल के लिए समर्थित नहीं था, इसलिए दूसरा बदलाव कर टेस्ट टूल को disable किया गया
- यह बदलाव global settings system के जरिए तुरंत सभी servers पर propagate किया गया
- FL1 proxy में इस बदलाव ने error state उत्पन्न की, जिससे HTTP 500 responses आईं
- error संदेश:
attempt to index field 'execute' (a nil value)
- समस्या तुरंत पहचान ली गई और 09:12 UTC पर बदलाव वापस ले लिया गया
प्रभाव का दायरा
- केवल वही ग्राहक प्रभावित हुए जो FL1 proxy उपयोग कर रहे थे और जिन पर Cloudflare Managed Ruleset लागू था
- उन साइटों पर सभी requests ने HTTP 500 error लौटाई
/cdn-cgi/trace जैसे कुछ टेस्ट endpoints इससे अपवाद थे
- चीन नेटवर्क और अन्य कॉन्फ़िगरेशन वाले ग्राहकों पर कोई प्रभाव नहीं पड़ा
रनटाइम त्रुटि का विवरण
- Cloudflare का rulesets सिस्टम प्रत्येक request पर rules evaluate करता है
- एक rule में filter और action दोनों होते हैं, और
execute action अन्य rule सेट को invoke करता है
- आंतरिक logging सिस्टम
execute का उपयोग करके टेस्ट rules evaluate करता है
- killswitch सिस्टम गलत तरीके से काम कर रही rules को disable करने के लिए डिजाइन किया गया है, लेकिन
execute action वाले rules पर killswitch लगाने की यह पहली बार की घटना थी
- जब
execute object मौजूद नहीं था तब उसे access करने पर Lua error हुई
- यह एक साधारण code bug था जो वर्षों से मौजूद था लेकिन पकड़ में नहीं आया
- Rust में लिखे गए FL2 proxy में यह त्रुटि दोहराई नहीं गई
नवंबर 18 के बाद सुधार की स्थिति
- 18 नवंबर को भी समान global deployment से व्यापक आउटेज हुआ था
- उस समय कई सौ ग्राहकों से सीधे संवाद कर single-update blast radius को रोकने की योजना साझा की गई थी
- यह सुधारात्मक काम अभी पूरा नहीं हुआ था, इसलिए इसका असर इस आउटेज में भी दिखा
- Cloudflare ने इसे कंपनी स्तर पर टॉप-प्रायोरिटी मिशन घोषित किया है
चल रहे लचीलापन सुधार प्रोजेक्ट
- Enhanced Rollouts & Versioning
- threat-response data और configuration बदलावों पर भी gradual rollout, health validation और fast rollback लागू करना
- Streamlined Break Glass Capabilities
- internal services और control plane interactions के दौरान भी emergency override संभव बनाना
- Fail-Open error handling
- यदि config file में गलती हो तो request block न करके fallback default safe mode में जाना या traffic पास करना
- कुछ सेवाओं के लिए fail-open / fail-closed विकल्प उपलब्ध कराने की योजना है
- अगले एक सप्ताह के भीतर सभी resilience प्रोजेक्ट्स के detailed status updates सार्वजनिक किए जाएंगे
- उस अवधि तक network बदलावों को lock/lockdown मोड में रोक कर रखा जाएगा
टाइमलाइन (UTC)
- 08:47 – कॉन्फ़िगरेशन बदलाव deploy और network propagation शुरू
- 08:48 – पूर्ण प्रभाव शुरू
- 08:50 – automated alert के ज़रिए incident घोषित
- 09:11 – बदलाव revert शुरू
- 09:12 – पूर्ण recovery, सभी ट्रैफिक सामान्य
निष्कर्ष
- Cloudflare ने लगातार दो outages की गंभीरता स्वीकार की और ग्राहकों तथा पूरी इंटरनेट कम्युनिटी से माफ़ी मांगी
- आगे deployment safety, error tolerance और resilience बढ़ाकर ऐसे incidents रोकने की योजना पर काम करेगा
अभी कोई टिप्पणी नहीं है.