समझें कि 10/4 को Facebook कैसे गायब हो गया
(blog.cloudflare.com)-
10/4 को Facebook से जुड़ी सेवाएँ एक्सेस न हो पाने की वजह पर CloudFlare का बाहरी विश्लेषण
-
DNS lookup से ही विफलता शुरू हुई, और Facebook से जुड़े पूरे infrastructure की IP connectivity टूट गई थी
-
Facebook की आधिकारिक घोषणा के अनुसार
→ "डेटा सेंटरों के बीच network traffic को समायोजित करने वाले backbone router configuration में बदलाव के दौरान समस्या हुई। इसका chain reaction डेटा सेंटरों के बीच connectivity पर पड़ा और सेवाएँ बंद हो गईं"
→ DNS servers आमतौर पर BGP के ज़रिए अपनी मौजूदगी advertise करते हैं, लेकिन Facebook ke DNS servers इस तरह सेट थे कि Facebook डेटा सेंटर से कनेक्शन टूटने पर वे BGP disable कर दें
→ डेटा सेंटर backbone टूटने से BGP requests अस्वीकार होने लगीं, और DNS servers तक पहुँचना असंभव हो गया
→ इसी वजह से Facebook के सभी servers तक पहुँचना असंभव हो गया
→ वास्तव में डेटा सेंटर तक पहुँचना भी मुश्किल हो गया था, इसलिए engineers को on-site जाकर समस्या ठीक करनी पड़ी
-
समस्या ऐसी थी मानो किसी ने Facebook डेटा सेंटर की internet cable ही निकाल दी हो
-
यह DNS issue नहीं था, लेकिन DNS errors इस बड़े outage का पहला लक्षण थे
-
BGP(Border Gateway Protocol)
→ यह वह mechanism है जिससे इंटरनेट के AS(Autonomous Systems) routing information का आदान-प्रदान करते हैं
→ बड़े routers लगातार routing information साझा करते हैं ताकि अंतिम route information तक पहुँचा जा सके
→ अगर Facebook नेटवर्क पर अपनी मौजूदगी advertise नहीं करता, तो उस तक पहुँचना असंभव हो जाता है
→ हर network का अपना ASN(Number) होता है, और वह अपने नियंत्रण वाले IPs के prefix की घोषणा करता है
- 10/4 15:40 UTC से Facebook ने अपने DNS Prefix की announcement बंद कर दी
→ ऊपर Facebook द्वारा बताई गई समस्या की तरह, BGP Ad न भेजने की वजह से एक्सेस असंभव हो गया
→ इससे routing बदल गई और बड़े पैमाने पर BGP updates हुए
→ सभी DNS servers ने Facebook URLs के लिए SERVFAIL देना शुरू किया
→ DNS queries 30x बढ़नी शुरू हो गईं
→ Twitter, Signal, Telegram आदि के लिए DNS queries भी बढ़ीं
- 21:00 UTC पर BGP फिर से update हुआ और सब सामान्य हो गया
2 टिप्पणियां
Facebook पर 5 घंटे का आउटेज... वाकई यह एक बहुत बड़ी घटना थी.
क्या BGP सुरक्षित है? https://hi.news.hada.io/topic?id=1932
30 अगस्त के CenturyLink/Level(3) इंटरनेट डाउन होने की स्थिति का विश्लेषण https://hi.news.hada.io/topic?id=2746