1 पॉइंट द्वारा GN⁺ 2024-11-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • यह साइट वैश्विक incident updates देने वाला पेज है। इसमें रोज़मर्रा की hardware failures या सीमित infrastructure incidents शामिल नहीं हैं।
  • आपकी apps को प्रभावित कर सकने वाले सभी incidents देखने के लिए, आप Fly Organization के dashboard में personalized status page देख सकते हैं।

पिछले incidents

27 नवंबर 2024

  • कोई incident report नहीं

26 नवंबर 2024

  • API latency और timeout errors: हल हो गया। Machines API और GraphQL API का performance सामान्य हो गया है।
  • कनेक्टिविटी में गिरावट: CPU quota के full rollout के कारण कुछ ग्राहकों की machines throttled हो गईं। इससे networking issues हुए, और इसे ठीक करने के लिए changes को अस्थायी रूप से rollback किया गया।
  • API performance degradation: हल हो गया। सिस्टम को scale up किया गया और API पर fixes लागू किए गए, और अब यह सामान्य रूप से चल रहा है।

25 नवंबर 2024

  • API performance degradation: समस्या की पहचान कर ली गई है और fix पर काम चल रहा है। Machines API और proxy performance प्रभावित हुए।
  • Corrosion cluster recovery: recovery और reseed process चल रहा है, और कुछ hosts पर अभी भी काम जारी है।

24 नवंबर 2024

  • कोई incident report नहीं

23 नवंबर 2024

  • कोई incident report नहीं

22 नवंबर 2024

  • लॉग सर्च उपलब्ध नहीं: हल हो गया। इसका प्रभाव Fly Metrics log search panel और पुराने app logs पर पड़ा।

21 नवंबर 2024

  • आपातकालीन नेटवर्क maintenance: पूरा हो गया। नेटवर्क provider ने switch replacement किया।

20 नवंबर 2024

  • कोई incident report नहीं

19 नवंबर 2024

  • लॉग सर्च उपलब्ध नहीं: हल हो गया। इसका प्रभाव Fly Metrics log search panel और पुराने app logs पर पड़ा।

18 नवंबर 2024

  • कोई incident report नहीं

17 नवंबर 2024

  • कोई incident report नहीं

16 नवंबर 2024

  • कोई incident report नहीं

15 नवंबर 2024

  • कोई incident report नहीं

14 नवंबर 2024

  • IAD में IPv6 connectivity degradation: हल हो गया। upstream provider के साथ मिलकर समस्या को ठीक किया गया।

1 टिप्पणियां

 
GN⁺ 2024-11-27
Hacker News राय
  • एक उपयोगकर्ता ने बताया कि fly.io पर होस्ट की गई उनकी वेबसाइट 5 मिनट के लिए डाउन थी, लेकिन उसके बाद से स्थिर रूप से चल रही है। वह एक मुफ्त मॉनिटरिंग सेवा का उपयोग करके हर 5 मिनट में जांच कर रहा है.

  • fly.io ने postmortem प्रकाशित किया, जिसमें बताया गया कि 2016 में वह Consul नाम के एक केंद्रीकृत TLS सर्वर का उपयोग करता था, लेकिन 2020 में उसे Corrosion से बदल दिया गया। अक्टूबर 2024 में Consul की root key signing key की समयसीमा समाप्त हो गई, जिससे कनेक्शन टूट गया, और नई SSL certificate तैनात करके सेवा बहाल की गई.

  • fly.io की infra समस्या के कारण यह भी पता चला कि अन्य सेवाओं की TLS keys भी expire हो गई थीं, और logging tool ने network provider पर DDOS हमला कर दिया। कई समस्याओं को हल करने के लिए काफी प्रयास की जरूरत पड़ी.

  • fly.io की reliability पर सवाल उठाते हुए कहा गया कि अगर cloud platform विश्वसनीयता नहीं दे सकता, तो virtual server किराए पर लेना बेहतर हो सकता है.

  • Fly.io API अभी भी accessible नहीं है, और उपयोगकर्ता deployment या database तक पहुंच नहीं पा रहे हैं। सटीक अपडेट community page के जरिए देखे जा सकते हैं.

  • व्यक्तिगत अनुभव में Fly.io और Railway.com की तुलना करने पर Railway बेहतर लगा, और उसका support भी शानदार था। Fly.io ने data deletion से जुड़े सवालों का जवाब नहीं दिया.

  • Fly.io के बड़े outages कई बार अनुभव किए गए हैं, और इस बात पर जोर दिया गया कि सेवा की स्थिरता सर्वोच्च प्राथमिकता होनी चाहिए.

  • Turso भी Fly.io outage से जुड़े मुद्दों का सामना कर रहा है, और CEO ने Discord पर इसकी पुष्टि की.

  • Fly.io की कम कीमत को लेकर सवाल उठाया गया, और technical docs में बताया गया कि instance एक ही physical server से बंधा होता है, इसलिए server डाउन होने पर backup से restore करना पड़ता है.

  • कहा गया कि बड़े holiday weeks में outages होने की प्रवृत्ति रहती है, और MS 365/Teams/Exchange भी प्रभावित हुए थे। सुझाव दिया गया कि बड़े holiday के दौरान changes रोक देना बेहतर है.

  • यह भी उल्लेख किया गया कि 2023 की शुरुआत में हुई outages की एक श्रृंखला भी Corrosion से जुड़ी समस्याओं से प्रभावित थी.