GCP घटना की मौजूदा स्थिति
(blog.railway.app)Google Cloud Platform की समस्याएँ और प्रतिक्रिया
- Railway, Google Cloud Platform (GCP) के Compute Engine का उपयोग करके अपना application development platform चलाता है.
- कुछ विशेष machines ने respond करना बंद कर दिया, जिससे service outage हुआ, और यह लगभग 10 मिनट तक चला.
- समस्या का समाधान कर लिया गया, सभी workloads सफलतापूर्वक migrate कर दिए गए, और service बहाल हो गई.
Google Cloud के साथ कठिन संबंध
- Railway ने पिछले 18 महीनों में Google Cloud के साथ कई समस्याएँ झेली हैं.
- networking समस्याएँ लगातार बनी रहने पर उसने उन्हें हल करने के लिए अपना networking stack बनाया.
- जब Google ने registry quota सीमित कर दिया, तो उसने समाधान के लिए अपना registry product बना लिया.
- Google की support service से निराश होकर उसने समस्याओं के समाधान के लिए Google के vice presidents के साथ चर्चा की.
- Google ने service terms बदल दिए, जिससे लागत 20% बढ़ गई, और Railway अभी इसके समाधान का इंतज़ार कर रहा है.
- Railway, Google Cloud services बंद करके अपने bare metal instances पर migrate करने की योजना बना रहा है.
घटना की समीक्षा
- Google ने machines को restart किया, जिससे servers offline हो गए.
- automatic failover system मौजूद था, लेकिन कुछ servers recover नहीं हुए, इसलिए manual failover करना पड़ा.
- अनुमान है कि यह Google Cloud की automatic live migration से जुड़ी समस्या थी, और Google से संपर्क करने की कोशिश की गई, लेकिन कोई जवाब नहीं मिला.
- serial console logs के विश्लेषण से अनुमान है कि GCP guest में user space से kernel तक memory transfer के दौरान दुर्लभ स्थितियों में resource pressure के तहत softlock हुआ.
उपयोगकर्ताओं के लिए निष्कर्ष
- manual failover के दौरान प्रति host लगभग 10 मिनट का downtime हुआ.
- multi-service workloads चलाने वाले उपयोगकर्ताओं के लिए downtime इससे अधिक लंबा हो सकता है.
- Railway ने उपयोगकर्ताओं को हुई असुविधा के लिए माफ़ी मांगी और अधिक विश्वसनीयता देने के लिए अपने bare metal पर migrate करने की योजना बताई.
GN⁺ की राय
इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि Google Cloud Platform की तकनीकी समस्याएँ और customer support की कमियाँ उपयोगकर्ताओं को सीधे प्रभावित करती हैं। Railway द्वारा झेली गई समस्याएँ cloud service provider की reliability और support के महत्व को रेखांकित करती हैं, और यह दिखाती हैं कि ऐसे मुद्दों को हल करने के लिए अपनी infrastructure बनाना कितना महत्वपूर्ण हो सकता है। यह लेख cloud computing की जटिलता और संभावित जोखिमों को समझने में मदद करता है, और तकनीकी समस्याओं पर insight तथा response strategy देकर रोचक और उपयोगी बनता है।
1 टिप्पणियां
Hacker News राय
एक छोटी software company का अनुभव
GCP में बदलाव पर राय
GCP और AWS की reliability की तुलना
cloud providers की समस्याओं पर राय
Google Cloud support service का अनुभव
GCP की functionality समस्याओं का अनुभव
GCP के undocumented thresholds का अनुभव
Google Cloud networking समस्याओं का समाधान
Google Cloud की reliability पर राय
GCP में समस्याओं को लेकर व्यक्तिगत उलझन