1 पॉइंट द्वारा GN⁺ 2023-12-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google Cloud Platform की समस्याएँ और प्रतिक्रिया

  • Railway, Google Cloud Platform (GCP) के Compute Engine का उपयोग करके अपना application development platform चलाता है.
  • कुछ विशेष machines ने respond करना बंद कर दिया, जिससे service outage हुआ, और यह लगभग 10 मिनट तक चला.
  • समस्या का समाधान कर लिया गया, सभी workloads सफलतापूर्वक migrate कर दिए गए, और service बहाल हो गई.

Google Cloud के साथ कठिन संबंध

  • Railway ने पिछले 18 महीनों में Google Cloud के साथ कई समस्याएँ झेली हैं.
  • networking समस्याएँ लगातार बनी रहने पर उसने उन्हें हल करने के लिए अपना networking stack बनाया.
  • जब Google ने registry quota सीमित कर दिया, तो उसने समाधान के लिए अपना registry product बना लिया.
  • Google की support service से निराश होकर उसने समस्याओं के समाधान के लिए Google के vice presidents के साथ चर्चा की.
  • Google ने service terms बदल दिए, जिससे लागत 20% बढ़ गई, और Railway अभी इसके समाधान का इंतज़ार कर रहा है.
  • Railway, Google Cloud services बंद करके अपने bare metal instances पर migrate करने की योजना बना रहा है.

घटना की समीक्षा

  • Google ने machines को restart किया, जिससे servers offline हो गए.
  • automatic failover system मौजूद था, लेकिन कुछ servers recover नहीं हुए, इसलिए manual failover करना पड़ा.
  • अनुमान है कि यह Google Cloud की automatic live migration से जुड़ी समस्या थी, और Google से संपर्क करने की कोशिश की गई, लेकिन कोई जवाब नहीं मिला.
  • serial console logs के विश्लेषण से अनुमान है कि GCP guest में user space से kernel तक memory transfer के दौरान दुर्लभ स्थितियों में resource pressure के तहत softlock हुआ.

उपयोगकर्ताओं के लिए निष्कर्ष

  • manual failover के दौरान प्रति host लगभग 10 मिनट का downtime हुआ.
  • multi-service workloads चलाने वाले उपयोगकर्ताओं के लिए downtime इससे अधिक लंबा हो सकता है.
  • Railway ने उपयोगकर्ताओं को हुई असुविधा के लिए माफ़ी मांगी और अधिक विश्वसनीयता देने के लिए अपने bare metal पर migrate करने की योजना बताई.

GN⁺ की राय

इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि Google Cloud Platform की तकनीकी समस्याएँ और customer support की कमियाँ उपयोगकर्ताओं को सीधे प्रभावित करती हैं। Railway द्वारा झेली गई समस्याएँ cloud service provider की reliability और support के महत्व को रेखांकित करती हैं, और यह दिखाती हैं कि ऐसे मुद्दों को हल करने के लिए अपनी infrastructure बनाना कितना महत्वपूर्ण हो सकता है। यह लेख cloud computing की जटिलता और संभावित जोखिमों को समझने में मदद करता है, और तकनीकी समस्याओं पर insight तथा response strategy देकर रोचक और उपयोगी बनता है।

1 टिप्पणियां

 
GN⁺ 2023-12-04
Hacker News राय
  • एक छोटी software company का अनुभव

    • 2 लोगों की software company होने के नाते Google के साथ कई समस्याओं का सामना किया।
    • ज़्यादातर समस्याएँ Google Adwords से जुड़ी थीं।
    • अगर Google, बड़ी रकम चुकाने वाले मूल लेखक को भी ठीक तरह का support नहीं देता, तो छोटे business के लिए उम्मीद बहुत कम है।
  • GCP में बदलाव पर राय

    • कुछ साल पहले GCP, AWS की तुलना में price-to-performance के लिहाज़ से बेहतर विकल्प था।
    • उस समय GCP का support बेहतरीन था, और शुरुआती ticket handling का अनुभव भी प्रभावशाली था।
    • sales team के साथ बातचीत भी अच्छी थी, लेकिन अब AWS cost-performance के मामले में GCP की बराबरी पर आ गया है और managed services में आगे निकल गया है।
    • GCP support का अनुभव काफ़ी खराब हो गया है, और वह network समस्याओं को पहचानने में विफल रहा।
    • GCP में काफ़ी निवेश किया गया था, लेकिन मौजूदा स्थिति से निराश हैं और खर्च कम करने की कोशिश कर रहे हैं।
  • GCP और AWS की reliability की तुलना

    • GCP में compute instances का down होना दुर्लभ है, फिर भी इसकी आलोचना होती है।
    • AWS में instances के बार-बार रुक जाने या गायब हो जाने का अनुभव हुआ।
    • व्यक्तिगत अनुभव और AWS documentation के आधार पर दावा किया गया कि AWS के मूल घटक, GCP की तुलना में कम reliable हैं।
  • cloud providers की समस्याओं पर राय

    • सभी cloud providers में समस्याएँ हैं।
    • AWS में कई issues खोजकर report किए गए, और support team ने समय बर्बाद कराया।
    • core services (EC2, EBS, S3) को छोड़कर बाकी का उपयोग करने से हिचकिचाहट है।
  • Google Cloud support service का अनुभव

    • Google Cloud की support service प्रभावशाली नहीं लगी।
    • AWS में support का अनुभव हमेशा अच्छा रहा।
    • अगर Google Cloud के साथ कोई सकारात्मक interaction हो, तो उसे खास तौर पर highlight करके positive feedback देने की सलाह दी गई।
  • GCP की functionality समस्याओं का अनुभव

    • GCP की enterprise features ठीक से काम नहीं कर रही थीं, और उन्हें ठीक करने की कोशिश में downtime हुआ।
    • GCP representatives ने NDA की याद दिलाते हुए समस्या स्वीकार करने से बचने की कोशिश की।
  • GCP के undocumented thresholds का अनुभव

    • Cloud Run में CPU usage और concurrent requests के आधार पर समझ से परे scaling events का अनुभव हुआ।
    • premium support के ज़रिए पता चला कि अतिरिक्त criteria मौजूद हैं, लेकिन उनका विस्तृत विवरण नहीं दिया गया।
  • Google Cloud networking समस्याओं का समाधान

    • Google Cloud products में लगातार networking समस्याओं का सामना किया।
    • अपनी networking stack बनाकर समस्या का समाधान किया।
    • सवाल उठाया गया कि जब base network अस्थिर हो, तो UDP/Wireguard overlay कैसे उससे ज़्यादा reliable हो सकता है।
  • Google Cloud की reliability पर राय

    • शुरुआती cloud computing में reliability समस्याओं को समझा जा सकता है, लेकिन 2023 में बड़े ग्राहकों को निराश करना अच्छी स्थिति नहीं है।
    • यह जानने की जिज्ञासा है कि क्या दूसरों ने भी ऐसा ही अनुभव किया, या सिर्फ़ लेखक की किस्मत खराब थी।
  • GCP में समस्याओं को लेकर व्यक्तिगत उलझन

    • nested virtualization का समस्या से क्या संबंध है, इसे लेकर भ्रम है।
    • MMIO instructions का उल्लेख समझ में नहीं आया।
    • लगता है कि लेखक हाल की घटना से काफ़ी निराश है और समाधान खोजने की कोशिश कर रहा है।