ग्राहकों को प्रभावित करने वाली हालिया घटना का विवरण साझा करना
Google Cloud ग्राहक सहायता
- इस महीने की शुरुआत में, ऑस्ट्रेलिया स्थित ग्राहक UniSuper को प्रभावित करने वाली एक Google Cloud घटना हुई।
- घटना के तुरंत बाद, ग्राहक के साथ मिलकर सिस्टम को पूरी तरह बहाल करना सर्वोच्च प्राथमिकता थी।
- घटना शुरू होने के तुरंत बाद, ग्राहक के साथ एक संयुक्त बयान के माध्यम से इस घटना को सार्वजनिक रूप से स्वीकार किया गया।
- ग्राहक के सिस्टम पूरी तरह बहाल होने के बाद, आंतरिक समीक्षा पूरी की गई।
- घटना की प्रकृति को स्पष्ट करने और पारदर्शिता के लिए सटीक विवरण देने हेतु यह जानकारी साझा की जा रही है।
- Google Cloud ने यह सुनिश्चित करने के लिए कदम उठाए हैं कि यह विशिष्ट और अलग-थलग घटना दोबारा न हो।
- इस घटना का प्रभाव बेहद निराशाजनक था, और ग्राहकों को हुई असुविधा के लिए गहरी क्षमा व्यक्त की गई।
प्रभाव का दायरा
प्रभावित तकनीक और सेवाएँ
- इस घटना ने Google द्वारा प्रबंधित निम्न सेवाओं को प्रभावित किया:
- एक cloud region में एक ग्राहक।
- उस ग्राहक द्वारा उपयोग की जा रही Google Cloud सेवाओं में से एक, Google Cloud VMware Engine (GCVE)।
- दो zones में फैले ग्राहक के कई GCVE private clouds में से एक।
जो प्रभावित नहीं हुआ
- इस घटना का निम्न पर कोई प्रभाव नहीं पड़ा:
- अन्य Google Cloud सेवाएँ।
- GCVE या अन्य Google Cloud सेवाओं का उपयोग करने वाले अन्य ग्राहक।
- ग्राहक के अन्य GCVE private clouds, Google account, organization, folder या project।
- उसी region में संग्रहीत ग्राहक के data backups (Google Cloud Storage)।
घटना का कारण
सारांश
- ग्राहक के लिए Google Cloud VMware Engine (GCVE) private cloud की प्रारंभिक deployment के दौरान, Google operator ने internal tool का उपयोग करते हुए GCVE service को गलत तरीके से configure कर दिया। यह एक parameter खाली छोड़ देने के कारण हुआ।
- इसके परिणामस्वरूप, ग्राहक के GCVE private cloud को एक निश्चित अवधि के लिए सेट कर दिया गया, और उस अवधि के अंत में उसे अपने-आप delete होने के लिए configured कर दिया गया।
- घटना के कारण और सिस्टम के इस व्यवहार, दोनों को ठीक कर दिया गया है ताकि यह दोबारा न हो।
- इस घटना का प्रभाव इस ग्राहक के एक GCVE private cloud के अलावा किसी अन्य Google Cloud service पर नहीं पड़ा।
- अन्य ग्राहक इस घटना से प्रभावित नहीं हुए।
विस्तृत विश्लेषण
exception process का उपयोग करके deployment
- 2023 की शुरुआत में, Google operator ने specific capacity placement requirements को पूरा करने के लिए ग्राहक के GCVE private clouds में से एक को deploy करने हेतु internal tool का उपयोग किया।
- यह capacity management internal tool 2023 की चौथी तिमाही में retire कर दिया गया, और अब यह पूरी तरह automated है तथा इसमें मानव हस्तक्षेप की आवश्यकता नहीं है।
खाली input parameter के कारण अनपेक्षित व्यवहार
- Google operator ने internal control protocol का पालन किया।
- लेकिन ग्राहक के private cloud को provision करते समय internal tool का उपयोग करते हुए एक input parameter खाली रह गया।
- इसके कारण, सिस्टम ने इस parameter के लिए उस समय अज्ञात default fixed 1-year period value assign कर दी।
- सिस्टम द्वारा assign की गई 1 वर्ष की अवधि समाप्त होने के बाद, ग्राहक का GCVE private cloud delete हो गया।
- क्योंकि deletion Google operator द्वारा internal tool का उपयोग करते समय parameter खाली छोड़ने के परिणामस्वरूप हुआ था, इसलिए ग्राहक को कोई notification नहीं भेजा गया।
- यदि deletion ग्राहक द्वारा initiated होता, तो ग्राहक को notification भेजे जाने के बाद ही वह होता।
recovery
- ग्राहक और Google teams ने कई दिनों तक 24x7 मिलकर ग्राहक के GCVE private cloud को restore करने, network और security configurations को पुनर्स्थापित करने, applications को restore करने, और data recover करके पूर्ण संचालन बहाल करने पर काम किया।
- यह ग्राहक की मजबूत और resilient architecture approach के कारण संभव हो सका।
- उसी region में संग्रहीत Google Cloud Storage में मौजूद data backups deletion से प्रभावित नहीं हुए, और third-party backup software के साथ मिलकर उन्होंने तेज recovery में महत्वपूर्ण भूमिका निभाई।
corrective actions
- Google Cloud ने यह सुनिश्चित करने के लिए कई कदम उठाए कि यह घटना दोबारा न हो:
- इस घटना को ट्रिगर करने वाले internal tool को retire कर दिया गया। यह हिस्सा अब पूरी तरह automated है और ग्राहक इसे user interface के माध्यम से नियंत्रित कर सकते हैं।
- system database को साफ किया गया और सभी GCVE private clouds की manually समीक्षा की गई ताकि यह सुनिश्चित किया जा सके कि अन्य GCVE deployments जोखिम में न हों।
- इन deployment workflows के लिए GCVE private clouds को delete करने के लिए सेट करने वाले system behavior को संशोधित किया गया।
निष्कर्ष
- Google Cloud के भीतर इस प्रकृति की यह पहली घटना है। यह कोई systemic issue नहीं है।
- Google Cloud services में soft delete, advance notifications, और human intervention जैसे मजबूत safeguards मौजूद हैं।
- यह पुष्टि की गई कि ये safeguards लगातार लागू हैं।
- ग्राहक के साथ निकट सहयोग तेज recovery के लिए अनिवार्य है। ग्राहक के CIO और technical team को Google Cloud team के साथ मिलकर 24x7 recovery को तेज़ी और सटीकता से पूरा करने के लिए सराहा जाना चाहिए।
- अप्रत्याशित घटनाओं की स्थिति में तेज recovery के लिए मजबूत और resilient risk management अनिवार्य है।
- Google Cloud के पास अब भी दुनिया का सबसे resilient और reliable cloud infrastructure है। इस one-off घटना के बावजूद, हमारे uptime और resilience का स्वतंत्र रूप से सत्यापन किया जा चुका है।
GN⁺ की राय
- घटना का महत्व: यह घटना दिखाती है कि cloud service provider के लिए समस्याओं को कितनी तेजी से हल करना और ग्राहकों के साथ सहयोग करना कितना महत्वपूर्ण है।
- automation की आवश्यकता: यह रेखांकित करती है कि internal tools का automation कितना महत्वपूर्ण है, खासकर तब जब मानवीय गलती का सिस्टम पर बड़ा प्रभाव पड़ सकता है।
- ग्राहक के साथ सहयोग: यह दिखाती है कि समस्या समाधान में ग्राहक के साथ घनिष्ठ सहयोग कितना महत्वपूर्ण है। यह भरोसा बनाने में भी एक महत्वपूर्ण तत्व है।
- data backup का महत्व: यह जोर देती है कि data backup कितना महत्वपूर्ण है, विशेषकर अप्रत्याशित घटनाओं की स्थिति में तेज recovery के लिए।
- भविष्य की निवारक कार्रवाई: Google Cloud द्वारा पुनरावृत्ति रोकने के लिए उठाए गए कदम अन्य cloud service providers के लिए भी एक अच्छा उदाहरण बन सकते हैं।
1 टिप्पणियां
Hacker News राय
Hacker News टिप्पणियों का सार
समस्या-समाधान की गहराई को लेकर असंतोष
GCP ग्राहक सुरक्षा उपायों पर सवाल
24x7 काम को लेकर सवाल
संबंधित घटनाएं
Google की गलती पर आश्चर्य
समीक्षा की गहनता
GCP से अपेक्षा
ग्राहक के प्रयास की सराहना
UniSuper ग्राहक का अनुभव
प्रारंभिक घोषणा से पैदा हुआ भ्रम