1 पॉइंट द्वारा GN⁺ 2023-07-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Tarsnap आउटेज के कारण सेवा ऑफलाइन हो गई थी.
  • आउटेज Amazon के EC2 us-east-1 रीजन में होस्ट किए गए केंद्रीय Tarsnap सर्वर की system status check विफल होने के कारण हुआ.
  • खराबी का सटीक कारण ज्ञात नहीं है, लेकिन इसे एक अलग-थलग hardware failure माना जा रहा है.
  • Tarsnap की monitoring system ने खराबी का पता लगाया और operator को alert भेजा.
  • एक वैकल्पिक EC2 instance बनाया गया, लेकिन data loss रोकने के लिए Tarsnap server code को अपने-आप restart नहीं किया गया.
  • सर्वर reboot के बाद logs में file system corruption दिखाई दिया, इसलिए पुराने सर्वर को recover करने के बजाय नया सर्वर सेट अप करने का निर्णय लिया गया.
  • recovery process में Amazon S3 से metadata headers पढ़ना और काम को लोकल में फिर से चलाना शामिल था.
  • recovery process के दौरान machine registration log entries और uninitialized log entry order से संबंधित errors आए.
  • recovery process अपेक्षा से धीमा था और बेहतर performance के लिए इसे optimize किया जा सकता था.
  • state restoration process 3 जुलाई को पूरा हुआ और सर्वर फिर से online हो गया.
  • आउटेज शुरू होने के लगभग 26 घंटे 16 मिनट बाद traffic फिर से शुरू हुआ.
  • Tarsnap ने आउटेज के मुआवज़े के रूप में user accounts को एक महीने के storage cost का 50% दिया.
  • उपयोगकर्ताओं को सलाह दी गई कि वे प्रश्न या चिंता होने पर Tarsnap के संस्थापक Colin Percival से संपर्क करें.

1 टिप्पणियां

 
GN⁺ 2023-07-28
Hacker News राय
  • इस लेख के संपादक ने आउटेज के बाद सभी के Tarsnap खातों में एक महीने की स्टोरेज लागत का 50% क्रेडिट किया।
  • इस संपादक की स्थिति को संभालने में उदार और ग्राहक-केंद्रित दृष्टिकोण के लिए प्रशंसा की जा रही है।
  • यह संपादक लेख की लोकप्रियता पर आश्चर्य व्यक्त करता है और उल्लेख करता है कि निजी कारणों से वह सवालों के जवाब देने में सीमित है।
  • एक टिप्पणीकार सुझाव देता है कि अतिरिक्त आउटेज समय को आराम के बदले बदलना समस्या समाधान में मदद कर सकता है।
  • रिकवरी प्रक्रिया का नियमित रूप से परीक्षण करना बग या समस्याओं की पहचान और समाधान में मदद करता है।
  • इस पोस्टमॉर्टम को पेशेवराना रवैये, शिष्टता और ईमानदारी के लिए सराहा जा रहा है।
  • टिप्पणीकार भविष्य के डाउनटाइम को कम से कम करने के लिए आउटेज रिकवरी चरणों को स्थापित और परीक्षण करने की सिफारिश करते हैं।
  • इसी तरह की घटनाओं में बिज़नेस की resiliency बेहतर करने के लिए पार्ट-टाइमर रखने का सुझाव दिया गया है।
  • संभावित उपयोगकर्ताओं के लिए, एक ही व्यक्ति, इस मामले में Colin Percival, पर निर्भर रहने के जोखिम का उल्लेख किया गया है।
  • 2014 की एक कोड त्रुटि को आउटेज का कारण माना गया है, और ऐसे मुद्दों को पकड़ने के लिए TLA+ modeling इस्तेमाल करने की सिफारिश की गई है।
  • आउटेज को दर्शाने के लिए Tarsnap वेबसाइट का infrastructure page अपडेट किया जाना चाहिए।
  • यह सवाल उठाया गया है कि क्या Tarsnap के encryption software को Dropbox के साथ एकीकृत करके सुरक्षित डेटा स्टोरेज किया जा सकता है।