- Tarsnap आउटेज के कारण सेवा ऑफलाइन हो गई थी.
- आउटेज Amazon के EC2 us-east-1 रीजन में होस्ट किए गए केंद्रीय Tarsnap सर्वर की system status check विफल होने के कारण हुआ.
- खराबी का सटीक कारण ज्ञात नहीं है, लेकिन इसे एक अलग-थलग hardware failure माना जा रहा है.
- Tarsnap की monitoring system ने खराबी का पता लगाया और operator को alert भेजा.
- एक वैकल्पिक EC2 instance बनाया गया, लेकिन data loss रोकने के लिए Tarsnap server code को अपने-आप restart नहीं किया गया.
- सर्वर reboot के बाद logs में file system corruption दिखाई दिया, इसलिए पुराने सर्वर को recover करने के बजाय नया सर्वर सेट अप करने का निर्णय लिया गया.
- recovery process में Amazon S3 से metadata headers पढ़ना और काम को लोकल में फिर से चलाना शामिल था.
- recovery process के दौरान machine registration log entries और uninitialized log entry order से संबंधित errors आए.
- recovery process अपेक्षा से धीमा था और बेहतर performance के लिए इसे optimize किया जा सकता था.
- state restoration process 3 जुलाई को पूरा हुआ और सर्वर फिर से online हो गया.
- आउटेज शुरू होने के लगभग 26 घंटे 16 मिनट बाद traffic फिर से शुरू हुआ.
- Tarsnap ने आउटेज के मुआवज़े के रूप में user accounts को एक महीने के storage cost का 50% दिया.
- उपयोगकर्ताओं को सलाह दी गई कि वे प्रश्न या चिंता होने पर Tarsnap के संस्थापक Colin Percival से संपर्क करें.
1 टिप्पणियां
Hacker News राय