- Digital Preservation विशेषज्ञ David Rosenthal की प्रस्तुति की सामग्री का सार
बैकअप (Backup) और आर्काइवल (Archival) के बीच अंतर
- बैकअप आपदा की स्थिति में हाल की अवस्था में बहाली के लिए आवश्यक है
- बैकअप डेटा की वैध उपयोग अवधि अंतिम बैकअप से रिकवरी तक के समय से निर्धारित होती है
- बैकअप डेटा के स्टोरेज मीडिया की आयु महत्वपूर्ण नहीं होती
- डिजिटल संरक्षण क्षेत्र में लगभग 20 वर्षों तक काम करने के बाद, मेरी 4 महत्वपूर्ण सिस्टम बैकअप विधियाँ
- मेल और वेब सर्वर: Raspberry Pi पर साप्ताहिक full backup और दैनिक incremental backup → साप्ताहिक बैकअप को DVD-R में स्टोर
- डेस्कटॉप PC: external hard drive पर nightly full backup → समय-समय पर 3 hard drives में rotation के साथ स्टोर
- iPhone: Mac Air पर दैनिक backup → Time Machine के माध्यम से SSD पर नियमित backup
- ऑफसाइट संग्रहण: हर सप्ताह DVD-R, SSD और hard drive को बाहरी स्थान पर रखना
- आर्काइवल डेटा क्या है?
- समय के साथ डेटा स्टोरेज hierarchy में नीचे की ओर चला जाता है
- आर्काइवल डेटा = ऐसा डेटा जिसकी operational storage में रखरखाव लागत वहन नहीं की जा सकती
- archival storage system का मुख्य लक्ष्य लागत कम करना है, और इसके लिए एक्सेस latency स्वीकार की जाती है
आर्काइवल स्टोरेज मीडिया की वास्तविकता
- मीडिया में 'हमेशा के लिए सुरक्षित स्टोरेज' को लेकर बहुत अतिशयोक्ति है
- शोध से निकली नई स्टोरेज तकनीकों के बाजार में बड़े पैमाने पर उपयोग होने की संभावना कम है
- archive-विशेष मीडिया की बाजार मांग कम होने के कारण उसका व्यावसायिक रूप से सफल होना कठिन है
- उदाहरण: LTO tape पूरे स्टोरेज मीडिया बाजार का 1% से भी कम हिस्सा है
- 2023 में OD-3 (1TB optical disk) को बाजार की कमी के कारण रद्द कर दिया गया
स्टोरेज मीडिया के अपनाए जाने के समय की समस्या
- नई स्टोरेज तकनीक को बाजार में आने में बहुत समय लगता है
- HAMR hard drive: शोध शुरू होने के 26 साल बाद पेश की गई
- Silica और DNA storage: दशकों से शोध जारी है, लेकिन commercialization तक पहुँचने में कम से कम 5 साल और लगेंगे
स्टोरेज मीडिया की आर्थिकता की समस्या
- स्टोरेज मीडिया से अधिक महत्वपूर्ण स्टोरेज सिस्टम infrastructure cost है
- tape, disk जैसे स्टोरेज मीडिया की लागत कुल लागत में अपेक्षाकृत कम हिस्सेदारी रखती है
- लागत घटाने के लिए data center scale पर संचालन करना पड़ता है
- आर्काइवल स्टोरेज को छोटे पैमाने पर चलाने पर आर्थिक दक्षता घट जाती है
क्लाउड स्टोरेज और lock-in की समस्या
- क्लाउड सेवाओं की archival storage cost लंबी अवधि में बहुत महंगी होती है
- Amazon Glacier: long-term retention में लागत घट सकती है, लेकिन data recovery cost अधिक है
- स्टोरेज लागत: $10,900/वार्षिक
- रिकवरी लागत: $49,550 (1PB के आधार पर)
- कुल लागत: $60,950
- lock-in अवधि: 50.0 महीने
- Google Archive: उच्च स्टोरेज और रिकवरी लागत → long-term retention के लिए अक्षम
- स्टोरेज लागत: $13,200/वार्षिक
- रिकवरी लागत: $210,810 (1PB के आधार पर)
- कुल लागत: $224,510
- lock-in अवधि: 175.6 महीने
- Microsoft Archive: संग्रहण लागत कम है, लेकिन data recovery cost अधिक है
- स्टोरेज लागत: $22,000/वार्षिक
- रिकवरी लागत: $40,100 (1PB के आधार पर)
- कुल लागत: $62,200
- lock-in अवधि: 20.0 महीने
- lock-in समस्या: data recovery cost अधिक होने से डेटा को स्थानांतरित करना कठिन हो जाता है
- Amazon Glacier की स्टोरेज लागत सबसे कम है और रिकवरी लागत भी तुलनात्मक रूप से कम है
Project Silica (Microsoft का silica project)
- Silica: ultra-high-density data storage media
- femtosecond laser से silica platter पर डेटा स्टोर किया जाता है
- स्टोरेज density अधिक है और physical stability उत्कृष्ट है
- लागत समस्या: femtosecond laser की लागत अधिक है → mass production से कीमत घटने की उम्मीद
- read/write separation → सुरक्षा को मजबूत करती है और data integrity सुनिश्चित करती है
- read speed समस्या: response time 15 घंटे अनुमानित → केवल बड़े पैमाने के सिस्टम में प्रभावी
डेटा रिकवरी की समस्या
- आर्काइवल में महत्वपूर्ण बात डेटा रिकवरी की संभावना है
- Microsoft ने Svalbard द्वीप पर film-आधारित open source code संग्रहित किया है
- आपदा के बाद रिकवरी की संभावना कम है
- दूरस्थ स्थान और खराब मौसम के कारण पहुँचना कठिन है
LOCKSS सिस्टम (Lots Of Copies Keep Stuff Safe)
- कम लागत वाले स्टोरेज मीडिया में कई प्रतियाँ रखकर → डेटा सुरक्षा मजबूत की जाती है
- बैकअप और रिकवरी महंगे सिस्टम से नहीं, बल्कि अनेक replicas के माध्यम से सुनिश्चित किए जाते हैं
- लागत दक्षता महत्वपूर्ण है → महंगे स्टोरेज मीडिया की तुलना में सस्ते स्टोरेज सिस्टम को प्राथमिकता
निष्कर्ष
- आर्काइवल स्टोरेज का मूल तकनीक नहीं बल्कि आर्थिकता है
- archive-विशेष मीडिया आर्थिक रूप से अक्षम है
- क्लाउड सेवाओं में उच्च रिकवरी लागत → lock-in समस्या पैदा होती है
- बड़े पैमाने के data center में संचालन करने पर ही long-term storage cost कम की जा सकती है
- Project Silica आर्काइवल स्टोरेज तकनीकों में सबसे आशाजनक है, लेकिन commercialization में अभी समय लगेगा
1 टिप्पणियां
Hacker News राय