6 पॉइंट द्वारा GN⁺ 2025-03-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Digital Preservation विशेषज्ञ David Rosenthal की प्रस्तुति की सामग्री का सार

बैकअप (Backup) और आर्काइवल (Archival) के बीच अंतर

  • बैकअप आपदा की स्थिति में हाल की अवस्था में बहाली के लिए आवश्यक है
    • बैकअप डेटा की वैध उपयोग अवधि अंतिम बैकअप से रिकवरी तक के समय से निर्धारित होती है
    • बैकअप डेटा के स्टोरेज मीडिया की आयु महत्वपूर्ण नहीं होती
  • डिजिटल संरक्षण क्षेत्र में लगभग 20 वर्षों तक काम करने के बाद, मेरी 4 महत्वपूर्ण सिस्टम बैकअप विधियाँ
    • मेल और वेब सर्वर: Raspberry Pi पर साप्ताहिक full backup और दैनिक incremental backup → साप्ताहिक बैकअप को DVD-R में स्टोर
    • डेस्कटॉप PC: external hard drive पर nightly full backup → समय-समय पर 3 hard drives में rotation के साथ स्टोर
    • iPhone: Mac Air पर दैनिक backup → Time Machine के माध्यम से SSD पर नियमित backup
    • ऑफसाइट संग्रहण: हर सप्ताह DVD-R, SSD और hard drive को बाहरी स्थान पर रखना
  • आर्काइवल डेटा क्या है?
    • समय के साथ डेटा स्टोरेज hierarchy में नीचे की ओर चला जाता है
    • आर्काइवल डेटा = ऐसा डेटा जिसकी operational storage में रखरखाव लागत वहन नहीं की जा सकती
    • archival storage system का मुख्य लक्ष्य लागत कम करना है, और इसके लिए एक्सेस latency स्वीकार की जाती है

आर्काइवल स्टोरेज मीडिया की वास्तविकता

  • मीडिया में 'हमेशा के लिए सुरक्षित स्टोरेज' को लेकर बहुत अतिशयोक्ति है
  • शोध से निकली नई स्टोरेज तकनीकों के बाजार में बड़े पैमाने पर उपयोग होने की संभावना कम है
  • archive-विशेष मीडिया की बाजार मांग कम होने के कारण उसका व्यावसायिक रूप से सफल होना कठिन है
    • उदाहरण: LTO tape पूरे स्टोरेज मीडिया बाजार का 1% से भी कम हिस्सा है
    • 2023 में OD-3 (1TB optical disk) को बाजार की कमी के कारण रद्द कर दिया गया

स्टोरेज मीडिया के अपनाए जाने के समय की समस्या

  • नई स्टोरेज तकनीक को बाजार में आने में बहुत समय लगता है
  • HAMR hard drive: शोध शुरू होने के 26 साल बाद पेश की गई
  • Silica और DNA storage: दशकों से शोध जारी है, लेकिन commercialization तक पहुँचने में कम से कम 5 साल और लगेंगे

स्टोरेज मीडिया की आर्थिकता की समस्या

  • स्टोरेज मीडिया से अधिक महत्वपूर्ण स्टोरेज सिस्टम infrastructure cost है
    • tape, disk जैसे स्टोरेज मीडिया की लागत कुल लागत में अपेक्षाकृत कम हिस्सेदारी रखती है
    • लागत घटाने के लिए data center scale पर संचालन करना पड़ता है
    • आर्काइवल स्टोरेज को छोटे पैमाने पर चलाने पर आर्थिक दक्षता घट जाती है

क्लाउड स्टोरेज और lock-in की समस्या

  • क्लाउड सेवाओं की archival storage cost लंबी अवधि में बहुत महंगी होती है
  • Amazon Glacier: long-term retention में लागत घट सकती है, लेकिन data recovery cost अधिक है
    • स्टोरेज लागत: $10,900/वार्षिक
    • रिकवरी लागत: $49,550 (1PB के आधार पर)
    • कुल लागत: $60,950
    • lock-in अवधि: 50.0 महीने
  • Google Archive: उच्च स्टोरेज और रिकवरी लागत → long-term retention के लिए अक्षम
    • स्टोरेज लागत: $13,200/वार्षिक
    • रिकवरी लागत: $210,810 (1PB के आधार पर)
    • कुल लागत: $224,510
    • lock-in अवधि: 175.6 महीने
  • Microsoft Archive: संग्रहण लागत कम है, लेकिन data recovery cost अधिक है
    • स्टोरेज लागत: $22,000/वार्षिक
    • रिकवरी लागत: $40,100 (1PB के आधार पर)
    • कुल लागत: $62,200
    • lock-in अवधि: 20.0 महीने
  • lock-in समस्या: data recovery cost अधिक होने से डेटा को स्थानांतरित करना कठिन हो जाता है
  • Amazon Glacier की स्टोरेज लागत सबसे कम है और रिकवरी लागत भी तुलनात्मक रूप से कम है

Project Silica (Microsoft का silica project)

  • Silica: ultra-high-density data storage media
    • femtosecond laser से silica platter पर डेटा स्टोर किया जाता है
    • स्टोरेज density अधिक है और physical stability उत्कृष्ट है
  • लागत समस्या: femtosecond laser की लागत अधिक है → mass production से कीमत घटने की उम्मीद
  • read/write separation → सुरक्षा को मजबूत करती है और data integrity सुनिश्चित करती है
  • read speed समस्या: response time 15 घंटे अनुमानित → केवल बड़े पैमाने के सिस्टम में प्रभावी

डेटा रिकवरी की समस्या

  • आर्काइवल में महत्वपूर्ण बात डेटा रिकवरी की संभावना है
  • Microsoft ने Svalbard द्वीप पर film-आधारित open source code संग्रहित किया है
    • आपदा के बाद रिकवरी की संभावना कम है
    • दूरस्थ स्थान और खराब मौसम के कारण पहुँचना कठिन है

LOCKSS सिस्टम (Lots Of Copies Keep Stuff Safe)

  • कम लागत वाले स्टोरेज मीडिया में कई प्रतियाँ रखकर → डेटा सुरक्षा मजबूत की जाती है
  • बैकअप और रिकवरी महंगे सिस्टम से नहीं, बल्कि अनेक replicas के माध्यम से सुनिश्चित किए जाते हैं
  • लागत दक्षता महत्वपूर्ण है → महंगे स्टोरेज मीडिया की तुलना में सस्ते स्टोरेज सिस्टम को प्राथमिकता

निष्कर्ष

  • आर्काइवल स्टोरेज का मूल तकनीक नहीं बल्कि आर्थिकता है
    • archive-विशेष मीडिया आर्थिक रूप से अक्षम है
    • क्लाउड सेवाओं में उच्च रिकवरी लागत → lock-in समस्या पैदा होती है
  • बड़े पैमाने के data center में संचालन करने पर ही long-term storage cost कम की जा सकती है
  • Project Silica आर्काइवल स्टोरेज तकनीकों में सबसे आशाजनक है, लेकिन commercialization में अभी समय लगेगा

1 टिप्पणियां

 
GN⁺ 2025-03-18
Hacker News राय
  • AI, quantum computing, 6K स्क्रीन, M2 NVME, और अरबों network devices होने के बावजूद, सामान्य डेटा disk failure, SSD की अस्थिरता, bit rot आदि के कारण शायद सिर्फ लगभग 5 साल तक ही टिक पाए
    • इससे निपटने के लिए JBOD, RAID, NAS को लगातार maintain करना पड़ता है या M-Disc Blu-ray पर burn करना पड़ता है, या cloud पर भरोसा करना पड़ता है, या दोनों
    • सीधी 3-2-1 backup strategy शायद किस्मत से काम कर जाए, लेकिन बड़े पैमाने के data archive अब भी मुश्किल हैं
  • "सैकड़ों साल" वाली समस्या पर सोचा है, और जो तरीके पक्का काम करते दिखते हैं, वे ये हैं
    • किसी material पर उकेरना या imprint करना (stone tablets, Edison cylinders, shellac 78, vinyl, Voyager Golden Record आदि)
    • कागज़ पर ink से print या punch करना (books, cards, tapes)
    • photography; microfiche/microfilm (GitHub Arctic Code Vault), lithography
  • हाल ही में archival-grade microfilm को "print" करने के तरीकों को देखा, और कुछ options हैं, लेकिन ज़्यादातर microfilm को scan करके digital copy बनाना ही है
    • निजी अनुभव से कहूँ तो, दूसरी कक्षा में बनाई गई मेरी pencil drawing के digital materials की तुलना में कई सौ साल ज़्यादा टिकने की संभावना है
  • enterprise scale पर cost calculation, personal scale से अलग हो सकती है
    • Linear Tape-Open तब सस्ता storage medium है जब petabytes store करने हों
    • drive की कीमत में 400TB hard drives खरीदे जा सकते हैं
    • मेरा मानना है कि mass-produced hard drives, LTO tape से ज़्यादा reliable हैं
    • व्यक्तिगत रूप से tape के साथ मेरा अनुभव अच्छा नहीं रहा
  • "मैंने 1969 की गर्मियों में Svalbard archipelago में geological survey किया था" इस नोट ने लेखक के बारे में और जानने की इच्छा जगाई, और उनका career काफ़ी दिलचस्प है
  • backup के लिए cloud storage इस्तेमाल करते समय Object Lock चालू करना नहीं भूलना चाहिए
    • यह offline storage जितना अच्छा नहीं है, लेकिन R/W media से कहीं बेहतर है
    • हमारी company में restic का उपयोग करके B2 पर backup किया जाता है, और deduplicated backup हर बार चलाया जाता है
  • 3-2-1 backup strategy का उपयोग करता हूँ
    • डेटा की तीन copies को दो अलग-अलग तरह के media पर रखो, और एक copy offsite रखो
    • महत्वपूर्ण डेटा को SSD पर mirror करता हूँ, और Blu-ray की कई copies रखता हूँ
    • Blu-ray इस्तेमाल करने का कारण 1859 के Carrington Event जैसे geomagnetic storms से सुरक्षा है
  • काश tape archive ज़्यादा आसानी से accessible होते
    • यह niche market है और ज़्यादातर enterprise के लिए है, इसलिए drives की कीमत हज़ारों डॉलर से शुरू होती है, और कम capacity पर यह modern SSD से भी कम हो जाती है
  • लेख कई तरह के topics को छूता है, इसलिए एक ही निष्कर्ष निकालना मुश्किल है
    • अंत Backblaze CTO के इस quote से होता है: "failure के लिए plan करो और सबसे सस्ते parts खरीदो"
    • यह बड़े enterprises के लिए ठीक हो सकता है, लेकिन individuals या छोटे businesses के लिए नहीं
    • व्यक्तिगत रूप से, मैं सस्ते external hard drives पर backup रखता हूँ और archive storage M-DISC Blu-ray पर करता हूँ
  • 1991 से files archive कर रहा हूँ, और उन्हें अलग-अलग formats में migrate किया है
    • 3-2-1 backup strategy का उपयोग करता हूँ, और साल में दो बार checksums से सभी files verify करता हूँ
    • scripts का उपयोग करने पर यह हफ़्ते में कुछ commands से आसानी से हो जाता है
  • LOCKSS पर राय जानना चाहता हूँ
    • LOCKSS शायद इस विचार को गंभीरता से लेता है कि अगर डेटा हाल ही में verify नहीं किया गया, तो वह वास्तव में मौजूद नहीं माना जाना चाहिए