1 पॉइंट द्वारा GN⁺ 2024-09-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

10 साल तक बिना drive failure के 71 TiB ZFS NAS

  • हार्डवेयर

    • 24 4 TB ड्राइव से बना 71 TiB ZFS NAS
    • 10 साल में एक बार भी ड्राइव fail नहीं हुई
    • अभी दूसरा motherboard और power supply इस्तेमाल में है
  • ड्राइव प्रबंधन

    • 4 TB HGST ड्राइव 10 साल में लगभग 6000 घंटे इस्तेमाल हुईं
    • सर्वर का इस्तेमाल न होने पर उसे बंद रखना ड्राइव की उम्र बढ़ाने में मददगार है
    • सर्वर को remotely on/off करने के लिए scripts का इस्तेमाल
    • energy बचत और ड्राइव की उम्र बढ़ाने के लिए सर्वर को default रूप से बंद रखा जाता है
  • मदरबोर्ड बदलना

    • motherboard खराब होने की वजह से कुछ साल पहले उसे बदला गया
    • BIOS में प्रवेश न होना और boot fail जैसी समस्याएँ हुईं
    • Ebay से वही motherboard खरीदकर समस्या हल की गई
  • ZFS

    • ZFS कई operating systems पर बिना समस्या के काम करता है
    • zpool scrub कई बार चलाया गया, लेकिन कोई checksum error नहीं मिला
    • ZFS data loss रोकने में बहुत प्रभावी है
  • शोर प्रबंधन

    • default fan speed बहुत ज़्यादा होने से शोर काफी था
    • temperature के अनुसार fan speed नियंत्रित करने के लिए script लिखी गई
    • fan speed और noise नियंत्रित करने के लिए PID controller का इस्तेमाल
  • नेटवर्किंग

    • शुरुआत में gigabit network controller इस्तेमाल किया गया
    • Infiniband card पर जाने के बाद 700 MB/s transfer speed हासिल हुई
    • फिलहाल 10Gbit Ethernet card इस्तेमाल हो रहा है
  • पावर सप्लाई

    • boot के समय सभी ड्राइव एक साथ spin-up होने से 600W power खपत होती है
    • power supply कभी-कभी boot के समय power cut कर देती है
  • UPS का उपयोग बंद

    • UPS अतिरिक्त power खपत करता था, इसलिए उसका उपयोग बंद किया गया
    • power समस्या के कारण system loss का जोखिम स्वीकार किया गया
  • बैकअप

    • महत्वपूर्ण data का तीन बार backup लिया जाता है
    • गैर-महत्वपूर्ण data का backup नहीं लिया जाता
    • hardware replacement और ZFS के जरिए data loss रोका गया
  • भविष्य की योजना

    • फिलहाल अतिरिक्त storage जोड़ने की कोई योजना नहीं है
    • spare motherboard, CPU, memory और HBA card उपलब्ध हैं
    • ड्राइव क्षमता बढ़ने के कारण भविष्य में छोटे form factor पर जाने की संभावना है
    • system खराब हो जाए तो storage hobby छोड़ देने की भी संभावना है

GN⁺ का सार

  • यह लेख 10 साल तक बिना drive failure के चलाए गए 71 TiB ZFS NAS के अनुभव साझा करता है
  • सर्वर का इस्तेमाल न होने पर उसे बंद रखना ड्राइव की उम्र बढ़ाने में काफी मदद करता है
  • ZFS data loss रोकने में बहुत प्रभावी है, और fan speed control से शोर कम किया जा सकता है
  • network transfer speed बढ़ाने के लिए अलग-अलग network cards का इस्तेमाल किया गया
  • backup strategy और power supply management से जुड़े अनुभव भी साझा किए गए

1 टिप्पणियां

 
GN⁺ 2024-09-14
Hacker News राय
  • मुख्य चर्चा ZFS और BTRFS पर होती है, लेकिन यह जानने की जिज्ञासा है कि क्या किसी ने bcachefs इस्तेमाल किया है

    • bcachefs Linux kernel में शामिल है और इसमें end-to-end checksum फीचर है
    • एक ऐसा लेखक है जो file system की ज़िम्मेदारी को गंभीरता से लेता है
  • यह सवाल कि क्या drives को घुमाकर इस्तेमाल करने का कोई शेड्यूल है

    • 24 एक ही model की drives इस्तेमाल हो रही हैं, और लगता है कि वे एक ही batch से आई हैं
    • समान wear state की वजह से उनके एक साथ fail होने की संभावना ज़्यादा है
    • भरोसेमंद storage बनाना कठिन काम है
  • यह उलटी राय भी सुनी गई है कि drives को लगातार चालू रखना, समय-समय पर power off करने से कम wear पैदा कर सकता है

    • ZFS NAS को लगातार चालू रखकर नियमित रूप से data scrub करना पसंद है
    • 10 साल तक 4-drive system चलाते हुए 2 drives fail हुईं, लेकिन वे enterprise-grade drives नहीं थीं (WD Green)
  • बड़े fans कम RPM पर भी बहुत हवा खिसका सकते हैं और energy efficient होते हैं

    • Oxide Computer इस बात पर ज़ोर देता है कि वह 80mm fans इस्तेमाल करता है, जो शांत हैं और कम power लेते हैं
    • दूसरे servers में fan power draw कुल power का 25% तक होता है, जबकि यहाँ यह लगभग 1% है
  • movie collection के बारे में और सुनने की इच्छा है

    • शुरुआत में items कैसे चुने गए और कौन-सी चीज़ें 10 साल से ज़्यादा समय से collection में बनी हुई हैं, इसमें रुचि है
  • power issues की वजह से system खोने का जोखिम लिया जा रहा है

    • UPS power imbalance से होने वाली दुर्लभ failures को रोकता है
    • construction work या lightning की वजह से power spike हो सकते हैं
    • UPS server के खराब होने से पहले खुद fail होकर सुरक्षा देता है
  • 24 drives performance के फ़ायदे दे सकती हैं, लेकिन 6-bay NAS और 18TB disks इस्तेमाल करने से power usage, शोर, जगह, लागत और reliability के मामले में कई फ़ायदे मिलते हैं

  • जिस environment में drives चलती हैं, उसका उनकी lifespan पर बड़ा असर पड़ता है

    • residential environment, data center या office space की तुलना में ज़्यादा परिवर्तनशील होता है
    • temperature और humidity में उतार-चढ़ाव, और dust का असर बड़ा होता है
    • साफ़ और स्थिर environment में drive failures काफ़ी कम हो जाती हैं
  • drives को बंद करना कोई गुप्त तरकीब नहीं थी, बस किस्मत अच्छी थी

    • 4TB HGST drives को 10 साल से ज़्यादा समय से 24/7 इस्तेमाल किया जा रहा है और कोई failure नहीं हुआ
    • दूसरे लोगों ने इसी drive के साथ कई बार RMA का अनुभव किया है
  • कुछ drives ऐसी भी थीं जिनके लिए power cycling जोखिम भरी थी

    • यह हर किसी के लिए हमेशा अच्छा नहीं होता
    • कुछ SSDs को समय-समय पर power की ज़रूरत होती है
    • NAS का duty cycle संभवतः इस आवश्यकता को पूरा कर देता है
    • बिजली की लागत सस्ती हो गई है
    • यह जिज्ञासा है कि क्या Backblaze drives के power on/off lifespan stats को model करता है