1 पॉइंट द्वारा GN⁺ 2025-02-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Hetzner डिबगिंग: powerstat, sensors, dmidecode से समस्या का समाधान

  • पृष्ठभूमि

    • Ubicloud ने Hetzner के AX162 सर्वर अपनाए, लेकिन गंभीर reliability समस्याओं का सामना किया।
    • AX162 सर्वर पिछले मॉडल की तुलना में बेहतर performance और कम कीमत देते थे, लेकिन 16 गुना अधिक बार crash हो रहे थे।
    • कई hardware updates के बाद ही समस्या हल हुई।
  • समस्या की शुरुआत

    • पहला AX162 सर्वर खरीदने के 3 हफ्ते बाद सर्वर crash हुआ।
    • सिस्टम लॉग में NULL bytes मिले, जो power loss जैसी अचानक failure का संकेत थे।
    • Hetzner ने hardware inspection किया, लेकिन कोई असामान्यता नहीं मिली।
    • crash की आवृत्ति बढ़ती गई, और Hetzner हर बार hardware defect मिलने पर सर्वर बदलता गया।
  • प्रारंभिक जांच

    • सिस्टम लोड: लगा कि load बढ़ने पर समस्या हो सकती है, लेकिन कम या बिना load के भी crash हुए।
    • तापमान: sensors से तापमान मापा गया, लेकिन crash के समय तापमान औसत से अधिक नहीं था।
    • दोषपूर्ण कंपोनेंट: dmidecode कमांड से hardware जानकारी जुटाई गई, लेकिन crash हुए और न हुए सर्वरों के बीच कोई बड़ा अंतर नहीं मिला।
    • बिजली खपत: powerstat टूल से power consumption मापा गया, और शक हुआ कि Hetzner ने power usage सीमित किया हो सकता है।
  • crash rate डेटा संग्रह और तुलना

    • hardware reliability मापने के लिए Annualized Failure Rate (AFR) का उपयोग किया गया।
    • AX162 सर्वर अन्य मॉडलों की तुलना में 16 गुना अधिक fail हो रहे थे।
    • पहले crash के बाद 80% सर्वरों ने 24 घंटे के भीतर दूसरा crash देखा।
  • नए hardware पर stability का अवलोकन

    • Hetzner ने defective motherboard batch की पहचान की और replacement की सिफारिश की।
    • नई motherboard से बदलने के बाद भी crash जारी रहे।
    • नवीनतम motherboard से replacement के बाद कुछ महीनों की monitoring में crash समस्या समाप्त हो गई।
  • प्रक्रिया में सुधार

    • नए सर्वर मॉडल अपनाते समय गहन समीक्षा आवश्यक है।
    • नए hardware को पहले non-core workloads से धीरे-धीरे लागू करना चाहिए।
    • जोखिम विभाजन के लिए अधिक bare metal providers जोड़ने चाहिए।
  • निष्कर्ष

    • Hetzner सर्वरों की शुरुआती तैनाती ने समस्याएँ पैदा कीं, लेकिन लगातार सुधारों के जरिए समस्या हल हुई।
    • Ubicloud reliability और adaptability वाले cloud solutions देने के लिए प्रयास जारी रखेगा।

1 टिप्पणियां

 
GN⁺ 2025-02-21
Hacker News राय
  • ज़्यादातर अन्य AX मॉडल (AX42, AX52, AX102) में भी गंभीर reliability समस्याएँ हैं, जिनके कारण वे कुछ महीनों बाद खराब हो जाते हैं। यह दोषपूर्ण motherboard पर आधारित है। Hetzner को एक निश्चित तारीख से पहले बने सर्वरों के motherboard का अधिकांश हिस्सा बदलना पड़ा
  • पिछली कंपनी में Hetzner पर CPU fan failure अक्सर देखा गया था। यह सामान्य HD/SSD failures के अलावा होता था। अपनी monitoring खुद करनी पड़ती है, और यही unmanaged servers के cloud instances से सस्ते होने की एक वजह है
  • पीछे मुड़कर देखें तो, अगर 6 महीने इंतज़ार किया होता तो कई समस्याओं से बचा जा सकता था। शुरुआती users अक्सर वे समस्याएँ खोज लेते हैं जिन्हें बाद में ठीक किया जाता है
    • यह बहुत अच्छी सलाह है, और मैं reliability की ज़रूरत वाले हर system के लिए इसका पालन करता हूँ
    • अगर security issue न हो, तो कुछ महीने इंतज़ार करता हूँ या एक-दो versions पीछे रहता हूँ
  • Hetzner ने power limiting की संभावना की न तो पुष्टि की और न ही खंडन किया
    • power limiting का नतीजा क्या होता है? लेख के अनुसार hardware अधिक तेज़ी से degrade हो सकता है
    • Hetzner की प्रतिक्रिया की कमी और UbiCloud के measurements से यही लगता है कि वे वास्तव में power limit कर रहे हैं। अगर ऐसा नहीं होता, तो वे ऐसा कह देते
  • Dell को भी कभी-कभी यह समस्या होती है। जब उनकी पुरानी servers की पहली batch मिली थी, तो I/O (rear) section बदलना पड़ा था। यह समस्या ठीक करने के बाद वे लगभग 10 साल चले
    • हाल ही में इन servers को retire किया गया। RAID card से लेकर power regulators तक सब कुछ घिस चुका था
    • configuration change की वजह से पूरी तरह काम कर रहे server को reboot करना और RAID card को हमेशा के लिए खो देना काफ़ी झटका देने वाला अनुभव है
  • power constraints के तहत मशीनों की संख्या बढ़ाने के लिए data center operators आमतौर पर प्रति मशीन power usage सीमित करते हैं। लेकिन इससे motherboard तेज़ी से degrade हो सकता है
    • क्या कोई इस बारे में समझा सकता है? यह सहज समझ के विपरीत लगता है
    • search results के अनुसार, अगर thermal throttling होने लगे तो उच्च operating temperatures components (जैसे capacitors) को तेज़ी से degrade कर सकते हैं। लेकिन लेख में विभिन्न temperature sensors की जाँच की गई थी और वहाँ ऐसा नहीं था
  • सोच रहा हूँ कि क्या यह power/signal issue या VRM issue हो सकता है। सिर्फ़ इसलिए कि CPU गर्म नहीं है, इसका मतलब यह नहीं कि board के दूसरे हिस्से spec से बाहर जाकर catastrophic failure नहीं कर रहे होंगे
    • power/signal से जुड़े motherboard issues का diagnosis करना मुश्किल होता है। वे दूसरे components से जुड़ी समस्या की तरह दिखते हैं, और अंत में असल में motherboard बदलने से पहले सब कुछ बदलना पड़ता है
  • अभी इस्तेमाल हो रहे AX102 में भी ऐसा ही कुछ हुआ था। network card से जुड़ी समस्या के कारण crashes हो रहे थे। अच्छी बात यह रही कि Hetzner support ने hardware replacement में मदद की। इससे बहुत परेशानी हुई, लेकिन hardware troubleshooting का अच्छा सबक मिला
  • क्या data center अनुभव वाला कोई व्यक्ति अंदाज़ा लगा सकता है कि Hetzner ने motherboard vendor के साथ किस तरह का commercial settlement किया होगा? क्या यह मान सकते हैं कि सभी motherboards मुफ्त में बदले गए होंगे और compensation भी मिला होगा?
  • power limiting का अनुमान लगाने से पहले मैं यह देखना चाहूँगा कि उस system पर कौन-सा CPU governor चल रहा है। कई default Linux installs power-saving governor चलाते हैं, जो maximum frequency और maximum power को सीमित करता है