2 पॉइंट द्वारा GN⁺ 2024-04-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Tailscale.com की 7 मार्च 2024 की सेवा रुकावट के बारे में

  • 7 मार्च 2024 को, TLS certificate की अवधि समाप्त हो जाने के कारण Tailscale.com लगभग 90 मिनट तक एक्सेस नहीं किया जा सका।
  • इस समस्या की जल्दी पहचान कर उसे हल कर दिया गया, और इसका असर मुख्य रूप से marketing materials और documentation पर पड़ा।
  • अप्रत्याशित सेवा रुकावट एक समस्या है, और वे इसके कारण, प्रभाव और दोबारा न होने देने के लिए उठाए गए कदमों के बारे में बताना चाहते हैं।

क्या हुआ

  • दिसंबर 2023 में नए hosting provider पर migration सहित वेबसाइट का बड़ा पुनर्गठन किया गया।
  • hosting provider डिफ़ॉल्ट रूप से IPv6 support नहीं देता था, इसलिए IPv6 requests को संभालने के लिए अलग proxy चलाया गया।
  • इस configuration को hosting provider ने 'गलत सेटिंग' माना और चेतावनी दी, लेकिन यह समझ में नहीं आया कि इससे automatic certificate renewal रुक जाएगा।
  • certificate expiry की जांच करने वाला prover मौजूद था, लेकिन वह केवल IPv6 के ज़रिए जांच करता था, इसलिए वह proxy द्वारा प्रबंधित वैध certificate ही देखता रहा और निकट आती expiry का पता नहीं लगा सका।

प्रभाव

  • ज़्यादातर Tailscale कामों के लिए मुख्य वेबसाइट तक पहुंच की ज़रूरत नहीं होती, इसलिए कई उपयोगकर्ताओं के सामान्य उपयोग पर कोई असर नहीं पड़ा।
  • documentation, blog और अन्य reference materials उपलब्ध नहीं थे, और management console तथा settings pages प्रभावित नहीं हुए, लेकिन जिन उपयोगकर्ताओं को सीधे पहुंचने का तरीका नहीं पता था वे इन्हें ऑफ़लाइन समझ सकते थे।
  • quick install script उपलब्ध न होने से कुछ installations, जिनमें automated installs भी शामिल हैं, बाधित हुए।
  • Tailscale packages देने वाले domains उपलब्ध रहे, और Go के go get mechanism के ज़रिए workaround की ज़रूरत caching की वजह से न्यूनतम रही।

समाधान के लिए उठाए गए कदम

  • समस्या समझ में आने के बाद, 'अतिरिक्त' AAAA records को अस्थायी रूप से हटाया गया और संबंधित certificate को manually renew किया गया।
  • IPv6 के माध्यम से site और service accessibility बनाए रखने के लिए records को फिर से बहाल किया गया।
  • अल्पकाल में कई redundant calendar reminders और manual renewal के लिए निर्धारित समय सेट करने की योजना है।
  • prover infrastructure को update किया जाएगा ताकि IPv4 और IPv6 endpoints की अलग-अलग जांच हो सके।
  • वेबसाइट infrastructure में IPv6 को अधिक सीधे support देकर proxy को अनावश्यक बनाने की उम्मीद है।
  • Tailscale के design की वजह से अधिकांश उपयोगकर्ता अधिकांश उपयोग मामलों में इस रुकावट से प्रभावित नहीं हुए।

GN⁺ की राय

  • Tailscale की सेवा रुकावट का यह मामला IT infrastructure management के महत्व को रेखांकित करता है। खासकर, यह दिखाता है कि certificate renewal जैसे बुनियादी maintenance tasks कितने महत्वपूर्ण हैं।
  • यह घटना IPv6 support के महत्व के साथ-साथ मौजूदा infrastructure के साथ compatibility समस्याओं को हल करने के लिए रचनात्मक approach की ज़रूरत भी दिखाती है।
  • समान सुविधाएँ देने वाली अन्य services में Cloudflare और Let's Encrypt शामिल हैं, जो automatic certificate renewal सुविधा देकर ऐसे मुद्दों को रोक सकती हैं।
  • तकनीक अपनाते समय infrastructure compatibility, automation की संभावना और maintenance की सहजता को ध्यान में रखना चाहिए। ऐसी घटनाएँ दिखाती हैं कि तकनीकी चयन के समय फायदे और नुकसान का सावधानी से मूल्यांकन क्यों ज़रूरी है।
  • यह लेख उपयोगकर्ताओं और administrators दोनों को certificate expiry जैसी बुनियादी system management जिम्मेदारियों के प्रति सतर्क करने में मदद कर सकता है।

1 टिप्पणियां

 
GN⁺ 2024-04-01
Hacker News राय
  • समाप्त होने वाले certificate की समस्या

    समाप्त होने वाले certificate नई DNS outage का कारण बन रहे हैं। Tailscale का उपयोग करके कहीं से भी सुरक्षित रूप से काम करने के अनुभव को साझा किया गया। Tailscale के ज़रिए on-premises server और AWS production setup तक पहुंचा जाता है, और local Wi‑Fi धीमा होने पर भी दूसरी जगह से SSH के माध्यम से समस्या हल की जा सकती है। Tailscale network access permissions को आसानी से देने और वापस लेने की सुविधा देता है.

  • certificate expiry से होने वाली समस्या

    certificate expiry की समस्या फिर से हुई। postmortem के हिस्से के रूप में marketing site और customer operations के critical path को अलग करने की सिफारिश की गई। यह भी बताया गया कि GitHub या Zendesk जैसी sites का downtime उम्मीद से ज़्यादा आम है.

  • marketing site और app के कनेक्शन की समस्या

    marketing site पर app login page का link रखने से पैदा हुई समस्या साझा की गई। यह समझ में आया कि marketing site down होने पर users यह गलतफ़हमी पाल सकते हैं कि app भी down है। users अक्सर दिए गए रास्ते का ही पालन करते हैं और दूसरे रास्तों के मौजूद होने से अनजान रहते हैं.

  • pricing policy को लेकर शिकायत

    Tailscale की service पसंद है, लेकिन VPN के लिए उचित access control का $18 प्रति माह वाला महंगा दाम management को बेच पाना मुश्किल बनाता है। lower-tier service को access control के बिना बेचना भी कठिन है.

  • website provider को लेकर सवाल

    यह सवाल उठाया गया कि website का provider कौन है, और क्या IPv6 support न होने की वजह से जटिल प्रक्रिया से गुजरना पड़ता है.

  • engineering culture की प्रशंसा

    दिसंबर में बड़े update को अंजाम देने के लिए भरोसेमंद CI/CD और monitoring process होने पर ईर्ष्या जताई गई। लेकिन IPv6 configuration समस्या के कारण certificate renewal fail होने, समस्या सुलझाने में 90 मिनट लगने, और IPv6 support करने वाले DNS provider पर migrate न करने जैसे सवाल अब भी अनसुलझे हैं.

  • TLS termination की ज़रूरत पर सवाल

    यह सवाल उठाया गया कि क्या proxy को TLS terminate करने की ज़रूरत है, या एक साधारण TCP proxy भी काफ़ी नहीं होगा। TCP proxy का उपयोग करने पर शायद auto-renewal संभव हो सके.

  • calendar reminder पर व्यंग्यात्मक टिप्पणी

    पूर्वजों की तरह कई duplicate calendar reminders सेट करने वाले चुटीले बयान को पसंद किया गया.

  • security को लेकर चिंता

    यह कहा गया कि अगर Tailscale security से जुड़ी कोई छोटी-सी गलती भी एक बार कर दे, तो हल्की paranoia रखने वाले लोगों के लिए यह बहुत जोखिमभरा हो सकता है। इसके लिए बेहतर समाधान की ज़रूरत है.

  • infrastructure monitoring और auto-renewal पर सुझाव

    सुझाव दिया गया कि infrastructure monitoring होनी चाहिए, और सभी public domains के लिए IPv4 और IPv6 को जोड़कर certificate expiry से 19 दिन पहले चेतावनी देने वाला code जोड़ा जाना चाहिए। auto-renewal को expiry से 20 दिन पहले सेट करने से SSL से जुड़े outages रोके जा सकते हैं.