2 पॉइंट द्वारा GN⁺ 6 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Webhooks, Actions, Copilot सहित कई GitHub सेवाओं में उपलब्धता में गिरावट और सेवा अनुपलब्धता दोनों देखी गईं
  • शुरुआत में Copilot और Webhooks की उपलब्धता में गिरावट की जांच की गई, और बाद में कई सेवा आउटेज के कारण जांच का दायरा बढ़ाया गया
  • Actions ने अलग से प्रदर्शन में गिरावट झेली, और मूल समस्या की पहचान होने के बाद शमन कार्य आगे बढ़ाया गया
  • Actions और Copilot में गिरावट कम होने के बाद स्थिरता की निगरानी और बाकी सेवाओं के लिए सत्यापन कार्य जारी रहा, और Webhooks भी सामान्य संचालन में बहाल हो गया
  • यह आउटेज अंततः पूर्णतः समाधान की स्थिति के साथ समाप्त हुआ, और विस्तृत root cause analysis तैयार होते ही साझा किया जाएगा

आउटेज की प्रगति

  • GitHub में कई सेवाओं का आउटेज हुआ, और प्रभावित सेवाओं में Webhooks, Actions, Copilot शामिल थे
  • शुरुआत में Copilot और Webhooks की उपलब्धता में गिरावट की जांच शुरू की गई
  • इसके बाद कई सेवाएं अनुपलब्ध स्थिति में दिखीं और जांच का दायरा बढ़ाया गया
  • Actions ने अलग से प्रदर्शन में गिरावट झेली, और कारण की पहचान का काम जारी रहा
  • मूल समस्या की पहचान होने के बाद शमन कार्य आगे बढ़ाया गया
  • Actions और Copilot को प्रभावित करने वाली गिरावट कम हो गई, और स्थिरता बनाए रखने के लिए निगरानी जारी रही
  • कई सेवाओं पर शमन लागू होने के बाद बाकी सेवाओं के लिए सत्यापन कार्य भी जारी रहा
  • Webhooks भी सामान्य संचालन में बहाल हो गया
  • अंततः यह आउटेज पूर्णतः समाधान की स्थिति के साथ समाप्त हुआ, और विस्तृत root cause analysis तैयार होते ही साझा किया जाएगा

संदर्भ लिंक

1 टिप्पणियां

 
GN⁺ 6 일 전
Hacker News की राय
  • मैं घर पर self-hosting में तरह-तरह की चीज़ें शिफ्ट कर रहा था, और कल आखिरकार घर में Forgejo instance तैयार कर लिया
    Linux, Windows को VM में, और macOS को Mac Mini पर CI/CD runner के साथ जोड़ दिया, तो अब source code, Actions, और असली infrastructure सब सचमुच घर के अंदर ही है
    आम तौर पर self-hosting पर शिफ्ट करने के बाद संतुष्टि आने में एक-दो महीने लगते हैं, लेकिन इस बार migration खत्म होने के अगले ही दिन से यक़ीन हो गया कि यह फ़ैसला सही था, इसलिए काफ़ी अच्छा लगा

    • homelab का आइडिया हमेशा आकर्षित करता है, लेकिन जैसे ही बनाना शुरू करता हूँ, जल्दी थक जाता हूँ
      दिन भर कंपनी में टूटे हुए सिस्टम ठीक करने के बाद घर आकर अपना personal sysadmin बनना नहीं चाहता
      क्रिसमस पर खरीदा हुआ अच्छा और ताकतवर Minisforum भी डेस्क पर रखा है, लेकिन अभी तक उसे ऑन भी नहीं किया
    • self-hosting शुरू करते ही पता चल जाता है कि modern web कितना धीमा है
      मैं Forgejo को एक NUC और Proxmox पर चल रही कई services के साथ चला रहा हूँ, और page load लगभग 6ms है
      Immich उतना तेज़ नहीं है, फिर भी Google Photos से काफ़ी तेज़ है
    • मैं कुछ समय से personal Forgejo चला रहा हूँ और अपने सभी private side projects वहीं रखे हैं
      UI ज़्यादातर मिलता-जुलता है, फिर भी GitHub से कहीं ज़्यादा स्मूद है। इसकी वजह के लिए सिर्फ़ यह काफ़ी है कि uptime 90% से ऊपर है
      आजकल GitHub से जुड़ी दिक्कतें बहुत बार झेलनी पड़ रही हैं, और साइट पर बस घूमना-फिरना भी धीमा हो जाता है या पूरी तरह रुक जाता है
    • मैंने भी हाल ही में ऐसा ही migration किया, और सबसे चौंकाने वाली बात यह थी कि Actions की speed GitHub से बहुत तेज़ थी
      Linux और macOS को Mac Mini और Claude द्वारा बनाए गए Ansible task file से सेट किया, लेकिन Windows VM setup काफ़ी दर्दनाक लग रहा था
      जानना चाहता हूँ कि क्या आपको deployment process को simplify करने का कोई तरीका मिला
    • कल यहाँ gitea की बात देखकर थोड़ा खोजा, फिर मैंने भी तुरंत self-hosting पर शिफ्ट करके अपने सारे personal projects Forgejo में migrate कर दिए
      लेकिन public projects को job market और GitHub के network effect की वजह से शिफ्ट करना मुश्किल है
      अभी हाल यह है कि ज़रूरत के चलते लगभग 20 local services चला रहा हूँ और सिस्टम एडमिन बनने का खेल खेल रहा हूँ, और सबसे ज़रूरी बात यह है कि अब data loss रोकने की ज़िम्मेदारी मेरी है, इसलिए regular backups ज़रूर होने चाहिए
  • https://mrshu.github.io/github-statuses/ देखने पर uptime 88.15% तक गिरा हुआ दिखता है
    individual components के हिसाब से भी सबसे अच्छा 99.78% है, यानी मुश्किल से two nines के स्तर पर

    • संभालने वाली growth scale बेतुकी हद तक बड़ी है
      2025 में 1 billion commits थे, और अब 275 million commits प्रति हफ़्ता हैं; सिर्फ़ linear growth मानें तो इस साल 14 billion commits की रफ़्तार बनती है
      GitHub Actions भी 2023 में 500 million minutes प्रति हफ़्ता से बढ़कर 2025 में 1 billion minutes हो गया, और इस हफ़्ते अभी तक 2.1 billion minutes हो चुके हैं
      स्रोत GitHub COO की 2026-04-03 की पोस्ट है https://x.com/kdaigle/status/2040164759836778878
    • सोच रहा हूँ कि क्या इसका कोई correlation GitHub द्वारा Azure migration को प्राथमिकता देने से है
      https://thenewstack.io/github-will-prioritize-migrating-to-azure-over-feature-development/
    • Microsoft जो AI ज़ोर-शोर से आगे बढ़ा रहा है, वह self-hosters और Linux प्रेमियों के लिए वाकई बड़ी मदद बन रहा है
  • सोचता हूँ कि बार-बार ऐसे incidents होने पर भी क्या GitHub को कोई meaningful business loss सच में हो रहा है
    इंडस्ट्री में लंबे समय तक reliability और brand value को बहुत अहम माना जाता था, लेकिन अब लगता है कि इसकी लगभग परवाह ही नहीं रही
    अगर मेरी समझ ग़लत है तो मैं खुशी से सुधार सुनना चाहूँगा

    • सिर्फ़ 2-3 साल पहले तक लगभग सभी इस बात पर सहमत थे कि software को stable और secure तरीके से deploy करने के लिए repeatable builds, verified chain of custody, और auditable bill of materials ज़रूरी हैं
      लेकिन जैसे ही LLM थोड़ा बेहतर हुआ, लगा जैसे वह सारी बात ही गायब हो गई
    • GitHub अब इतना गहराई से जड़ जमा चुका platform है कि ऐसी outages को बस business cost की तरह लिया जाता है
      बड़े enterprises कुछ हद तक internal instances से बचाव कर लेते हैं, और बाकी के लिए या तो यह इतना घातक नहीं है, या उनके पास अपना solution बनाने या कहीं और migrate करने के resources नहीं हैं
    • GitHub से GitLab जाना शायद तवे से निकलकर आग में जाने जैसा हो सकता है
      अच्छा होता अगर बड़े scale पर इस्तेमाल करने वालों के लिए कोई सचमुच ठीक विकल्प होता
  • 90-दिन की rolling अवधि के हिसाब से two nines से नीचे गिरने के लिए शायद लगभग 16 घंटे की अतिरिक्त outage और चाहिए होगी

    • https://mrshu.github.io/github-statuses/ के हिसाब से combined uptime तो शायद 1 nine भी नहीं छू रहा
    • इस रफ़्तार से तो GitHub शायद eight 8’s हासिल करना चाहता है
  • शायद चिंता की ज़रूरत नहीं है, status page अब भी हरा 100% normal दिखा रहा है
    जबकि एक static page तक access नहीं हो रहा

  • अब तो हालत यह है कि जिस दिन GitHub services में कोई problem न हो, उस पर HN पोस्ट आनी चाहिए
    वरना शायद वही अब सामान्य स्थिति है

  • पहले Bitbucket की तरफ़ एक बार कई repos में एक दिन की git history उड़ गई थी
    outage से ज़्यादा वह उनकी data problem थी; local clone की वजह से ज़्यादातर बच गया, लेकिन उस दौरान के issues और PR बस गायब हो गए
    इसलिए मैंने side project के तौर पर gitbacker बनाना शुरू किया
    repo ख़ुद backup करना आसान है, असली दिलचस्प हिस्सा metadata backup है

  • आज फिर एक बहुत गंभीर incident हुआ: https://www.githubstatus.com/incidents/zsg1lk7w13cf
    merge queue को squash merge या rebase के साथ इस्तेमाल करने पर हुई regression की वजह से, 2026-04-23 16:05-20:43 UTC के बीच कुछ PR ग़लत तरीके से merge हो गए
    हमारी तरफ़ तो उस दौरान default branch में करीब 8 commits पूरी तरह revert हो गए
    GitHub incidents में इतना गंभीर मामला मैंने पहली बार देखा

    • downtime अपनी जगह एक समस्या है, लेकिन default branch के commits को चुपचाप revert कर देना बिल्कुल अलग स्तर की विफलता है
    • हमारे साथ भी ऐसा ही हुआ
      जिसका काम merge conflicts रोकना था, वही tool उल्टा mainline branch में टूटी-फूटी commits सीधे लिख रहा था, यह विडंबनापूर्ण है
    • हमारे यहाँ भी main में कई commits गायब हो गए, जबकि PR status merged ही दिखाता रहा
      बहुत तनावपूर्ण था
    • हमारे कई repos में भी PR revert हो गए
      downtime भी बुरा है, लेकिन PR revert होना उससे एक स्तर ज़्यादा गंभीर failure है
    • हमें भी एक PDF attachment वाला email मिला, जिसमें प्रभावित commits की सूची और recovery instructions थीं
      पूरा मामला बुरी तरह अव्यवस्थित था
  • हमारी ज़रूरतें काफ़ी simple हैं, लगभग git repos + actions, और बीच-बीच में होने वाला downtime भी बहुत घातक नहीं है क्योंकि हम लगातार commit और deploy करने वाली टीम नहीं हैं
    फिर भी अब alternatives को गंभीरता से देख रहे हैं
    शायद alternatives ढूँढने वालों की भीड़ की वजह से SourceHut भी डाउन हो गया था। यह पोस्ट लिखते समय डाउन था, अब वापस ऊपर है
    https://sr.ht/

    • सोच रहा हूँ tangled.org कैसा रहेगा
  • सिर्फ़ आज ही तीन incidents हुए, हर एक लगभग 1 घंटे से ज़्यादा चला, लेकिन daily status सब हरा है और recorded downtime नहीं दिखता
    यह पहले वाले उन incidents से बुनियादी तौर पर अलग भी नहीं लगता जिनमें लाल bar दिखती थी; फ़र्क बस इतना है कि यह कई घंटे लंबे नहीं थे
    तो फिर वह हरी bar आख़िर बताती क्या है, समझ नहीं आता
    शक होता है कि क्या लोगों को काफ़ी शिकायत करनी पड़ती है तभी बाद में non-green किया जाता है, या फिर उसी दिन के incidents बस tooltip में थोड़ी देर दिखते हैं और बाद में चुपचाप भुला दिए जाते हैं
    अब तक के हरे दिनों में tooltip पर कोई incident नहीं दिखता, लेकिन आज कई दिख रहे हैं, तो दोनों ही हालात में यह जानबूझकर भ्रामक डिस्प्ले जैसा लगता है