कई GitHub सेवाओं में आउटेज की घटना
(githubstatus.com)- Webhooks, Actions, Copilot सहित कई GitHub सेवाओं में उपलब्धता में गिरावट और सेवा अनुपलब्धता दोनों देखी गईं
- शुरुआत में Copilot और Webhooks की उपलब्धता में गिरावट की जांच की गई, और बाद में कई सेवा आउटेज के कारण जांच का दायरा बढ़ाया गया
- Actions ने अलग से प्रदर्शन में गिरावट झेली, और मूल समस्या की पहचान होने के बाद शमन कार्य आगे बढ़ाया गया
- Actions और Copilot में गिरावट कम होने के बाद स्थिरता की निगरानी और बाकी सेवाओं के लिए सत्यापन कार्य जारी रहा, और Webhooks भी सामान्य संचालन में बहाल हो गया
- यह आउटेज अंततः पूर्णतः समाधान की स्थिति के साथ समाप्त हुआ, और विस्तृत root cause analysis तैयार होते ही साझा किया जाएगा
आउटेज की प्रगति
- GitHub में कई सेवाओं का आउटेज हुआ, और प्रभावित सेवाओं में Webhooks, Actions, Copilot शामिल थे
- शुरुआत में Copilot और Webhooks की उपलब्धता में गिरावट की जांच शुरू की गई
- इसके बाद कई सेवाएं अनुपलब्ध स्थिति में दिखीं और जांच का दायरा बढ़ाया गया
- Actions ने अलग से प्रदर्शन में गिरावट झेली, और कारण की पहचान का काम जारी रहा
- मूल समस्या की पहचान होने के बाद शमन कार्य आगे बढ़ाया गया
- Actions और Copilot को प्रभावित करने वाली गिरावट कम हो गई, और स्थिरता बनाए रखने के लिए निगरानी जारी रही
- कई सेवाओं पर शमन लागू होने के बाद बाकी सेवाओं के लिए सत्यापन कार्य भी जारी रहा
- Webhooks भी सामान्य संचालन में बहाल हो गया
- अंततः यह आउटेज पूर्णतः समाधान की स्थिति के साथ समाप्त हुआ, और विस्तृत root cause analysis तैयार होते ही साझा किया जाएगा
1 टिप्पणियां
Hacker News की राय
मैं घर पर self-hosting में तरह-तरह की चीज़ें शिफ्ट कर रहा था, और कल आखिरकार घर में Forgejo instance तैयार कर लिया
Linux, Windows को VM में, और macOS को Mac Mini पर CI/CD runner के साथ जोड़ दिया, तो अब source code, Actions, और असली infrastructure सब सचमुच घर के अंदर ही है
आम तौर पर self-hosting पर शिफ्ट करने के बाद संतुष्टि आने में एक-दो महीने लगते हैं, लेकिन इस बार migration खत्म होने के अगले ही दिन से यक़ीन हो गया कि यह फ़ैसला सही था, इसलिए काफ़ी अच्छा लगा
दिन भर कंपनी में टूटे हुए सिस्टम ठीक करने के बाद घर आकर अपना personal sysadmin बनना नहीं चाहता
क्रिसमस पर खरीदा हुआ अच्छा और ताकतवर Minisforum भी डेस्क पर रखा है, लेकिन अभी तक उसे ऑन भी नहीं किया
मैं Forgejo को एक NUC और Proxmox पर चल रही कई services के साथ चला रहा हूँ, और page load लगभग 6ms है
Immich उतना तेज़ नहीं है, फिर भी Google Photos से काफ़ी तेज़ है
UI ज़्यादातर मिलता-जुलता है, फिर भी GitHub से कहीं ज़्यादा स्मूद है। इसकी वजह के लिए सिर्फ़ यह काफ़ी है कि uptime 90% से ऊपर है
आजकल GitHub से जुड़ी दिक्कतें बहुत बार झेलनी पड़ रही हैं, और साइट पर बस घूमना-फिरना भी धीमा हो जाता है या पूरी तरह रुक जाता है
Linux और macOS को Mac Mini और Claude द्वारा बनाए गए Ansible task file से सेट किया, लेकिन Windows VM setup काफ़ी दर्दनाक लग रहा था
जानना चाहता हूँ कि क्या आपको deployment process को simplify करने का कोई तरीका मिला
लेकिन public projects को job market और GitHub के network effect की वजह से शिफ्ट करना मुश्किल है
अभी हाल यह है कि ज़रूरत के चलते लगभग 20 local services चला रहा हूँ और सिस्टम एडमिन बनने का खेल खेल रहा हूँ, और सबसे ज़रूरी बात यह है कि अब data loss रोकने की ज़िम्मेदारी मेरी है, इसलिए regular backups ज़रूर होने चाहिए
https://mrshu.github.io/github-statuses/ देखने पर uptime 88.15% तक गिरा हुआ दिखता है
individual components के हिसाब से भी सबसे अच्छा 99.78% है, यानी मुश्किल से two nines के स्तर पर
2025 में 1 billion commits थे, और अब 275 million commits प्रति हफ़्ता हैं; सिर्फ़ linear growth मानें तो इस साल 14 billion commits की रफ़्तार बनती है
GitHub Actions भी 2023 में 500 million minutes प्रति हफ़्ता से बढ़कर 2025 में 1 billion minutes हो गया, और इस हफ़्ते अभी तक 2.1 billion minutes हो चुके हैं
स्रोत GitHub COO की 2026-04-03 की पोस्ट है https://x.com/kdaigle/status/2040164759836778878
https://thenewstack.io/github-will-prioritize-migrating-to-azure-over-feature-development/
सोचता हूँ कि बार-बार ऐसे incidents होने पर भी क्या GitHub को कोई meaningful business loss सच में हो रहा है
इंडस्ट्री में लंबे समय तक reliability और brand value को बहुत अहम माना जाता था, लेकिन अब लगता है कि इसकी लगभग परवाह ही नहीं रही
अगर मेरी समझ ग़लत है तो मैं खुशी से सुधार सुनना चाहूँगा
लेकिन जैसे ही LLM थोड़ा बेहतर हुआ, लगा जैसे वह सारी बात ही गायब हो गई
बड़े enterprises कुछ हद तक internal instances से बचाव कर लेते हैं, और बाकी के लिए या तो यह इतना घातक नहीं है, या उनके पास अपना solution बनाने या कहीं और migrate करने के resources नहीं हैं
अच्छा होता अगर बड़े scale पर इस्तेमाल करने वालों के लिए कोई सचमुच ठीक विकल्प होता
90-दिन की rolling अवधि के हिसाब से two nines से नीचे गिरने के लिए शायद लगभग 16 घंटे की अतिरिक्त outage और चाहिए होगी
शायद चिंता की ज़रूरत नहीं है, status page अब भी हरा 100% normal दिखा रहा है
जबकि एक static page तक access नहीं हो रहा
अब तो हालत यह है कि जिस दिन GitHub services में कोई problem न हो, उस पर HN पोस्ट आनी चाहिए
वरना शायद वही अब सामान्य स्थिति है
पहले Bitbucket की तरफ़ एक बार कई repos में एक दिन की git history उड़ गई थी
outage से ज़्यादा वह उनकी data problem थी; local clone की वजह से ज़्यादातर बच गया, लेकिन उस दौरान के issues और PR बस गायब हो गए
इसलिए मैंने side project के तौर पर gitbacker बनाना शुरू किया
repo ख़ुद backup करना आसान है, असली दिलचस्प हिस्सा metadata backup है
आज फिर एक बहुत गंभीर incident हुआ: https://www.githubstatus.com/incidents/zsg1lk7w13cf
merge queue को squash merge या rebase के साथ इस्तेमाल करने पर हुई regression की वजह से, 2026-04-23 16:05-20:43 UTC के बीच कुछ PR ग़लत तरीके से merge हो गए
हमारी तरफ़ तो उस दौरान default branch में करीब 8 commits पूरी तरह revert हो गए
GitHub incidents में इतना गंभीर मामला मैंने पहली बार देखा
जिसका काम merge conflicts रोकना था, वही tool उल्टा mainline branch में टूटी-फूटी commits सीधे लिख रहा था, यह विडंबनापूर्ण है
बहुत तनावपूर्ण था
downtime भी बुरा है, लेकिन PR revert होना उससे एक स्तर ज़्यादा गंभीर failure है
पूरा मामला बुरी तरह अव्यवस्थित था
हमारी ज़रूरतें काफ़ी simple हैं, लगभग git repos + actions, और बीच-बीच में होने वाला downtime भी बहुत घातक नहीं है क्योंकि हम लगातार commit और deploy करने वाली टीम नहीं हैं
फिर भी अब alternatives को गंभीरता से देख रहे हैं
शायद alternatives ढूँढने वालों की भीड़ की वजह से SourceHut भी डाउन हो गया था। यह पोस्ट लिखते समय डाउन था, अब वापस ऊपर है
https://sr.ht/
सिर्फ़ आज ही तीन incidents हुए, हर एक लगभग 1 घंटे से ज़्यादा चला, लेकिन daily status सब हरा है और recorded downtime नहीं दिखता
यह पहले वाले उन incidents से बुनियादी तौर पर अलग भी नहीं लगता जिनमें लाल bar दिखती थी; फ़र्क बस इतना है कि यह कई घंटे लंबे नहीं थे
तो फिर वह हरी bar आख़िर बताती क्या है, समझ नहीं आता
शक होता है कि क्या लोगों को काफ़ी शिकायत करनी पड़ती है तभी बाद में non-green किया जाता है, या फिर उसी दिन के incidents बस tooltip में थोड़ी देर दिखते हैं और बाद में चुपचाप भुला दिए जाते हैं
अब तक के हरे दिनों में tooltip पर कोई incident नहीं दिखता, लेकिन आज कई दिख रहे हैं, तो दोनों ही हालात में यह जानबूझकर भ्रामक डिस्प्ले जैसा लगता है