1 पॉइंट द्वारा GN⁺ 1 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Pull Requests की performance degradation जारी है, और /pulls तथा /repo/pulls पेजों पर सभी indexed pull request दिखाई नहीं दे सकते
  • इस समय Elasticsearch cluster में सभी indexed documents मौजूद नहीं हैं, लेकिन pull request data स्वयं lost नहीं हुआ है और update होने पर दोबारा reindex किया जाता है
  • बचे हुए indexes को reindex करने का काम और पूरे results को restore करने के लिए full reindex acceleration, दोनों साथ में चल रहे हैं, और प्राथमिकता accuracy तथा अतिरिक्त impact से बचाव को दी जा रही है
  • component status table में केवल Pull Requests को degraded दिखाया गया है, जबकि Git Operations·Webhooks·API Requests·Issues·Actions·Packages·Pages·Copilot·Codespaces·Copilot AI Model Providers Operational स्थिति में हैं
  • recent history में search degradation, Actions job failures, Copilot agent session start failures, merge queue regression, Projects delay, Codespaces connection failures जैसे कई incidents और recovery actions भी साथ में सार्वजनिक किए गए हैं

मौजूदा आउटेज स्थिति

  • Pull Requests में performance degradation चल रही है, और इसे Incomplete pull request results in repositories एंट्री के रूप में प्रकाशित किया गया है
  • /pulls और /repo/pulls पेजों पर सभी indexed pull request दिखाई नहीं दे सकते
    • Elasticsearch cluster में इस समय सभी indexed documents मौजूद नहीं हैं
    • pull request data स्वयं lost नहीं हुआ है
    • pull request update होने पर फिर से reindex किया जाता है
    • पूरे results को restore करने के लिए full reindex acceleration का काम भी साथ में चल रहा है
  • बचे हुए Elasticsearch indexes को reindex किया जा रहा है, और इसे accuracy को प्राथमिकता देते हुए तथा अतिरिक्त impact से बचते हुए संभाला जा रहा है
    • data को सुरक्षित रूप से backfill करने के लिए सावधानीपूर्ण approach बनाए रखी जा रही है

component स्थिति

  • मौजूदा status table में केवल Pull Requests को Degraded Performance के रूप में दिखाया गया है
  • बाकी मुख्य components Operational स्थिति में हैं
    • Git Operations
    • Webhooks
    • API Requests
    • Issues
    • Actions
    • Packages
    • Pages
    • Copilot
    • Codespaces
    • Copilot AI Model Providers
  • पिछले 90 दिनों की uptime भी साथ में दी गई है
    • Pull Requests 99.58% uptime
    • API Requests 99.95% uptime
    • Packages 99.97% uptime
    • Copilot AI Model Providers 100.0% uptime

क्षेत्रवार status pages और subscription paths

हाल की outage history

  • Apr 28 कुछ GitHub services में व्यवधान

    • Disruption with some GitHub services एंट्री resolve हो चुकी है
    • Actions hosted Ubuntu jobs में start delay और failures हुए
      • ubuntu-latest और ubuntu-24.04 के कुछ runs delay हुए या fail हुए
      • एक समय लगभग 5% jobs प्रभावित हुईं, बाद में यह 2% से कम, फिर 1% से कम रह गया
    • Actions runs को रोक रही समस्या को mitigate किया गया और अंततः normal operation बहाल हो गया
  • Apr 27 GitHub search degradation

    • GitHub search is degraded एंट्री resolve हो चुकी है
    • Elasticsearch connection issues और अतिरिक्त load के कारण search failures और कई downstream service issues साथ में हुए
      • Issues, Pull Requests, Packages, Actions प्रभावित हुए
      • workflow run failures, projects loading failures, और search timeout हुए
    • अतिरिक्त load के कारण को block करने के बाद recovery के संकेत दिखे, फिर monitoring mode में transition किया गया
  • Apr 27 Copilot Cloud Agent Codex session outage

    • Disruption with some GitHub services एंट्री resolve हो चुकी है
    • Copilot Cloud Agent में Codex agent session start failures हुए
      • issue assignment और @copilot comment mentions सहित सभी entry points पर session start नहीं हो रहा था
      • कुल Copilot Cloud Agent jobs का 0.5%, लगभग 2,000 failed jobs प्रभावित हुए
      • Copilot के अन्य agent sessions प्रभावित नहीं हुए
    • Codex agent sessions में model resolution mismatch के कारण runtime पर incompatible model चुना जाना root cause था
    • Codex agent sessions के लिए stable default model चुनने वाला mitigation deploy किया गया

root cause disclosure वाले प्रमुख मामले

  • Pull Requests merge queue regression

    • Incident with Pull Requests resolve हो चुका है
    • merge queue में squash merge method इस्तेमाल होने पर, अगर merge group में दो या अधिक PR हों तो गलत merge commit बन रहा था
      • इसके बाद होने वाले merge में पिछले PR changes और पिछले commit changes revert हो सकते थे
      • impact window के दौरान 2,092 pull requests प्रभावित हुए
    • merge queue के बाहर merge किए गए PR और merge या rebase method इस्तेमाल करने वाले कुछ groups प्रभावित नहीं हुए
    • merge base calculation को adjust करने वाला नया code path incomplete feature flag gating की स्थिति में लागू होना root cause था
    • code changes revert किए गए, पूरे environment में force deploy किया गया, और प्रभावित repositories के admins को अलग से recovery procedure भेजा गया
    • इसके बाद multi-PR squash groups को शामिल करते हुए merge correctness test coverage बढ़ाई जा रही है
  • Claude·Codex agent web start failure

    • Disruption with users unable to start Claude and Codex agent task from the web resolve हो चुका है
    • github.com पर Claude या Codex agent के साथ नया agent task शुरू नहीं किया जा सकता था
    • Copilot mission control के task creation request routing code change को root cause बताया गया
    • ongoing agent tasks और Copilot की अन्य agent features प्रभावित नहीं हुईं
    • समस्या पैदा करने वाले change को revert करके recovery की गई, और task creation path में additional monitoring और integration tests जोड़े जा रहे हैं
  • Copilot @mention processing miss

    • Disruption with some GitHub services resolve हो चुका है
    • pull request comments में @copilot mentions Copilot coding agent execution trigger नहीं कर रहे थे
      • कुल pull request·issue comments में लगभग 23,000 invocations, यानी कुल का 0.5%, process नहीं हुए
      • comment creation, retrieval, और replies स्वयं प्रभावित नहीं हुए
    • downstream consumer को events publish न कर पाने वाली serialization error root cause थी
    • event publishing restore करने वाला fix deploy करने के बाद normal processing वापस आई, और संबंधित event schema review तथा monitoring improvements जारी हैं
  • Copilot Chat और Cloud Agent outage

    • Disruption with Copilot chat and Copilot Coding Agent resolve हो चुका है
    • github.com के Copilot Chat और Copilot Cloud Agent में errors आए और उस दौरान वे उपलब्ध नहीं थे
    • preview स्थिति वाला Copilot Memory भी agent sessions में इस्तेमाल नहीं किया जा सकता था
    • infrastructure configuration change से database connection problem होना root cause था
    • github.com पहले restore हुआ, और बाकी regional deployments क्रमिक रूप से restore हुए
  • Projects service delay

    • Disruption with projects service resolve हो चुका है
    • Projects sync नहीं हो रहे थे या changes reflect होने में delay हो रही थी
      • changes reflect होने की delay अधिकतम लगभग 45 minutes तक बढ़ गई
    • serialization error से event failures और resync surge हुआ, जिसने event processing layer को overload कर दिया; यही root cause था
    • incoming changes की processing speed बढ़ाकर mitigation किया गया, फिर backlog खत्म करते हुए recovery हुई
  • code scanning default setup·Code Quality degradation

    • Partial degradation for code scanning default setup and for code quality resolve हो चुका है
    • नए pull request पर code scanning default setup और code quality analysis trigger नहीं हो रहे थे
    • नई बनाई गई issues के project board में न दिखने की समस्या भी साथ हुई
    • serialization error के कारण code scanning, code quality analysis, और project board updates सही तरह trigger नहीं हो रहे थे; यही root cause था
    • code scanning·code quality event publishing restore की गई, और project board side को additional code changes तथा reindex से recover किया गया
    • incident से पहले या दौरान process न हुए PR में analysis फिर trigger होने के लिए नई push की ज़रूरत होगी

अन्य हाल के outage cases

  • Disruption with some GitHub services
    • GitHub.com web experience degrade हुई और लगभग 1.5% web requests errors के साथ समाप्त हुईं
    • कुछ समय पर web traffic का लगभग 10% slow हुआ या fail हुआ
    • एक datacenter region में cache component capacity saturation root cause था
    • unaffected regions की ओर traffic reroute करके और recent deployment rollback करके recovery की गई
  • Incident with Codespaces
    • VS Code editor के जरिए GitHub Codespaces connection fail हो रहा था
    • लगभग 40% codespace start jobs fail हुईं
    • SSH connections प्रभावित नहीं हुए
    • upstream download service outage के कारण startup के लिए आवश्यक VS Code Server download रुक गया था; यही root cause था
    • default endpoint degrade होने पर alternative download path इस्तेमाल करने वाले workaround से mitigation की गई
  • Disruption with some GitHub services
    • GitHub Enterprise Cloud के Copilot Insights page पर पहुंचने पर 500 errors आ रहे थे
    • लगभग 709 users प्रभावित हुए, और कुल impact duration लगभग 5 घंटे 10 मिनट रही
    • metrics pipeline authentication failure और tenant credential change root cause थे
    • diagnostic tools, अधिक granular monitoring, और alerting को मजबूत किया जा रहा है

1 टिप्पणियां

 
GN⁺ 1 일 전
Hacker News की टिप्पणियाँ
  • अभी सबसे बड़ी समस्या यह है कि यह चुपचाप fail भी हो रहा है
    उदाहरण के लिए, दर्जनों PR होने के बावजूद "There aren’t any open pull requests." दिखता है, जिससे लोग सचमुच गुमराह हो सकते हैं

    • पिछले हफ्ते merge queue इस्तेमाल करने पर गलती से trunk उड़ जाने की घटना भी हुई थी, और वह भी चुपचाप fail हुई थी
    • हमारी तरफ तो उल्टा मज़ाक चल रहा है कि लगता है आखिरकार सारे PR निपटा दिए गए हैं, इसलिए जश्न मनाना चाहिए
    • PR सूची दिख भी जाए, तब भी कई बार जिस category को आप देख रहे हैं उसके PR सभी नहीं दिखते, और यह सच में बहुत ख़राब है
  • यह बात मुझे बहुत गहराई से लगती है
    कुछ महीने पहले $PARENT_CONGLOMERATE ने synergy और efficiency का हवाला देकर अपने पूरे अधीनस्थ संगठन में GitHub migration थोप दी थी, और अब $DAYJOB में भी self-hosted GitLab से हटने की बारी आ गई है
    पहले से ही कुछ शिकायतें हैं
    GH account से जुड़ी IT policy बिल्कुल असंगत है, इसलिए चाहे personal account हो या पहले $DAYJOB के लिए अलग से बनाया गया account, कोई भी existing account इस्तेमाल नहीं कर सकते और IT नियमों के मुताबिक नया account फिर से बनाना पड़ता है
    हम monorepo नहीं इस्तेमाल करते, इसलिए groups का खूब उपयोग करते थे, लेकिन GitHub में उसका सीधा equivalent नहीं है, इसलिए project namespace हाथ से व्यवस्थित करना पड़ता है
    और अब GitHub की availability भी ऐसी ही हालत में है
    हमारी टीम के release schedule का revenue पर सीधा असर पड़ता है, इसलिए एक-दो दिन की देरी भी monthly target पूरा होगा या नहीं, यह तय कर सकती है
    किसी और स्थिति में हम revenue-critical code को पहले से mirror कर लेते, लेकिन ऐसा guerrilla workaround बनाने जितना risk लेना सही नहीं लगता
    अच्छा होता अगर निकट भविष्य के किसी postmortem में The Synergy Mandate को दोष दे पाते, लेकिन हक़ीक़त में ऐसा होने वाला नहीं है, यह मैं भी जानता हूँ
    बस यही उम्मीद है कि revenue target पूरे होते रहें और खराब performance की वजह से product काटा न जाए
    यह सब लिखते हुए और भी ज़्यादा महसूस हो रहा है कि जब मैं इस नौकरी में आया था, तब से अब तक यह काम कितना बदल चुका है

  • मैं यह बात फिर से हर OSS project से कहना चाहता हूँ
    एक साधारण CI job से अलग-अलग forge के बीच code sync करना बहुत आसान है, और दूसरे forge से email notification लेना भी लगभग बिना किसी अतिरिक्त बोझ के हो सकता है
    कम से कम GitHub के बाहर जाकर contribute करने का विकल्प खुला रखना चाहिए, और आखिरकार वही पूरे ecosystem के लिए बेहतर है

    • code sync अपने आप में आसान और मामूली हिस्सा है, और CI job असल में सिर्फ वही हिस्सा हल करती है
      ज़्यादातर projects में शायद वह भी बिल्कुल अनिवार्य न हो
      मुश्किल चीज़ें code के आसपास की होती हैं
      tickets और PR, यहाँ तक कि बंद हो चुके वाले भी
      project को refer करने वाले तमाम links
      CI configuration
      बड़े project हों तो committer permissions की व्यवस्था
      ज़रूरत पड़े तो push/commit/branch rules भी सब migrate करने पड़ते हैं
      ऐसी चीज़ें हर project में migrate करना बहुत झंझटभरा है, और कुछ चीज़ें खो भी सकती हैं
      लेकिन उससे भी बड़ी समस्या है software खोजने के मूल platform का खो जाना
      software दुनिया का fediverse आखिर कब आएगा, यही सोचता हूँ
    • sync मामूली है, लेकिन असली मुद्दा CI है
      अभी भी GitHub Actions सबसे अच्छा विकल्प है, और न FSF न कोई दूसरी OSS lab open source maintainers को ढंग का CI दे पाई है
      ऊपर से CI load भी पहले की तुलना में बहुत बढ़ गया है
    • अपनी GitLab instance चलाना भी एक अच्छा समाधान हो सकता है
  • अब लगने लगा है कि सच में alternative को आगे बढ़ाना चाहिए
    इसका असर अब हमारे business पर वास्तविक रूप से पड़ने लगा है, और सुधार के कोई संकेत भी नहीं दिख रहे

    • अगर GitHub जैसा UI चाहिए, तो Forgejo या Gitea इस्तेमाल कर सकते हैं
      org/repo structure की सीमाएँ स्वीकार करनी होंगी
      अगर थोड़ा मिलता-जुलता लेकिन कुछ अलग अनुभव चाहिए, तो GitLab ठीक है
      अगर kernel-के-नज़दीक वाला तरीका चाहिए — यानी hosting और flexible repository structure, ssh key आधारित user authentication, और साधारण web UI — तो gitolite के साथ cgit जोड़ें या gitweb इस्तेमाल करें
    • हम कई सालों से Gitea और Drone/Woodpecker को self-host कर रहे हैं, और यह बहुत बढ़िया चल रहा है
      Gitea हो या Forgejo, अगर features आपकी ज़रूरत के मुताबिक हों तो पर्याप्त है
      कभी-कभी GitHub outage threads में आकर हँसी आ जाती है, क्योंकि हमारी Gitea instance में पिछले कई सालों में कुल downtime कुछ ही मिनटों का रहा है, और वह भी सब रात में तयशुदा upgrades के दौरान
    • यह थोड़ा हैरान करता है कि GitLab को ज़्यादा ध्यान नहीं मिलता
      यह पूरी तरह exact copy तो नहीं है, लेकिन काफ़ी क़रीब है; orange और apple जितना फ़र्क नहीं, बल्कि apple और pear जितना फ़र्क है
    • मैं भी यही सोच रहा था
      बस GitHub वाकई एक sticky platform है, इसलिए जब actions और तरह-तरह के integrations लगा देते हैं तो वहाँ से निकलना मुश्किल हो जाता है
      फिर भी इतनी बार outage होना अब कुछ ज़्यादा ही बेहूदा लगने लगा है
    • अभी हम Forgejo पर Git और CI self-host कर रहे हैं, और यह बेहद संतोषजनक तरीके से चल रहा है
  • यह सिर्फ GitHub की समस्या नहीं लगती, बल्कि कोई बड़ा outage दिख रहा है: https://downdetector.com

    • common denominator शायद Azure हो सकता है
  • आज भी दिन का अंत y पर हो रहा है, तो जाहिर है इसका मतलब है कि फिर से GitHub outage है

  • Codeberg.org में भी अभी समस्या है

    https://status.codeberg.org/status/codeberg

    https://social.anoxinon.de/@codebergstatus/11647770704799298...

  • अगर आपको GitHub का बंद होना भी पसंद नहीं और AI द्वारा code चुराया जाना भी पसंद नहीं, तो sourcehut आज़माना अच्छा रहेगा
    मेरे लिए यह बहुत अच्छा रहा है, और मैं चाहता हूँ कि यह platform और फले-फूले

    • नए repositories को explore करने का अनुभव अच्छा लगा, इसलिए मैं सब कुछ Codeberg पर ले गया, और जिन projects में मेरी दिलचस्पी है उनमें से ज़्यादातर भी वहीं हैं
    • sourcehut में अलग क्या है, यह समझ नहीं आता
      आखिर वह भी एक और centralized service ही तो है, है न?
  • इस बार यह असामान्य रूप से लंबा चल रहा है
    ऐसा मज़ाक सूझता है कि इसे ठीक करने वाली team Claude session limit से टकरा गई है, इसलिए cooldown खत्म होने तक कुछ कर नहीं सकती, और AI के बिना इसे सीधे ठीक करना जानने वाला अकेला इंसान surgery के लिए गया हुआ है
    कभी-कभी सोचता हूँ कि जो पीढ़ी AI के बिना सीधे चीज़ें ठीक कर लेती थी, जब वह पूरी तरह retire हो जाएगी तो उसके बाद क्या होगा

  • हर बार जब GitHub गिरता है, कुछ और लोग ethical alternatives की तरफ़ चले जाते हैं, और FOSS community का Microsoft पर एक ही SPOF रखना भी थोड़ा-थोड़ा कमज़ोर पड़ता है

    https://sfconservancy.org/GiveUpGitHub/

    • मैं उस भावना से सहमत हूँ, लेकिन GitHub पर बहुत सारे projects के इकट्ठा होने का social aspect निश्चित रूप से एक फ़ायदा था
      collaboration आसान था, और अब कई वजहों से friction बढ़ता जा रहा है
      issues का spam की तरह इस्तेमाल बढ़ रहा है, और उससे भी ज़्यादा दुर्भावनापूर्ण गतिविधियाँ धीरे-धीरे दिखने लगी हैं
    • SPOF का मतलब Single Point of Failure है