2 पॉइंट द्वारा GN⁺ 2025-06-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Google Cloud Platform में service outage हुआ है
  • Vertex AI Online Prediction सेवा में त्रुटियां लगातार बनी हुई हैं
  • उपयोगकर्ता-विशिष्ट service status की पुष्टि करना मुश्किल हो गया है
  • कई क्षेत्रों के उपयोगकर्ताओं को प्रभावित करने वाली service issue की रिपोर्ट मिली है
  • सेवा सामान्य करने और सटीक कारण पता लगाने की आवश्यकता उठी है

आउटेज का सार

  • Google Cloud Platform में सेवा उपलब्ध न होने की स्थिति रिपोर्ट की गई है
  • खास तौर पर, Vertex AI Online Prediction जैसी सुविधाओं में लगातार त्रुटियां देखी गई हैं

प्रभाव का दायरा और वर्तमान स्थिति

  • यह समस्या Personalized Service Health जैसी सेवाओं की status जांच पर भी असर डाल रही है
  • अलग-अलग क्षेत्रों के उपयोगकर्ता सेवा access या उपयोग में असुविधा झेल रहे हैं

निष्कर्ष और आगे की स्थिति

  • सेवा सामान्यीकरण और आउटेज के कारण के विश्लेषण की आवश्यकता उभरकर सामने आई है
  • recovery और response measures से जुड़ी अतिरिक्त घोषणा आने की उम्मीद है

1 टिप्पणियां

 
GN⁺ 2025-06-13
Hacker News राय
  • Google के अंदर की केंद्रीय सेवा Chemist के डाउन होने की स्थिति की व्याख्या, Chemist project status, activation status, abuse है या नहीं, billing status, location restrictions, VPC Service Controls, SuperQuota जैसी कई policy checks देता है, इसलिए “visibility check (of the API) failed” या “cannot load policy” जैसे अलग-अलग error messages दिखे, यह समझ में आता है; specific policy checks के दस्तावेज़ का लिंक भी साझा किया गया, EDIT: Google ने “Identity and Access Management Service Issue” के कारण Google Cloud में outage होने की घोषणा की
    • मैं Expo के साथ notification relay feature इस्तेमाल कर रहा हूँ, सोच रहा हूँ कि क्या इस Google outage से FCM भी प्रभावित हुआ होगा
    • कई internet services एक साथ डाउन हुईं, यह सिर्फ GCP की समस्या नहीं थी; अनुमान है कि Chemist सेवा बाहरी तरफ़ से खास तौर पर बुरी तरह प्रभावित हुई और उससे internal GCP network तक outage फैल गया
  • Claude Sonnet 4 (Cursor) और Gemini Pro इस्तेमाल करते समय बहुत errors आए, अफसोस जताया गया कि जैसे दिसंबर 2024 में लौटकर आदिमानव की तरह 100% कोड खुद लिखना पड़ रहा हो
    • मुझे भी AI Studio में वही समस्या हुई, “उपयोगकर्ता quota पार होने के कारण content generation failed” संदेश मिला
    • Cloud Storage file upload पर experiment कर रहा था, लेकिन अभी टहलने जाने का बेहतर समय लगा
    • Cursor के Auto Agent mode में भी मिलते-जुलते errors आए
    • 12 जून 2025 से पहले का developer: “AI? बस hallucination machine है, मुझे replace नहीं कर सकती!” / 12 जून 2025 outage के दौरान developer: “क्या AI के बिना मैं गुलाम हूँ?” वाला मज़ाक
    • Auto mode पर switch करने से अभी भी इस्तेमाल किया जा सकता है, ऐसा tip दिया गया
  • Cloudflare में भी outage हुआ, Cloudflare status पर बताया गया कि कई services (Access, WARP, Durable Objects(SQL आधारित), Workers KV, Realtime, Workers AI, Stream, Cloudflare dashboard के कुछ हिस्से) में intermittent outage है और impact assessment लगातार update हो रही है, साथ में संबंधित Hacker News चर्चा भी साझा की गई
    • अगर Cloudflare, GCP पर निर्भर करता है, तो यह outage बहुत बड़ा मामला है, ऐसी प्रतिक्रिया
    • किसी ने कहा कि लिंक असामान्य तरीके से काम कर रहा था, और कुछ देर के लिए खाली दिखा
  • 18:43 UTC तक लगभग सभी services outage की स्थिति में थीं, downdetector लिंक साझा किया गया
    • इस service के charts भी शायद अंदरूनी तौर पर GCP से data collect करते होंगे; Google representative से call के दौरान किसी ने कहा कि AWS भी डाउन है, और बिना verify किए मैंने “क्या यह BGP attack हो सकता है?” जैसा अंदाज़ा लगाया, इस पर बाद में पछतावा जताया
    • सवाल पूछा गया: “क्या सभी services Google services हैं?”
    • किसी ने कहा कि उन्होंने नहीं सोचा था कि Google outage का असर AWS या Microsoft 365 पर भी पड़ेगा
    • दावा किया गया कि इस तरह की बड़ी घटना में Downdetector 100% गलत जानकारी का स्रोत बन जाता है
    • मज़ाक किया गया कि शायद इसका detection logic भी Google Cloud पर ही चल रहा होगा
  • status pages सब normal (हरे संकेत) दिखा रहे थे, लेकिन वास्तव में कई outage reports आ रही थीं, Google Cloud outage monitor
    • status page के होने का मतलब ही क्या है, इस पर संदेह जताया गया; 100,000 से ज़्यादा users के Google Meet इस्तेमाल न कर पाने की reports थीं, और अगर बड़ी कंपनियाँ वास्तविक स्थिति status page पर नहीं दिखातीं, तो उसके होने का कोई मतलब नहीं; संबंधित Google Apps Status और GCP Status Page भी साझा किए गए, EDIT: पोस्ट के 1 मिनट के भीतर GCP status page update हुआ और Cloud Data Fusion, Cloud Memorystore, Cloud Shell जैसी कई services की outage दिखाई गई
    • इस outage की आधिकारिक सूचना का लिंक
    • अभी console, dataproc, GCS, IAM, Identity Platform आदि पर impact updates दिए जा रहे हैं, लिंक
    • हमारी कंपनी में भी सैकड़ों लोग remote work कर रहे हैं, और Google Meetings में लॉग इन करते समय 90% से ज़्यादा 504 errors आए
  • Cloudflare outage को भी अभी नया update मिला, Workers KV जैसी essential services third-party service outage के कारण offline हो गईं, और इन पर निर्भर Cloudflare products की information delivery पर सीधा असर पड़ा
  • Firebase Auth भी डाउन हो गया, जिससे बहुत-से apps प्रभावित हुए; Discord और Slack communities में भी कई users ने एक साथ यह अनुभव होने की reports दीं; status page पर लगभग 30 मिनट तक कुछ नहीं था, इस पर निराशा जताई गई, Firebase Status
    • अब जाकर status page update हुआ, शायद internal outage के कारण status page reflect होने में भी देरी हुई
  • इस outage से RCS messages भी साथ में डाउन हो गए, जिससे साफ़ दिखा कि technology या infrastructure design कमज़ोर था
    • किसी ने प्रतिक्रिया दी कि RCS भी आखिर सिर्फ instant messaging ही है, इसलिए उसका डाउन होना इतना चौंकाने वाला नहीं
    • तो यही वजह थी कि आज मैं अपने माता-पिता के कुत्ते की तस्वीरें नहीं पा सका
    • किसी ने हैरानी जताई कि अब उसके RCS chat के पहले fail होने का कारण समझ में आया
    • मज़ाक किया गया कि Erlang इस्तेमाल करना चाहिए था
  • BGP routing anomalies की पुष्टि के लिए अच्छे dashboards खोजे जा रहे हैं, Cloudflare Radar Routing देखा जा रहा है, लेकिन उसमें actual route leaks नहीं दिखते, इसलिए अतिरिक्त dashboard recommendations माँगे गए
    • Cloudflare Radar पहली बार देखा, शानदार service लगी; लेकिन अनुमान है कि मौजूदा outage के असर से dashboards में भी कुछ दिक्कतें हो सकती हैं; उदाहरण के तौर पर RIPE Atlas, IHR global report, IHR network, BGP He.net, IODA dashboard सुझाए गए
    • मैं आम तौर पर bgp.tools इस्तेमाल करता हूँ, लेकिन यह क्यों लग रहा है कि यह outage BGP की वजह से था, ऐसा सवाल पूछा गया
    • मैं भी नया हूँ, इसलिए पूछना चाहता हूँ कि “Announced IP Address Space” सेक्शन का अचानक बहुत बड़ा jump दिखना क्या सामान्य बात है
    • BGP attack की आशंका उठाई गई
  • एक हल्की-फुल्की टिप्पणी आई कि अच्छा है Hacker News इतनी जटिल infrastructure से अलग एक single bare-metal server पर चलता है