- Microsoft Azure Core के भीतर अवास्तविक निर्णय-प्रक्रियाओं के जमा होने से तकनीकी अव्यवस्था और भरोसे के टूटने तक पहुँचने की प्रक्रिया को एक पूर्व इंजीनियर ने विस्तार से बताया है
- हार्डवेयर सीमाओं को नज़रअंदाज़ करने वाली Windows फीचर पोर्टिंग योजना और 173 मैनेजमेंट एजेंट्स की अव्यवस्थित भरमार को प्रमुख समस्याओं के रूप में चिन्हित किया गया है
- यह जटिल संरचना OpenAI, Anthropic, सरकारी cloud जैसे महत्वपूर्ण workloads को संभाल रही है, इसलिए एक अकेली त्रुटि के वैश्विक outage में फैलने का जोखिम मौजूद है
- प्रबंधन की चुप्पी के बीच OpenAI के साथ संबंधों का बिगड़ना, अमेरिकी सरकार का भरोसा खोना, फीचर रिलीज़ में देरी जैसी बाद की घटनाएँ सामने आईं
- नतीजतन यह 1 ट्रिलियन डॉलर के market value के मिटने तक पहुँचा, और cloud infrastructure संचालन में तकनीकी वास्तविकता की समझ और सादगी बनाए रखने के महत्व को रेखांकित किया गया
Azure के भरोसे के पतन का अंदरूनी रिकॉर्ड
- Microsoft Azure Core टीम के भीतर अवास्तविक निर्णय-प्रक्रियाओं और उनसे पैदा हुई तकनीकी व संगठनात्मक अव्यवस्था पर एक पूर्व इंजीनियर का संस्मरण
- Overlake R&D टीम में शामिल होने के पहले ही दिन, हार्डवेयर सीमाओं की अनदेखी करने वाली Windows फीचर पोर्टिंग योजना पर चर्चा होते देखी
- 173 मैनेजमेंट एजेंट्स मौजूद थे, लेकिन स्थिति इतनी जटिल और अपारदर्शी थी कि उनके काम और आवश्यकता को कोई स्पष्ट रूप से नहीं जानता था
- यही संरचना OpenAI, Anthropic, सरकारी cloud जैसे महत्वपूर्ण workloads को संभाल रही है, इसलिए एक अकेली गलती से वैश्विक outage होने का जोखिम है
- लेखक के अनुसार इसका परिणाम OpenAI का भरोसा खोना, अमेरिकी रक्षा विभाग का सार्वजनिक अविश्वास, और 1 ट्रिलियन डॉलर की market value का मिटना रहा
Azure Core में शामिल होना और शुरुआती स्थिति
- 1 मई 2023 को Azure Boost offloading card और network accelerators को संभालने वाली Overlake R&D टीम में senior engineer के रूप में शामिल हुए
- इससे पहले Windows टीम और Core OS टीम में kernel सुधार और container platform development पर काम किया, और Docker, AKS, App Services, Windows Sandbox जैसी प्रमुख तकनीकों में योगदान दिया
- Overlake card के शुरुआती डिज़ाइन (2020~2021) में भी शामिल रहे और host OS तथा accelerator card के बीच communication protocol का प्रस्ताव दिया था
- Azure platform को 10 साल से अधिक समय तक सीधे संचालित और विकसित कर चुके विशेषज्ञ के रूप में वापसी की
पहली मीटिंग में दिखी अवास्तविक योजना
- जॉइनिंग के पहले ही दिन टीम की मासिक planning meeting में Windows components को Overlake card पर port करने की योजना देखी
- जबकि Overlake card की RAM capacity और power budget बेहद सीमित थे, टीम Windows फीचर्स को वहाँ ले जाने की कोशिश पर चर्चा कर रही थी
- हार्डवेयर विनिर्देशों के हिसाब से यह असंभव योजना थी, फिर भी “इसे कुछ junior developers को दे देते हैं” जैसी बात कही गई
- संगठन Windows को Linux पर port करके VM management agent को बनाए रखने की दिशा पर गंभीरता से विचार कर रहा था
- लेखक ने इसे “वास्तविकता से कटी हुई योजना” माना और निष्कर्ष निकाला कि पूरा संगठन असंभव लक्ष्य की ओर मार्च कर रहा था
तकनीकी सीमाएँ और संरचनात्मक समस्याएँ
- उस समय stack 400W Xeon CPU पर केवल कुछ दर्जन VM संभाल सकता था, जो hypervisor की 1,024 VM सीमा से बहुत दूर था
- अत्यधिक resource उपयोग के कारण customer VM में jitter जैसी performance समस्याएँ मौजूद थीं
- ऐसी अक्षम stack को छोटे ARM SoC पर port करके scale करने की योजना तकनीकी रूप से असंभव थी
- लेखक ने कहा कि “नई तकनीक सीखने से ज़्यादा ज़रूरी काम पूरे संगठन को फिर से वास्तविकता में लौटाना था”
Azure Linux और Overlake से जुड़ी अंदरूनी बातचीत
- Linux System Group के प्रमुख के साथ 90 मिनट की बातचीत में पता चला कि Overlake card के लिए 173 agents को porting candidates के रूप में चुना गया था
- जाँच में सामने आया कि Microsoft के भीतर कोई भी इन 173 agents की भूमिका, परस्पर क्रिया, या अस्तित्व का कारण स्पष्ट रूप से नहीं समझा सकता था
- Azure का मूल VM, networking और storage है, और बाकी सेवाएँ इन्हीं के ऊपर बनी हैं, फिर भी अनावश्यक जटिलता लगातार जमा होती गई
- ऐसे अनियंत्रित components का समूह OpenAI, Anthropic और सरकारी cloud जैसे प्रमुख workloads को मैनेज कर रहा था
भरोसे का टूटना और बाद की घटनाएँ
- यह जटिल संरचना राष्ट्रीय सुरक्षा और business continuity के लिए गंभीर जोखिम पैदा कर सकती थी
- बाद में CEO, board, और Cloud+AI डिविज़न के EVP को भेजे गए पत्रों का कोई जवाब नहीं मिला
- इसके परिणामस्वरूप OpenAI के साथ संबंध बिगड़ना, अमेरिकी सरकार का भरोसा टूटना (रक्षा मंत्री के सार्वजनिक बयान), engineering waste और Rust migration का निर्देश, तथा feature releases में देरी जैसी घटनाएँ हुईं
- लेखक ने इसे “1 ट्रिलियन डॉलर की market value के मिटने की घटना” कहा और Azure इस्तेमाल करने वाली कंपनियों को production environment पर निर्भरता के जोखिम के बारे में चेताया
निष्कर्ष
- Azure के भीतर तकनीकी जटिलता, कमजोर प्रबंधन, और अवास्तविक निर्णय-प्रक्रियाओं के जमा होने से भरोसा कैसे टूटा, यह सामने आता है
- यह उस संगठन का उदाहरण है जो महत्वपूर्ण infrastructure संभालते हुए भी वास्तविकता-बोध खोकर संरचनात्मक विफलता की ओर मार्च करता रहा
- cloud infrastructure की स्थिरता और सादगी, और संगठन के भीतर तकनीकी निर्णय-क्षमता बनाए रखने के महत्व पर ज़ोर दिया गया है
1 टिप्पणियां
Hacker News की राय
जो व्यक्ति हर दिन Azure इस्तेमाल करता है, उसके नज़रिए से अगर यह खुलासा सच है, तो लगता है कि बहुत सी बातें समझ में आ जाती हैं
UI बेतरतीब है और डॉक्यूमेंटेशन ऐसा लगता है जैसे AI ने लिखा हो और वह गलत हो, और सेवाओं के इतने प्रकार हैं कि यह तक समझ नहीं आता कि किसे इस्तेमाल करें
कंसल्टेंट की मदद के बिना इसे कॉन्फ़िगर करना मुश्किल है, और कॉन्फ़िगरेशन के बाद भी यह भरोसा नहीं होता कि यह सही से काम कर रहा है
ईमानदारी से कहें तो यह अभी तक चल रहा है, यही हैरानी की बात है
उसके बाद से मैं डॉक्यूमेंटेशन पर भरोसा नहीं करता
जो सेवा GCP पर स्थिर चल रही थी, वह अप्रत्याशित हो गई
मैंने Azure OpenAI को लोड के समय दूसरे ग्राहकों के prompt response लीक करते देखा है
संबंधित ट्वीट भी है
लेकिन माहौल ऐसा है जैसे किसी को परवाह ही नहीं
स्थिति पूरी तरह wild west जैसी लगती है
इस लेख के दावे इतने विशिष्ट हैं कि हैरानी होती है
सोचने वाली बात है कि लेखक whistleblower है या सिर्फ़ कोई असंतुष्ट पूर्व कर्मचारी
CEO और बोर्ड को सीधे रिपोर्ट भेजने वाला हिस्सा खास तौर पर प्रभावशाली लगा
अमेरिकी कॉर्पोरेट संस्कृति में ऐसी प्रक्रिया का ‘रूढ़िगत’ होना अजीब लगता है
Azure सच में इतना अस्थिर है या नहीं, यह जानने के लिए वास्तविक यूज़र अनुभव दिलचस्प होंगे
Azure को समस्या का पता नहीं चलता, कारण भी नहीं पता होता, और यहाँ तक कि उसे परवाह भी नहीं लगती
पूरी टीम Azure से नफ़रत करती है
यह अच्छा लगा कि AWS Bedrock में OpenAI models इस्तेमाल किए जा सकते हैं, जिससे Azure से बचा जा सकता है
reliability अब भी गंभीर समस्या है
“जल्दी ship करो और बाद में ठीक कर लेंगे” वाली रणनीति आखिरकार ऐसे नतीजे लाती है
तब से मैं उस पर भरोसा नहीं करता
लेख कुछ हद तक भावनात्मक रूप से बढ़ा-चढ़ाकर लिखा गया लगता है, जिससे मूल मकसद धुंधला हो गया है
Azure की आंतरिक grade structure या Sev2 स्तर के issues कोई बहुत असाधारण चीज़ नहीं हैं
Azure में समस्याएँ हैं, लेकिन उसका scale इतना बड़ा है कि कुछ खुरदुरापन स्वाभाविक है
असली परिपक्वता सिस्टम के भीतर रहकर सुधार करने की कोशिश में है, ऐसा लगता है
Azure अव्यवस्थित हो सकता है, लेकिन यह भी संभव है कि लेखक का तरीका भी समस्या का हिस्सा रहा हो
Azure के बारे में धारणा पूरी तरह नकारात्मक है
लेखक का दृष्टिकोण उल्टा भरोसा कम करता है
नए कर्मचारियों के “wtf/day” कहने की आवृत्ति किसी संगठन के स्वास्थ्य का संकेतक जैसी लगती है
बाहर से देखने पर भी Azure की quality बेहद खराब दिखती है
AWS का पीछा करने की जल्दी में features फेंकते-फेंकते वह भारी technical debt के दलदल में फँस गया
IPv6, azcopy, VM upgrades जैसे बुनियादी फ़ीचर भी अब तक अस्थिर हैं
एक पुराने सहकर्मी Azure हर दिन इस्तेमाल करते हैं, और उनकी शिकायतों का विस्फोट सुनकर इस लेख की बातों को समझना आसान हो जाता है
12 साल पहले जब cloud specialization चुन रहा था, तब Azure को थोड़ी देर इस्तेमाल करके ही वह धीमा और टूटा हुआ प्लेटफ़ॉर्म लगा था, और यह लेख उस आकलन की पुष्टि करता है
लेख के अंतिम हिस्से में Microsoft द्वारा 2025 में 15,000 कर्मचारियों की छंटनी का ज़िक्र ध्यान खींचता है
यह AI boom के बाद की हक़ीक़त दिखाने वाला उदाहरण लगता है
OpenAI contract GPU capacity की समस्या थी, और layoffs अलग मुद्दा हैं
असली समस्या engineer rotation और accountability की कमी है
हर प्रोजेक्ट में नए लोग लगाए जाते हैं, और ownership की भावना गायब हो जाती है
यह हिस्सा कि host के compromise होते ही सभी VM memory तक पहुँचा जा सकता है, बेहद ख़तरनाक लगता है
Satya Nadella के वेतन के 9.65 करोड़ डॉलर तक, यानी 22% बढ़ने वाले CNBC उद्धरण को,
और Artemis II के astronaut के इस कथन को कि “Outlook के दोनों इंस्टेंस काम नहीं कर रहे,” साथ देखकर विडंबना महसूस हुई
लेख की बातें कुछ बढ़ा-चढ़ाकर कही गई लगती हैं, लेकिन मैंने भी इसी तरह के सिस्टम चलाए हैं, इसलिए stability बनाए रखने के लिए लगातार लड़ते रहने की यादें ताज़ा हो गईं
दूसरी कंपनियों में भी ऐसे मुद्दे देखे हैं, लेकिन Azure के scale की गंभीरता नहीं थी
ऐसी संरचना आखिरकार self-destructive loop में बदलती दिखती है
मैंने 2018 में Azure इस्तेमाल किया था, और वह धीमा, महँगा और बेहद खराब quality वाला लगा
GitHub फ़ोरम पर दूसरे यूज़र्स के साथ मिलकर बुनियादी फ़ीचर्स तक न चलने वाली समस्याओं को हल करने की कोशिश की थी
इस लेख ने उस समय के कई सवालों का जवाब दे दिया
निजी तौर पर मुझे Google Cloud सबसे अच्छी तरह डिज़ाइन किया गया प्लेटफ़ॉर्म लगा, लेकिन AWS की तुलना में मानवीय सहायता कम होना खलता है
अकाउंट मैनेजर तीन महीने में तीन बार बदल गया, और quota requests या system limits से जुड़े सवाल कभी-कभी अनदेखे कर दिए जाते हैं