- Microsoft Azure Core के भीतर अवास्तविक निर्णय-प्रक्रियाओं के जमा होने से तकनीकी अव्यवस्था और भरोसे के टूटने तक पहुँचने की प्रक्रिया को एक पूर्व इंजीनियर ने विस्तार से बताया है
- हार्डवेयर सीमाओं को नज़रअंदाज़ करने वाली Windows फीचर पोर्टिंग योजना और 173 मैनेजमेंट एजेंट्स की अव्यवस्थित भरमार को प्रमुख समस्याओं के रूप में चिन्हित किया गया है
- यह जटिल संरचना OpenAI, Anthropic, सरकारी cloud जैसे महत्वपूर्ण workloads को संभाल रही है, इसलिए एक अकेली त्रुटि के वैश्विक outage में फैलने का जोखिम मौजूद है
- प्रबंधन की चुप्पी के बीच OpenAI के साथ संबंधों का बिगड़ना, अमेरिकी सरकार का भरोसा खोना, फीचर रिलीज़ में देरी जैसी बाद की घटनाएँ सामने आईं
- नतीजतन यह 1 ट्रिलियन डॉलर के market value के मिटने तक पहुँचा, और cloud infrastructure संचालन में तकनीकी वास्तविकता की समझ और सादगी बनाए रखने के महत्व को रेखांकित किया गया
Azure के भरोसे के पतन का अंदरूनी रिकॉर्ड
- Microsoft Azure Core टीम के भीतर अवास्तविक निर्णय-प्रक्रियाओं और उनसे पैदा हुई तकनीकी व संगठनात्मक अव्यवस्था पर एक पूर्व इंजीनियर का संस्मरण
- Overlake R&D टीम में शामिल होने के पहले ही दिन, हार्डवेयर सीमाओं की अनदेखी करने वाली Windows फीचर पोर्टिंग योजना पर चर्चा होते देखी
- 173 मैनेजमेंट एजेंट्स मौजूद थे, लेकिन स्थिति इतनी जटिल और अपारदर्शी थी कि उनके काम और आवश्यकता को कोई स्पष्ट रूप से नहीं जानता था
- यही संरचना OpenAI, Anthropic, सरकारी cloud जैसे महत्वपूर्ण workloads को संभाल रही है, इसलिए एक अकेली गलती से वैश्विक outage होने का जोखिम है
- लेखक के अनुसार इसका परिणाम OpenAI का भरोसा खोना, अमेरिकी रक्षा विभाग का सार्वजनिक अविश्वास, और 1 ट्रिलियन डॉलर की market value का मिटना रहा
Azure Core में शामिल होना और शुरुआती स्थिति
- 1 मई 2023 को Azure Boost offloading card और network accelerators को संभालने वाली Overlake R&D टीम में senior engineer के रूप में शामिल हुए
- इससे पहले Windows टीम और Core OS टीम में kernel सुधार और container platform development पर काम किया, और Docker, AKS, App Services, Windows Sandbox जैसी प्रमुख तकनीकों में योगदान दिया
- Overlake card के शुरुआती डिज़ाइन (2020~2021) में भी शामिल रहे और host OS तथा accelerator card के बीच communication protocol का प्रस्ताव दिया था
- Azure platform को 10 साल से अधिक समय तक सीधे संचालित और विकसित कर चुके विशेषज्ञ के रूप में वापसी की
पहली मीटिंग में दिखी अवास्तविक योजना
- जॉइनिंग के पहले ही दिन टीम की मासिक planning meeting में Windows components को Overlake card पर port करने की योजना देखी
- जबकि Overlake card की RAM capacity और power budget बेहद सीमित थे, टीम Windows फीचर्स को वहाँ ले जाने की कोशिश पर चर्चा कर रही थी
- हार्डवेयर विनिर्देशों के हिसाब से यह असंभव योजना थी, फिर भी “इसे कुछ junior developers को दे देते हैं” जैसी बात कही गई
- संगठन Windows को Linux पर port करके VM management agent को बनाए रखने की दिशा पर गंभीरता से विचार कर रहा था
- लेखक ने इसे “वास्तविकता से कटी हुई योजना” माना और निष्कर्ष निकाला कि पूरा संगठन असंभव लक्ष्य की ओर मार्च कर रहा था
तकनीकी सीमाएँ और संरचनात्मक समस्याएँ
- उस समय stack 400W Xeon CPU पर केवल कुछ दर्जन VM संभाल सकता था, जो hypervisor की 1,024 VM सीमा से बहुत दूर था
- अत्यधिक resource उपयोग के कारण customer VM में jitter जैसी performance समस्याएँ मौजूद थीं
- ऐसी अक्षम stack को छोटे ARM SoC पर port करके scale करने की योजना तकनीकी रूप से असंभव थी
- लेखक ने कहा कि “नई तकनीक सीखने से ज़्यादा ज़रूरी काम पूरे संगठन को फिर से वास्तविकता में लौटाना था”
Azure Linux और Overlake से जुड़ी अंदरूनी बातचीत
- Linux System Group के प्रमुख के साथ 90 मिनट की बातचीत में पता चला कि Overlake card के लिए 173 agents को porting candidates के रूप में चुना गया था
- जाँच में सामने आया कि Microsoft के भीतर कोई भी इन 173 agents की भूमिका, परस्पर क्रिया, या अस्तित्व का कारण स्पष्ट रूप से नहीं समझा सकता था
- Azure का मूल VM, networking और storage है, और बाकी सेवाएँ इन्हीं के ऊपर बनी हैं, फिर भी अनावश्यक जटिलता लगातार जमा होती गई
- ऐसे अनियंत्रित components का समूह OpenAI, Anthropic और सरकारी cloud जैसे प्रमुख workloads को मैनेज कर रहा था
भरोसे का टूटना और बाद की घटनाएँ
- यह जटिल संरचना राष्ट्रीय सुरक्षा और business continuity के लिए गंभीर जोखिम पैदा कर सकती थी
- बाद में CEO, board, और Cloud+AI डिविज़न के EVP को भेजे गए पत्रों का कोई जवाब नहीं मिला
- इसके परिणामस्वरूप OpenAI के साथ संबंध बिगड़ना, अमेरिकी सरकार का भरोसा टूटना (रक्षा मंत्री के सार्वजनिक बयान), engineering waste और Rust migration का निर्देश, तथा feature releases में देरी जैसी घटनाएँ हुईं
- लेखक ने इसे “1 ट्रिलियन डॉलर की market value के मिटने की घटना” कहा और Azure इस्तेमाल करने वाली कंपनियों को production environment पर निर्भरता के जोखिम के बारे में चेताया
निष्कर्ष
- Azure के भीतर तकनीकी जटिलता, कमजोर प्रबंधन, और अवास्तविक निर्णय-प्रक्रियाओं के जमा होने से भरोसा कैसे टूटा, यह सामने आता है
- यह उस संगठन का उदाहरण है जो महत्वपूर्ण infrastructure संभालते हुए भी वास्तविकता-बोध खोकर संरचनात्मक विफलता की ओर मार्च करता रहा
- cloud infrastructure की स्थिरता और सादगी, और संगठन के भीतर तकनीकी निर्णय-क्षमता बनाए रखने के महत्व पर ज़ोर दिया गया है
अभी कोई टिप्पणी नहीं है.