1 टिप्पणियां

 
GN⁺ 2024-07-21
Hacker News राय
  • अगर यह सिस्टम किसी क्रिटिकल path में है, तो इसे C/I pipeline से गुज़रना ही चाहिए था

    • मैं automated tests को लेकर बहुत सख्त नहीं हूँ, लेकिन इस स्तर की महत्वपूर्ण सिस्टम के लिए state management बहुत अच्छा होना चाहिए
    • सभी environments में integration testing के बिना इसे production में roll out नहीं करना चाहिए
    • यह समझ से बाहर है कि इस कंपनी के पास उन सभी target images को test करने के लिए staging या dev test servers नहीं हैं जिन्हें यह support करती है
    • मुझे लगता है कि इस कंपनी का management अयोग्य है
  • दो बड़े तकनीकी पतन, दोनों ही "security software" की समस्या थे

    • SolarWinds hack और यह घटना, दोनों ही Austin आधारित कंपनियों से जुड़े थे
    • "hacker type" लोग security software company शुरू करते हैं, लेकिन process-oriented culture लागू करना पसंद नहीं करते
    • SolarWinds की security culture बहुत खराब थी
    • इस घटना का root cause भी संभवतः तेज़ और ढीली deployment process है
  • इस आपदा का एक सकारात्मक पहलू यह है कि kernel-level access पर फिर से विचार किया जा सकता है

    • कोई random game company kernel-level anti-cheat software लिखने लायक पर्याप्त अच्छी नहीं है
  • यह समस्या शायद QA engineer द्वारा आज़माई जाने वाली दूसरी या तीसरी test file में ही सामने आ जाती

    • यह ऐसा बाज़ार है जहाँ तकनीकी रूप से सक्षम कंपनी को अक्षम कंपनी पर बढ़त नहीं मिलती
    • मैंने Craig Wright मामले के बारे में पढ़ा; वह जिस क्षेत्र में खुद को विश्वस्तरीय expert बताता था, उसमें उसकी बुनियादी तकनीकी क्षमता भी नहीं थी
    • George Kurtz ने McAfee के CTO रहते हुए भी ऐसी ही समस्या पैदा की थी
    • CrowdStrike ने 3 महीने पहले Debian Stable पर भी यही समस्या पैदा की थी
    • यह भयावह है कि PCI compliance rules ने CrowdStrike और antivirus को आज के IT infrastructure के लगभग हर पहलू में घुसा दिया है
  • सिर्फ इसलिए कि यह file zeros से भरी हुई file है, इसका यह मतलब नहीं कि shipping के समय भी यह zeros से भरी हुई थी

  • यह bug kernel driver में वर्षों से मौजूद था, और गलत data की वजह से trigger हुआ

    • CrowdStrike का test setup इस configuration data के लिए ठीक रहा होगा, लेकिन production में भेजने से पहले इसे पकड़ नहीं पाया
    • उम्मीद है कि वे एक postmortem report जारी करेंगे जिसमें बताएँगे कि भविष्य में इसे रोकने के लिए क्या करेंगे
  • Kevin Beaumont के अनुसार, यह दावा है कि हर customer के लिए file अलग थी

  • संभव है कि ये files मूल file contents न हों

    • यह भी संभव है कि किसी ने गलत file को all-zero file से overwrite करने की कोशिश की हो
    • QA को bypass कर दिए जाने के कारण, यह असली patch deployment रोकने की कोशिश भी हो सकती है
  • पहले भी ऐसे मामले रहे हैं जहाँ security software ने files को 0 से replace कर दिया था, जिससे software compilation रुक गई थी

    • linker file खोल नहीं सका और बिना error दिए object code को 0 से replace कर दिया
    • debugger खोलकर और object code के बड़े हिस्सों को 0 से बदला हुआ देखकर समस्या का पता चला
  • 4chan के technology board पर मिली एक पोस्ट

    • CSAgent.sys एक kernel driver है जो CrowdStrike virus definition files को parse करता है
    • CrowdStrike गलत virus definition file को संभाल नहीं पाया
    • webserver ने गलत virus definition file serve करना शुरू कर दिया
    • CSAgent.sys ने गलत virus definition file load की और crash हो गया
    • कंप्यूटर BSOD (ब्लू स्क्रीन) के साथ reboot हो गया
    • CSAgent.sys ने virus definition file फिर से load की और फिर crash हो गया
    • CDN के bug की वजह से kernel driver ने समस्या पैदा की
    • CSAgent.sys की size check और buffer size बढ़ा देने से भविष्य में गलत virus definition file के कारण crash नहीं होगा