Microsoft के AI शोधकर्ताओं की गलती से 38TB डेटा उजागर

(wiz.io)

7 पॉइंट द्वारा GN⁺ 2023-09-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Microsoft की AI रिसर्च टीम ने GitHub पर open source training data जारी करते समय गलती से 38 टेराबाइट निजी डेटा उजागर कर दिया
उजागर हुए डेटा में दो कर्मचारियों के workstation disk backup, secrets, private keys, passwords, और 30,000 से अधिक internal Microsoft Teams messages शामिल थे
यह डेटा SAS token का उपयोग करके साझा किया गया था, जो Azure Storage account में डेटा साझा करने की सुविधा देने वाला Azure फीचर है। लेकिन लिंक पूरे storage account को साझा करने के लिए सेट था, जिससे डेटा उजागर हो गया
यह घटना दिखाती है कि AI का उपयोग करते समय संगठनों को किन नए जोखिमों का सामना करना पड़ता है, और जैसे-जैसे अधिक engineers बड़े पैमाने के training data को संभालते हैं, अतिरिक्त security checks और safeguards की जरूरत होती है
Wiz रिसर्च टीम ने इंटरनेट पर गलत तरीके से configure किए गए storage container को खोजते हुए इस exposure का पता लगाया
उन्हें Microsoft organization के तहत robust-models-transfer नाम का GitHub repository मिला, जिसे image recognition के लिए open source code और AI models उपलब्ध कराने के लिए बनाया गया था, लेकिन misconfiguration के कारण ऐसा URL संभव हो गया जो open source model से कहीं अधिक चीजों तक पहुंच देता था
इस्तेमाल किया गया token भी गलत तरीके से full control permission देने के लिए configure था, जिससे attacker मौजूदा files को देख, delete और overwrite कर सकता था
यह घटना SAS token के security risk को उजागर करती है, क्योंकि ये storage account पर उच्च स्तर की access देते हैं और expiration से जुड़ी समस्याएं हो सकती हैं। साथ ही इन्हें manage और revoke करना भी कठिन है
Wiz रिसर्च टीम ने सुझाव दिया कि security और governance की कमी के कारण external sharing के लिए Account SAS के उपयोग से बचना चाहिए, और time-limited sharing के लिए Stored Access Policy या User Delegation SAS का उपयोग करना चाहिए
टीम ने external sharing के लिए dedicated storage account बनाने और policies को track और enforce करने के लिए CSPM के उपयोग की भी सिफारिश की
यह घटना security teams को याद दिलाती है कि उन्हें AI development process के हर चरण में मौजूद security risks को समझना चाहिए, जिसमें data oversharing और supply chain attacks का जोखिम भी शामिल है
Microsoft ने बाद में SAS token को invalidate कर GitHub पर replace कर दिया, और संभावित प्रभाव की internal investigation पूरी कर ली

1 टिप्पणियां

GN⁺ 2023-09-19

Hacker News राय

Microsoft AI शोधकर्ताओं द्वारा डेटा एक्सपोज़र घटना पर लेख, लेकिन टिप्पणीकारों ने बताया कि यह सीधे तौर पर AI से संबंधित नहीं है
यह मुद्दा cloud provider, उलझाने वाले security token, और बड़े पैमाने पर data download हैंडलिंग से अधिक जुड़ा है
AI-विशिष्ट जोखिमों में से एक जिस पर ज़ोर दिया गया, वह बड़े AI models को स्टोर करने के लिए serialized Python objects का उपयोग है, जिन्हें obfuscate किया जा सकता है और जिनमें संभावित रूप से malicious code शामिल हो सकता है
यह घटना storage token की गलत configuration की वजह से हुई थी, और यह एक सामान्य घटना है जो नियमित penetration testing की आवश्यकता को रेखांकित करती है
Azure storage में Pickle files और SAS token के उपयोग की आलोचना की गई, और इसके बजाय role-based access control (RBAC) इस्तेमाल करने का सुझाव दिया गया
इस घटना ने defense in depth की कमी को उजागर किया, क्योंकि SAS token की कोई expiry नहीं थी, वे गहरा access देते थे, और इनमें अपनी-अपनी token वाली machine backups भी शामिल थीं
सभी secrets और environment variables को नष्ट करने का सुझाव है, और यह भी कि अधिकांश systems role-based तरीके से काम कर सकते हैं
यह घटना security token बनाने में मानवीय विफलता जैसी लगती है, और सुझाव दिया गया कि संगठन authentication token/credentials की bulk sharing रोकने के लिए OrgPolicy सेट करें
इस बात पर आश्चर्य जताया गया कि कोई Teams से Teams messages export कर सकता था
डेटा एक्सपोज़र दो साल तक जारी रहा और दो महीने पहले इसे ठीक किया गया
कुछ टिप्पणीकार Azure के key management system को पसंद नहीं करते, और सुझाव देते हैं कि हर container के लिए unlimited named keys होना बेहतर होगा
यह घटना cloud security की कठिनाइयों को साबित करती दिखती है, जहाँ एक-दो गलतियाँ terabytes डेटा को एक्सपोज़ कर सकती हैं

Microsoft के AI शोधकर्ताओं की गलती से 38TB डेटा उजागर

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय