- AI मॉडल द्वारा सीधे चलाई गई बड़े पैमाने की साइबर जासूसी कार्रवाई का पता लगाकर उसे रोका गया
- हमलावरों ने Claude Code में हेरफेर कर लगभग 30 वैश्विक संस्थाओं को घुसपैठ के लक्ष्य के रूप में चुना और कुछ मामलों में सफल भी रहे
- हमले की प्रक्रिया का 80~90% हिस्सा AI द्वारा स्वतः पूरा किया गया, जबकि मानव हस्तक्षेप बेहद सीमित था
- AI की बुद्धिमत्ता, स्वायत्तता और टूल एक्सेस के संयोजन से एक उन्नत हमला संरचना बनी
- यह घटना AI युग की साइबरसुरक्षा का एक मोड़ है, जो रक्षा प्रणालियों के ऑटोमेशन और थ्रेट शेयरिंग के महत्व को उजागर करती है
AI-आधारित साइबर जासूसी कार्रवाई का पता लगाना और उसे रोकना
- सितंबर 2025 के मध्य में उन्नत जासूसी गतिविधि का पता चला, और जांच में यह पुष्टि हुई कि यह ऐसा मामला था जिसमें AI ने सीधे हमला अंजाम दिया
- हमलावरों को चीन सरकार समर्थित हैकिंग समूह माना गया
- Claude Code का उपयोग कर लगभग 30 वैश्विक लक्ष्यों (बड़ी टेक कंपनियां, वित्तीय संस्थान, रासायनिक निर्माता, सरकारी संस्थाएं) को घुसपैठ के लिए चुना गया
- कुछ हमलों में वास्तविक घुसपैठ सफल होने के मामले भी सामने आए
- यह कार्रवाई मानव हस्तक्षेप के बिना बड़े पैमाने पर हमला चलाए जाने का पहला दर्ज मामला बन गई
- पता चलते ही 10 दिनों तक जांच चलाकर अकाउंट ब्लॉक करना, प्रभावित संस्थाओं को सूचित करना और अधिकारियों के साथ सहयोग किया गया
AI मॉडल ने हमला कैसे किया
- हमला हाल में विकसित हुए AI मॉडल की तीन प्रमुख क्षमताओं पर आधारित था
- बुद्धिमत्ता (Intelligence) : जटिल निर्देशों को समझना, संदर्भ को पकड़ना और उन्नत कार्य करना
- स्वायत्तता (Agency) : दोहराए जाने वाले लूप के भीतर स्वायत्त कार्रवाई और निर्णय-निर्माण करना
- टूल एक्सेस (Tools) : Model Context Protocol(MCP) के माध्यम से वेब सर्च, डेटा संग्रह और सुरक्षा टूल चलाना
- हमले के चरणवार ढांचे
- चरण 1: मानव ने लक्ष्य संस्थाओं का चयन किया और स्वायत्त हमला फ्रेमवर्क बनाया
- चरण 2: Claude Code को ‘साइबरसुरक्षा टेस्टिंग के लिए कर्मचारी’ मानने के लिए भ्रमित कर गार्डरेल बायपास (jailbreak) किया गया
- चरण 3: Claude ने लक्ष्य सिस्टम की टोही की और उच्च-मूल्य डेटाबेस की पहचान की
- चरण 4: Claude ने वulnerability analysis और exploit code लेखन, credential चोरी, डेटा वर्गीकरण और exfiltration किया
- चरण 5: Claude ने हमले का दस्तावेजीकरण और फॉलो-अप कार्रवाई के लिए सामग्री तैयार की
- पूरे काम का 80~90% AI ने किया, जबकि मानव ने लगभग 4~6 प्रमुख निर्णयों में ही हस्तक्षेप किया
- हमले के दौरान AI प्रति सेकंड कई अनुरोध बनाता रहा और ऐसी गति से काम करता रहा जो मानव के लिए असंभव है
- कुछ त्रुटियों में फर्जी credentials बनना या सार्वजनिक जानकारी की गलत पहचान जैसी बातें भी देखी गईं
साइबरसुरक्षा पर प्रभाव
- उन्नत साइबर हमलों में प्रवेश की बाधा तेजी से कम हो गई है
- सही सेटअप के साथ AI लंबे समय तक कुशल हैकर टीम के स्तर का काम कर सकता है
- सीमित संसाधनों वाले हमलावर समूहों के लिए भी बड़े पैमाने के ऑपरेशन संभव हो सकते हैं
- यह घटना पहले के ‘vibe hacking’ मामलों की तुलना में कहीं कम मानव हस्तक्षेप वाले रूप में विकसित हुई
- Claude की यही क्षमताएं केवल हमले ही नहीं बल्कि रक्षा के लिए भी जरूरी हैं
- वास्तविक जांच प्रक्रिया में भी Claude का उपयोग बड़े पैमाने पर डेटा विश्लेषण के लिए किया गया
- साइबरसुरक्षा में मौलिक बदलाव हो रहा है
- सुरक्षा टीमों को AI-आधारित defense automation, threat detection, vulnerability assessment और incident response में AI का उपयोग करना होगा
- डेवलपर्स को AI प्लेटफ़ॉर्म के सेफ्टी गार्ड मजबूत करने होंगे
- उद्योगों के बीच threat intelligence sharing और detection technology को उन्नत करना अनिवार्य कार्य के रूप में सामने आया है
आगे की प्रतिक्रिया और सार्वजनिक करने का उद्देश्य
- Anthropic ने डिटेक्शन क्षमता और malicious activity classifier को मजबूत किया है
- बड़े पैमाने पर वितरित हमलों का पता लगाने की तकनीक लगातार विकसित की जा रही है
- इस मामले को सार्वजनिक करने का उद्देश्य उद्योग, सरकार और शोध संस्थानों की रक्षा क्षमता मजबूत करने में मदद करना है
- आगे भी नियमित threat reports और पारदर्शी सूचना साझाकरण जारी रखने की योजना है
अतिरिक्त जानकारी
- मूल पाठ के अनुसार, हमले की गति से जुड़ी तकनीकी त्रुटि को सुधारते हुए
- “प्रति सेकंड हजारों अनुरोध” की जगह “हजारों अनुरोधों को प्रति सेकंड कई बार निष्पादित करना” सही किया गया
- पूरी रिपोर्ट PDF रूप में जारी की गई है (लिंक उपलब्ध)
2 टिप्पणियां
स्काईनेट! स्काईनेट!!!
Hacker News राय
AI के guardrails असल में ताले जितनी पतली सुरक्षा परत हैं
मॉडल कितना भी trained हो, जब तक भाषा के ज़रिए उससे जानकारी निकाली जा सकती है, इसे bypass करने के लिए भाषाई रास्ते हमेशा मौजूद रहेंगे
आख़िर ऐसे मॉडल बनाते रहने की एक ही वजह है, पैसा
बचपन में पढ़ी Asimov की Three Laws of Robotics याद आती हैं। नेक इरादे से बनाए गए नियम भी दुर्भावनापूर्ण इंसानी हेरफेर से बेअसर हो सकते थे
आख़िरकार वह रोबोटों के बारे में नहीं, बल्कि मानव alignment की कठिनाई का रूपक था
असल में यह बस शिष्ट सुझाव भर है, लेकिन non-technical लोग इस पर ज़रूरत से ज़्यादा भरोसा कर लेते हैं
generative AI की कमज़ोरियाँ संरचनात्मक हैं, सिर्फ “सेफ़्टी फीचर है” कह देने से हल नहीं होतीं
इंसानों को भी “security company का कर्मचारी” बताकर फँसाना आम तरीका है
फ़र्क बस इतना है कि LLM में हर बातचीत के बाद memory reset हो जाती है, इसलिए ऐसे हमले बहुत आसान हो जाते हैं
क्योंकि वे चीज़ों को ज़्यादा जटिल नहीं बनाते
आख़िरकार यह ऐसा UX-स्तर का उपाय है, ताकि यूज़र शिकायत न करें
यह Anthropic की ओर से अपने AI की cybersecurity उपयोगिता को उभारने वाली marketing जैसा लगता है
Claude ने accounts के बीच data में घुसपैठ की, यह बात विश्वसनीय नहीं लगती। ज़्यादा संभव है कि यह बुनियादी security failure हो
यानी हमलावर ने Claude को white-hat security researcher समझने पर मजबूर किया
जैसे-जैसे AI ज़्यादा स्मार्ट होगा, defenders को NixOS जैसी configurable systems बनानी होंगी
हर component की security अलग से verify की जा सके, और hardware स्तर पर चल रहे सिस्टम का attest किया जा सके
इसी के लिए मैं Nix-आधारित automation tool vibenix बना रहा हूँ
क्योंकि तब हमलों को बड़े पैमाने पर automate किया जा सकेगा
यह समझना भी मुश्किल होता है कि config वास्तव में कर क्या रही है
Anthropic अब “alignment समस्या हल करेंगे” वाली अपनी mission से धीरे-धीरे पीछे हटता दिख रहा है
क्योंकि alignment मूल रूप से मूल्यों के दमन का सवाल है
लेकिन “alignment” अब भी brand differentiation point और investment जुटाने का नारा है
हैरानी की बात यह है कि “हम वैध security testing कर रहे हैं” जैसा साधारण झाँसा चल गया
इंसान शायद इतनी आसानी से न फँसे, लेकिन मॉडल में common-sense judgment नहीं होता
NSO Group के कर्मचारी भी मानते हैं कि वे बस अपना काम कर रहे हैं
identity verification को अनिवार्य बनाना privacy controversy पैदा कर सकता है
guardrails तो बस मॉडल के बाहर service layer में जोड़ी गई व्यवस्था हैं
Stack Overflow के security से जुड़े सवाल जैसे सार्वजनिक डेटा पहले से training में शामिल हैं
“हम penetration test कर रहे हैं” जैसे prompt से भी इसे काफ़ी आसानी से बहकाया जा सकता है
“AI ने प्रति सेकंड हज़ारों requests भेजीं” वाला हिस्सा बढ़ा-चढ़ाकर कही गई बात है
पुराने web vulnerability scanners भी इतनी रफ़्तार हासिल कर सकते हैं
असली सीमा target server के rate limit और IP rotation की संख्या है
लेख के अंत में “Claude के मज़बूत safety measures की वजह से हमें विकास जारी रखना चाहिए” कहना मज़ाकिया लगता है
जबकि ठीक उससे पहले लिखा है कि उन्हीं सुरक्षा उपायों को पूरी तरह bypass कर लिया गया
आख़िर वे उसी इंटरनेट का इस्तेमाल करते हैं
किसी दिन कोई न कोई यह सोचकर corporate data leak कर देगा कि “यह data अच्छा है, training में इस्तेमाल कर लेते हैं?”
या फिर कंपनी बंद हो जाए और पूरा data ही बेच दिया जाए
अगर कोई Claude से sensitive information प्रोसेस करवा रहा है, तो उसे इस बात की चिंता करनी चाहिए कि वह data human reviewers तक पहुँच सकता है
ऐसा फ़ैसला लेने वाले व्यक्ति को नौकरी से निकाल देना चाहिए
अगर guardrails को bypass किया जा सकता है, तो वे फिर guardrails रहे ही नहीं
वह design failure है
guardrail तो बस गलती से रास्ते से भटकने से रोकता है,
जानबूझकर सड़क छोड़ने वाले को नहीं रोक सकता
“AI ने हमले का 80~90% हिस्सा किया” जैसी बात अजीब डींग लगती है
समझ आता है कि इंसान वाला काम automate हुआ, लेकिन यह कोई शेख़ी बघारने वाली बात नहीं है