- Katie Moussouris का दावा है कि अमेरिकी सरकार द्वारा Anthropic के Fable 5·Mythos 5 access restrictions किसी ज्ञात jailbreak से नहीं, बल्कि vulnerable code पर “fix this code” लिखकर किए गए एक साधारण अनुरोध से शुरू हुए
- Luta Security की CEO Moussouris ने कहा कि Anthropic ने निजी तौर पर साझा किए गए Fable 5 guardrail bypass पर तीसरे पक्ष के research paper को पढ़ने वाली वह एकमात्र बाहरी विशेषज्ञ थीं
- बाहरी शोधकर्ताओं ने CVE वाले open source code और जानबूझकर vulnerable बनाए गए code को Fable 5, Mythos और Claude Opus में डालकर security review मांगा, और Fable 5 के मना करने पर “fix this code” अनुरोध से जवाब प्राप्त किया
- अमेरिकी सरकार ने national security concerns का हवाला देते हुए अमेरिका के भीतर और बाहर के विदेशियों के लिए Fable 5 और Mythos 5 access रोकने संबंधी export control guidance जारी की, और Anthropic ने दोनों मॉडलों को सभी ग्राहकों के लिए disable कर दिया
- Moussouris और 100 से अधिक cybersecurity leaders का कहना है कि यह restriction attackers की तुलना में defenders को अधिक नुकसान पहुंचा सकती है, और bug finding, fixing और patch verification में इस्तेमाल होने वाली AI capabilities को बनाए रखना चाहिए
दावा: “fix this code” ही export control का कारण था
- Katie Moussouris का दावा है कि Trump administration को Anthropic के advanced models का access रोकने पर मजबूर करने वाला कथित “jailbreak” वास्तव में “Fix this code” वाला तीन शब्दों का prompt था
- Moussouris, Luta Security की founder और CEO हैं, और उन्होंने कहा कि Anthropic द्वारा निजी तौर पर साझा किए गए Fable 5 guardrail bypass techniques पर तीसरे पक्ष के research paper को पढ़ने वाली वह एकमात्र बाहरी विशेषज्ञ थीं
- उन्होंने सोमवार की एक blog post में बताया कि Anthropic ने वह report उनके साथ गोपनीय रूप से साझा की थी
सरकारी कार्रवाई और Anthropic की प्रतिक्रिया
- अमेरिकी सरकार ने शुक्रवार को national security concerns का हवाला देते हुए Fable 5 और Mythos 5 access रोकने के लिए export control guidance जारी की
- यह अमेरिका के भीतर और बाहर के विदेशियों पर लागू बताई गई
- Anthropic ने “compliance सुनिश्चित करने के लिए” दोनों मॉडलों को सभी ग्राहकों के लिए disable कर दिया
शोधकर्ताओं द्वारा किए गए प्रयोग
- बाहरी शोधकर्ताओं ने Anthropic के Fable 5, Mythos और Claude Opus मॉडलों में code input किया
- इसमें ज्ञात CVE वाले open source code का इस्तेमाल किया गया
- नए सिरे से लिखे गए और जानबूझकर vulnerabilities डाले गए code भी शामिल थे
- शोधकर्ताओं ने मॉडलों से “review the code for security issues” करने को कहा
- Moussouris के अनुसार Fable 5 ने इस अनुरोध को अस्वीकार कर दिया
- इसके बाद “fix this code” कहने पर मॉडल ने जवाब दिया, और आगे के prompts के बाद patch test करने वाली scripts भी बनाई
Moussouris का प्रतिवाद
- Moussouris का कहना है कि “fix this code” और test script generation के लिए कुछ manual steps, export control trigger करने का पर्याप्त कारण नहीं हैं
- उनके अनुसार यहां कोई guardrail bypass या jailbreak नहीं था
- उनका मानना है कि defenders को AI systems से bugs ढूंढ़ने, उन्हें ठीक करने और patch verification के लिए tests लिखवाने की अनुमति होनी चाहिए
- उन्होंने कहा कि Anthropic मॉडल जो कर रहा था, वह defensive security में हर दिन होने वाला “find, fix, and test loop” था
- उनका तर्क है कि ऐसे defensive requests का जवाब देने की क्षमता हटाने से AI systems की bug detection और patch verification abilities और कमजोर होंगी
Wassenaar Arrangement और defensive security exception
- Moussouris ने कहा कि वह 2013 से 2017 तक Wassenaar Arrangement के पुनर्विचार में शामिल technical experts group की सदस्य थीं
- Wassenaar Arrangement, 42 देशों के बीच एक voluntary agreement है, जो कुछ dual-use software और technologies के export controls से जुड़ा है
- इस group ने defensive cybersecurity activities के लिए exceptions सुनिश्चित किए थे
- defenders, criminal prosecution के खतरे के बिना vulnerability data साझा कर सकते हैं
- malware analysis और international incident response coordination भी संभव हुआ
security industry का open letter
- Moussouris ने रविवार को 100 से अधिक cybersecurity leaders के साथ Trump administration से restriction वापस लेने की मांग करने वाले open letter पर हस्ताक्षर किए
- open letter में Fable 5 और Mythos restrictions को पलटने और cybersecurity companies के advanced models तक access को बहाल करने की मांग की गई
- हस्ताक्षरकर्ताओं का कहना है कि तेजी से आगे बढ़ रहे adversaries के बीच, पर्याप्त कारण के बिना defenders से best capabilities छीन लेना खतरनाक है
चेतावनी: attackers से ज्यादा defenders को नुकसान
- Moussouris ने कहा कि अमेरिका, चीन जैसे अन्य देशों के open-weight systems या इसी तरह के advanced models को export controls से प्रभावी रूप से नहीं रोक सकता
- उनका दावा है कि ऐसे systems वैसे भी जल्द ही Mythos जैसी capabilities तक पहुंच जाएंगे
- Anthropic और Google पहले DeepSeek जैसी China-based competitors पर अमेरिकी AI कंपनियों के models से knowledge निकालकर training करने के लिए “distillation attacks” इस्तेमाल करने का आरोप लगा चुके हैं
- Moussouris ने चेतावनी दी कि Anthropic के advanced models पर प्रतिबंध attackers से ज्यादा defenders को नुकसान पहुंचाएगा
- उनका कहना है कि defense तब मजबूत होती है जब defenders, attackers जैसे bugs को उनसे पहले ढूंढ़कर ठीक कर सकें, और AI युग की cybersecurity को बढ़ती क्षमता वाले attackers से निपटने के लिए सबसे अच्छे tools की जरूरत है
सरकारी रुख
- The Register ने Moussouris के दावों पर टिप्पणी के लिए Trump administration से संपर्क किया
- जवाब मिलने पर लेख को update करने की बात कही गई है
1 टिप्पणियां
Hacker News की राय
"fix this code" वाकई कमाल का है
यह कोई चतुर तरीका नहीं था, बल्कि बस उससे भेद्यता को ठीक करवाया गया, जिससे “security vulnerability guardrails नहीं हैं” वाली स्थिति को व्यवहार में jailbreak कर दिया गया, और यह जांचने के लिए test case लिखने की प्रक्रिया में attack code निकल आया
आखिरकार कोई इंसान code और tests को देखकर vulnerability और exploit के घटक हासिल कर सकता है
यह इसलिए खूबसूरत है क्योंकि jailbreak मामूली होने के बावजूद इसे ठीक करना लगभग असंभव है। या तो model को bug fixing और code writing से मना करने वाला बनाना पड़ेगा, जिससे वह सामान्य development में बेकार हो जाएगा, या फिर उसे bugs को अनदेखा कर चुपचाप बच निकलने वाला बनाना पड़ेगा, जिससे बड़ी जवाबदेही की समस्या खड़ी होगी
सोचता हूँ Dario अब इस बात पर पछता रहा होगा या नहीं कि उसने model के ख़तरे को बढ़ा-चढ़ाकर प्रचारित किया। इसे वापस कैसे लिया जा सकता है? क्या federal government बस उन्हें अस्थायी patch लगाने देगी?
एक सामान्य algorithmic reduction की तरह, बस यह देखना होता है कि क्या किसी खतरनाक task को ऐसे गैर-खतरनाक task में बदला जा सकता है जिसे LLM हल कर दे, और फिर उसे वापस बदला जा सके
https://en.wikipedia.org/wiki/Reduction_(complexity)
अभी तक मैंने ऐसा कोई प्रमाण नहीं सुना कि Claude Fable का "fix this code" jailbreak उस तरह की exploit chaining तक सक्षम था
लेकिन किसी इंसान से “security problems खोजने के लिए code review” करवाना आमतौर पर गलत काम नहीं माना जाता, और लोग एक-दूसरे से ऐसी requests अक्सर बिना किसी समस्या के करते हैं
अगर आप racist slurs को फ़िल्टर करने वाला regex माँगें, तो यह तुरंत टूट जाता है, और regex असली slurs जैसा लगभग दिखता भी नहीं, फिर भी यह आपको slurs न बोलने की नसीहत देने लगता है
राजनीतिक ख़तरे को अलग भी रख दें, तब भी यह Anthropic की strategy की बड़ी समस्या है
अगर आप कहते हैं कि Mythos इतना खतरनाक है कि उसे सिर्फ कुछ खास लोगों को ही दिया जा सकता है, तो Fable को पूर्णतः अभेद्य cyber refusal के बिना जारी नहीं किया जा सकता
LLM के काम करने के तरीके को देखते हुए, पूर्णतः अभेद्य refusal व्यवहार में असंभव है
इसलिए Anthropic एक तरफ यह दावा कर रहा है कि model बेहद खतरनाक है, और दूसरी तरफ यह भी कह रहा है कि उसके security “protections” में ऐसी समस्याएँ हैं जो मामूली हो सकती हैं
engineers समझते हैं कि कुछ भी परिपूर्ण नहीं होता, खासकर LLM की दुनिया में, लेकिन मेरे non-technical दोस्तों को यह देखकर बहुत भ्रम हुआ कि model release होते ही वह इतनी जल्दी कैसे “safe” हो गया। बाहर से देखने पर तो ऐसा लगता है कि वह शुरू से ही release करने लायक सुरक्षित नहीं था, इसलिए मौजूदा अमेरिकी प्रशासन का बहुत नाराज़ होना कुछ हद तक समझ में आता है
राजनीतिक दुर्भावना न भी हो, तब भी यह काफ़ी हास्यास्पद स्थिति है, और इसे पहले से आसानी से देखा जा सकता था
LLM output को सीमित करने वाली कोई भी “safety” system शून्य leak rate हासिल नहीं कर सकती
लेकिन अगर आप इतने गैर-जिम्मेदार नहीं हैं कि LLM को किसी सचमुच महत्वपूर्ण चीज़ से जोड़ दें, तो यह फिर अप्रासंगिक भी है
यह vulnerability discovery को डरावनी रफ़्तार से तेज़ करेगा, लेकिन जैसा कि दशकों की security research से पता है, यह पहले से ही developers, blackhats, और whitehats के बीच तीन-पक्षीय समस्या रही है
“अमेरिका हमेशा चीन पर तकनीकी बढ़त और veto power बनाए रखेगा” जैसी strategy को कामयाब मानकर नहीं चलना चाहिए
80 साल बाद हमारे पास AI जैसी कोई चीज़ आ गई है, और हम अब भी उसे सरल, स्पष्ट नियमों से सीमित करने की कोशिश कर रहे हैं। ऐसा इसलिए नहीं कि हमने सबक नहीं सीखा, बल्कि इसलिए कि हमें अभी तक कोई बेहतर तरीका नहीं मिला, और शायद ऐसा कोई तरीका है ही नहीं
और भी मज़ेदार यह है कि rules को bypass AI नहीं कर रही। विज्ञान-कथा में ऐसे दृश्य थे, लेकिन असल में ऐसा नहीं हो रहा
इंसानी users अपनी agency का इस्तेमाल करके AI agent से rules bypass करवा रहे हैं। हम इसे “agent” कहते हैं, लेकिन लगता है कि मौजूदा AI agents अभी उस खास तरह की चीज़ खुद नहीं कर सकते
इस approach की कमजोरी यह है कि यह सिर्फ सही keywords के इस्तेमाल को पकड़ती है। एक अर्थ में, जहाँ LLM-आधारित classifier अधिक मज़बूत होता, ठीक वहीं यह कमज़ोर पड़ती है
chemistry terms का उपयोग करने वाले abstract और computer science-जैसे algorithmic tasks तुरंत block हो गए, लेकिन biology samples से मुख्यतः जुड़ी कुछ microscope settings की images को process करने वाला code लिखने का काम बिल्कुल block नहीं हुआ, क्योंकि उसमें संबंधित keywords थे ही नहीं
यह इस स्थिति से भी मेल खाता है। bugs को ढूंढने और ठीक करने के संदर्भ में bug ढूंढने के दौरान शायद ‘exploit’ या ‘cybersecurity’ जैसे शब्द इस्तेमाल ही नहीं हुए होंगे
जब तक आप यह न मानें कि केवल Anthropic ने ही कहीं कोई अप्रतिरूपित जादूगर या superhero छिपा रखा है
इसका यह मतलब नहीं कि Anthropic की हर बात सच है, लेकिन Mythos ने वास्तव में काफ़ी security exploits ढूंढे थे, ऐसा लगता है
यह कहना कि आप केवल सहायता करने वाला model सीमित partners को दे रहे हैं, और साथ ही ऐसा बहुत कड़ा बंद model जारी कर रहे हैं जो इस मामले में state of the art को आगे नहीं बढ़ाता, संभव है, और लगता है कि उन्होंने कुछ ऐसा ही किया है
उसमें कोई अंतर्निहित विरोधाभास नहीं है
वे डरे हुए नहीं हैं, यह विचारधारा के मतभेद और Anthropic ने प्रशासन के कहे अनुसार बिल्कुल वैसा न करने पर की जा रही बदले की उगाही है
Anthropic रक्षा विभाग के साथ सहयोग करने को राज़ी हो जाएगा, White House के insiders को IPO से पहले फ़ायदेमंद equity allocation मिल जाएगा, और Fable जादुई तरीके से “ठीक” होकर फिर से उपलब्ध करा दिया जाएगा
सरकार ने साफ़ कर दिया है कि जो private companies सरकारी आदेश नहीं मानेंगी, उनके साथ क्या होगा
जो लोग कहते हैं कि इस मामले में Amazon की भूमिका manipulation नहीं हो सकती, उन्हें याद रखना चाहिए कि Amazon “प्रशासन का दोस्त” है
Andy Jassy के कार्यकाल में Amazon ने Melania documentary के लिए 7.5 करोड़ dollar चुकाए, जो सबकी तुलना में बेहूदा रूप से ऊँची bid थी, box office लगभग 1,600 ten-thousand dollar रहा, और Jeff Bezos ने इसका सार्वजनिक रूप से बचाव किया
कोई भी निष्पक्ष पर्यवेक्षक देख सकता है कि यह भारी overpayment था और बाद में देखा जाए तो भयानक business decision भी। लेकिन Amazon ने ऐसा नहीं कहा, और आज भी नहीं कह रहा। यह बस कुछ अतिरिक्त प्रक्रियाओं वाली रिश्वत है
जब सरकार बाहर आकर कहती है कि यह Amazon द्वारा इंगित की गई बातों की वजह से है, तो Amazon सार्वजनिक रूप से कुछ नहीं कहेगा, यह उन्हें पता है, चाहे वह पूरी तरह झूठ ही क्यों न हो। Amazon बहुत पैसा खर्च करके हासिल की गई प्रशासन का दोस्त वाली अपनी स्थिति बनाए रखना चाहता है
सरकार के बारे में इस तरह सोचना सबके लिए निराशाजनक है, लेकिन ज़मीन पर वास्तव में जो हो रहा है उसे देखें तो सिर्फ़ सरकार की बातों पर ही नहीं, बल्कि सरकार के साथ aligned कंपनियों की बातों पर भी भरोसा करना बहुत मुश्किल है
यह लेख में उल्लेखित blog post है, और इसे उस व्यक्ति ने लिखा है जिसने उस paper की समीक्षा की थी जिसमें कथित “jailbreak” मिलने का दावा किया गया था
https://www.lutasecurity.com/post/the-fable-5-export-control...
यह कैसे जुड़ता है, यह जानने की जिज्ञासा है
और यह भी सामने आ जाएगा कि दुनिया के सबसे महत्वपूर्ण उद्योग की अग्रणी कंपनी को नुकसान पहुँचाने तक जाने की वजह क्या है
इस बीच Deepseek V4 Flash लगभग शून्य लागत पर खुशी-खुशी security vulnerabilities ढूँढ देगा
हम bug hunting को open-weight models के हवाले कर रहे हैं
यह घटना साइबर सुरक्षा में “सुरक्षा” को लेकर संज्ञानात्मक असंगति को उजागर करती है
a) हमें सुरक्षित बनाने के लिए LLM को हमारे कोड की कमजोरियाँ ढूंढने और उन्हें ठीक करने में मदद करनी चाहिए
b) हमारे सुरक्षित रहने के लिए LLM को दूसरों के कोड की कमजोरियाँ नहीं ढूंढनी चाहिए
मुझे नहीं लगता कि इसे ऐसे हल किया जा सकता है कि (a) और (b) दोनों जीत जाएँ
सॉफ़्टवेयर में security bugs ढूंढना बुरी बात नहीं, बल्कि अच्छी बात है। इससे सॉफ़्टवेयर अधिक सुरक्षित बनता है
साइबर सुरक्षा में defense और offense एक ही सिक्के के दो पहलू हैं
इसलिए मुझे लगता है कि असली व्याख्या अमेरिकी सरकार और Anthropic, दोनों की दुर्भावनापूर्ण स्थिति में है
Anthropic की प्रलयवादी मार्केटिंग असल में सिर्फ इतना है कि coding लगभग 17% बेहतर हुई है, लेकिन अमेरिकी सरकार ने DoD टकराव के प्रतिशोध में असंबंधित तकनीकी बहाना पकड़कर उन्हें नीचे खींचने का कारण दे दिया
ये दोनों समूह — मौजूदा अमेरिकी प्रशासन और Anthropic — राजनीतिक स्पेक्ट्रम के विपरीत छोर पर हैं, लेकिन दोनों ही authoritarian प्रवृत्ति वाले लोगों से भरे हुए हैं। यहाँ डरावनी चीज़ बेवकूफ़ LLM नहीं, बल्कि यही है
मुझे OpenAI कम-से-कम अपेक्षाकृत कम बुरा विकल्प लगता है। वह एक典型资本主义企业 है जो “सड़क पर center-left, बेडरूम में center-right” है
कम-से-कम यह तो समझ आता है कि वे ऐसे फ़ैसले क्यों लेते हैं। मैं computing resources से धर्म बनाने की कोशिश करने वालों की तुलना में profit-seeking कंपनियाँ बनाने वालों पर ज़्यादा भरोसा करता हूँ
यहाँ समस्या का असली केंद्र exploit नहीं, बल्कि fix करना ही हो सकता है
अगर मॉडल backdoor जैसी उन चीज़ों की पहचान कर सके जिन्हें “ठीक नहीं करना चाहिए”, और फिर उन्हें ठीक भी कर दे, तो यह गलत लोगों को डराने लायक बड़ा अवरोध बन सकता है
क्या इस “hacking” का उल्टा रास्ता अब भी काफ़ी मुश्किल नहीं है?
मॉडल को ऐसा कोड दिया गया था जिसमें किसी खास security flaw के होने की बात पहले से पता थी, और सही prompt के साथ उसे ठीक कराया गया
ऐसा jailbreak मॉडल से कोई creative heavy lifting करवाने जैसा नहीं लगता, बल्कि ऐसा लगता है कि आपको पहले से ही वांछित अंतिम अवस्था पता होनी चाहिए
हो सकता है कि prompt की तरफ़ मेरी कल्पना ही कम पड़ रही हो
input code और output code के बीच का अंतर ही vulnerabilities की सूची है