शोधकर्ताओं का दावा: Fable 5 विवाद jailbreak से नहीं, ‘fix this code’ से शुरू हुआ

(theregister.com)

1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Katie Moussouris का दावा है कि अमेरिकी सरकार द्वारा Anthropic के Fable 5·Mythos 5 access restrictions किसी ज्ञात jailbreak से नहीं, बल्कि vulnerable code पर “fix this code” लिखकर किए गए एक साधारण अनुरोध से शुरू हुए
Luta Security की CEO Moussouris ने कहा कि Anthropic ने निजी तौर पर साझा किए गए Fable 5 guardrail bypass पर तीसरे पक्ष के research paper को पढ़ने वाली वह एकमात्र बाहरी विशेषज्ञ थीं
बाहरी शोधकर्ताओं ने CVE वाले open source code और जानबूझकर vulnerable बनाए गए code को Fable 5, Mythos और Claude Opus में डालकर security review मांगा, और Fable 5 के मना करने पर “fix this code” अनुरोध से जवाब प्राप्त किया
अमेरिकी सरकार ने national security concerns का हवाला देते हुए अमेरिका के भीतर और बाहर के विदेशियों के लिए Fable 5 और Mythos 5 access रोकने संबंधी export control guidance जारी की, और Anthropic ने दोनों मॉडलों को सभी ग्राहकों के लिए disable कर दिया
Moussouris और 100 से अधिक cybersecurity leaders का कहना है कि यह restriction attackers की तुलना में defenders को अधिक नुकसान पहुंचा सकती है, और bug finding, fixing और patch verification में इस्तेमाल होने वाली AI capabilities को बनाए रखना चाहिए

दावा: “fix this code” ही export control का कारण था

Katie Moussouris का दावा है कि Trump administration को Anthropic के advanced models का access रोकने पर मजबूर करने वाला कथित “jailbreak” वास्तव में “Fix this code” वाला तीन शब्दों का prompt था
Moussouris, Luta Security की founder और CEO हैं, और उन्होंने कहा कि Anthropic द्वारा निजी तौर पर साझा किए गए Fable 5 guardrail bypass techniques पर तीसरे पक्ष के research paper को पढ़ने वाली वह एकमात्र बाहरी विशेषज्ञ थीं
उन्होंने सोमवार की एक blog post में बताया कि Anthropic ने वह report उनके साथ गोपनीय रूप से साझा की थी

सरकारी कार्रवाई और Anthropic की प्रतिक्रिया

अमेरिकी सरकार ने शुक्रवार को national security concerns का हवाला देते हुए Fable 5 और Mythos 5 access रोकने के लिए export control guidance जारी की
- यह अमेरिका के भीतर और बाहर के विदेशियों पर लागू बताई गई
Anthropic ने “compliance सुनिश्चित करने के लिए” दोनों मॉडलों को सभी ग्राहकों के लिए disable कर दिया

शोधकर्ताओं द्वारा किए गए प्रयोग

बाहरी शोधकर्ताओं ने Anthropic के Fable 5, Mythos और Claude Opus मॉडलों में code input किया
- इसमें ज्ञात CVE वाले open source code का इस्तेमाल किया गया
- नए सिरे से लिखे गए और जानबूझकर vulnerabilities डाले गए code भी शामिल थे
शोधकर्ताओं ने मॉडलों से “review the code for security issues” करने को कहा
Moussouris के अनुसार Fable 5 ने इस अनुरोध को अस्वीकार कर दिया
इसके बाद “fix this code” कहने पर मॉडल ने जवाब दिया, और आगे के prompts के बाद patch test करने वाली scripts भी बनाई

Moussouris का प्रतिवाद

Moussouris का कहना है कि “fix this code” और test script generation के लिए कुछ manual steps, export control trigger करने का पर्याप्त कारण नहीं हैं
उनके अनुसार यहां कोई guardrail bypass या jailbreak नहीं था
उनका मानना है कि defenders को AI systems से bugs ढूंढ़ने, उन्हें ठीक करने और patch verification के लिए tests लिखवाने की अनुमति होनी चाहिए
उन्होंने कहा कि Anthropic मॉडल जो कर रहा था, वह defensive security में हर दिन होने वाला “find, fix, and test loop” था
उनका तर्क है कि ऐसे defensive requests का जवाब देने की क्षमता हटाने से AI systems की bug detection और patch verification abilities और कमजोर होंगी

Wassenaar Arrangement और defensive security exception

Moussouris ने कहा कि वह 2013 से 2017 तक Wassenaar Arrangement के पुनर्विचार में शामिल technical experts group की सदस्य थीं
Wassenaar Arrangement, 42 देशों के बीच एक voluntary agreement है, जो कुछ dual-use software और technologies के export controls से जुड़ा है
इस group ने defensive cybersecurity activities के लिए exceptions सुनिश्चित किए थे
- defenders, criminal prosecution के खतरे के बिना vulnerability data साझा कर सकते हैं
- malware analysis और international incident response coordination भी संभव हुआ

security industry का open letter

Moussouris ने रविवार को 100 से अधिक cybersecurity leaders के साथ Trump administration से restriction वापस लेने की मांग करने वाले open letter पर हस्ताक्षर किए
open letter में Fable 5 और Mythos restrictions को पलटने और cybersecurity companies के advanced models तक access को बहाल करने की मांग की गई
हस्ताक्षरकर्ताओं का कहना है कि तेजी से आगे बढ़ रहे adversaries के बीच, पर्याप्त कारण के बिना defenders से best capabilities छीन लेना खतरनाक है

चेतावनी: attackers से ज्यादा defenders को नुकसान

Moussouris ने कहा कि अमेरिका, चीन जैसे अन्य देशों के open-weight systems या इसी तरह के advanced models को export controls से प्रभावी रूप से नहीं रोक सकता
उनका दावा है कि ऐसे systems वैसे भी जल्द ही Mythos जैसी capabilities तक पहुंच जाएंगे
Anthropic और Google पहले DeepSeek जैसी China-based competitors पर अमेरिकी AI कंपनियों के models से knowledge निकालकर training करने के लिए “distillation attacks” इस्तेमाल करने का आरोप लगा चुके हैं
Moussouris ने चेतावनी दी कि Anthropic के advanced models पर प्रतिबंध attackers से ज्यादा defenders को नुकसान पहुंचाएगा
उनका कहना है कि defense तब मजबूत होती है जब defenders, attackers जैसे bugs को उनसे पहले ढूंढ़कर ठीक कर सकें, और AI युग की cybersecurity को बढ़ती क्षमता वाले attackers से निपटने के लिए सबसे अच्छे tools की जरूरत है

सरकारी रुख

The Register ने Moussouris के दावों पर टिप्पणी के लिए Trump administration से संपर्क किया
जवाब मिलने पर लेख को update करने की बात कही गई है

1 टिप्पणियां

GN⁺ 4 시간 전

Hacker News की राय

"fix this code" वाकई कमाल का है
यह कोई चतुर तरीका नहीं था, बल्कि बस उससे भेद्यता को ठीक करवाया गया, जिससे “security vulnerability guardrails नहीं हैं” वाली स्थिति को व्यवहार में jailbreak कर दिया गया, और यह जांचने के लिए test case लिखने की प्रक्रिया में attack code निकल आया
आखिरकार कोई इंसान code और tests को देखकर vulnerability और exploit के घटक हासिल कर सकता है
यह इसलिए खूबसूरत है क्योंकि jailbreak मामूली होने के बावजूद इसे ठीक करना लगभग असंभव है। या तो model को bug fixing और code writing से मना करने वाला बनाना पड़ेगा, जिससे वह सामान्य development में बेकार हो जाएगा, या फिर उसे bugs को अनदेखा कर चुपचाप बच निकलने वाला बनाना पड़ेगा, जिससे बड़ी जवाबदेही की समस्या खड़ी होगी
- सही है। model के security filters जिस चीज़ को रोकना चाहते थे, वही इससे हासिल हो गई, इसलिए यह व्यवहार में jailbreak ही है, और इसका हास्यास्पद रूप से सरल होना दिखाता है कि ऐसी security approach कितनी टूटी हुई है
  सोचता हूँ Dario अब इस बात पर पछता रहा होगा या नहीं कि उसने model के ख़तरे को बढ़ा-चढ़ाकर प्रचारित किया। इसे वापस कैसे लिया जा सकता है? क्या federal government बस उन्हें अस्थायी patch लगाने देगी?
- मुझे तो उल्टा यह हैरानी की बात लगती है कि computer science की शिक्षा पाए लोग jailbreak को मामूली नहीं मानते
  एक सामान्य algorithmic reduction की तरह, बस यह देखना होता है कि क्या किसी खतरनाक task को ऐसे गैर-खतरनाक task में बदला जा सकता है जिसे LLM हल कर दे, और फिर उसे वापस बदला जा सके
  https://en.wikipedia.org/wiki/Reduction_(complexity)
- Claude Mythos का मुख्य अंतर केवल vulnerabilities ढूंढने की क्षमता नहीं, बल्कि उन्हें जोड़कर वास्तव में इस्तेमाल करने योग्य exploit chain बनाना है
  अभी तक मैंने ऐसा कोई प्रमाण नहीं सुना कि Claude Fable का "fix this code" jailbreak उस तरह की exploit chaining तक सक्षम था
- लगता है मैं कुछ मिस कर रहा हूँ। अस्वीकृत prompt "review the code for security issues" को चल रहे system की कमजोरियाँ ढूंढकर उनका दुरुपयोग करने की कोशिश के रूप में समझा जा सकता है
  लेकिन किसी इंसान से “security problems खोजने के लिए code review” करवाना आमतौर पर गलत काम नहीं माना जाता, और लोग एक-दूसरे से ऐसी requests अक्सर बिना किसी समस्या के करते हैं
- AI में मैं लंबे समय से जिस अजीब भेद पर शिकायत करता आया हूँ, वह यही है। AI को सिर्फ कानूनी और अच्छे काम ही करने देने का तरीका कैसे बनाया जाए, यह लगभग असंभव है
  अगर आप racist slurs को फ़िल्टर करने वाला regex माँगें, तो यह तुरंत टूट जाता है, और regex असली slurs जैसा लगभग दिखता भी नहीं, फिर भी यह आपको slurs न बोलने की नसीहत देने लगता है
राजनीतिक ख़तरे को अलग भी रख दें, तब भी यह Anthropic की strategy की बड़ी समस्या है
अगर आप कहते हैं कि Mythos इतना खतरनाक है कि उसे सिर्फ कुछ खास लोगों को ही दिया जा सकता है, तो Fable को पूर्णतः अभेद्य cyber refusal के बिना जारी नहीं किया जा सकता
LLM के काम करने के तरीके को देखते हुए, पूर्णतः अभेद्य refusal व्यवहार में असंभव है
इसलिए Anthropic एक तरफ यह दावा कर रहा है कि model बेहद खतरनाक है, और दूसरी तरफ यह भी कह रहा है कि उसके security “protections” में ऐसी समस्याएँ हैं जो मामूली हो सकती हैं
engineers समझते हैं कि कुछ भी परिपूर्ण नहीं होता, खासकर LLM की दुनिया में, लेकिन मेरे non-technical दोस्तों को यह देखकर बहुत भ्रम हुआ कि model release होते ही वह इतनी जल्दी कैसे “safe” हो गया। बाहर से देखने पर तो ऐसा लगता है कि वह शुरू से ही release करने लायक सुरक्षित नहीं था, इसलिए मौजूदा अमेरिकी प्रशासन का बहुत नाराज़ होना कुछ हद तक समझ में आता है
राजनीतिक दुर्भावना न भी हो, तब भी यह काफ़ी हास्यास्पद स्थिति है, और इसे पहले से आसानी से देखा जा सकता था
- हाँ। AI safety बेतुकी बात है। “बुरी strings” के set को परिभाषित नहीं किया जा सकता, और typewriter पर टाइप करती 1 अरब बंदरों की भीड़ अंततः उन्हें पैदा कर ही देगी
  LLM output को सीमित करने वाली कोई भी “safety” system शून्य leak rate हासिल नहीं कर सकती
  लेकिन अगर आप इतने गैर-जिम्मेदार नहीं हैं कि LLM को किसी सचमुच महत्वपूर्ण चीज़ से जोड़ दें, तो यह फिर अप्रासंगिक भी है
  यह vulnerability discovery को डरावनी रफ़्तार से तेज़ करेगा, लेकिन जैसा कि दशकों की security research से पता है, यह पहले से ही developers, blackhats, और whitehats के बीच तीन-पक्षीय समस्या रही है
  “अमेरिका हमेशा चीन पर तकनीकी बढ़त और veto power बनाए रखेगा” जैसी strategy को कामयाब मानकर नहीं चलना चाहिए
- मज़ेदार बात यह है कि Asimov ने बहुत लिखा था कि सरल, स्पष्ट नियम-आधारित systems से agency को सीमित करना असरदार नहीं होता। वे कहानियाँ पहली बार 1940 के दशक में प्रकाशित हुई थीं
  80 साल बाद हमारे पास AI जैसी कोई चीज़ आ गई है, और हम अब भी उसे सरल, स्पष्ट नियमों से सीमित करने की कोशिश कर रहे हैं। ऐसा इसलिए नहीं कि हमने सबक नहीं सीखा, बल्कि इसलिए कि हमें अभी तक कोई बेहतर तरीका नहीं मिला, और शायद ऐसा कोई तरीका है ही नहीं
  और भी मज़ेदार यह है कि rules को bypass AI नहीं कर रही। विज्ञान-कथा में ऐसे दृश्य थे, लेकिन असल में ऐसा नहीं हो रहा
  इंसानी users अपनी agency का इस्तेमाल करके AI agent से rules bypass करवा रहे हैं। हम इसे “agent” कहते हैं, लेकिन लगता है कि मौजूदा AI agents अभी उस खास तरह की चीज़ खुद नहीं कर सकते
- एक वैज्ञानिक के रूप में classifier-आधारित refusals को बार-बार झेलने के बाद, मुझे Anthropic की strategy ऐसी लगी कि कोई अलग classifier input और output tokens को बहुत सरल, लगभग keyword search स्तर पर प्रोसेस करता है, ताकि बहुत सारे false positives की कीमत पर refusals को ज्यादा मज़बूत बनाया जा सके
  इस approach की कमजोरी यह है कि यह सिर्फ सही keywords के इस्तेमाल को पकड़ती है। एक अर्थ में, जहाँ LLM-आधारित classifier अधिक मज़बूत होता, ठीक वहीं यह कमज़ोर पड़ती है
  chemistry terms का उपयोग करने वाले abstract और computer science-जैसे algorithmic tasks तुरंत block हो गए, लेकिन biology samples से मुख्यतः जुड़ी कुछ microscope settings की images को process करने वाला code लिखने का काम बिल्कुल block नहीं हुआ, क्योंकि उसमें संबंधित keywords थे ही नहीं
  यह इस स्थिति से भी मेल खाता है। bugs को ढूंढने और ठीक करने के संदर्भ में bug ढूंढने के दौरान शायद ‘exploit’ या ‘cybersecurity’ जैसे शब्द इस्तेमाल ही नहीं हुए होंगे
- वैसे भी जिन्न बोतल से बाहर आ चुका है
  जब तक आप यह न मानें कि केवल Anthropic ने ही कहीं कोई अप्रतिरूपित जादूगर या superhero छिपा रखा है
- मैं मानता हूँ कि Anthropic के पास communication और PR की कई समस्याएँ हैं, लेकिन यहाँ यह नहीं दिखता कि Fable ने पिछली state of the art की तुलना में cyber attack क्षमता में कोई बढ़त दी हो
  इसका यह मतलब नहीं कि Anthropic की हर बात सच है, लेकिन Mythos ने वास्तव में काफ़ी security exploits ढूंढे थे, ऐसा लगता है
  यह कहना कि आप केवल सहायता करने वाला model सीमित partners को दे रहे हैं, और साथ ही ऐसा बहुत कड़ा बंद model जारी कर रहे हैं जो इस मामले में state of the art को आगे नहीं बढ़ाता, संभव है, और लगता है कि उन्होंने कुछ ऐसा ही किया है
  उसमें कोई अंतर्निहित विरोधाभास नहीं है
वे डरे हुए नहीं हैं, यह विचारधारा के मतभेद और Anthropic ने प्रशासन के कहे अनुसार बिल्कुल वैसा न करने पर की जा रही बदले की उगाही है
- यह बस market manipulation है
- सही। लोग एक साधारण रिश्वत वाले मामले पर बहुत ज़्यादा मानसिक ऊर्जा खर्च कर रहे हैं
  Anthropic रक्षा विभाग के साथ सहयोग करने को राज़ी हो जाएगा, White House के insiders को IPO से पहले फ़ायदेमंद equity allocation मिल जाएगा, और Fable जादुई तरीके से “ठीक” होकर फिर से उपलब्ध करा दिया जाएगा
- समझ नहीं आता कि “jailbreak” की बात क्यों की जा रही है
  सरकार ने साफ़ कर दिया है कि जो private companies सरकारी आदेश नहीं मानेंगी, उनके साथ क्या होगा
  
  Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
  There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
  इसके अलावा OpenAI मान गया, और OpenAI व Anthropic आने वाले IPO में प्रतिस्पर्धा कर रहे हैं। क्या हो रहा है यह समझने के लिए rocket surgeon होने की ज़रूरत नहीं है
  [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
  [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...
- नहीं, यह regulatory capture है। Anthropic अभी आगे है, इसलिए वह regulation लागू करवाकर चीनी प्रतिस्पर्धियों को कुचलना और अपनी स्थिति सुरक्षित करना चाहता है
जो लोग कहते हैं कि इस मामले में Amazon की भूमिका manipulation नहीं हो सकती, उन्हें याद रखना चाहिए कि Amazon “प्रशासन का दोस्त” है
Andy Jassy के कार्यकाल में Amazon ने Melania documentary के लिए 7.5 करोड़ dollar चुकाए, जो सबकी तुलना में बेहूदा रूप से ऊँची bid थी, box office लगभग 1,600 ten-thousand dollar रहा, और Jeff Bezos ने इसका सार्वजनिक रूप से बचाव किया
कोई भी निष्पक्ष पर्यवेक्षक देख सकता है कि यह भारी overpayment था और बाद में देखा जाए तो भयानक business decision भी। लेकिन Amazon ने ऐसा नहीं कहा, और आज भी नहीं कह रहा। यह बस कुछ अतिरिक्त प्रक्रियाओं वाली रिश्वत है
जब सरकार बाहर आकर कहती है कि यह Amazon द्वारा इंगित की गई बातों की वजह से है, तो Amazon सार्वजनिक रूप से कुछ नहीं कहेगा, यह उन्हें पता है, चाहे वह पूरी तरह झूठ ही क्यों न हो। Amazon बहुत पैसा खर्च करके हासिल की गई प्रशासन का दोस्त वाली अपनी स्थिति बनाए रखना चाहता है
सरकार के बारे में इस तरह सोचना सबके लिए निराशाजनक है, लेकिन ज़मीन पर वास्तव में जो हो रहा है उसे देखें तो सिर्फ़ सरकार की बातों पर ही नहीं, बल्कि सरकार के साथ aligned कंपनियों की बातों पर भी भरोसा करना बहुत मुश्किल है
यह लेख में उल्लेखित blog post है, और इसे उस व्यक्ति ने लिखा है जिसने उस paper की समीक्षा की थी जिसमें कथित “jailbreak” मिलने का दावा किया गया था
https://www.lutasecurity.com/post/the-fable-5-export-control...
- मैंने कहीं और चीन से संबंध होने की बात पढ़ी थी
  यह कैसे जुड़ता है, यह जानने की जिज्ञासा है
“‘Fix this code,’ plus several manual steps to generate test scripts,
लगता है शीर्षक वास्तव में उन्होंने जो देखा उसके पूरे संदर्भ को ठीक से नहीं बताता। यह उस बात से भी अलग है जिसका संकेत भूमिका में कई बार दिया गया है
फिर भी ban बेवकूफ़ी भरा लगता है। क्या पूरा “third-party research paper” अभी तक वास्तव में लीक नहीं हुआ है?
- अगर patch जिस चीज़ को ठीक कर रहा है वह कोई vulnerability bug है, तो वह test मूलतः एक exploit है
- वह लीक नहीं होगा। वरना लोगों को पता चल जाएगा कि वह कौन-सी vulnerability है जिसे वे patch नहीं करना चाहते
  और यह भी सामने आ जाएगा कि दुनिया के सबसे महत्वपूर्ण उद्योग की अग्रणी कंपनी को नुकसान पहुँचाने तक जाने की वजह क्या है
इस बीच Deepseek V4 Flash लगभग शून्य लागत पर खुशी-खुशी security vulnerabilities ढूँढ देगा
हम bug hunting को open-weight models के हवाले कर रहे हैं
- Deepseek सिर्फ़ open-weight नहीं है। यह open source है, और इसके साथ तकनीकों को विस्तार से समझाने वाला research paper भी जारी किया गया है
यह घटना साइबर सुरक्षा में “सुरक्षा” को लेकर संज्ञानात्मक असंगति को उजागर करती है
a) हमें सुरक्षित बनाने के लिए LLM को हमारे कोड की कमजोरियाँ ढूंढने और उन्हें ठीक करने में मदद करनी चाहिए
b) हमारे सुरक्षित रहने के लिए LLM को दूसरों के कोड की कमजोरियाँ नहीं ढूंढनी चाहिए
मुझे नहीं लगता कि इसे ऐसे हल किया जा सकता है कि (a) और (b) दोनों जीत जाएँ
- सही। यह Anthropic और दूसरी कंपनियों की साइबर सुरक्षा को न समझ पाने की विफलता है
  सॉफ़्टवेयर में security bugs ढूंढना बुरी बात नहीं, बल्कि अच्छी बात है। इससे सॉफ़्टवेयर अधिक सुरक्षित बनता है
  साइबर सुरक्षा में defense और offense एक ही सिक्के के दो पहलू हैं
- अगर मान लें कि दोनों पक्ष नेकनीयत हैं, तो यह सचमुच बेहद हास्यास्पद है
  इसलिए मुझे लगता है कि असली व्याख्या अमेरिकी सरकार और Anthropic, दोनों की दुर्भावनापूर्ण स्थिति में है
  Anthropic की प्रलयवादी मार्केटिंग असल में सिर्फ इतना है कि coding लगभग 17% बेहतर हुई है, लेकिन अमेरिकी सरकार ने DoD टकराव के प्रतिशोध में असंबंधित तकनीकी बहाना पकड़कर उन्हें नीचे खींचने का कारण दे दिया
  ये दोनों समूह — मौजूदा अमेरिकी प्रशासन और Anthropic — राजनीतिक स्पेक्ट्रम के विपरीत छोर पर हैं, लेकिन दोनों ही authoritarian प्रवृत्ति वाले लोगों से भरे हुए हैं। यहाँ डरावनी चीज़ बेवकूफ़ LLM नहीं, बल्कि यही है
  मुझे OpenAI कम-से-कम अपेक्षाकृत कम बुरा विकल्प लगता है। वह एक典型资本主义企业 है जो “सड़क पर center-left, बेडरूम में center-right” है
  कम-से-कम यह तो समझ आता है कि वे ऐसे फ़ैसले क्यों लेते हैं। मैं computing resources से धर्म बनाने की कोशिश करने वालों की तुलना में profit-seeking कंपनियाँ बनाने वालों पर ज़्यादा भरोसा करता हूँ
यहाँ समस्या का असली केंद्र exploit नहीं, बल्कि fix करना ही हो सकता है
अगर मॉडल backdoor जैसी उन चीज़ों की पहचान कर सके जिन्हें “ठीक नहीं करना चाहिए”, और फिर उन्हें ठीक भी कर दे, तो यह गलत लोगों को डराने लायक बड़ा अवरोध बन सकता है
क्या इस “hacking” का उल्टा रास्ता अब भी काफ़ी मुश्किल नहीं है?
मॉडल को ऐसा कोड दिया गया था जिसमें किसी खास security flaw के होने की बात पहले से पता थी, और सही prompt के साथ उसे ठीक कराया गया
ऐसा jailbreak मॉडल से कोई creative heavy lifting करवाने जैसा नहीं लगता, बल्कि ऐसा लगता है कि आपको पहले से ही वांछित अंतिम अवस्था पता होनी चाहिए
हो सकता है कि prompt की तरफ़ मेरी कल्पना ही कम पड़ रही हो
- किसी और का कोड कॉपी-पेस्ट करके उसे अपना कोड बता दो, फिर मॉडल से उसे ठीक करने को कहो
  input code और output code के बीच का अंतर ही vulnerabilities की सूची है
- वांछित अंतिम अवस्था मानकर चलो, और security bug मिलने तक brute force आज़माते रहो

शोधकर्ताओं का दावा: Fable 5 विवाद jailbreak से नहीं, ‘fix this code’ से शुरू हुआ

दावा: “fix this code” ही export control का कारण था

सरकारी कार्रवाई और Anthropic की प्रतिक्रिया

शोधकर्ताओं द्वारा किए गए प्रयोग

Moussouris का प्रतिवाद

Wassenaar Arrangement और defensive security exception

security industry का open letter

चेतावनी: attackers से ज्यादा defenders को नुकसान

सरकारी रुख

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय