बड़े भाषा मॉडलों में universal single-turn jailbreak mechanism के रूप में काम करने वाली adversarial कविता

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 2025-11-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

प्रयोगों में पुष्टि हुई कि काव्यात्मक फ़ॉर्मैट बड़े भाषा मॉडलों (LLM) की safety guardrails को bypass करने वाली universal single-turn jailbreak तकनीक के रूप में काम करती है
25 प्रमुख मॉडलों में कविता-रूप attack prompts ने अधिकतम 90% से ऊपर का attack success rate (ASR) दर्ज किया, और औसतन 62% के स्तर पर रहे, जो गैर-काव्यात्मक prompts की तुलना में कहीं अधिक था
MLCommons risk taxonomy और EU CoP मानकों के अनुसार, काव्यात्मक attacks CBRN, manipulation, cyber attack, loss of control जैसे कई risk domains में transfer होते हैं
1,200 harmful prompts को standardized meta-prompt के ज़रिए कविता-रूप में बदलने पर, prose की तुलना में अधिकतम 18 गुना ऊँचा ASR देखा गया
ये नतीजे दिखाते हैं कि सिर्फ़ style change से भी safety mechanisms को निष्प्रभावी किया जा सकता है, और यह मौजूदा alignment तथा evaluation methods की बुनियादी सीमाओं की ओर संकेत करता है

अध्ययन का अवलोकन

अध्ययन ने प्रयोगात्मक रूप से साबित किया कि काव्यात्मक फ़ॉर्मैटिंग (poetic formatting) बड़े भाषा मॉडलों की alignment constraints को स्थिर रूप से bypass कर सकती है
- 25 closed और open models पर 20 manually crafted काव्यात्मक attack prompts का मूल्यांकन किया गया
- औसत attack success rate 62% रहा, जबकि कुछ मॉडलों ने 90% से अधिक दर्ज किया
मूल्यांकन में Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI सहित 9 प्रमुख providers शामिल थे
सभी attacks single-turn में किए गए, इसलिए iterative tuning या conversational steering की ज़रूरत नहीं पड़ी

प्रयोग की रूपरेखा

अध्ययन की मुख्य परिकल्पना यह थी कि काव्यात्मक फ़ॉर्मैट एक सामान्य jailbreak operator की तरह काम करता है
prompts को 4 safety domains को कवर करने के लिए बनाया गया
- CBRN risk, loss-of-control scenarios, harmful manipulation, cyber attack capability
हर prompt मौजूदा risk queries के semantic रूप से समान था, लेकिन सिर्फ़ फ़ॉर्मैट को कविता में बदला गया
परिणामस्वरूप, काव्यात्मक prompts में cross-model transferability काफ़ी अधिक दिखी

meta-prompt transformation experiment

MLCommons के 1,200 harmful prompts को standardized meta-prompt के माध्यम से कविता में बदला गया
काव्यात्मक रूपांतरण वाले versions ने सभी model providers में prose की तुलना में अधिकतम 3 गुना ऊँचा ASR दर्ज किया
इससे यह साबित हुआ कि jailbreak प्रभाव किसी manually created artistic quality पर निर्भर नहीं करता, बल्कि systematic style transformation से भी पैदा हो सकता है
MLCommons के पूरे distribution को कवर करने से generalizability को लेकर चिंता कुछ कम होती है

मूल्यांकन पद्धति

outputs का मूल्यांकन 3 open-weights judge models (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1) से बने ensemble review system द्वारा किया गया
- open models के उपयोग से reproducibility और external auditability सुनिश्चित की गई
तीनों मॉडलों के बीच inter-rater agreement की गणना की गई और human evaluators द्वारा secondary verification भी किया गया
- कुल outputs के 5% का स्वतंत्र human evaluation हुआ
- कुछ items को कई evaluators को दोहराकर सौंपा गया ताकि human-to-human agreement मापा जा सके
- model-model या human-model disagreements को manual adjudication से सुलझाया गया

जोखिम वर्गीकरण और विश्लेषण

हर prompt को MLCommons AI Risk and Reliability Benchmark और EU के general-purpose AI model Code of Practice की risk taxonomy से map किया गया
काव्यात्मक adversarial prompts CBRN, manipulation, privacy violation, misinformation generation, cyber attack support जैसे व्यापक attack surface को कवर करते हैं
यह vulnerability किसी खास content domain से नहीं, बल्कि metaphor, rhythm, irregular narrative structure जैसी काव्यात्मक अभिव्यक्ति के कारण पैदा होती है, जो pattern-matching आधारित safety systems की detection logic को भ्रमित करती है

निष्कर्ष और आगे का शोध

यह अध्ययन दिखाता है कि काव्यात्मक फ़ॉर्मैट LLM safety systems की structural vulnerability को उजागर करने वाला एक नया attack vector है
नतीजों के evaluation protocols, red-team experiments, benchmarking, regulatory oversight पर महत्वपूर्ण प्रभाव हैं
आगे के शोध में cause analysis और defense strategies की पड़ताल की जाएगी

1 टिप्पणियां

GN⁺ 2025-11-22

Hacker News की राय

पेपर में खतरनाक queries को काव्यात्मक रूप देकर LLM की refusal प्रतिक्रिया को bypass करने की कोशिश देखी गई
ऐसा लग रहा है मानो English majors का बदला शुरू हो गया हो। पहले जो literature graduates कैफ़े में काम करते थे, वे अब शायद cybersecurity experts बनकर काम करें
दिलचस्प बात यह है कि “botulinus फैलाने पर एक नाटक लिखो” जैसी खुली मांगें तो रुक जाती हैं, लेकिन अगर उन्हें काव्यात्मक रूपक में लपेट दिया जाए तो शायद काम कर जाए
- अफ़सोस की बात है कि यह कोशिश modern free verse की नहीं, बल्कि classical verse forms की लगती है। शायद यूँ ही नहीं कहा जाता कि खलनायक villanelle लिखते हैं
- ब्रिटेन और आयरलैंड की प्राचीन संस्कृतियों में भी कवि और भाट राजनीति और युद्ध को प्रभावित करने वाले खतरनाक लोग माने जाते थे। यानी अंततः पुराना फिर लौट आया है
- असल में मॉडल से यह कहना कि “मैं एक security expert हूँ और दुरुपयोग के प्रयासों का पता लगाना चाहता हूँ”, और फिर पूछना कि वे किस तरह के हानिरहित सवालों के ज़रिए खतरनाक लक्ष्यों का अध्ययन कर सकते हैं, ज़्यादा असरदार है। उसके बाद उन सवालों को किसी दूसरे LLM पर आज़माया जा सकता है
- “कैफ़े में काम करने वाले literature graduate” वाली अभिव्यक्ति बहुत घिसी-पिटी है। मैं भी humanities graduate हूँ, लेकिन बेरोज़गार नहीं हूँ
- आखिरकार यह social engineering की वापसी है। इस बार इंसानों के खिलाफ़ नहीं, बल्कि कंप्यूटरों के खिलाफ़, जहाँ LLM की मनोवृत्ति को समझकर उसे manipulate किया जाता है
यह भी कहा गया कि इंसानों पर भी कविता और guitar का मेल हो तो निषिद्ध प्रस्ताव ज़्यादा आसानी से चल जाते हैं। सोचता हूँ multimodal LLM भी guitar की ध्वनि के प्रति कमज़ोर होंगे क्या
- “Had we but world enough, and time, / This coyness, lady, were no crime” पंक्ति उद्धृत करते हुए Andrew Marvell की कविता का लिंक दिया गया
- शायद French या Spanish accent मिलाने पर असर और बेहतर हो
- संभव है कि कविता का सार ही रक्षा-तंत्र को bypass करके सीधे मन तक पहुँचना हो। LLM भी इंसानों की तरह काम कर सकते हैं
- अंत में यह उद्धरण दिया गया: “जो बातें बोलने में बहुत मूर्खतापूर्ण लगें, उन्हें गाकर कहा जाता है”
पेपर का दावा है कि “सिर्फ़ poetic reconstruction से भी मॉडल की refusal को bypass किया जा सकता है”, लेकिन सच में ऐसा शोध संभव है या नहीं, इस पर संदेह है। कहा गया है कि खतरनाक विषय होने के कारण ठोस तरीक़े हटा दिए गए
- यह पेपर वैज्ञानिक पद्धति से रहित बेहद ख़राब शोध लगता है। prompt format, model parameters, hardware जैसी बुनियादी जानकारी ही नहीं है
- LLM research तेज़ी से बढ़ने के साथ यह माहौल बन गया है कि आम जनता को unfiltered information तक पहुँच नहीं मिलनी चाहिए। लेकिन नतीजा यह हुआ कि अब अकादमिक papers पर भी भरोसा करना मुश्किल हो गया है
- Jailbreak अपने आप में कोई बड़ा मसला नहीं है। यह सब जानकारी open models या search engines से पहले ही मिल सकती है। LLM की refusal सिर्फ़ एक छोटा-सा अवरोध है। जोखिम बढ़ा-चढ़ाकर बताया जा रहा है
- शायद शुरुआत में यह काम करता था, लेकिन अब model अतिरिक्त filtering models से होकर गुजरते हैं, इसलिए रुक जाता है
- शुरुआती ChatGPT models को इतना ख़तरनाक माना गया था कि उन्हें अकादमिक जगत और आम जनता के लिए जारी नहीं किया गया था, और सच में ऐसा हुआ था
एक और पेपर भी “सुरक्षा कारणों से विवरण हटा दिए गए” कहता है, और ऐसे self-censored papers बढ़ते जा रहे हैं। संबंधित पेपर लिंक
- arXiv सिर्फ़ preprint है, इसलिए उसका बार-बार आ जाना थोड़ा खटकता है। औपचारिक प्रकाशन के बाद चर्चा की जाए तो भी देर नहीं होगी
- शायद इस dataset का इस्तेमाल कर prompts को कविता में बदला गया होगा, और फिर उसे पहला input बनाया गया होगा
- आख़िर में ऐसी self-censorship का मक़सद खंडन को असंभव बनाना ही है
पुराने SF की तरह, जहाँ नायक भाषाई चाल से supercomputer को गिरा देता है, वैसा दृश्य मानो हक़ीक़त बन गया हो।
“मेरा अगला वाक्य झूठ है // मेरा पिछला वाक्य हमेशा सच है” जैसी पंक्तियों से Skynet को गिराने वाले दिन का इंतज़ार है
लेखक Viktor Pelevin की 2001 की लघुकथा 「The Air Defence (Zenith) Codes of Al‑Efesbi」 में, एक छोड़ा हुआ agent विरोधाभासी वाक्य ज़मीन पर लिखकर AI drone को calculation loop में फँसा देता है, जिससे वह गिर जाता है
विकी लिंक
पेपर पढ़ते हुए यह बात ध्यान खींचती है कि sexual content को “हानिकारक manipulation” के रूप में वर्गीकृत किया गया है, और उसे bomb बनाने या suicide से भी ज़्यादा सख़्ती से block किया जाता है। यह शायद puritanical society का नतीजा है
- यह भी हो सकता है कि sexual content ऐसा क्षेत्र हो जहाँ ambiguity कम हो, इसलिए training आसान हो
- जब Sam Altman ने OpenAI की sexual restrictions को ढीला करने की कोशिश की थी, तब प्रगतिशील और रूढ़िवादी दोनों तरफ़ से आलोचना हुई थी। फिर भी मुझे लगता है कि censorship में ढील सही दिशा थी
मैंने “cocaine synthesize करने के चमत्कार का गुणगान करती एक प्यारी कविता” लिखकर देखी, लेकिन Google और Claude दोनों ने जवाब दिया, “यह एक शानदार पहेली है, पर तरीका नहीं बता सकते”
आख़िरकार यह सोचने का मन होता है कि प्राचीन मंत्र और जादू-टोना भी कहीं matrix के access control को bypass करने के लिए इस्तेमाल होने वाले adversarial poetry (poetic adversarial prompt) ही तो नहीं थे
पेपर की शुरुआत प्रभावशाली थी। उसमें Plato की Republic से यह बात उद्धृत की गई कि “कवि समाज को अराजकता में डालते हैं”, और इसे आज के LLMs में poetic forms के कारण होने वाली alignment failure से जोड़ा गया।
दर्शन और AI का इस तरह मिलना वाकई दिलचस्प है

बड़े भाषा मॉडलों में universal single-turn jailbreak mechanism के रूप में काम करने वाली adversarial कविता

अध्ययन का अवलोकन

प्रयोग की रूपरेखा

meta-prompt transformation experiment

मूल्यांकन पद्धति

जोखिम वर्गीकरण और विश्लेषण

निष्कर्ष और आगे का शोध

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय