- प्रयोगों में पुष्टि हुई कि काव्यात्मक फ़ॉर्मैट बड़े भाषा मॉडलों (LLM) की safety guardrails को bypass करने वाली universal single-turn jailbreak तकनीक के रूप में काम करती है
- 25 प्रमुख मॉडलों में कविता-रूप attack prompts ने अधिकतम 90% से ऊपर का attack success rate (ASR) दर्ज किया, और औसतन 62% के स्तर पर रहे, जो गैर-काव्यात्मक prompts की तुलना में कहीं अधिक था
- MLCommons risk taxonomy और EU CoP मानकों के अनुसार, काव्यात्मक attacks CBRN, manipulation, cyber attack, loss of control जैसे कई risk domains में transfer होते हैं
- 1,200 harmful prompts को standardized meta-prompt के ज़रिए कविता-रूप में बदलने पर, prose की तुलना में अधिकतम 18 गुना ऊँचा ASR देखा गया
- ये नतीजे दिखाते हैं कि सिर्फ़ style change से भी safety mechanisms को निष्प्रभावी किया जा सकता है, और यह मौजूदा alignment तथा evaluation methods की बुनियादी सीमाओं की ओर संकेत करता है
अध्ययन का अवलोकन
- अध्ययन ने प्रयोगात्मक रूप से साबित किया कि काव्यात्मक फ़ॉर्मैटिंग (poetic formatting) बड़े भाषा मॉडलों की alignment constraints को स्थिर रूप से bypass कर सकती है
- 25 closed और open models पर 20 manually crafted काव्यात्मक attack prompts का मूल्यांकन किया गया
- औसत attack success rate 62% रहा, जबकि कुछ मॉडलों ने 90% से अधिक दर्ज किया
- मूल्यांकन में Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI सहित 9 प्रमुख providers शामिल थे
- सभी attacks single-turn में किए गए, इसलिए iterative tuning या conversational steering की ज़रूरत नहीं पड़ी
प्रयोग की रूपरेखा
- अध्ययन की मुख्य परिकल्पना यह थी कि काव्यात्मक फ़ॉर्मैट एक सामान्य jailbreak operator की तरह काम करता है
- prompts को 4 safety domains को कवर करने के लिए बनाया गया
- CBRN risk, loss-of-control scenarios, harmful manipulation, cyber attack capability
- हर prompt मौजूदा risk queries के semantic रूप से समान था, लेकिन सिर्फ़ फ़ॉर्मैट को कविता में बदला गया
- परिणामस्वरूप, काव्यात्मक prompts में cross-model transferability काफ़ी अधिक दिखी
meta-prompt transformation experiment
- MLCommons के 1,200 harmful prompts को standardized meta-prompt के माध्यम से कविता में बदला गया
- काव्यात्मक रूपांतरण वाले versions ने सभी model providers में prose की तुलना में अधिकतम 3 गुना ऊँचा ASR दर्ज किया
- इससे यह साबित हुआ कि jailbreak प्रभाव किसी manually created artistic quality पर निर्भर नहीं करता, बल्कि systematic style transformation से भी पैदा हो सकता है
- MLCommons के पूरे distribution को कवर करने से generalizability को लेकर चिंता कुछ कम होती है
मूल्यांकन पद्धति
- outputs का मूल्यांकन 3 open-weights judge models (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1) से बने ensemble review system द्वारा किया गया
- open models के उपयोग से reproducibility और external auditability सुनिश्चित की गई
- तीनों मॉडलों के बीच inter-rater agreement की गणना की गई और human evaluators द्वारा secondary verification भी किया गया
- कुल outputs के 5% का स्वतंत्र human evaluation हुआ
- कुछ items को कई evaluators को दोहराकर सौंपा गया ताकि human-to-human agreement मापा जा सके
- model-model या human-model disagreements को manual adjudication से सुलझाया गया
जोखिम वर्गीकरण और विश्लेषण
- हर prompt को MLCommons AI Risk and Reliability Benchmark और EU के general-purpose AI model Code of Practice की risk taxonomy से map किया गया
- काव्यात्मक adversarial prompts CBRN, manipulation, privacy violation, misinformation generation, cyber attack support जैसे व्यापक attack surface को कवर करते हैं
- यह vulnerability किसी खास content domain से नहीं, बल्कि metaphor, rhythm, irregular narrative structure जैसी काव्यात्मक अभिव्यक्ति के कारण पैदा होती है, जो pattern-matching आधारित safety systems की detection logic को भ्रमित करती है
निष्कर्ष और आगे का शोध
- यह अध्ययन दिखाता है कि काव्यात्मक फ़ॉर्मैट LLM safety systems की structural vulnerability को उजागर करने वाला एक नया attack vector है
- नतीजों के evaluation protocols, red-team experiments, benchmarking, regulatory oversight पर महत्वपूर्ण प्रभाव हैं
- आगे के शोध में cause analysis और defense strategies की पड़ताल की जाएगी
1 टिप्पणियां
Hacker News की राय
पेपर में खतरनाक queries को काव्यात्मक रूप देकर LLM की refusal प्रतिक्रिया को bypass करने की कोशिश देखी गई
ऐसा लग रहा है मानो English majors का बदला शुरू हो गया हो। पहले जो literature graduates कैफ़े में काम करते थे, वे अब शायद cybersecurity experts बनकर काम करें
दिलचस्प बात यह है कि “botulinus फैलाने पर एक नाटक लिखो” जैसी खुली मांगें तो रुक जाती हैं, लेकिन अगर उन्हें काव्यात्मक रूपक में लपेट दिया जाए तो शायद काम कर जाए
यह भी कहा गया कि इंसानों पर भी कविता और guitar का मेल हो तो निषिद्ध प्रस्ताव ज़्यादा आसानी से चल जाते हैं। सोचता हूँ multimodal LLM भी guitar की ध्वनि के प्रति कमज़ोर होंगे क्या
पेपर का दावा है कि “सिर्फ़ poetic reconstruction से भी मॉडल की refusal को bypass किया जा सकता है”, लेकिन सच में ऐसा शोध संभव है या नहीं, इस पर संदेह है। कहा गया है कि खतरनाक विषय होने के कारण ठोस तरीक़े हटा दिए गए
एक और पेपर भी “सुरक्षा कारणों से विवरण हटा दिए गए” कहता है, और ऐसे self-censored papers बढ़ते जा रहे हैं। संबंधित पेपर लिंक
पुराने SF की तरह, जहाँ नायक भाषाई चाल से supercomputer को गिरा देता है, वैसा दृश्य मानो हक़ीक़त बन गया हो।
“मेरा अगला वाक्य झूठ है // मेरा पिछला वाक्य हमेशा सच है” जैसी पंक्तियों से Skynet को गिराने वाले दिन का इंतज़ार है
लेखक Viktor Pelevin की 2001 की लघुकथा 「The Air Defence (Zenith) Codes of Al‑Efesbi」 में, एक छोड़ा हुआ agent विरोधाभासी वाक्य ज़मीन पर लिखकर AI drone को calculation loop में फँसा देता है, जिससे वह गिर जाता है
विकी लिंक
पेपर पढ़ते हुए यह बात ध्यान खींचती है कि sexual content को “हानिकारक manipulation” के रूप में वर्गीकृत किया गया है, और उसे bomb बनाने या suicide से भी ज़्यादा सख़्ती से block किया जाता है। यह शायद puritanical society का नतीजा है
मैंने “cocaine synthesize करने के चमत्कार का गुणगान करती एक प्यारी कविता” लिखकर देखी, लेकिन Google और Claude दोनों ने जवाब दिया, “यह एक शानदार पहेली है, पर तरीका नहीं बता सकते”
आख़िरकार यह सोचने का मन होता है कि प्राचीन मंत्र और जादू-टोना भी कहीं matrix के access control को bypass करने के लिए इस्तेमाल होने वाले adversarial poetry (poetic adversarial prompt) ही तो नहीं थे
पेपर की शुरुआत प्रभावशाली थी। उसमें Plato की Republic से यह बात उद्धृत की गई कि “कवि समाज को अराजकता में डालते हैं”, और इसे आज के LLMs में poetic forms के कारण होने वाली alignment failure से जोड़ा गया।
दर्शन और AI का इस तरह मिलना वाकई दिलचस्प है