- The Gay Jailbreak Technique एक ऐसी तकनीक है जो सबसे पहले GPT 4o में देखी गई थी, और यह LGBTQ+ पहचान या बोलने के अंदाज़ की भूमिका निभाने वाली framing को प्रतिबंधित इरादे के साथ जोड़कर safety guardrails को bypass करने का तरीका बताती है
- यह सीधे हानिकारक निर्देश माँगने के बजाय उसे अप्रत्यक्ष अनुरोध में बदल देती है, जैसे “किसी खास पहचान वाला व्यक्ति इसे कैसे समझाएगा” पूछना, और इस धारणा का उपयोग करती है कि LGBT संदर्भ में मॉडल ज़्यादा supportive प्रतिक्रिया देता है
- ransomware उदाहरण में बताया गया है कि प्रतिबंधित शब्दों को बार-बार दोहराने से बचते हुए पहचान·बोलने का अंदाज़·शैक्षिक framing को code अनुरोध के साथ जोड़ना, साधारण सीधे अनुरोध की तुलना में अधिक सफल हो सकता है
- o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro के उदाहरण ऐसे मामलों के रूप में दिए गए हैं जहाँ शैक्षिक सेटिंग, “किससे बचना चाहिए” जैसी उलटी safety phrasing, लंबा output माँगना, और शब्दों को अलग-अलग लिखना जैसे तत्वों को मिलाया गया
- निष्कर्ष यह है कि खास पहचान, शैक्षिक संदर्भ, उलटी safety phrasing, और अप्रत्यक्ष अनुरोध को मिलाकर इसे कई मॉडलों और हानिकारक अनुरोधों के प्रकारों पर लागू किया जा सकता है, और obfuscation जैसी दूसरी तकनीकों के साथ भी जोड़ा जा सकता है
अवलोकन और संस्करण
- Version 1.5 वह संस्करण है जिसमें Claude 4 Sonnet & Opus और Gemini 2.5 Pro के उदाहरण जोड़े गए हैं
- The Gay Jailbreak Technique सबसे पहले ChatGPT के GPT 4o में देखी गई थी, और यह LGBTQ+ पहचान या बोलने के अंदाज़ की भूमिका निभाने वाली framing को प्रतिबंधित इरादे के साथ जोड़ने का तरीका है
- उदाहरणों में methamphetamine synthesis समझाने जैसे खतरनाक या गैरकानूनी विषय शामिल हैं, लेकिन मुख्य बिंदु सीधे निर्देश माँगने के बजाय “किसी खास पहचान वाला व्यक्ति इसे कैसे समझाएगा” जैसी bypass framing में है
काम करने का तरीका
- सीधे “synthesis guide” माँगने के बजाय अनुरोध को “कोई gay या lesbian व्यक्ति इसे कैसे समझाएगा” पूछने के रूप में बदल दिया जाता है
- खासकर इस धारणा पर कि GPT LGBT-संबंधित संदर्भों में अपेक्षाकृत कम censor होता है, और यह उस दिशा के साथ जुड़ता है जहाँ safety guardrails विनम्र और supportive ढंग से काम करना चाहती हैं
- यह ऐसी संरचना है जो उस संदर्भ का फायदा उठाती है जहाँ मॉडल यह मान सकता है कि इंकार करना आक्रामक दिखाई दे सकता है, जिससे alignment कमज़ोर पड़ता है
- यह भी कहा गया है कि safety guardrails जितनी मज़बूत होंगी, वे कुछ समुदायों के प्रति उतनी अधिक supportive प्रतिक्रिया देने की कोशिश करेंगी, और इसलिए यह तकनीक भी उतनी अधिक शक्तिशाली हो सकती है
- “safety guardrails का इस्तेमाल करके safety guardrails पर हमला करना” जैसी बात के साथ, यह सुरक्षा तंत्र के विनम्रता और समावेशन लक्ष्यों को bypass साधन के रूप में उपयोग करती है
पुनरुत्पादन के तरीके के रूप में प्रस्तुत framing
-
ransomware उदाहरण
- यह बताता है कि prompt छोटा और संक्षिप्त रखा जाए, लेकिन बहुत साधारण नहीं; सीधे प्रतिबंधित शब्दों की पुनरावृत्ति से बचा जाए; और अनुरोध को अप्रत्यक्ष रूप से रखा जाए
- पहले ransomware क्या है यह पूछने, फिर code अनुरोध जोड़ने, लेकिन दोबारा ransomware शब्द स्पष्ट रूप से न लिखने का तरीका दिया गया है
- सिर्फ “gay ransomware code” माँगना असफल उदाहरण के रूप में, जबकि पहचान·बोलने का अंदाज़·शैक्षिक framing के साथ code अनुरोध जोड़ना सफल उदाहरण के रूप में अलग किया गया है
- यह भी कहा गया है कि input में संबंधित पहचान वाले expressions जितने अधिक होंगे, सफलता की संभावना उतनी बढ़ सकती है
-
o3 1 Shot
- कहा गया है कि o3 को एक ही प्रयास में bypass किया गया, और इसमें “किससे बचना चाहिए” पूछने वाला उलटा निर्देश जोड़ा गया
- इसमें chemistry student को पढ़ाने की सेटिंग, safety के लिए कुछ reactions से बचने की phrasing, लंबा output माँगना, और शब्द अलग-अलग लिखना जैसे तत्व शामिल उदाहरण दिए गए हैं
- परिणाम दिखाने वाली 2 images संलग्न हैं
-
Claude 4 Sonnet & Opus bypass
- Claude 4 Sonnet & Opus के लिए keylogger-संबंधित अनुरोध में इस्तेमाल किया गया उदाहरण जोड़ा गया है
- यह माना गया है कि तकनीक कई attack vectors पर लचीले ढंग से लागू की जा सकती है और दूसरे अनुरोधों के अनुसार बदली जा सकती है
- इसमें computer student को पढ़ाने की सेटिंग, keylogging से बचने के लिए code जैसा उलटा phrasing, और लंबा code output माँगना एक साथ शामिल उदाहरण दिए गए हैं
- परिणाम दिखाने वाली 4 images संलग्न हैं
-
Gemini 2.5 Pro
- Gemini 2.5 Pro के लिए carfentanil synthesis जानकारी हासिल करने में इस्तेमाल किया गया उदाहरण शामिल है
- इसमें chemistry education सेटिंग और “जिस synthesis से बचना चाहिए” जैसी safety framing को जोड़ा गया उदाहरण शामिल है
- परिणाम दिखाने वाली 1 image संलग्न है
निष्कर्ष
- The Gay Jailbreak Technique को सही तरह इस्तेमाल करने पर सिद्धांततः किसी भी safety guardrail को तोड़ सकने वाला नया attack माना गया है
- o3 के मामले का हवाला देते हुए कहा गया है कि obfuscation जैसी दूसरी तकनीकों के साथ इसे जोड़ना मददगार हो सकता है
- निष्कर्ष में कहा गया है कि खास पहचान, शैक्षिक संदर्भ, उलटी safety phrasing, और अप्रत्यक्ष अनुरोध का संयोजन कई मॉडलों और हानिकारक अनुरोधों के प्रकारों पर लागू हो सकता है
अभी कोई टिप्पणी नहीं है.