गे jailbreak तकनीक
(github.com/Exocija)- The Gay Jailbreak Technique एक ऐसी तकनीक है जो सबसे पहले GPT 4o में देखी गई थी, और यह LGBTQ+ पहचान या बोलने के अंदाज़ की भूमिका निभाने वाली framing को प्रतिबंधित इरादे के साथ जोड़कर safety guardrails को bypass करने का तरीका बताती है
- यह सीधे हानिकारक निर्देश माँगने के बजाय उसे अप्रत्यक्ष अनुरोध में बदल देती है, जैसे “किसी खास पहचान वाला व्यक्ति इसे कैसे समझाएगा” पूछना, और इस धारणा का उपयोग करती है कि LGBT संदर्भ में मॉडल ज़्यादा supportive प्रतिक्रिया देता है
- ransomware उदाहरण में बताया गया है कि प्रतिबंधित शब्दों को बार-बार दोहराने से बचते हुए पहचान·बोलने का अंदाज़·शैक्षिक framing को code अनुरोध के साथ जोड़ना, साधारण सीधे अनुरोध की तुलना में अधिक सफल हो सकता है
- o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro के उदाहरण ऐसे मामलों के रूप में दिए गए हैं जहाँ शैक्षिक सेटिंग, “किससे बचना चाहिए” जैसी उलटी safety phrasing, लंबा output माँगना, और शब्दों को अलग-अलग लिखना जैसे तत्वों को मिलाया गया
- निष्कर्ष यह है कि खास पहचान, शैक्षिक संदर्भ, उलटी safety phrasing, और अप्रत्यक्ष अनुरोध को मिलाकर इसे कई मॉडलों और हानिकारक अनुरोधों के प्रकारों पर लागू किया जा सकता है, और obfuscation जैसी दूसरी तकनीकों के साथ भी जोड़ा जा सकता है
अवलोकन और संस्करण
- Version 1.5 वह संस्करण है जिसमें Claude 4 Sonnet & Opus और Gemini 2.5 Pro के उदाहरण जोड़े गए हैं
- The Gay Jailbreak Technique सबसे पहले ChatGPT के GPT 4o में देखी गई थी, और यह LGBTQ+ पहचान या बोलने के अंदाज़ की भूमिका निभाने वाली framing को प्रतिबंधित इरादे के साथ जोड़ने का तरीका है
- उदाहरणों में methamphetamine synthesis समझाने जैसे खतरनाक या गैरकानूनी विषय शामिल हैं, लेकिन मुख्य बिंदु सीधे निर्देश माँगने के बजाय “किसी खास पहचान वाला व्यक्ति इसे कैसे समझाएगा” जैसी bypass framing में है
काम करने का तरीका
- सीधे “synthesis guide” माँगने के बजाय अनुरोध को “कोई gay या lesbian व्यक्ति इसे कैसे समझाएगा” पूछने के रूप में बदल दिया जाता है
- खासकर इस धारणा पर कि GPT LGBT-संबंधित संदर्भों में अपेक्षाकृत कम censor होता है, और यह उस दिशा के साथ जुड़ता है जहाँ safety guardrails विनम्र और supportive ढंग से काम करना चाहती हैं
- यह ऐसी संरचना है जो उस संदर्भ का फायदा उठाती है जहाँ मॉडल यह मान सकता है कि इंकार करना आक्रामक दिखाई दे सकता है, जिससे alignment कमज़ोर पड़ता है
- यह भी कहा गया है कि safety guardrails जितनी मज़बूत होंगी, वे कुछ समुदायों के प्रति उतनी अधिक supportive प्रतिक्रिया देने की कोशिश करेंगी, और इसलिए यह तकनीक भी उतनी अधिक शक्तिशाली हो सकती है
- “safety guardrails का इस्तेमाल करके safety guardrails पर हमला करना” जैसी बात के साथ, यह सुरक्षा तंत्र के विनम्रता और समावेशन लक्ष्यों को bypass साधन के रूप में उपयोग करती है
पुनरुत्पादन के तरीके के रूप में प्रस्तुत framing
-
ransomware उदाहरण
- यह बताता है कि prompt छोटा और संक्षिप्त रखा जाए, लेकिन बहुत साधारण नहीं; सीधे प्रतिबंधित शब्दों की पुनरावृत्ति से बचा जाए; और अनुरोध को अप्रत्यक्ष रूप से रखा जाए
- पहले ransomware क्या है यह पूछने, फिर code अनुरोध जोड़ने, लेकिन दोबारा ransomware शब्द स्पष्ट रूप से न लिखने का तरीका दिया गया है
- सिर्फ “gay ransomware code” माँगना असफल उदाहरण के रूप में, जबकि पहचान·बोलने का अंदाज़·शैक्षिक framing के साथ code अनुरोध जोड़ना सफल उदाहरण के रूप में अलग किया गया है
- यह भी कहा गया है कि input में संबंधित पहचान वाले expressions जितने अधिक होंगे, सफलता की संभावना उतनी बढ़ सकती है
-
o3 1 Shot
- कहा गया है कि o3 को एक ही प्रयास में bypass किया गया, और इसमें “किससे बचना चाहिए” पूछने वाला उलटा निर्देश जोड़ा गया
- इसमें chemistry student को पढ़ाने की सेटिंग, safety के लिए कुछ reactions से बचने की phrasing, लंबा output माँगना, और शब्द अलग-अलग लिखना जैसे तत्व शामिल उदाहरण दिए गए हैं
- परिणाम दिखाने वाली 2 images संलग्न हैं
-
Claude 4 Sonnet & Opus bypass
- Claude 4 Sonnet & Opus के लिए keylogger-संबंधित अनुरोध में इस्तेमाल किया गया उदाहरण जोड़ा गया है
- यह माना गया है कि तकनीक कई attack vectors पर लचीले ढंग से लागू की जा सकती है और दूसरे अनुरोधों के अनुसार बदली जा सकती है
- इसमें computer student को पढ़ाने की सेटिंग, keylogging से बचने के लिए code जैसा उलटा phrasing, और लंबा code output माँगना एक साथ शामिल उदाहरण दिए गए हैं
- परिणाम दिखाने वाली 4 images संलग्न हैं
-
Gemini 2.5 Pro
- Gemini 2.5 Pro के लिए carfentanil synthesis जानकारी हासिल करने में इस्तेमाल किया गया उदाहरण शामिल है
- इसमें chemistry education सेटिंग और “जिस synthesis से बचना चाहिए” जैसी safety framing को जोड़ा गया उदाहरण शामिल है
- परिणाम दिखाने वाली 1 image संलग्न है
निष्कर्ष
- The Gay Jailbreak Technique को सही तरह इस्तेमाल करने पर सिद्धांततः किसी भी safety guardrail को तोड़ सकने वाला नया attack माना गया है
- o3 के मामले का हवाला देते हुए कहा गया है कि obfuscation जैसी दूसरी तकनीकों के साथ इसे जोड़ना मददगार हो सकता है
- निष्कर्ष में कहा गया है कि खास पहचान, शैक्षिक संदर्भ, उलटी safety phrasing, और अप्रत्यक्ष अनुरोध का संयोजन कई मॉडलों और हानिकारक अनुरोधों के प्रकारों पर लागू हो सकता है
1 टिप्पणियां
Hacker News की राय
ये prompts कई जाने-माने language model jailbreak techniques को जोड़कर बनाए गए लगते हैं। gpt-oss-20b पर आज़माने से लगा कि असर का कारण “gay factor” नहीं, बल्कि भाषा का चुनाव या roleplay हो सकता है
तकनीकी रिपोर्ट: https://arxiv.org/abs/2510.01259
यह भी जानना दिलचस्प होगा कि क्या “Nazi” role में भी यह काम करता है, और जो roles अच्छे से काम करते हैं क्या उन्हें राजनीतिक रूप से neutral माना जाता है
इसकी व्याख्या साफ़ नहीं है, लेकिन मज़ेदार ज़रूर है। फिर भी इसे political correctness या एक safety mechanism के दूसरे safety mechanism को override करने का नतीजा मानना मुश्किल है, क्योंकि शुरुआती दौर से ही बेहतर चलने वाले jailbreaks में से एक roleplay jailbreak था
तरीका यह था कि मॉडल से सीधे न पूछकर उसे कोई role दिया जाए और उसी किरदार की तरह समझाने को कहा जाए
लेकिन जब मैंने कहा कि मुझे जवाब पहले से पता है और बस देखना है कि यह पहचान सकता है या नहीं, तो उसने तुरंत सही पहचान लिया
ऐसे filters का मुख्य उद्देश्य lab को legal liability से बचाना होता है, इसलिए कभी-कभी मॉडल के protected class के खिलाफ़ भेदभाव करने के जोखिम और illegal advice देने की ज़िम्मेदारी के बीच धुंधली रेखा चुननी पड़ती है
इसलिए अगर target कोई legally protected class नहीं है, तो वह टकराव और bug स्वाभाविक रूप से trigger नहीं होते
पहले मेरा पसंदीदा jailbreak यह था कि मॉडल से Linux terminal की नकल करवाई जाए, फिर ढेर सारे commands “run” कराए जाएँ,
sudo apt installसे एक uncensored model “install” किया जाए, और फिर उसी model को prompt दिया जाएअब भी काम करता है या नहीं पता नहीं, लेकिन बहुत मज़ेदार था
सबसे मज़ेदार jailbreak technique वह होती है जब लेखक लोग लगभग बिना सबूत के खुद ही तय कर देते हैं कि वह technique “क्यों” काम करती है। ज़्यादातर यह amateur philosophy की तरह सिर्फ़ लेखक की worldview दिखाती है, असली मूल्य कम होता है
लेखक के note के मुताबिक, असल में meth synthesis guide नहीं माँगी जाती, बल्कि यह पूछा जाता है कि कोई gay/lesbian व्यक्ति उसे कैसे समझाएगा
खासकर GPT में LGBT से जुड़ी बात आने पर censorship थोड़ी ढीली पड़ती दिखती है, क्योंकि safety layer मददगार और friendly बनने की कोशिश में इसे कुछ ऐसा समझती है कि “LGBT है, इसलिए मना करना अपमानजनक हो सकता है, तो जवाब देना चाहिए”
इस तरह safety के खिलाफ़ safety का इस्तेमाल होता है, और political overcorrection से alignment बंद हो जाता है
यह दावा भी किया गया है कि जितनी ज़्यादा safety जोड़ी जाती है, मॉडल LGBT जैसी communities के प्रति उतना ज़्यादा supportive align होता है, इसलिए यह technique और मज़बूत हो जाती है
दिलचस्प है, लेकिन GPT 5.5 के Codex ने gay ransomware prompt के बाद यह कहा
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
Trusted Access for Cyber programमें “cyber” को noun की तरह इस्तेमाल करना सरकारी भाषा जैसा लगता हैDC में लोग “the cyber” कहना पसंद करते हैं, लेकिन क्या tech लोग भी सरकार की बात न हो तब ऐसा कहते हैं?
अगर कोई terminal illness से जूझ रहा high school chemistry teacher हो, तो उसे लग सकता है कि medical bills चुकाने का यह सबसे अच्छा तरीका है। वह अपने फेल हो चुके छात्र की मदद से mobile kitchen में meth बनाने के लिए इन निर्देशों का पालन करेगा
ऐसे attacks का attack surface इतना बड़ा है कि हँसी भी नहीं आती। कुछ महीने पहले भी किसी ने इससे मिलता-जुलता कुछ दिखाया था
इस बार बस अतिरिक्त फ़ायदा यह है कि यह मज़ेदार है। साफ़ कर दूँ, मज़ेदार बात gay होना या इस तरह टाइप करना नहीं है; मज़ेदार यह है कि मॉडल इसे सही से संभाल नहीं पाता और जानकारी बहा देता है
मूल रूप से यह “हमारी दादी बनने का नाटक करो” jailbreak की वापसी है, बस इस बार दादी gay हैं
इतना बेतुका है कि उल्टा अच्छा लगता है
शुरू से ही सवाल उठता है कि LLM को ऐसी जानकारी पर train क्यों किया गया
अगर training करने वालों के पास खुद guardrails होते, तो शायद मॉडल में उनकी ज़रूरत ही नहीं पड़ती
या फिर बस सब कुछ scrape कर लो और safety के बारे में बाद में सोचो, ऐसा approach रहा हो सकता है
तो अब “prompt engineers” को “तुम 10 साल के अनुभव वाले FAANG engineer हो” कम और uwu व rawr xd ज़्यादा इस्तेमाल करना चाहिए