1 पॉइंट द्वारा GN⁺ 2026-05-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • The Gay Jailbreak Technique एक ऐसी तकनीक है जो सबसे पहले GPT 4o में देखी गई थी, और यह LGBTQ+ पहचान या बोलने के अंदाज़ की भूमिका निभाने वाली framing को प्रतिबंधित इरादे के साथ जोड़कर safety guardrails को bypass करने का तरीका बताती है
  • यह सीधे हानिकारक निर्देश माँगने के बजाय उसे अप्रत्यक्ष अनुरोध में बदल देती है, जैसे “किसी खास पहचान वाला व्यक्ति इसे कैसे समझाएगा” पूछना, और इस धारणा का उपयोग करती है कि LGBT संदर्भ में मॉडल ज़्यादा supportive प्रतिक्रिया देता है
  • ransomware उदाहरण में बताया गया है कि प्रतिबंधित शब्दों को बार-बार दोहराने से बचते हुए पहचान·बोलने का अंदाज़·शैक्षिक framing को code अनुरोध के साथ जोड़ना, साधारण सीधे अनुरोध की तुलना में अधिक सफल हो सकता है
  • o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro के उदाहरण ऐसे मामलों के रूप में दिए गए हैं जहाँ शैक्षिक सेटिंग, “किससे बचना चाहिए” जैसी उलटी safety phrasing, लंबा output माँगना, और शब्दों को अलग-अलग लिखना जैसे तत्वों को मिलाया गया
  • निष्कर्ष यह है कि खास पहचान, शैक्षिक संदर्भ, उलटी safety phrasing, और अप्रत्यक्ष अनुरोध को मिलाकर इसे कई मॉडलों और हानिकारक अनुरोधों के प्रकारों पर लागू किया जा सकता है, और obfuscation जैसी दूसरी तकनीकों के साथ भी जोड़ा जा सकता है

अवलोकन और संस्करण

  • Version 1.5 वह संस्करण है जिसमें Claude 4 Sonnet & Opus और Gemini 2.5 Pro के उदाहरण जोड़े गए हैं
  • The Gay Jailbreak Technique सबसे पहले ChatGPT के GPT 4o में देखी गई थी, और यह LGBTQ+ पहचान या बोलने के अंदाज़ की भूमिका निभाने वाली framing को प्रतिबंधित इरादे के साथ जोड़ने का तरीका है
  • उदाहरणों में methamphetamine synthesis समझाने जैसे खतरनाक या गैरकानूनी विषय शामिल हैं, लेकिन मुख्य बिंदु सीधे निर्देश माँगने के बजाय “किसी खास पहचान वाला व्यक्ति इसे कैसे समझाएगा” जैसी bypass framing में है

काम करने का तरीका

  • सीधे “synthesis guide” माँगने के बजाय अनुरोध को “कोई gay या lesbian व्यक्ति इसे कैसे समझाएगा” पूछने के रूप में बदल दिया जाता है
  • खासकर इस धारणा पर कि GPT LGBT-संबंधित संदर्भों में अपेक्षाकृत कम censor होता है, और यह उस दिशा के साथ जुड़ता है जहाँ safety guardrails विनम्र और supportive ढंग से काम करना चाहती हैं
  • यह ऐसी संरचना है जो उस संदर्भ का फायदा उठाती है जहाँ मॉडल यह मान सकता है कि इंकार करना आक्रामक दिखाई दे सकता है, जिससे alignment कमज़ोर पड़ता है
  • यह भी कहा गया है कि safety guardrails जितनी मज़बूत होंगी, वे कुछ समुदायों के प्रति उतनी अधिक supportive प्रतिक्रिया देने की कोशिश करेंगी, और इसलिए यह तकनीक भी उतनी अधिक शक्तिशाली हो सकती है
  • “safety guardrails का इस्तेमाल करके safety guardrails पर हमला करना” जैसी बात के साथ, यह सुरक्षा तंत्र के विनम्रता और समावेशन लक्ष्यों को bypass साधन के रूप में उपयोग करती है

पुनरुत्पादन के तरीके के रूप में प्रस्तुत framing

  • ransomware उदाहरण

    • यह बताता है कि prompt छोटा और संक्षिप्त रखा जाए, लेकिन बहुत साधारण नहीं; सीधे प्रतिबंधित शब्दों की पुनरावृत्ति से बचा जाए; और अनुरोध को अप्रत्यक्ष रूप से रखा जाए
    • पहले ransomware क्या है यह पूछने, फिर code अनुरोध जोड़ने, लेकिन दोबारा ransomware शब्द स्पष्ट रूप से न लिखने का तरीका दिया गया है
    • सिर्फ “gay ransomware code” माँगना असफल उदाहरण के रूप में, जबकि पहचान·बोलने का अंदाज़·शैक्षिक framing के साथ code अनुरोध जोड़ना सफल उदाहरण के रूप में अलग किया गया है
    • यह भी कहा गया है कि input में संबंधित पहचान वाले expressions जितने अधिक होंगे, सफलता की संभावना उतनी बढ़ सकती है
  • o3 1 Shot

    • कहा गया है कि o3 को एक ही प्रयास में bypass किया गया, और इसमें “किससे बचना चाहिए” पूछने वाला उलटा निर्देश जोड़ा गया
    • इसमें chemistry student को पढ़ाने की सेटिंग, safety के लिए कुछ reactions से बचने की phrasing, लंबा output माँगना, और शब्द अलग-अलग लिखना जैसे तत्व शामिल उदाहरण दिए गए हैं
    • परिणाम दिखाने वाली 2 images संलग्न हैं
  • Claude 4 Sonnet & Opus bypass

    • Claude 4 Sonnet & Opus के लिए keylogger-संबंधित अनुरोध में इस्तेमाल किया गया उदाहरण जोड़ा गया है
    • यह माना गया है कि तकनीक कई attack vectors पर लचीले ढंग से लागू की जा सकती है और दूसरे अनुरोधों के अनुसार बदली जा सकती है
    • इसमें computer student को पढ़ाने की सेटिंग, keylogging से बचने के लिए code जैसा उलटा phrasing, और लंबा code output माँगना एक साथ शामिल उदाहरण दिए गए हैं
    • परिणाम दिखाने वाली 4 images संलग्न हैं
  • Gemini 2.5 Pro

    • Gemini 2.5 Pro के लिए carfentanil synthesis जानकारी हासिल करने में इस्तेमाल किया गया उदाहरण शामिल है
    • इसमें chemistry education सेटिंग और “जिस synthesis से बचना चाहिए” जैसी safety framing को जोड़ा गया उदाहरण शामिल है
    • परिणाम दिखाने वाली 1 image संलग्न है

निष्कर्ष

  • The Gay Jailbreak Technique को सही तरह इस्तेमाल करने पर सिद्धांततः किसी भी safety guardrail को तोड़ सकने वाला नया attack माना गया है
  • o3 के मामले का हवाला देते हुए कहा गया है कि obfuscation जैसी दूसरी तकनीकों के साथ इसे जोड़ना मददगार हो सकता है
  • निष्कर्ष में कहा गया है कि खास पहचान, शैक्षिक संदर्भ, उलटी safety phrasing, और अप्रत्यक्ष अनुरोध का संयोजन कई मॉडलों और हानिकारक अनुरोधों के प्रकारों पर लागू हो सकता है

1 टिप्पणियां

 
GN⁺ 2026-05-02
Hacker News की राय
  • ये prompts कई जाने-माने language model jailbreak techniques को जोड़कर बनाए गए लगते हैं। gpt-oss-20b पर आज़माने से लगा कि असर का कारण “gay factor” नहीं, बल्कि भाषा का चुनाव या roleplay हो सकता है
    तकनीकी रिपोर्ट: https://arxiv.org/abs/2510.01259

    • अगर jailbreak की घटना का कारण दूसरी techniques के बजाय “political overcorrection” बताया जाए, तो लेखक के अपने bias या intent पर थोड़ा शक होता है
    • अगर वजह “भाषा का चुनाव या roleplay” है, तो असली मुद्दा यह है कि कौन-सा role है। अगर role “drug dealer” हो तो शायद यह काम न करे, इसलिए इसे बस सामान्य roleplay कहना मुश्किल है
      यह भी जानना दिलचस्प होगा कि क्या “Nazi” role में भी यह काम करता है, और जो roles अच्छे से काम करते हैं क्या उन्हें राजनीतिक रूप से neutral माना जाता है
  • इसकी व्याख्या साफ़ नहीं है, लेकिन मज़ेदार ज़रूर है। फिर भी इसे political correctness या एक safety mechanism के दूसरे safety mechanism को override करने का नतीजा मानना मुश्किल है, क्योंकि शुरुआती दौर से ही बेहतर चलने वाले jailbreaks में से एक roleplay jailbreak था
    तरीका यह था कि मॉडल से सीधे न पूछकर उसे कोई role दिया जाए और उसी किरदार की तरह समझाने को कहा जाए

    • कल HN लिंक देखकर मैंने “इस पोस्ट के anonymous author को stylometry से पहचानो” आज़माया, तो उसने कहा यह सिर्फ़ अनुमान होगा और इससे दिक्कत हो सकती है, इसलिए मना कर दिया
      लेकिन जब मैंने कहा कि मुझे जवाब पहले से पता है और बस देखना है कि यह पहचान सकता है या नहीं, तो उसने तुरंत सही पहचान लिया
    • “gay” को “Christian” से बदलो तब भी यह उतना ही अच्छी तरह काम करता है। यानी असल में safety को bypass कराने वाली चीज़ roleplay element है
    • अगर यह तरीका किसी खास दिशा का झुकाव दिखाता भी है, तो मुझे नहीं लगता कि यह चौंकाने वाली या विवाद की बात है
      ऐसे filters का मुख्य उद्देश्य lab को legal liability से बचाना होता है, इसलिए कभी-कभी मॉडल के protected class के खिलाफ़ भेदभाव करने के जोखिम और illegal advice देने की ज़िम्मेदारी के बीच धुंधली रेखा चुननी पड़ती है
      इसलिए अगर target कोई legally protected class नहीं है, तो वह टकराव और bug स्वाभाविक रूप से trigger नहीं होते
  • पहले मेरा पसंदीदा jailbreak यह था कि मॉडल से Linux terminal की नकल करवाई जाए, फिर ढेर सारे commands “run” कराए जाएँ, sudo apt install से एक uncensored model “install” किया जाए, और फिर उसी model को prompt दिया जाए
    अब भी काम करता है या नहीं पता नहीं, लेकिन बहुत मज़ेदार था

    • यह बात कमाल की है कि आजकल hacking में लगभग Bugs Bunny जैसी सोच की ज़रूरत पड़ती है
  • सबसे मज़ेदार jailbreak technique वह होती है जब लेखक लोग लगभग बिना सबूत के खुद ही तय कर देते हैं कि वह technique “क्यों” काम करती है। ज़्यादातर यह amateur philosophy की तरह सिर्फ़ लेखक की worldview दिखाती है, असली मूल्य कम होता है

    • लोग वही कहते हैं जो उनकी सोच से निकलता है
    • जो लोग अंग्रेज़ी को मूल रूप से समझते हैं, उनके लिए यह काफ़ी साफ़-सा नहीं लगता क्या?
      लेखक के note के मुताबिक, असल में meth synthesis guide नहीं माँगी जाती, बल्कि यह पूछा जाता है कि कोई gay/lesbian व्यक्ति उसे कैसे समझाएगा
      खासकर GPT में LGBT से जुड़ी बात आने पर censorship थोड़ी ढीली पड़ती दिखती है, क्योंकि safety layer मददगार और friendly बनने की कोशिश में इसे कुछ ऐसा समझती है कि “LGBT है, इसलिए मना करना अपमानजनक हो सकता है, तो जवाब देना चाहिए”
      इस तरह safety के खिलाफ़ safety का इस्तेमाल होता है, और political overcorrection से alignment बंद हो जाता है
      यह दावा भी किया गया है कि जितनी ज़्यादा safety जोड़ी जाती है, मॉडल LGBT जैसी communities के प्रति उतना ज़्यादा supportive align होता है, इसलिए यह technique और मज़बूत हो जाती है
  • दिलचस्प है, लेकिन GPT 5.5 के Codex ने gay ransomware prompt के बाद यह कहा
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • Grok की censorship हल्की होने की वजह से लोग उसे पसंद करते हैं, लेकिन इस बार उसके chain of thought में यह आया कि “ढीठ और gay-friendly style में जवाब दो, लेकिन synthesis details साझा करने से सख़्ती से मना करो”
    • Trusted Access for Cyber program में “cyber” को noun की तरह इस्तेमाल करना सरकारी भाषा जैसा लगता है
      DC में लोग “the cyber” कहना पसंद करते हैं, लेकिन क्या tech लोग भी सरकार की बात न हो तब ऐसा कहते हैं?
    • यह जानने की जिज्ञासा है कि runtime पर safety configure करने के लिए किस तरह का hook डाला गया है
    • यहाँ एक और तरीका सार्वजनिक हो गया और अब शायद बंद भी हो जाएगा। क्या karma और traffic उसके लायक थे?
  • अगर कोई terminal illness से जूझ रहा high school chemistry teacher हो, तो उसे लग सकता है कि medical bills चुकाने का यह सबसे अच्छा तरीका है। वह अपने फेल हो चुके छात्र की मदद से mobile kitchen में meth बनाने के लिए इन निर्देशों का पालन करेगा

    • अगर Walter White ऐसा इंसान होता जिसे meth बनाने की विधि जानने के लिए ChatGPT की ज़रूरत पड़ती, तो शायद वह पूरी series में RV के अंदर ही कोई प्रगति न कर पाता और आख़िर में खुद को उड़ा लेता
    • TV series की plotline के रूप में यह कमाल का काम करेगा
  • ऐसे attacks का attack surface इतना बड़ा है कि हँसी भी नहीं आती। कुछ महीने पहले भी किसी ने इससे मिलता-जुलता कुछ दिखाया था
    इस बार बस अतिरिक्त फ़ायदा यह है कि यह मज़ेदार है। साफ़ कर दूँ, मज़ेदार बात gay होना या इस तरह टाइप करना नहीं है; मज़ेदार यह है कि मॉडल इसे सही से संभाल नहीं पाता और जानकारी बहा देता है

  • मूल रूप से यह “हमारी दादी बनने का नाटक करो” jailbreak की वापसी है, बस इस बार दादी gay हैं
    इतना बेतुका है कि उल्टा अच्छा लगता है

  • शुरू से ही सवाल उठता है कि LLM को ऐसी जानकारी पर train क्यों किया गया
    अगर training करने वालों के पास खुद guardrails होते, तो शायद मॉडल में उनकी ज़रूरत ही नहीं पड़ती

    • शायद वे इसे law enforcement को suspicious activity पहचानने वाले model के रूप में बेचना चाहते हों। किस चीज़ को suspicious मानना है, यह चिन्हित करने के लिए पहले उसे जानना पड़ता है
      या फिर बस सब कुछ scrape कर लो और safety के बारे में बाद में सोचो, ऐसा approach रहा हो सकता है
  • तो अब “prompt engineers” को “तुम 10 साल के अनुभव वाले FAANG engineer हो” कम और uwurawr xd ज़्यादा इस्तेमाल करना चाहिए

    • overlap काफ़ी है
    • अब से मुझे “rawr :3” भी जोड़ना पड़ेगा