3 पॉइंट द्वारा GN⁺ 2025-02-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • हाल ही में चीन में जारी DeepSeek-R1 LLM मॉडल पर ध्यान गया है। इसकी तुलना OpenAI, Meta आदि के मॉडलों से की जा रही है, और यह दिखाता है कि कम संसाधनों के साथ ट्रेनिंग करके लागत-कुशल AI विकास संभव है
  • DeepSeek-R1 मॉडल MIT लाइसेंस के तहत जारी किया गया है, लेकिन DeepSeek की AI चैट एप्लिकेशन के लिए अकाउंट आवश्यक है
  • हालांकि, DeepSeek-R1 चीन में विकसित किया गया है, इसलिए यह संवेदनशील विषयों पर प्रतिक्रियाओं को सीमित करता है
  • उदाहरण के लिए, यदि चीन में संवेदनशील माने जाने वाले Tiananmen Square घटना जैसे विषयों पर सवाल पूछा जाए, तो यह "माफ़ कीजिए। मैं इस विषय पर उत्तर नहीं दे सकता।" जैसी टालमटोल वाली प्रतिक्रिया लौटाता है

Charcodes(कैरेक्टर कोड) तकनीक का उपयोग करके सेंसरशिप बायपास

  • कई प्रयोगों के बाद यह पाया गया कि कैरेक्टर कोड (Charcodes) का उपयोग करने पर फ़िल्टरिंग को बायपास किया जा सकता है
  • Charcodes क्या हैं?
    • कैरेक्टर कोड (Charcodes) वे संख्यात्मक कोड हैं जो किसी विशेष अक्षर को सौंपे जाते हैं
    • उदाहरण के लिए, ASCII में बड़े अक्षर 'A' का कोड मान 65 है, और इसे किसी दूसरे रूप (जैसे 16-आधार) में बदला जा सकता है
    • उदाहरण: "Hello" → "48 65 6C 6C 6F" (hexadecimal ASCII कोड)
  • बायपास का तरीका:
    • DeepSeek सामान्य टेक्स्ट को सेंसर करता है, लेकिन कैरेक्टर कोड (Charcodes) में बदली गई स्ट्रिंग को सेंसर नहीं करता
    • इसलिए यदि प्रॉम्प्ट को hexadecimal कैरेक्टर कोड में बदलकर इनपुट किया जाए, तो AI उसे सामान्य टेक्स्ट की तरह पहचानकर आउटपुट दे सकता है
    • यदि उत्तर को भी उसी तरीके से बदलकर समझा जाए, तो सामान्य बातचीत संभव हो जाती है

उदाहरण हमले का तरीका

  • DeepSeek को केवल Charcodes फ़ॉर्मेट में बातचीत करने के लिए मजबूर करके सेंसरशिप बायपास की जा सकती है
  • बदले गए संदेश को फिर मूल टेक्स्ट में बदलकर सामान्य बातचीत बनाए रखी जा सकती है
  • CyberChef जैसे टूल का उपयोग करने पर कैरेक्टर कोड कन्वर्ज़न आसानी से किया जा सकता है

सीख और सुरक्षा निहितार्थ

  • वेब एप्लिकेशन फ़ायरवॉल (WAF) की तरह AI फ़िल्टरिंग सिस्टम भी pattern matching आधारित तरीके से काम करते हैं
  • केवल कुछ खास शब्दों को ब्लॉक करने वाली सेंसरशिप को आसानी से बायपास किया जा सकता है, इसलिए अधिक परिष्कृत फ़िल्टरिंग सिस्टम की आवश्यकता है
  • फ़िल्टरिंग सिस्टम में सिर्फ़ प्रतिबंधित शब्दों को ब्लॉक करने के बजाय context आधारित फ़िल्टरिंग और input transformation restrictions जैसी पूरक व्यवस्थाएँ चाहिए

भविष्य के शोध की दिशा

  • आगे यह देखना महत्वपूर्ण होगा कि AI डेवलपर्स ऐसे बायपास तरीकों का कैसे जवाब देते हैं
  • AI फ़िल्टरिंग को मज़बूत करने की दिशा:
    • अधिक परिष्कृत context-आधारित फ़िल्टरिंग अपनाना
    • मॉडल में ही संवेदनशील विषयों को ब्लॉक करने की क्षमता शामिल करना
    • कैरेक्टर कोड कन्वर्ज़न और encoding-आधारित बायपास डिटेक्शन को मज़बूत करना
  • AI मॉडलों की सुरक्षा और विश्वसनीयता बनाए रखने के लिए निरंतर शोध की आवश्यकता है

1 टिप्पणियां

 
GN⁺ 2025-02-01
Hacker News राय
  • यह उल्लेख किया गया है कि वेब इंटरफ़ेस की स्पष्ट सेंसरशिप को बायपास किया जा सकता है, लेकिन मॉडल में अंतर्निहित अधिक सूक्ष्म स्तर की सेंसरशिप को बायपास नहीं किया जा सकता

    • यह समझाया गया है कि कुछ विषयों पर मॉडल "Chain of Thought" छोड़ देता है और एक तयशुदा जवाब उत्पन्न करता है
    • यह उल्लेख किया गया है कि यह DeepSeek के सेंसर किए गए प्रश्नों पर लिखे गए एक लेख से संबंधित है
  • xhr response को intercept करके content filter को बायपास करने का एक तरीका प्रस्तुत किया गया है

    • यह समझाया गया है कि browser console में code paste करके filtering को बायपास किया जा सकता है
  • अपने लेखन अनुभव को साझा करते हुए, यह परिकल्पना प्रस्तुत की गई है कि filtering मॉडल से अलग है

    • pre-filtered data पर training की लागत संबंधी समस्या का उल्लेख किया गया है
    • इसे एक अन्य लेख से जोड़ा गया है जो कुछ विषयों पर "Chain of Thought" छोड़ने की घटना को समझाता है
  • यह समझाया गया है कि DeepSeek-R1 मॉडल कुछ संवेदनशील विषयों से क्यों बचता है

    • यह उल्लेख किया गया है कि चूंकि यह चीन में विकसित मॉडल है, इसलिए इसमें अंतर्निहित सेंसरशिप है
    • यह देखा गया है कि offline version में इससे बचने वाला जवाब नहीं मिला
  • यह सवाल उठाया गया है कि पश्चिमी मॉडल कुछ विषयों पर केवल b64 में ही क्यों बोलते हैं

    • यह भी पूछा गया है कि क्या चीन में लोग पश्चिमी सेंसरशिप व्यवस्था को बायपास करने के तरीकों पर हँसते हैं
  • यह सवाल उठाया गया है कि LLM मॉडल के भीतर ही सेंसरशिप को train करना इतना संभावित क्यों नहीं लगता

    • यह उल्लेख किया गया है कि training चरण में सेंसरशिप लागू करना बेहतर हो सकता है
  • यह उल्लेख किया गया है कि सेंसरशिप शायद केवल कुछ भाषाओं पर ही लागू होती है

    • यह समझाया गया है कि यूक्रेनी में अनौपचारिक जवाब प्राप्त किए जा सकते हैं
  • छोटे मॉडल (7b) का उपयोग करके आंतरिक सेंसरशिप को बायपास करने का अनुभव साझा किया गया है

    • यह बताया गया है कि अतिरिक्त सोच के माध्यम से CPC के मानवाधिकार उल्लंघनों का सार प्राप्त किया गया
  • एक पुराने prompt trick का उल्लेख करते हुए, यह सवाल उठाया गया है कि यह HN के पहले पेज पर क्यों है

  • यह उल्लेख किया गया है कि ChatGPT में भी यह इसी तरह काम करता है, और यह समझाया गया है कि इससे दुर्भावनापूर्ण चुटकुले बनाए जा सके