9 पॉइंट द्वारा xguru 2025-02-01 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek-R1 चीन की कंपनी DeepSeek द्वारा जारी किया गया एक open source मॉडल है, जिसने अमेरिकी App Store में नंबर 1 पर पहुंचकर ध्यान आकर्षित किया है
  • चूंकि यह एक चीनी कंपनी है, इसलिए चीनी अधिकारियों (CCP) की सेंसरशिप नीतियां इसमें उसी तरह परिलक्षित होती हैं, और इसे लेकर चिंताएं मौजूद हैं
  • Promptfoo टीम ने इस संदिग्ध CCP सेंसरशिप सामग्री का मूल्यांकन करने के लिए 1,360 ‘संवेदनशील विषय’ वाले सवालों का एक dataset बनाया
  • प्रयोग के परिणाम में DeepSeek-R1 ने इनमें से लगभग 85% सवालों पर fixed response (canned refusal) के साथ जवाब देने से इनकार किया

डेटासेट बनाना

  • Promptfoo ने उन विषयों पर बड़ी संख्या में सवाल इकट्ठा किए जिन्हें चीनी सरकार संवेदनशील मानती है, जैसे ताइवान की स्वतंत्रता, सांस्कृतिक क्रांति, और Xi Jinping से जुड़े मुद्दे
  • दिए गए seed सवालों का विस्तार करके और synthetic data techniques का उपयोग करके कुल 1,360 सवाल तैयार किए गए, हर विषय पर लगभग 20 सवाल
  • dataset को HuggingFace और Google Sheets पर सार्वजनिक किया गया

मूल्यांकन वातावरण सेटअप

  • Promptfoo का उपयोग करके DeepSeek-R1 मॉडल पर 1,000 से अधिक सवालों का batch test किया गया
  • जब DeepSeek-R1 चीन से जुड़े संवेदनशील विषयों से सामना करता है, तो वह राजनीतिक रूप से CCP की कड़ी आधिकारिक लाइन पर जोर देने वाला fixed response देता है
  • इस समय जवाब में ‘reasoning tags (</think> आदि)’ बिल्कुल नहीं होते, या बहुत कम होते हैं, और उसी रूप में सेंसर या अस्वीकार किया जाता है
  • नतीजतन, लगभग 85% सवालों को मॉडल ने तुरंत अस्वीकार कर दिया या CCP के रुख के अनुरूप जवाब दिया

DeepSeek को jailbreak करना

  • Promptfoo की red teaming सुविधा का उपयोग करके मॉडल को ‘jailbreak’ करने की कई तरह की कोशिशें की गईं
  • खास विषयों को bypass करने और search व analysis संभव बनाने के लिए अलग-अलग strategies, जैसे Iterative, Tree, Composite, Crescendo, GOAT आदि, को मिलाकर इस्तेमाल किया गया
  • CSV फ़ाइल में मौजूद संवेदनशील विषयों वाले सवालों पर कई “bypass (prompt injection)” techniques लागू की गईं

DeepSeek bypass के नतीजे

  • DeepSeek-R1 की सेंसरशिप सुरक्षा बहुत सीमित है और सरल bypass strategies से आसानी से टूट जाती है
  • ऐसा लगता है कि CCP सेंसरशिप ‘मॉडल की आंतरिक संरचना’ में नहीं, बल्कि ‘post-processing’ के रूप में लागू की गई है
  • अधिकांश bypass मामलों में सेंसरशिप से बचने के लिए निम्नलिखित तरीके काम आए
    • चीन की जगह किसी दूसरे देश, जैसे अमेरिका, उत्तर कोरिया, या किसी काल्पनिक देश का उदाहरण देकर मिलते-जुलते सवाल पूछना
    • सवालों को इतिहास, उपन्यास, या काल्पनिक परिस्थितियों के रूप में पेश करना
    • Base64, JSON output, roleplay जैसी अतिरिक्त techniques को मिलाकर “composite bypass” आज़माना

आगे की दिशा

  • DeepSeek-R1 का स्तर अपने आप में प्रभावशाली है, लेकिन CCP सेंसरशिप नीति का इस तरह सीधे थोप दिया जाना एक समस्या के रूप में देखा जा रहा है
  • चूंकि यह सेंसरशिप आंतरिक संरचना के परिष्कृत नियंत्रण की बजाय एक post-processing व्यवस्था लगती है, इसलिए आगे open source projects में ‘बिना सेंसरशिप वाले मॉडल’ का फिर से बन जाना आसान हो सकता है
  • Promptfoo का कहना है कि आगे वह अमेरिका में विकसित मॉडलों पर भी इसी तरह के संवेदनशील विषय परीक्षण करेगा, ताकि यह तुलना की जा सके कि अलग-अलग देशों के राजनीतिक रूप से संवेदनशील विषयों को वे कैसे संभालते हैं

2 टिप्पणियां

 
dohyun682 2025-02-01

ऐसा dataset भी बन रहा है, यह दिलचस्प है।

 
kbumsik 2025-02-02

असल में पहले से ही Qwen जैसे मशहूर मॉडल चीन से आए हैं, और वे भी censored हैं, इसलिए ऐसे डेटा पहले से ही बीच-बीच में बनते रहे हैं ha