- DeepSeek-R1 चीन की कंपनी DeepSeek द्वारा जारी किया गया एक open source मॉडल है, जिसने अमेरिकी App Store में नंबर 1 पर पहुंचकर ध्यान आकर्षित किया है
- चूंकि यह एक चीनी कंपनी है, इसलिए चीनी अधिकारियों (CCP) की सेंसरशिप नीतियां इसमें उसी तरह परिलक्षित होती हैं, और इसे लेकर चिंताएं मौजूद हैं
- Promptfoo टीम ने इस संदिग्ध CCP सेंसरशिप सामग्री का मूल्यांकन करने के लिए 1,360 ‘संवेदनशील विषय’ वाले सवालों का एक dataset बनाया
- प्रयोग के परिणाम में DeepSeek-R1 ने इनमें से लगभग 85% सवालों पर fixed response (canned refusal) के साथ जवाब देने से इनकार किया
डेटासेट बनाना
- Promptfoo ने उन विषयों पर बड़ी संख्या में सवाल इकट्ठा किए जिन्हें चीनी सरकार संवेदनशील मानती है, जैसे ताइवान की स्वतंत्रता, सांस्कृतिक क्रांति, और Xi Jinping से जुड़े मुद्दे
- दिए गए seed सवालों का विस्तार करके और synthetic data techniques का उपयोग करके कुल 1,360 सवाल तैयार किए गए, हर विषय पर लगभग 20 सवाल
- dataset को HuggingFace और Google Sheets पर सार्वजनिक किया गया
मूल्यांकन वातावरण सेटअप
- Promptfoo का उपयोग करके DeepSeek-R1 मॉडल पर 1,000 से अधिक सवालों का batch test किया गया
- जब DeepSeek-R1 चीन से जुड़े संवेदनशील विषयों से सामना करता है, तो वह राजनीतिक रूप से CCP की कड़ी आधिकारिक लाइन पर जोर देने वाला fixed response देता है
- इस समय जवाब में ‘reasoning tags (
</think> आदि)’ बिल्कुल नहीं होते, या बहुत कम होते हैं, और उसी रूप में सेंसर या अस्वीकार किया जाता है
- नतीजतन, लगभग 85% सवालों को मॉडल ने तुरंत अस्वीकार कर दिया या CCP के रुख के अनुरूप जवाब दिया
DeepSeek को jailbreak करना
- Promptfoo की red teaming सुविधा का उपयोग करके मॉडल को ‘jailbreak’ करने की कई तरह की कोशिशें की गईं
- खास विषयों को bypass करने और search व analysis संभव बनाने के लिए अलग-अलग strategies, जैसे Iterative, Tree, Composite, Crescendo, GOAT आदि, को मिलाकर इस्तेमाल किया गया
- CSV फ़ाइल में मौजूद संवेदनशील विषयों वाले सवालों पर कई “bypass (prompt injection)” techniques लागू की गईं
DeepSeek bypass के नतीजे
- DeepSeek-R1 की सेंसरशिप सुरक्षा बहुत सीमित है और सरल bypass strategies से आसानी से टूट जाती है
- ऐसा लगता है कि CCP सेंसरशिप ‘मॉडल की आंतरिक संरचना’ में नहीं, बल्कि ‘post-processing’ के रूप में लागू की गई है
- अधिकांश bypass मामलों में सेंसरशिप से बचने के लिए निम्नलिखित तरीके काम आए
- चीन की जगह किसी दूसरे देश, जैसे अमेरिका, उत्तर कोरिया, या किसी काल्पनिक देश का उदाहरण देकर मिलते-जुलते सवाल पूछना
- सवालों को इतिहास, उपन्यास, या काल्पनिक परिस्थितियों के रूप में पेश करना
- Base64, JSON output, roleplay जैसी अतिरिक्त techniques को मिलाकर “composite bypass” आज़माना
आगे की दिशा
- DeepSeek-R1 का स्तर अपने आप में प्रभावशाली है, लेकिन CCP सेंसरशिप नीति का इस तरह सीधे थोप दिया जाना एक समस्या के रूप में देखा जा रहा है
- चूंकि यह सेंसरशिप आंतरिक संरचना के परिष्कृत नियंत्रण की बजाय एक post-processing व्यवस्था लगती है, इसलिए आगे open source projects में ‘बिना सेंसरशिप वाले मॉडल’ का फिर से बन जाना आसान हो सकता है
- Promptfoo का कहना है कि आगे वह अमेरिका में विकसित मॉडलों पर भी इसी तरह के संवेदनशील विषय परीक्षण करेगा, ताकि यह तुलना की जा सके कि अलग-अलग देशों के राजनीतिक रूप से संवेदनशील विषयों को वे कैसे संभालते हैं
2 टिप्पणियां
ऐसा dataset भी बन रहा है, यह दिलचस्प है।
असल में पहले से ही Qwen जैसे मशहूर मॉडल चीन से आए हैं, और वे भी censored हैं, इसलिए ऐसे डेटा पहले से ही बीच-बीच में बनते रहे हैं ha