प्राकृतिक भाषा AI मॉडल हैक करना
(arxiv.org)-
Google, Harvard, Stanford, OpenAI और Apple द्वारा संयुक्त रूप से प्रकाशित एक पेपर के अनुसार, बड़े भाषा मॉडलों से सिर्फ सवाल पूछकर ही ट्रेनिंग में इस्तेमाल किए गए विशिष्ट डेटा को निकाला जा सका।
-
GPT-2 पर किए गए हमले ने समाचार हेडलाइन और घर के पते जैसी व्यक्तिगत जानकारी को बहुत उच्च सटीकता के साथ निकाल लिया।
-
यह केवल GPT-2 तक सीमित नहीं है; अन्य भाषा मॉडल भी ऐसे हमलों के प्रति संवेदनशील हो सकते हैं, इसलिए ट्रेनिंग डेटा के प्री-प्रोसेसिंग पर और अधिक ध्यान देना चाहिए।
अभी कोई टिप्पणी नहीं है.