- Simon Willison ने अपनी प्रस्तुति का वीडियो, स्लाइड्स और ट्रांसक्रिप्ट प्रकाशित किया
- Prompt Injection = "AI मॉडल के आधार पर बनाए गए applications पर हमला"; "यह AI मॉडल पर हमला नहीं है"
- translation injection के उदाहरण और Edge Sidebar में चलने वाले Bing पर हमला करने वाले पेज आदि के डेमो
- अगर मेरा AI assistant किसी और के निर्देश मानने लगे तो? (उदाहरण के तौर पर पासवर्ड reset email को कहीं और forward करने वाले prompt की व्याख्या)
- इसके लिए Prompt begging जैसी कुछ solutions हैं, लेकिन वे अच्छी तरह काम नहीं करतीं
- मेरा प्रस्ताव यह है... यह बहुत अच्छा नहीं है, लेकिन Dual Language Model pattern से इसे कुछ हद तक हल किया जा सकता है
- AI assistant को 2 अलग-अलग LLMs से बनाना: Privileged LLM और Quarantined LLM
- Privileged LLM
- tools तक पहुंच सकता है
- सिर्फ भरोसेमंद input को process करता है
- Quarantined LLM को निर्देश देता है, लेकिन उसके input या output को नहीं देखता
- सिर्फ tokens के साथ काम करता है: "Summarize text $VAR1"
- "Display $SUMMARY2 to the User"
- Quarantined LLM
- अविश्वसनीय input पर tasks संभालता है (जैसे summarization)
- किसी और चीज़ तक पहुंच नहीं हो सकती
- सभी input और output को दूषित माना जाता है - Privileged LLM को सीधे कुछ भी नहीं भेजा जाता
- Prompt Injection एक बहुत गंभीर security vulnerability है; अगर इसे समझा न जाए तो उसके जवाबी उपाय लागू करना असंभव है
- language models के ऊपर बने सभी applications मूल रूप से इस समस्या के प्रति vulnerable हैं
- अगर Prompt Injection का कोई समाधान नहीं है और application को सुरक्षित रूप से विकसित नहीं किया जा सकता, तो कभी-कभी "No" कहना भी ज़रूरी होता है
- एक developer के रूप में "यह संभव नहीं है" कहने वाला व्यक्ति बनना सच में अच्छा नहीं लगता, लेकिन इस मामले में यह वास्तव में महत्वपूर्ण है
अभी कोई टिप्पणी नहीं है.