- LLM में code और data को अलग न कर पाने की संरचनात्मक समस्या होती है, इसलिए वे prompt injection हमलों के प्रति संवेदनशील हैं
- खासकर जब बाहरी data तक पहुँच, आंतरिक secrets पढ़ने की क्षमता, और बाहरी संचार की अनुमति एक साथ दी जाती है, तब तथाकथित घातक त्रिगुट (lethal trifecta) बनता है, जो गंभीर नुकसान का कारण बन सकता है
- AI engineers को mechanical engineers की तरह सोचना चाहिए; deterministic approach के बजाय probabilistic systems की अनिश्चितता को स्वीकार करते हुए safety margin रखने का तरीका ज़रूरी है
- जैसे Victorian era के engineers ने materials की अनिश्चितता से निपटने के लिए overengineering के ज़रिए अतिरिक्त margin रखा था, वैसे ही AI systems में भी safety limits, risk tolerance, error rates शामिल किए जाने चाहिए
- जैसे भौतिक दुनिया में पुलों पर load limits होती हैं, वैसे ही AI systems में भी स्पष्ट सीमाएँ और safety margin रखने के मानदंड की ज़रूरत है
LLM की मूलभूत सुरक्षा समस्या
- large language models में code और data को अलग न कर सकने की संरचनात्मक खामी होती है
- इसी वजह से वे prompt injection attacks के प्रति संवेदनशील हैं
- सिस्टम को ऐसे निर्देश मानने के लिए बहकाया जा सकता है जिन्हें उसे नहीं मानना चाहिए
- कुछ मामलों में इससे सिर्फ असहज करने वाले नतीजे निकलते हैं, जैसे customer support agent का समुद्री डाकू की तरह बोलने लगना
- लेकिन अन्य मामलों में यह कहीं ज़्यादा विनाशकारी नुकसान पहुँचा सकता है
घातक त्रिगुट (Lethal Trifecta)
- सबसे बुरा असर तब होता है जब "घातक 3 तत्व" बन जाते हैं
- इन 3 तत्वों की संरचना
- अविश्वसनीय data तक पहुँच का अधिकार
- महत्वपूर्ण गोपनीय जानकारी पढ़ सकने की क्षमता
- बाहरी दुनिया से संचार कर सकने की क्षमता
- जब कंपनियाँ कर्मचारियों को शक्तिशाली AI assistants देना चाहती हैं और अनजाने में ये तीनों क्षमताएँ एक साथ दे देती हैं, तो गंभीर समस्या लगभग तय हो जाती है
- सिर्फ AI engineers ही नहीं, सामान्य users को भी AI का सुरक्षित उपयोग सीखना होगा
- apps का गलत संयोजन इंस्टॉल करने पर भी अनजाने में ये 3 तत्व बन सकते हैं
AI engineers की सोच में बदलाव की ज़रूरत
mechanical engineers की तरह सोचना
- बेहतर AI engineering सबसे पहली रक्षा पंक्ति है
- AI engineers को पुल जैसी संरचनाएँ बनाने वाले engineers की तरह सोचना चाहिए
- यह समझते हुए कि खराब काम इंसानी जान ले सकता है
Victorian engineering से सीख
- Victorian era के Britain की महान इमारतें ऐसे engineers ने बनाईं जिन्हें materials की विशेषताओं पर पूरा भरोसा नहीं था
- उस समय iron अक्सर अक्षमता या धोखाधड़ी के कारण निम्न गुणवत्ता का होता था
- नतीजतन engineers ने सावधानी अपनाई और overengineering के ज़रिए redundancy जोड़ी
- इसी से सदियों तक टिकने वाली उत्कृष्ट कृतियाँ बनीं
आज के AI security industry की समस्या
- AI security providers आम तौर पर इस तरह नहीं सोचते
- पारंपरिक coding deterministic होती है
- security vulnerabilities को ठीक किए जाने वाले bugs की तरह देखा जाता है
- एक बार fix कर देने पर वे गायब हो जाती हैं
- AI engineers अपनी पढ़ाई के समय से इसी सोच के आदी रहे हैं
- इसलिए वे मान लेते हैं कि ज़्यादा training data और ज़्यादा चतुर system prompts से ही समस्या हल हो जाएगी
probabilistic systems के लिए उपयुक्त तरीका
training data और prompts की सीमाएँ
- training data और चतुर prompts जोखिम को कम तो करते हैं
- सबसे advanced नए models दुर्भावनापूर्ण requests को पहचानने और अस्वीकार करने में पुराने या छोटे models से बेहतर हैं
- लेकिन जोखिम को पूरी तरह खत्म नहीं किया जा सकता
- ज़्यादातर software के विपरीत LLM probabilistic होते हैं
- output संभावित जवाबों में से किसी एक के यादृच्छिक चयन से तय होता है
- इसलिए deterministic safety approach उपयुक्त नहीं है
भौतिक दुनिया की engineering की नकल
- बेहतर तरीका है भौतिक दुनिया के engineers की तरह काम करना
- अपूर्वानुमेय systems के साथ काम करना सीखना
- ऐसे मनमौजी systems से लड़ने के बजाय, जिनके इरादे के मुताबिक काम करने की गारंटी नहीं, उनके साथ काम करना
- safety margin, risk tolerance, error rates अपनाकर अप्रत्याशितता को अधिक सहजता से संभालना
AI युग की overengineering रणनीति
- ज़रूरत से ज़्यादा सक्षम model का उपयोग करना
- अनुचित व्यवहार करने के लिए बहकाए जाने का जोखिम कम होता है
- बाहरी स्रोतों से LLM को मिलने वाली queries की संख्या पर सीमा लगाना
- इसे दुर्भावनापूर्ण queries से होने वाले नुकसान के जोखिम के अनुसार समायोजित करना
- safe failure पर ज़ोर देना
- अगर AI system को secrets तक पहुँच चाहिए, तो उसे पूरे राज्य की चाबी सौंपने से बचना चाहिए
safety limits तय करने की ज़रूरत
- भौतिक दुनिया में पुलों पर load limits होती हैं
- भले ही वे drivers को हमेशा साफ़ तौर पर दिखाई न दें, वे मौजूद रहती हैं
- महत्वपूर्ण बात यह है कि ये सीमाएँ उस वास्तविक स्वीकार्य सीमा के भीतर पर्याप्त margin छोड़ती हैं, जिसे गणनाएँ पुल के सहन कर पाने योग्य बताती हैं
- अब AI systems की आभासी दुनिया को भी इसी तरह तैयार करने का समय आ गया है
- स्पष्ट safety limits और margin वाले systems का design आवश्यक है
1 टिप्पणियां
Hacker News टिप्पणियाँ