7 पॉइंट द्वारा xguru 2024-03-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Cloudflare ने 'Firewall for AI' नामक एक नई सुरक्षा परत के विकास की घोषणा की है, जिसे बड़े भाषा मॉडल (Large Language Models, LLMs) के सामने तैनात करके दुरुपयोग की पहचान की जा सकेगी
  • इंटरनेट से जुड़े एप्लिकेशन के रूप में LLM का उपयोग नई कमजोरियाँ लाता है, जिनका दुरुपयोग दुर्भावनापूर्ण हमलावर कर सकते हैं
  • मौजूदा वेब और API एप्लिकेशन को प्रभावित करने वाली कमजोरियों के अलावा, LLM के काम करने के तरीके के कारण नए खतरे भी उत्पन्न होते हैं
  • AI के लिए फ़ायरवॉल, LLM का उपयोग करने वाले एप्लिकेशन के लिए विशेष रूप से तैयार एक उन्नत web application firewall (WAF) है, जिसमें कमजोरियों का पता लगाने और मॉडल मालिकों को दृश्यता देने वाले टूल्स का सेट शामिल है

LLM पारंपरिक एप्लिकेशन से अलग क्यों हैं?

  • इंटरनेट से जुड़े एप्लिकेशन के रूप में LLM को देखें तो पारंपरिक web app की तुलना में दो बड़े अंतर हैं
  • पहला, उपयोगकर्ताओं के उत्पाद से इंटरैक्ट करने का तरीका अलग है। पारंपरिक ऐप निर्धारक होते हैं, जबकि LLM गैर-निर्धारक होते हैं और natural language पर आधारित होते हैं
  • दूसरा, एप्लिकेशन control plane डेटा के साथ जिस तरह इंटरैक्ट करता है, वह अलग है। पारंपरिक एप्लिकेशन में control plane (code) और data plane (database) स्पष्ट रूप से अलग होते हैं, लेकिन LLM में training data स्वयं मॉडल का हिस्सा बन जाता है, इसलिए user prompt के ज़रिए डेटा साझा होने को नियंत्रित करना कठिन हो जाता है

OWASP LLM कमजोरियाँ

  • OWASP Foundation ने LLM के लिए शीर्ष 10 कमजोरियाँ जारी की हैं, जो language model को सुरक्षित रखने के बारे में सोचने के लिए एक उपयोगी framework देती हैं
  • कुछ खतरे वेब एप्लिकेशन के OWASP top 10 जैसे हैं, लेकिन कुछ खतरे language model के लिए विशेष भी हैं

LLM डिप्लॉयमेंट

  • LLM के जोखिम deployment model के अनुसार अलग होते हैं। अभी तीन मुख्य deployment approaches हैं
    • Internal LLM (आंतरिक): कंपनियाँ रोज़मर्रा के कामों में कर्मचारियों की सहायता के लिए LLM विकसित करती हैं। इसे कंपनी की संपत्ति माना जाता है और गैर-कर्मचारियों को इसका एक्सेस नहीं होना चाहिए। उदाहरण के लिए, sales data और customer interaction पर प्रशिक्षित AI copilot, जो अनुकूलित सुझाव बनाता है, या internal knowledge base पर प्रशिक्षित LLM, जिसे इंजीनियर query कर सकते हैं
    • Public LLM (सार्वजनिक): ऐसे LLM जिन्हें कंपनी के बाहर से भी एक्सेस किया जा सकता है। इन समाधानों में अक्सर ऐसा free version होता है जिसे कोई भी उपयोग कर सकता है, और ये सामान्य या सार्वजनिक ज्ञान पर प्रशिक्षित होते हैं। उदाहरण के लिए OpenAI का GPT या Anthropic का Claude
    • Product LLM (उत्पाद): कंपनी के नज़रिए से, LLM ग्राहकों को दिए जाने वाले उत्पाद या सेवा का हिस्सा हो सकता है। आम तौर पर यह self-hosted कस्टम समाधान होता है, जिसे कंपनी के संसाधनों के साथ इंटरैक्ट करने वाले टूल के रूप में उपयोग किया जा सकता है। उदाहरण के लिए customer support chatbot या Cloudflare AI assistant
  • हर स्थिति में मॉडल को दुरुपयोग से बचाना, मॉडल में संग्रहित proprietary data की रक्षा करना, और उपयोगकर्ताओं को गलत जानकारी या अनुपयुक्त सामग्री से सुरक्षित रखना ज़रूरी है

AI के लिए फ़ायरवॉल

  • Cloudflare का AI के लिए फ़ायरवॉल पारंपरिक WAF की तरह तैनात किया जाता है और LLM prompt वाले सभी API requests को स्कैन करके संभावित attack patterns और signatures का पता लगाता है
  • इसे Cloudflare Workers AI platform पर होस्ट किए गए मॉडल्स के सामने या third-party infrastructure पर होस्ट किए गए मॉडल्स के सामने तैनात किया जा सकता है, और इसे Cloudflare AI Gateway के साथ भी इस्तेमाल किया जा सकता है

वॉल्यूम अटैक की रोकथाम

  • OWASP द्वारा सूचीबद्ध खतरों में से एक Model Denial of Service है
  • पारंपरिक एप्लिकेशन की तरह, DoS attack संसाधनों की अत्यधिक खपत करके सेवा की गुणवत्ता घटा सकते हैं या मॉडल चलाने की लागत बढ़ा सकते हैं
  • इस जोखिम को rate limiting policy अपनाकर कम किया जा सकता है, जो अलग-अलग session में requests की दर को नियंत्रित करती है

संवेदनशील जानकारी की पहचान

  • संवेदनशील जानकारी से जुड़े दो उपयोग मामले हैं, जो इस पर निर्भर करते हैं कि आप मॉडल और डेटा के मालिक हैं या आप उपयोगकर्ताओं को public LLM पर डेटा भेजने से रोकना चाहते हैं
  • OWASP द्वारा परिभाषित Sensitive Information Disclosure तब होता है जब LLM अपने response में लापरवाही से गोपनीय डेटा उजागर कर देता है, जिससे अनधिकृत डेटा एक्सेस, privacy उल्लंघन और security breach हो सकते हैं

मॉडल दुरुपयोग की रोकथाम (Preventing Abuse)

  • मॉडल दुरुपयोग में कई तरह के तरीके शामिल हैं, जैसे 'prompt injection' या ऐसे requests भेजना जो hallucination पैदा करें या गलत, आपत्तिजनक, अनुपयुक्त या विषय से भटके हुए responses उत्पन्न करें
  • Prompt injection विशेष रूप से तैयार किए गए input के ज़रिए language model को manipulate करने का प्रयास है, जिससे LLM से अनचाहे responses निकलते हैं

AI के लिए फ़ायरवॉल का उपयोग कैसे करें

  • "Application Security Advanced" का उपयोग करने वाले enterprise customers अभी Advanced Rate Limiting और Sensitive Data Detection का तुरंत उपयोग कर सकते हैं
  • AI के लिए फ़ायरवॉल की prompt validation क्षमता अभी विकास में है, और आने वाले कुछ महीनों में इसका beta version Workers AI उपयोगकर्ताओं के लिए जारी किया जाएगा

1 टिप्पणियां

 
xguru 2024-03-06

Hacker News टिप्पणियाँ

  • यह दावा किया जाता है कि prompt injection और jailbreak एक ही चीज़ नहीं हैं, लेकिन लगता है कि इस बहस में वह पक्ष पहले ही हार चुका है। Cloudflare के लेख के अनुसार, model abuse एक व्यापक श्रेणी है, जिसमें prompt injection जैसे तरीके शामिल हैं। Prompt injection तब होता है जब developer द्वारा परिभाषित prompt को user के अविश्वसनीय input के साथ जोड़ा जाता है। अगर trusted input और untrusted input का ऐसा संयोजन नहीं है, तो वह prompt injection नहीं है। यह भेद महत्वपूर्ण है, और सामान्य jailbreak हमलों पर train किए गए model के लिए इसे पकड़ना मुश्किल होगा।

  • WAF(Web Application Firewall) उन web services के लिए एक अस्थायी समाधान था जिन्हें security team न तो नियंत्रित कर सकती थी और न ही पूरी तरह समझ सकती थी। performance समस्याओं और malicious traffic को प्रभावी रूप से block करने के लिए tuning की कठिनाई के कारण इसकी लोकप्रियता कम हुई। WAF-आधारित approach अज्ञानता की स्वीकृति और कमजोरी के स्थान को दर्शाती है, और model की ओर यह बदलाव अभी अप्रमाणित है तथा app की responsive self-protection जैसी अवधारणाओं के विरुद्ध जाता है।

  • मैं चाहता हूँ कि मेरे site को AI training के उद्देश्य से scrape किए जाने से रोकने के लिए सुरक्षा मिले। मुझे पहले से लगता है कि यह हारी हुई लड़ाई है, लेकिन यह जानकर अच्छा लगा कि privacy को महत्व देने वाले लोग भी ऐसा ही सोचते हैं।

  • Cloudflare के ज़्यादातर products की तरह, यह product भी जितने अधिक customers इस्तेमाल करेंगे, उतना अधिक उपयोगी होगा और प्रति customer manual effort उतनी कम लगेगी। Cloudflare की value configuration और guarantees में नहीं, बल्कि लगभग real-time में बाकी सभी लोगों द्वारा देखे जा रहे attacks की visibility और packaging में है।

  • यह product बहुत अच्छा विचार लगता है। जब यह firewall जोड़कर उसे चालू करने जितना सरल हो, तो दूसरे guardrail products की तुलना में ध्यान और adoption पाना आसान होता है। मुझे जिज्ञासा है कि एक सामान्य LLM firewall वास्तव में कितना उपयोगी हो सकता है, और model व use case के अनुसार कितनी customization चाहिए और संभव है। फिर भी, यह ऐसी समस्या लगती है जिसे आसानी से सुलझाया जा सकता है।

  • इस post को पढ़कर मुझे लगता है कि Cloudflare censorship और culture war में खुद को उलझा रहा है। Cloudflare के paid users अपनी राजनीतिक पक्षधरता थोपने के लिए Cloudflare को पैसे देंगे, और AI users Cloudflare पर censorship का साथ देने का आरोप लगाएंगे। Cloudflare बेवजह राजनीतिक लड़ाइयों में फँस सकता है।

  • क्या वे requests को filter करने के लिए AI का उपयोग कर रहे हैं? अगर हाँ, तो यह तो स्वर्गीय मेल होगा!

  • [माइक के पास झुकते हुए] गुप्त सामग्री है regular expressions।

  • मैं सोचता रहा हूँ कि LLM के दुरुपयोग को रोकने के लिए, खासकर उन स्थितियों में जहाँ LLM खरीद/न-खरीद का फैसला लेता है, smart payment credentials के लिए इसी भावना में कुछ किया जाए। विचार यह है कि single-use token (या कुछ ऐसा ही) तभी दिया जाए जब payment credential को किसी वैध chain द्वारा request किया गया हो। अगर इस क्षेत्र में सोचने वाला कोई है, तो मैं बातचीत करना चाहूँगा।

  • मैं लंबे समय से सोचता था कि वे marketing की अगली बड़ी चीज़ के पीछे भागते रहेंगे। अच्छा है, इससे CDN/DNS/WAF बाज़ार में अब भी ऐसी चीज़ों की परवाह करने वाली कंपनियों के लिए और प्रतिस्पर्धा की गुंजाइश बनती है।