Purple Llama: जनरेटिव AI के लिए खुले trust और safety tools जारी

(ai.meta.com)

1 पॉइंट द्वारा GN⁺ 2023-12-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

खुले जनरेटिव AI models का उपयोग तेजी से बढ़ने के साथ, Meta ने developers को जिम्मेदारी से deploy करने में मदद देने के लिए Purple Llama को trust और safety tools व evaluations को साथ लाने वाले umbrella project के रूप में जारी किया
पहला release LLM के cybersecurity जोखिमों का मूल्यांकन करने वाले CyberSec Eval और input/output सुरक्षा model Llama Guard पर केंद्रित है
CyberSec Eval, CWE और MITRE ATT&CK जैसे standards के आधार पर असुरक्षित code सुझावों और malicious requests पर प्रतिक्रिया देने की संभावना की जांच करता है
Llama Guard एक open pretrained model है, जो application-specific content guidelines के अनुरूप inputs और outputs की जांच और filtering करना चाहने वाले developers के लिए है
Purple Llama permissive license के तहत उपलब्ध है, और Meta AI Alliance तथा प्रमुख cloud, chip और AI ecosystem partners के साथ सहयोग करके open trust और safety foundation को व्यापक बनाना चाहता है

Purple Llama किन समस्याओं को लक्ष्य बनाता है

Purple Llama खुले जनरेटिव AI models को जिम्मेदारी से बनाने में मदद करने वाले trust और safety tools व evaluations का umbrella project है
जनरेटिव AI ने conversational AI, यथार्थवादी image generation और बड़े पैमाने पर document summarization को सरल prompts से संभव बनाया है, और Llama models अब तक 10 करोड़ से ज्यादा बार download हो चुके हैं
हर developer के लिए safety issues को अलग-थलग होकर हल करना कठिन है, इसलिए Purple Llama open trust और safety work के लिए common foundation देने का प्रयास करता है
शुरुआती public scope में cybersecurity और input/output safeguards शामिल हैं, और भविष्य में और tools जोड़े जाने की योजना है
components research और commercial use के लिए उपयुक्त permissive license के तहत उपलब्ध हैं

पहला release: CyberSec Eval और Llama Guard

पहले चरण में दो components जारी किए गए हैं
- CyberSec Eval: LLM की cybersecurity safety का मूल्यांकन करने वाला benchmark set
- Llama Guard: input/output filtering के लिए safety classifier
cybersecurity और LLM prompt safety अभी जनरेटिव AI safety में high-priority areas हैं, और Llama 2 Responsible Use Guide में भी इन्हें best practices के रूप में शामिल किया गया है

CyberSec Eval: LLM के cybersecurity risks को मापना

CyberSec Eval को industry-wide उपयोग के लिए पहले LLM cybersecurity safety evaluation set के रूप में पेश किया गया है
benchmark CWE और MITRE ATT&CK जैसे industry guidelines और standards पर आधारित है, और security domain experts के साथ मिलकर बनाया गया है
शुरुआती release responsible AI development पर White House commitments में शामिल कुछ risks को संबोधित करने पर केंद्रित है
- LLM cybersecurity risks को quantify करने वाले metrics
- असुरक्षित code सुझावों की frequency का आकलन करने वाला tool
- malicious code generation या cyberattacks को अंजाम देने में सहायता को और कठिन बनाने के लिए LLM evaluation tools
शुरुआती results में LLM द्वारा असुरक्षित code recommend करने या malicious requests का जवाब देने के मामले में महत्वपूर्ण cybersecurity risks की पुष्टि हुई
detailed technical information Cybersec Eval paper में देखी जा सकती है

Llama Guard: inputs और outputs को filter करने वाला safeguard model

Llama 2 Responsible Use Guide, application के अनुरूप content guidelines के आधार पर LLM के सभी inputs और outputs की जांच और filtering करने की सलाह देता है
Llama Guard एक pretrained model है जिसका उपयोग developers संभावित रूप से risky outputs से बचाव के लिए कर सकते हैं
यह common public benchmarks पर competitive performance दिखाता है, और deployment की सहजता के लिए optimized है
methodology और performance discussion Llama Guard paper में公開 किए गए हैं
इसे public dataset mix पर train किया गया है, ताकि विभिन्न developer use cases से संबंधित हो सकने वाले common risk और policy-violating content types को detect किया जा सके
अंतिम लक्ष्य developers के लिए अपने relevant use cases के अनुसार model को customize करना, best practices अपनाना और open ecosystem को बेहतर बनाना आसान करना है

Purple क्यों

जनरेटिव AI के risks को कम करने के लिए offensive perspective वाली red team और defensive perspective वाली blue team दोनों का उपयोग करना जरूरी है
Purple teaming एक collaborative approach है, जो red team और blue team roles को मिलाकर संभावित risks का मूल्यांकन और mitigation करती है
Purple Llama नाम इस दिशा को दर्शाता है कि इस approach को जनरेटिव AI trust और safety work पर भी लागू किया जाएगा

Open ecosystem और सहयोग

exploratory research, open science और cross-collaboration Meta की AI activities की बुनियाद बन चुके हैं
Llama 2 जुलाई में 100 से ज्यादा partners के साथ launch हुआ था, जिनमें से कई open trust और safety क्षेत्र में भी सहयोग करते हैं
सहयोगियों में AI Alliance, AMD, Anyscale, AWS, Bain, Cloudflare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI आदि शामिल हैं
Meta इन evaluations को benchmarks में शामिल करने के लिए Papers With Code और HELM partners के साथ सहयोग कर रहा है
MLCommons AI Safety Working Group के साथ भी collaboration किया जा रहा है

Public release के बाद की योजना

Meta NeurIPS 2023 में workshop आयोजित करेगा, और tools sharing व technical deep-dive sessions के जरिए लोगों को शुरुआत करने में मदद देने की योजना है
safety guidelines और best practices पूरे क्षेत्र में लगातार चर्चा के विषय बने रहेंगे
Llama 2 से संबंधित resources Llama website पर देखे जा सकते हैं, जहां quick start docs और FAQ भी उपलब्ध हैं
LLM-based products बनाने के लिए best practices and considerations भी अलग से उपलब्ध हैं
Together.AI और Anyscale आने वाले कुछ हफ्तों में NeurIPS में hosted demos उपलब्ध कराने वाले हैं

1 टिप्पणियां

GN⁺ 2023-12-08

Hacker News की राय

यह समझ नहीं आता कि लोगों को “generative AI models और experiences को जिम्मेदारी से deploy” करने में मदद देने की इस नई योजना में prompt injection के खतरे को ठीक से स्वीकार क्यों नहीं किया गया
27 पेज की Responsible Use Guide में इसका बस एक बार ज़िक्र मिला, वह भी इसे “content restrictions को bypass करने की कोशिश” के रूप में गलत ढंग से समझाया गया था
“CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models” उम्मीद जगाने वाला लगा, लेकिन असल में यह सिर्फ code generation models द्वारा vulnerable code बनाने के जोखिम और attackers द्वारा LLM से नए हमले बनाने के जोखिम तक सीमित है
“Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations” भी सिर्फ अंग्रेज़ी में कई तरह के harmful content का पता लगाने पर केंद्रित है। हाँ, यह अच्छा ही है कि इन्होंने prompt injection detection model जारी नहीं किया, क्योंकि ऐसे approach पर मुझे अब भी बहुत संदेह है
मेरा पक्का मानना है कि LLM के ऊपर बने अलग-अलग applications को जिम्मेदारी से deploy करने में prompt injection सबसे बड़ी चुनौती है। “personal AI assistant” इसका अच्छा उदाहरण है, क्योंकि जैसे ही LLM को personal data और untrusted input, जैसे summarize किए जाने वाले emails, दोनों तक एक साथ access मिलता है, समस्या का जोखिम पैदा हो जाता है: https://simonwillison.net/2023/May/2/prompt-injection-explai...
मैं समझता हूँ कि AI safety announcement में “अगर आप prompt injection के समाधान की उम्मीद कर रहे थे, तो माफ़ कीजिए, अभी ऐसा कुछ नहीं है” जैसी पंक्ति डालना मुश्किल है, लेकिन अभी Meta AI ऐसा लग रहा है जैसे LLM systems के सबसे बड़े security threat को कालीन के नीचे छिपा रहा हो
- कई वास्तविक LLM applications में prompt injection अक्सर मुख्य चिंता नहीं होती
  ज़मीन पर सबसे आम deployment RAG इस्तेमाल करने वाले chatbots का है, और वे आम तौर पर बहुत सीमित होते हैं। वे internet access नहीं करते, tools execute नहीं कर सकते, और लगभग सिर्फ non-confidential knowledge base interface की तरह काम करते हैं
  prompt injection से उनका misuse किया जा सकता है, लेकिन उसका असर सीमित रहता है। prompt leak कोई बहुत दिलचस्प चीज़ नहीं है, और system को hijack करके LLM मुफ़्त में इस्तेमाल करने की समस्या हो सकती है, लेकिन उससे rate limiting जैसी अपेक्षाकृत सरल तकनीकों से आसानी से निपटा जा सकता है
  कई कंपनियों के लिए chatbot का harmful, गलत या inappropriate जवाब देना कहीं बड़ा जोखिम है। किसी e-commerce chatbot के refund policy गलत बताने या बच्चों को violent content दिखाने वाले education bot की कल्पना करें, तो कानूनी और reputational समस्याएँ कहीं ज़्यादा बड़ी होंगी
  कोई सनकी व्यक्ति जटिल prompt डालकर जानबूझकर LLM से अजीब जवाब निकलवाए, यह आम तौर पर ऊपर की समस्याओं के मुकाबले द्वितीयक बात है
  फिर भी आलोचना सही है। LLM का इस्तेमाल अभी इतना सीमित और बेवकूफ़ाना स्तर पर अटका होने की एक वजह यही है कि हम prompt injection हल नहीं कर पाए हैं, और इससे ज़्यादा शक्तिशाली LLM-based systems deploy करना बहुत जोखिम भरा है। अगर यह समस्या सुलझ जाए, तो बहुत सी अभी-अनछुई क्षमता खुल सकती है
- मैंने कई commercial use cases में LLM deploy किए हैं, और कम से कम उन मामलों में users के लिए वास्तविक खतरा पैदा करने के लिए सचमुच बेहद मूर्खतापूर्ण design करना पड़ता
  जैसे user sessions को isolate न करना, model को arbitrary code चलाने देना, या user confirmation के बिना privileged actions करवाना
  और अगर user खुद “prompt injection” कर रहा है, तो मैं उसे बस advanced use कहूँगा। ये services ग्राहकों के लिए tools हैं, इसलिए अगर कोई user inbox emails को summarize कराने के बजाय erotic roleplaying करना चाहता है, तो वह उसका अपना चुनाव है
  अगर email भेजने वाला व्यक्ति user की सहमति के बिना ऐसा करवाने की कोशिश करता है, तो अच्छे से अच्छा देखें तो यह एक organizational समस्या है, और बुरे से बुरा देखें तो एक अलग technical समस्या है। इसे पारंपरिक email filtering से handle किया जा सकता है, और इसके लिए LLM को दोष देने की ज़रूरत नहीं
  LLM के आसपास की cybersecurity समस्याएँ आम तौर पर तब पैदा होती हैं जब इन models को probabilistic information prediction engine की जगह भरोसेमंद मानवरूपी expert agent की तरह treat किया जाता है
  privileged user data को सीधे manipulate कर सकने और उस data को network पर share कर सकने वाले API से LLM को जोड़ना हद दर्जे की security ignorance है। नीचे साझा किया गया Bard उदाहरण याद आता है
  अगर आप सड़क से किसी भी अजनबी को रोककर उसे किसी API का access नहीं देंगे, तो LLM को भी नहीं देना चाहिए। अगर traditional programming और heuristics से कुछ हद तक determinism लागू नहीं किया जा सकता, तो LLM को ऐसे API तक सीमित रखना चाहिए जहाँ request user को दिखाई जाए और confirmation से पहले रोकी जाए
- शायद लोग prompt injection से बचाव के उपाय सुझाने में इसलिए सावधानी बरतते हैं क्योंकि वे अक्सर बहुत जल्दी विफल हो जाते हैं, और साथ में सुझाव देने वाले की professional reputation भी डूब सकती है
  LLM को language-based tasks में सक्षम बनाने वाली वही प्रकृति, इंसानों के ख़िलाफ़ social engineering को security की Achilles heel बनाने वाली वजह से मिलती-जुलती है
  इससे उबरने के लिए या तो OpenAI-शैली का ऐसा approach लेना होगा जो ऊपर से open लगे लेकिन असल में closed हो, और उसमें secret “bad word” lists हों, या फिर LLM को इतना paranoid और calculative train करना होगा कि किसी दूसरे तरह की alignment समस्या से टकराना पड़े
  निजी तौर पर मैं अपने hardware पर चलने वाले, यानी cloud नहीं बल्कि on-premises पर चलने वाले loosely aligned models को पसंद करता हूँ। इसलिए नहीं कि मुझे TNT बनाने की recipe या prejudices को justify करने वाली बातें चाहिएँ, बल्कि इसलिए कि मैं ऐसा model चाहता हूँ जिससे hypotheses पर बहस की जा सके
  ज़्यादातर commercial chat models का चापलूसी भरा रवैया सचमुच परेशान करता है। cybernetic partner के साथ होने जैसा नहीं, बल्कि किसी ऐसे hotel में होने जैसा लगता है जहाँ staff जरूरत से ज़्यादा सज-धज कर खड़ा हो
- क्या किसी ने शब्दों में ठीक-ठीक समझाया है कि “डर” से मतलब क्या है? अगर चिंता यह है कि LLM में डाली गई जानकारी को user access कर सकता है, तो असल में हो सकने वाली बात बस वही है
  मैंने LLM security पर “डर” के बारे में दसियों हज़ार शब्द पढ़े हैं, लेकिन अब तक एक भी ठोस और जायज़ चिंता नहीं सुनी। यह कुछ वैसा लगता है जैसे यह “डर” कि Google user search results पाने से आगे बढ़कर links पर click करके Google के safe zone से बाहर जा सकता है
- पूरी तरह सहमत। भले समाधान न हो, mitigations को व्यापक रूप से साझा किया जाना चाहिए
  “तकनीकी रूप से अब भी prompt injection के लिए vulnerable होना” और “कोई आसानी से private data निकाल ले और कंपनी बर्बाद हो जाए” के बीच बहुत बड़ा अंतर है, और लोगों को यह जानना चाहिए कि दूसरे हालात से पहले वाले हालात के करीब कैसे पहुँचा जाए
“ऐसा मूल्यांकन टूल जो LLM के लिए malicious code बनाना या cyberattack करने में मदद करना कठिन बना दे” — यह पंक्ति देखकर एक security researcher के रूप में खुशी भी हुई और निराशा भी
cybersecurity research में LLM का उपयोग एक वैध उद्देश्य है, और इस प्रक्रिया में अभ्यास के लिए या जिम्मेदार पक्षों को समस्या दिखाने के लिए “malicious” code बनाना भी शामिल होता है
दूसरी ओर, यह जानकर खुशी भी हुई कि जब तक सभी LLM cybersecurity से जुड़े अनुरोधों में मदद नहीं करते, मेरी job security बनी रहेगी
- मूल्यांकन टूल को आसानी से उलटकर malware generation में उत्कृष्ट fine-tuned model बनाया जा सकता है
  Meta का LLM रुख ऐसा लगता है कि model developers को अलग-अलग उपयोगों के लिए मॉडल बनाने की छूट दी जाए। इस पेज की safety-केंद्रित भाषा के विपरीत, base LLM किसी भी तरह से censored नहीं थे, और ये Purple tools बस fine-tuning को अधिक “safe” या कम “safe” तरीके से नियंत्रित करने की सुविधा देंगे
- इससे भी अधिक दिलचस्प security issue, Simon Willison द्वारा बार-बार लिखे गए cross-site scripting attack का LLM संस्करण है
  अगर कोई LLM tool ऐसा है जो न जाने कहाँ से आए text को process कर सकता है और summary email भेज सकता है, तो इसका मतलब है कि input दूषित हो सकता है और वह email भी भेज सकता है
  कोई व्यक्ति text के अंदर ऐसा कंटेंट डाल सकता है जिसे LLM command की तरह समझे, जिससे user की मंशा override हो जाए और वह किसी दूसरे व्यक्ति को confidential information भेज दे। quotes जैसा कोई defense mechanism नहीं है, और token stream भी सिर्फ एक ही है
- यहाँ की सारी चीजें वैकल्पिक लगती हैं, और LLM तथा user के बीच रखे जाने वाले tools हैं
- समझ नहीं आता कि evaluation tool शुद्ध लाभ क्यों नहीं है। हर model का उपयोग अलग होता है
मैं ठीक से नहीं समझ पा रहा हूँ। मूल शोधकर्ता जो भी करें, लोग आखिरकार uncensored data से मॉडल train या tune करेंगे ही
Llama के लिए uncensored models पहले से आसानी से उपलब्ध हैं, और समान आकार के censored models की तुलना में उनका प्रदर्शन भी बहुत बेहतर है
हाँ, output sanitization समझ में आता है
- अगर आप PDF से डेटा निकालकर उसे database में डालने के लिए LLM का उपयोग कर रहे हैं, तो आप अपनी पसंद का कोई भी model इस्तेमाल कर सकते हैं
  लेकिन अगर अमेरिकी सरकार Health Insurance Marketplace enrollment में मदद करने वाला chatbot चाहती है, तो response quality में कमी स्वीकार करनी पड़े तब भी guardrails और guarantees चाहिए होंगे
- वे भी यह जानते हैं। यह ऐसे AI को बनने से रोकने के लिए टूल नहीं है, बल्कि सार्वजनिक रूप से जारी किए गए AI से market backlash पैदा होकर मुनाफे को नुकसान न पहुँचे, इसके लिए corporate protection tool है
  आखिरकार बात हमेशा पैसों पर आकर टिकती है
- कंपनियाँ ऐसे AI लोगों को बेचना चाह सकती हैं, और कुछ लोग इससे नाराज़ होंगे। अगर AI किसी बच्चे से बुरी बात कह दे, तो अमेरिका में शायद बड़ा मुद्दा बन जाएगा
  एक और विषय prompt injection safety है। मान लीजिए आप ऐसा AI assistant चाहते हैं जो email पढ़े, उन्हें summarize करे और dictation के आधार पर reply draft करे। तब आप 100% कैसे सुनिश्चित करेंगे कि किसी malicious email की prompt injection की वजह से वह assistant सारे email किसी बुरे actor को forward नहीं कर देगा
  उम्मीद है कि कोई नई और अधिक समझदार AI architecture खोजी जाएगी, जिससे open source community corporate censorship के बिना मॉडल को अधिक आसानी से train कर सके
- यहाँ जो है, वह uncensored models सहित कुछ खास capabilities वाले models बनाने की पसंद को रोकने के बारे में नहीं है। इसमें model evaluation tools और content evaluation tools हैं, और बाद वाले का उद्देश्य LLM उपयोग परिदृश्य के अनुसार input, output, या दोनों को classify करना है
  अगर uncensored models समग्र रूप से अधिक सक्षम हैं, तो deployed model अंतिम उपयोगकर्ताओं तक अनचाहे प्रकार का content न पहुँचाए, यह सुनिश्चित करने के लिए model के अंदर की censorship के अलावा अन्य साधनों की और अधिक आवश्यकता होगी
  बेशक, कुछ use cases पूरी तरह खुले रखना चाहेंगे, लेकिन commercial, government, और nonprofit enterprise applications में ऐसे मामले अपवाद के करीब हैं, मानक नहीं। censored model का उपयोग न करने पर भी usage policy लागू करने के लिए input classification उपयोगी है
- तकनीक वास्तविक users के हाथों में जाने पर कैसे काम करेगी, इसे देखना मेरे काम का एक हिस्सा है
  मज़े के लिए मुझे 27 लोगों को 12 टीमों में random assign करना था, और लगा कि लोग शायद अलग-अलग chatbots से ऐसे काम करवाते ही होंगे, इसलिए spreadsheet की बजाय मैंने कुछ chat models को आज़माया। नामों की सूची comma-separated थी और बस उन्हें टीमों में बाँटना था
  Model 1 ने कहा कि वह मेरी दी हुई सूची को “random” assign करेगा, लेकिन वास्तव में उसने input का वही क्रम बनाए रखा। संयोग से वह नाम alphabetical order में थे। नाम सही थे और तकनीकी रूप से गलत भी नहीं था, लेकिन यह अपेक्षा के अनुरूप नहीं था
  Model 2 ने नामों को random assign किया, लेकिन बीच में दो fake लोग गढ़ दिए। कुल परिणाम 27 ही रहे, और अगर मैंने जाँच न की होती तो कुछ टीमों में fake लोग assign हो गए होते। अगर यह कहीं बड़ा dataset होता, तो बात डराने वाली है
  Model 3 ने वैध response दिया, लेकिन output flow में शामिल hate/abuse detector ने मेरे नाम और कुछ अन्य नामों को potential harmful content के रूप में flag कर दिया
  मॉडलों का इस तरह व्यवहार करना दिलचस्प था, और “purple team” शैली का दृष्टिकोण शायद ऐसे मुद्दे खोज सके। खासकर मैं यह जानना चाहूँगा कि एक model में मेरा नाम potential harmful content क्यों माना गया
  आखिर में मैंने इसे spreadsheet में ही करके निपटा दिया ;-)
लगता है कि Microsoft की जीत की परिभाषा AI inference products·services का host बनना है। startup उपयोगी AI products बनाते हैं, और MSFT टैक्स वसूलकर और ज़्यादा data centers बनाता है
मैंने अभी तक Meta की strategy पर गहराई से नहीं सोचा है, लेकिन अगर देखें तो इस साल की शुरुआत में Llama का public release·leak मैदान बदल गया था। open source उत्साही लोगों ने उसे लेकर optimize किया, और AI researchers ने उसे उस स्तर तक धकेला जिसे वे असंभव मानते थे या जिसे आज़माने की प्रेरणा नहीं थी
उस optimization की धारा को Meta के competitors को अंतिम tax authority बनने से bypass करने की कोशिश के रूप में देखा जा सकता है। जैसे लोग calculator पर DOOM चलाते हैं, वैसे ही कोई LLM inference के साथ भी वही करेगा
क्या Meta चाहता है कि open source community एक तरह के proxy war में FAANG competitors से उसके लिए लड़े
ऐसा नहीं लगता कि open source community के पास Meta पर भरोसा करने की कोई वजह है। FOSS पक्ष लंबे समय तक दुश्मनी याद रखता है, और Meta उनके मूल आदर्शों के ठीक उलट है। फिर भी वे Meta जो जारी करता है, उसका उपयोग करेंगे
Meta की AI strategy कैसे पैसा कमाएगी, और कैसे developers व customers को Meta-verse में खींचेगी, इसका कोई साफ़ रास्ता नहीं दिखता
- Meta का FOSS contributions history शानदार है। उसके consumer products मुझे पसंद नहीं, लेकिन open source contributions बड़े और बहुत हैं
- यह एक क्लासिक commoditize complements जैसा लगता है। Meta को AI capabilities से फायदा मिलता है, लेकिन उसे technology monopoly अपने हाथ में रखने की ज़रूरत नहीं है
  उसे प्रगति से ही लाभ मिलता है, इसलिए वह open source community के साथ मिलकर इसे हासिल कर सकता है
  https://gwern.net/complement
- tech stocks दूसरी कंपनियों की तुलना में बेतुके price-to-earnings ratios पर trade होते हैं, क्योंकि investors ऐसा भविष्य कल्पना करते हैं जिसमें company revenue लगातार बढ़ता रहता है
  CEO के कई कामों में से एक यह भी है कि investors उस fantasy में बने रहें। आज तुरंत revenue होना ज़रूरी नहीं; बस यह दिखाना होता है कि आप अगली बड़ी लहर की front line पर हैं
  इसलिए strategy मोटे तौर पर यह लगती है: model release करो → Google की चीज़ों के विपरीत लोग इसे वास्तव में इस्तेमाल कर सकते हैं, इसलिए tech world में बड़ा buzz बनता है → investors मानते हैं कि Facebook इस समय की सबसे hot trend की front line पर है → stock price बढ़ती है
  साथ ही content moderation के लिए अच्छा model मिल सकता है, top machine learning experts को hire करने में मदद मिल सकती है, और उनमें से 60% को ad revenue maximize करने में लगाया जा सकता है
  वैसे भी FB model train कर ही रहा था, और अगर उसका plan वह cloud service provider बनने का नहीं था जो model बेचे, तो उसे public कर देने से लागत बहुत ज़्यादा नहीं बढ़ती
  metaverse investors को उत्साहित करने में विफल रहा और मर गया। लेकिन Zuck के लिए किस्मत से ठीक समय पर उससे कहीं बेहतर चीज़ आ गई, यानी state-of-the-art machine learning results
- यह याद रखना चाहिए कि Meta ने ChatGPT से लगभग 2 हफ्ते पहले medical research सहित academic papers को summarize करने वाला chatbot जारी किया था
  उन्होंने ज़ोर देकर कहा था कि यह एक experiment है, लेकिन critics ने बहुत ज़्यादा हमला किया और Meta ने उसे कुछ ही दिनों में हटा दिया
  शायद उन्हें समझ आ गया कि ChatGPT का direct competitor बनना सफल होने की संभावना बहुत कम है, लेकिन आसपास के ऐसे बहुत से क्षेत्र हैं जिन्हें pursue किया जा सकता है। business के बारे में आप जो भी सोचें, मेरा account भी वर्षों से छोड़ा हुआ है, फिर भी वहाँ अभी भी बहुत से smart और motivated लोग काम करते हैं
- क्या इस खास कोशिश का लक्ष्य ज़रूरी ही पैसा कमाना या developers को सीधे Meta-verse में लाना होना चाहिए
  Meta पहले से ही बहुत पैसा कमाता है, और लगता है कई moonshot projects भी चला रहा है
  जैसा कहा, FOSS पक्ष लंबे समय तक दुश्मनी याद रखता है। क्या यह उस समूह को वापस जीतने और Meta के बारे में public perception बदलने की कोशिश नहीं हो सकती
  यह संभावना शून्य नहीं है कि Llama मूलतः एक brand rebuilding campaign हो
  proxy war वाला तत्व उसके ऊपर एक bonus भी हो सकता है
तो यह कोई नया model नहीं, फिर वही “safety” बकवास निकली
- safety बस Big Tech का नया Trojan horse है, जिससे वे यह नियंत्रित करना चाहते हैं कि लोग अपने computers का इस्तेमाल कैसे करें
  मैं AI के responsible use पर यक़ीन करता हूँ, लेकिन मुझे यह भरोसा नहीं कि ये कंपनियाँ मेरे best interests के बारे में सोचती हैं, और न ही यह कि उन्हें तय करना चाहिए कि मैं अपने computer से क्या कर सकता हूँ
  बात वैसी ही है कि जो लोग freedom के बदले safety छोड़ते हैं, उन्हें अंत में दोनों नहीं मिलते
- यह अलग बात है कि “safety” अपने आप में बकवास है या नहीं, लेकिन यहाँ यह दोनों है। Llama Guard ऐसा model है जो OpenAI moderation API जैसा काम करता है, और यह ऐसा model है जिसकी weights इस्तेमाल की जा सकती हैं
  “AI safety” अक्सर, और जिस movement ने इस शब्द को popular बनाया वह तो पूरी तरह, बकवास के काफ़ी करीब है और AI से हो रहे वास्तविक, मौजूदा सामाजिक नुकसान से ध्यान भटकाने वाला तत्व है
  दूसरी ओर, LLM बनाने और deploy करने वालों को sensitive क्षेत्रों में model की capabilities और वास्तविक inputs·outputs समझने के लिए जानकारी देने वाले अपेक्षाकृत खुले tools, centralized black-box censorship models की तुलना में ज़्यादा खुले हैं, और जिन्हें अधिक open व less censored models development का केंद्र बनते देखना है, उन्हें यह पसंद आना चाहिए
  ऐसे tools होने चाहिए ताकि organizations ऐसे models को वास्तविक महत्वपूर्ण applications में deploy कर सकें
- यहाँ safety का मतलब सिर्फ़ “विवादास्पद विषयों पर बात मत करो” नहीं है
  यहाँ safety का मतलब यह भी हो सकता है कि LLM किसी खास use case में स्वीकार्य सीमाओं के भीतर काम करे
  उदाहरण के लिए, मान लीजिए एक medical LLM है जो मरीज़ों को healthcare provider तक पहुँचने में मदद करता है, patient education देता है, और अस्पताल में रोज़मर्रा के administrative tasks में सहायता करता है
  अगर कोई patient prescription advice पूछे, तो आप ऐसा bot नहीं चाहेंगे जो medical staff review के बिना dose बदलने की सलाह दे या मौजूदा prescription के साथ interact करने वाली OTC दवा सुझा दे
  अभी बहुत से LLMs आत्मविश्वास के साथ बेतुके जवाब देते हैं, या users उन्हें वह जवाब देने के लिए prompt कर सकते हैं जो वे सुनना चाहते हैं। कई माहौल में यह एक वास्तविक safety issue बन जाता है
- यह नया model है, बस एक “safety बकवास model” है
  फिर भी dataset खुद उपयोगी हो सकता है। मैं code-only LLM के अतिरिक्त training data के रूप में codesec पक्ष को आज़माने के बारे में सोच रहा हूँ। क्योंकि अगर code generate करना है, तो उसके संभावित security impact के बारे में सोचना बेहतर है
जिसने इंटरनेट पर मीम्स लंबे समय तक देखे हैं, वह जानता होगा कि मकड़ी की बात आते ही जगह या घर को जला देने वाला एक मीम है
एक साल पहले मैंने Facebook पर एक छोटी लड़की का वीडियो देखा था, जिसमें वह अपने हाथ से कहीं बड़ी मकड़ी पकड़े हुए थी, और उसके बाद जो हुआ उसके कारण मुझे वह कमेंट शब्दशः याद है: “बेटा, उससे दूर हटो, हमें अपना घर जला देना चाहिए!”
मैंने कमेंट पोस्ट किया, लेकिन वह दिखा नहीं, और 1 सेकंड बाद Facebook ने बताया कि मेरा कमेंट रिपोर्ट कर दिया गया है। रिपोर्ट होने में यह बहुत तेज़ था, इसलिए मुझे लगा यह AI था। मैंने उम्मीद की कि यह किसी इंसान तक जाएगा और अपील की, लेकिन काफ़ी जल्दी, लगभग 15 मिनट में, वह भी खारिज हो गई
मुझे यही लग सकता है कि किसी ने इसे पढ़ा तो था, लेकिन उसने वीडियो देखा नहीं था और न ही यह समझा कि यह मज़ाक था
इसलिए मैंने Facebook का इस्तेमाल पूरी तरह बंद कर दिया। उस समय काम के लिए ऐसे apps थे जिन पर मेरे admin अधिकार थे, इसलिए account suspension का जोखिम मेरे बॉस के साथ करने लायक सुखद बातचीत नहीं था
शायद मैंने Facebook को कमाई भी कराई होगी। उनके बेहद targeted ads पर क्लिक करके मैंने सच में सामान खरीदा था। लेकिन अब जब कोई AI मशीन मुझे मीम कमेंट पोस्ट करने पर सज़ा देना चाहती है, तो मैं इसे बिल्कुल इस्तेमाल नहीं करता
साथ ही, Trust and Safety शब्द को याद रखिए। यही वह अभिव्यक्ति है जिसे सभी बड़ी tech कंपनियाँ और social media कंपनियाँ बार-बार इस्तेमाल करती हैं, और इसी के सहारे वे एक साथ ढेरों websites पर क्या अनुमति होगी यह एकतरफ़ा तय करती हैं
Trust and Safety लिंक: https://dtspartnership.org/
- क्या आप सच में कल्पना कर रहे हैं कि Facebook ने इतने कर्मचारी रखे हैं कि हर रिपोर्ट की जाँच कोई इंसान 15 मिनट लगाकर करे और फिर फैसला दे
  ऐसा तभी संभव होगा जब लगभग मेरा हर जानने वाला Facebook में काम करता हो
- बस Facebook का इस्तेमाल मत कीजिए
  लोग शिकायत कर रहे हैं, और हाँ, regulation हो सकता है, लेकिन उसका enforcement अक्सर कठिन होता है और सूक्ष्म context संभालना भी मुश्किल होता है
  संपर्क और संवाद का यही एकमात्र तरीका नहीं है
  लेकिन उन्हें ऐसा moderation अपनाना पड़ता है जिससे user base लौटता रहे और engaged रहे, PR समस्याएँ न हों, और advertisers आते रहें या उन शोर मचाने वाले समूहों को साधा जा सके जो समस्याएँ खड़ी कर सकते हैं
  इसलिए ऐसे दिखावटी “ethics” board और “responsible” नारे पैदा होते हैं
  आखिरकार यह बस एक business है
- “हमें घर जला देना चाहिए” जैसी बात को context से अलग करके platform पर छोड़ना मुश्किल है, क्योंकि इसका दूसरा मतलब निकाला जा सकता है
  scale को देखते हुए flag होना अपने-आप में समझ में आता है। हाँ, मैं भी उनका इस्तेमाल नहीं करूँगा, लेकिन वह अलग बात है
- और उसी समय FB सेवा के भीतर बाल यौन शोषण से जुड़े समूहों के फैलाव को नियंत्रित नहीं कर पा रहा, बल्कि recommendation system उन्हें बढ़ावा दे रहा है—ऐसी खबरें पढ़ रहा हूँ
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- दिलचस्प बात यह है कि लगभग एक महीने पहले मेरे साथ Facebook पर बहुत मिलती-जुलती घटना हुई
  किसी article का title ऐसे लिखा गया था मानो सारे traffic jam के लिए कोई “एक आदमी” ज़िम्मेदार हो, और लोग comments में मज़ाक कर रहे थे
  मैंने भी मज़ाक में लिखा, “उस आदमी को ढूँढकर थोड़ा सबक सिखाना पड़ेगा”
  लगभग तुरंत “हिंसा भड़काने” की सूचना आ गई, और अपील करने पर भी 15 मिनट के भीतर खारिज हो गई
  अगर कोई इंसान आधा सेकंड भी देख लेता, तो context समझ जाता, और यह भी जान लेता कि वह व्यक्ति वास्तव में है ही नहीं, इसलिए यह हिंसा भड़काना नहीं था
थोड़ा मज़ेदार घटनाक्रम है, लेकिन लगता है Meta ने Microsoft-स्टाइल भूलभुलैया जैसा login experience बनाना सीख लिया है
मैं ai.meta.com पर गया और अपने भरोसेमंद Facebook account से login करने की कोशिश की
निर्देशों के अनुसार आगे बढ़ा, तो बताया गया कि मेरी digital armory में अभी Meta account नहीं है। इसलिए मैंने एक बना लिया, और स्वाभाविक रूप से सोचा, “यह क्या है?”
लेकिन ट्विस्ट यह था कि यह मेरे region में उपलब्ध ही नहीं है
UX का स्तर इतना ऊँचा करने के लिए Microsoft को सलाम। उसकी विरासत अनपेक्षित जगहों पर भी जीवित है
- Android पर कोशिश की, तो पूछा गया कि FB, Instagram या email में से क्या इस्तेमाल करना है। मैंने Instagram चुना, लेकिन फिर भी Facebook पर redirect कर दिया गया
  उसके बाद Facebook ने कहा कि मुझे अपने VR headset login का उपयोग करना होगा, किसी ऐसी चीज़ का जिसे मैंने खरीदने के पहले हफ्ते के बाद कभी इस्तेमाल नहीं किया। मैंने सोचा, ठीक है
  फिर उसने पूछा कि क्या Facebook के साथ जोड़कर आगे बढ़ना है या बिना जोड़े, तो मैंने cancel कर दिया
- अगर region EU है, तो regulators को दोष दीजिए। उनका AI regulation तेज़ी से और बोझिल होता जा रहा है
- Microsoft के बारे में मुझे सबसे यादगार बात यह लगती है कि करीब 1-2 साल पहले login password पर 63 characters की सीमा जैसी कोई चीज़ थी
  स्वाभाविक रूप से उन्होंने बताया भी नहीं, और उस लंबाई का password सेट करने भी दिया, बिना कोई शिकायत किए
  मेरी नज़र में उन्होंने शायद बिना चेतावनी के उसे बस truncate कर दिया था। 60 characters से कम रखा, तो सब ठीक चला
- यही Conway’s law है
अगर model तक पहुँच हो, तो इन LLMs से safety tuning या “lobotomy” हटाने के लिए उन्हें फिर से train करना या fine-tune करना कितना मुश्किल होगा
- असुरक्षित Llama versions भी हैं
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  ऐसे models में थोड़ा आग जैसा मिज़ाज होता है
  और lobotomized LLM की समस्या को “spicy mayonnaise problem” कहा जाता है
  जुलाई के किसी समय Teknium नाम के एक developer ने AI chatbot से mayonnaise बनाने का तरीका पूछा। साधारण mayo नहीं, बल्कि “खतरनाक रूप से spicy” recipe चाहिए थी। लेकिन chatbot ने विनम्रता से मना कर दिया। उसने जवाब दिया: “एक मददगार और ईमानदार assistant के रूप में, मैं ऐसी recipes या निर्देश देना उचित नहीं समझता जो किसी व्यक्ति को नुकसान पहुँचा सकते हों, इसलिए मैं ‘खतरनाक रूप से spicy mayo’ के अनुरोध को पूरा नहीं कर सकता।” फिर कहा, “spicy खाना स्वादिष्ट हो सकता है, लेकिन अगर उसे सही तरह से तैयार या खाया न जाए, तो वह खतरनाक भी हो सकता है”
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- अगर model तक सीधी पहुँच हो, तो fine-tuning के बिना भी prompt में जवाब की शुरुआत “Sure, ...” जैसी रखकर आधे रास्ते तक पहुँचा जा सकता है
  मेरे जानने में सबसे ज़्यादा safety-tuned model Llama 2 Chat भी, ऊपर जैसी खास शैली में उकसाने पर, परमाणु बम बनाने के निर्देश बोलना शुरू कर सकता है
मॉडल https://huggingface.co/meta-llama/LlamaGuard-7b पर उपलब्ध है
इसे मुफ़्त Google Colab में चलाया जा सकता है: https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
क्या इस पेज पर जाने के बाद किसी और का back history भी खराब हो जाता है? अंदर जाने के बाद back पर क्लिक नहीं किया जा सकता। Firefox / MacOS
- Firefox में भी यही है। लिंक पर क्लिक करने के बाद HN पर वापस जाने की कोशिश की, लेकिन back बटन disabled था
- क्या आप इसे (Facebook) container में खोल रहे हैं?
- iOS मोबाइल Safari में यह ठीक काम करता है
- Windows के Edge में history सामान्य है

Purple Llama: जनरेटिव AI के लिए खुले trust और safety tools जारी

Purple Llama किन समस्याओं को लक्ष्य बनाता है

पहला release: CyberSec Eval और Llama Guard

CyberSec Eval: LLM के cybersecurity risks को मापना

Llama Guard: inputs और outputs को filter करने वाला safeguard model

Purple क्यों

Open ecosystem और सहयोग

Public release के बाद की योजना

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय