आजकल कलाकृति की इमेज को LLM ट्रेनिंग से बचाने के तरीके क्या हैं?

(lobste.rs)

1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

एक उपयोगकर्ता ने बताया कि उसकी पत्नी नहीं चाहती कि उसकी कलाकृति की इमेज LLM ट्रेनिंग में इस्तेमाल हो, इसलिए वह उन्हें ऑनलाइन सार्वजनिक करने में हिचक रही है
सवाल का मुख्य बिंदु यह है कि इमेज को पहले से प्रोसेस करके LLM ट्रेनिंग में बाधा डालने वाली कोई लाइब्रेरी या विधि क्या इस समय व्यावहारिक है
उपयोगकर्ता जानना चाहता है कि क्या उसकी पत्नी के लिए कस्टम वेबसाइट खुद बनाने लायक टूल उपलब्ध हैं
उसके पास फ्रंटएंड का बहुत अधिक अनुभव नहीं है, लेकिन वह static site generator से एक साधारण साइट बना सकता है
उसने पहले बैंड वेबसाइट बनाने के लिए Eleventy का इस्तेमाल किया है, इसलिए वह इसी तरह static site बनाने पर विचार कर रहा है

सवाल का संदर्भ

पत्नी अपनी कलाकृति की इमेज ऑनलाइन अपलोड नहीं करना चाहती
- कारण यह है कि वह नहीं चाहती कि वे इमेज LLM ट्रेनिंग में इस्तेमाल हों
उपयोगकर्ता यह खोज रहा है कि क्या कलाकृति की इमेज को पहले से इस तरह प्रोसेस किया जा सकता है कि LLM ट्रेनिंग मुश्किल हो जाए

वांछित समाधान का तरीका

वह अपनी पत्नी के लिए कस्टम वेबसाइट खुद बनाने का विकल्प सोच रहा है
ज़रूरी शर्त यह है कि क्या कलाकृति की इमेज को प्रोसेस करके LLM ट्रेनिंग में बाधा डालने वाली लाइब्रेरी या विधि वास्तव में मौजूद है
उसकी तकनीकी स्थिति इस प्रकार है
- फ्रंटएंड का अनुभव बहुत अधिक नहीं है
- static site generator से साधारण साइट बना सकता है
- पहले Eleventy से बैंड वेबसाइट बना चुका है

1 टिप्पणियां

GN⁺ 4 시간 전

Lobste.rs की राय

अपडेट: cara को देखना अच्छा रहेगा
मेरा एक artist दोस्त अपना काम वहाँ अपलोड करता है और लगता है कि वह संतुष्ट है
यह artist-first होने का दावा करता है, खुलकर anti-AI रुख रखता है, और लगता है कि इसमें Glaze integration भी है ताकि इमेज AI training में इस्तेमाल न हों
और कहना यह था कि शायद LLM नहीं बल्कि diffusion model की बात है। LLM text संभालते हैं, इसलिए खोजते समय यह मददगार हो सकता है
Nightshade याद है, लेकिन जल्दी से जाँचने पर यह 2023/24 के आसपास का दिखता है और इसका repository या maintenance के निशान नहीं मिले
artwork को poison करने या LLM की पहुँच से छिपाने वाले तरीकों की समस्या यह है कि उनकी प्रभावशीलता कितनी है, यह पता नहीं चल सकता, और शायद कभी चल भी नहीं सकता। आखिरकार सब कुछ black box में चला जाता है
अगर आप नहीं चाहते कि आपका काम LLM में collect हो, तो कुछ विकल्प हैं, और हर एक के अपने फायदे-नुकसान हैं
1. इसे online अपलोड ही न करें। बहुत आसान है, लेकिन यह तभी काम करता है जब कोई और भी इसे online न डाले। अगर यह किताब है, तो AI कंपनियाँ इसे scan जैसी दूसरी राह से भी हासिल कर सकती हैं
2. इसे सिर्फ signup और login के बाद online उपलब्ध कराएँ। दिलचस्पी रखने वाले लोग पहुँच सकते हैं, और सामान्य LLM नहीं पहुँच पाएँगे। बेशक, यह मानकर चलना होगा कि कोई इसे login barrier हटाकर फिर से अपलोड नहीं करेगा
3. इसे मजबूत crawler defense के पीछे रखें। अपना tool होने के कारण यह कहना थोड़ा अटपटा है, लेकिन iocaine जैसी चीज़ को site के front end पर रखने से बहुत से crawlers रुक सकते हैं। सब नहीं, लेकिन इतना ज़रूर कि training में जाने की संभावना काफी कम हो जाए, और सामान्य visitors के लिए भी बाधा बहुत बड़ी न हो
  एक और अहम बात यह है कि अगर आप training data से बाहर रहना चाहते हैं, तो शायद search engine में न दिखना भी ज़रूरी है। commercial search engines अपनी index की गई सामग्री से training करते हैं, इसलिए अगर वही सामग्री Google search में मिल रही है, तो उसके Gemini में भी होने की संभावना काफी है
  आखिरकार, अगर आप LLM training के बिना portfolio site बनाना चाहते हैं, तो यह मुश्किल है। अगर बस काम को online डालना है, तो login barrier या मजबूत crawler defense training की संभावना को काफी घटा सकते हैं। दुर्भाग्य से इसे 0 नहीं बनाया जा सकता, और ऐसा कोई जादुई tool नहीं है जिस पर भरोसे से कहा जा सके कि वह artwork को छिपा देगा या विषैला बना देगा
लगता है आपकी पत्नी की instinct सही है। कम से कम सार्वजनिक रूप से, इसे online न डालना ही जवाब के सबसे करीब है
- अच्छा नहीं लगता, लेकिन broadly देखें तो मानवीय रचनात्मक अभिव्यक्ति का हाल अभी कुछ ऐसा ही है
  अगर आप नहीं चाहते कि यह low-quality generated output machine का ईंधन बने, तो इसे सार्वजनिक रूप से साझा नहीं कर सकते
सोचा नहीं था कि मैं यह कहूँगा, लेकिन लगता है कि और मजबूत DRM की ज़रूरत है। स्तर ऐसा होना चाहिए कि model के अंदर तक provenance track हो सके, हालाँकि यह भी साफ नहीं कि ऐसी चीज़ संभव है या नहीं
इसके अलावा, लगता है आपकी पत्नी सही कह रही हैं, और LLM obfuscation लंबे समय तक चलने वाला mitigation नहीं बन पाएगा
- अपने पसंदीदा hacker forum पर लोगों को DRM के पक्ष में बात करते देखना बताता है कि स्थिति सच में गंभीर है
- अच्छी बात यह है कि DRM काम नहीं करता, और कर भी नहीं सकता
  और अगर यह काम करे भी, तो यह उम्मीद नहीं करनी चाहिए कि इसे उन लोगों के अधिकार बचाने के लिए deploy किया जाएगा जो पहले से ताकतवर नहीं हैं
- बिल्कुल नहीं। और मजबूत DRM की ज़रूरत नहीं है
  इसे हासिल करने का एकमात्र तरीका, जो फिर भी आखिरकार टूट ही जाएगा, verifiable hardware के encrypted enclave का उपयोग है, और इसका मतलब है कि धीरे-धीरे users से अपने ही device पर नियंत्रण का अधिकार छीनना
- जब वे copyright, license वगैरह को पूरी तरह नज़रअंदाज़ करते हैं, तो लगता नहीं कि कितना भी DRM लगा दें, उससे मदद मिलेगी
  और इन कंपनियों के रोज़ जलाए जा रहे पैसों के पैमाने को देखें, तो DRM शायद कोई बड़ी रुकावट भी नहीं बनेगा
  नतीजे में यह सिर्फ इतना कर सकता है कि केवल ज़्यादा funding वाले models में ही चीज़ें जाएँ
  DRM को आप कैसे define करते हैं, इस पर निर्भर करता है कि इस तरह की obfuscation को भी DRM कहा जा सकता है
मैंने डेढ़ साल पहले Glaze को देखा था, और कुछ follow-up सवाल पूछने के लिए lab से भी संपर्क किया था, लेकिन याद पड़ता है कि जवाब नहीं मिला
उस जाँच के दौरान मुझे सीमाएँ और caveats बहुत ज़्यादा दिखे। अभी state of the art क्या है, यह नहीं पता, लेकिन मुझे आशावाद नहीं है कि सामान्य image poisoning ज़्यादातर models पर काम करेगी
कुछ models और कुछ परिस्थितियों में Glaze ने काम किया था

आजकल कलाकृति की इमेज को LLM ट्रेनिंग से बचाने के तरीके क्या हैं?

सवाल का संदर्भ

वांछित समाधान का तरीका

संबंधित पढ़ाई

1 टिप्पणियां

Lobste.rs की राय