- Low-background Steel साइट AI-जनित सामग्री से दूषित न हुए संसाधनों को इकट्ठा करने का काम करती है
- यह प्रोजेक्ट 2022 में बड़े पैमाने पर AI सामग्री के प्रसार से पहले बनाई गई टेक्स्ट, इमेज और वीडियो सामग्री पर फोकस करता है
- Wikipedia, Arctic Code Vault, Project Gutenberg जैसे प्रमुख योगदान स्रोतों का मार्गदर्शन करता है
- साइट विज़िटर नई अदूषित सामग्री भी जमा कर सकते हैं
- परमाणु परीक्षणों से पहले के स्वच्छ धातु की अवधारणा से प्रेरित यह विचार विश्वसनीयता और मौलिकता बनाए रखने पर केंद्रित है
परिचय
- Low-background Steel AI द्वारा बनाई गई सामग्री से दूषित न हुए ऑनलाइन संसाधनों को एकत्र करने वाली वेबसाइट है
- इस साइट का नाम परमाणु परीक्षणों से पहले निर्मित और रेडियोधर्मी प्रदूषण से मुक्त धातु Low-background Steel (और Lead) से प्रेरित है
- परमाणु परीक्षण (Trinity Test) से पहले डूबे जहाज़ों से निकाली गई धातु लगभग रेडियोधर्मी प्रदूषण से मुक्त होने के कारण मूल्यवान मानी जाती है
- इसी विचार से प्रेरित होकर, AI-जनित सामग्री के तेज़ी से बढ़ने से पहले तैयार की गई शुद्ध डिजिटल सामग्री को संरक्षित और निर्देशित करने का उद्देश्य है
लक्ष्य और पृष्ठभूमि
- 2022 में बड़े पैमाने पर AI-आधारित जनरेटिव सामग्री के आगमन से पहले के टेक्स्ट, इमेज, वीडियो आदि जैसे विभिन्न मौलिक प्रारूपों वाली सामग्री को सुरक्षित करना इसका मुख्य उद्देश्य है
- इनमें Wikipedia का पूरा dump, Arctic Code Vault, Project Gutenberg जैसे विश्वसनीय प्रमुख open source डेटाबेस शामिल हैं
- साइट उपयोगकर्ता नए अदूषित संसाधनों को submission form के ज़रिए सीधे जोड़ सकते हैं
साइट का महत्व
- AI-जनित सामग्री के तेज़ी से बढ़ते दौर में, मौलिकता का संरक्षण और विश्वसनीय जानकारी हासिल करना अधिक महत्वपूर्ण हो गया है
- Low-background Steel का लक्ष्य ऐसा स्वच्छ data reference उपलब्ध कराना है जिसे सूचना प्रदूषण की चिंता के बिना इस्तेमाल किया जा सके
योगदान कैसे करें
- कोई भी व्यक्ति नए Non-contaminated content source को साइट के submit फीचर से जोड़ने का सुझाव दे सकता है
संदर्भ
- साइट के उद्देश्य को अच्छी तरह दर्शाने वाला Wikipedia का Low-background Steel संबंधी विवरण लिंक किया गया है
- यह प्रोजेक्ट मार्च 2023 में शुरू हुआ और व्यावहारिक रूप से ऑनलाइन सामग्री संरक्षण के लिए एक प्रयोगात्मक hub की भूमिका निभा रहा है
1 टिप्पणियां
Hacker News राय
Unicode में एक नया 'plane' जोड़कर सभी उपयोगी अक्षरों की mirror-copy बनाई जाए, और उन्हें अलग पहचानने के लिए अतिरिक्त state bits जोड़े जाएँ — यह विचार दिलचस्प लगा
उदाहरण के लिए, ‘मानव द्वारा सीधे लिखा गया’ ज़ोन में AI-generated text का उपयोग करते ही दंड मिले, ‘केवल मानव के लिए सार्वजनिक’ क्षेत्र में AI का training या access तक प्रतिबंधित हो, और ‘AI द्वारा generated होने की स्वीकृति’ वाले दायरे में सभी AI outputs को अनिवार्य रूप से उसी character range में रखा जाए — ऐसी कल्पना की
बेशक, इन अक्षरों को दृश्य रूप से अलग पहचानना कठिन होगा और वे केवल software के माध्यम से ही पहचाने जा सकेंगे, इसलिए वे एक सूक्ष्म channel की तरह काम करेंगे
text को copy-paste करने पर भी मूल जानकारी character encoding के छोटे अंतर के रूप में साथ चली जाएगी
लगभग मज़ाक जैसा है, लेकिन ऐसा system फिर भी दिलचस्प लगता है
जैसे organic food होता है, वैसे 100% इंसानों द्वारा लिखे गए ‘organic’ content के लिए premium value बन सकती है
‘AI-generated text’ का मानदंड अस्पष्ट लगा, इसलिए कुछ ठोस उदाहरण दिए
Unicode में मूल रूप से भाषा क्षेत्रों को चिह्नित करने के लिए tag characters मौजूद थे, लेकिन higher-level markup (HTML आदि) के आगे वे अब deprecated हो चुके हैं
अगर ऐसा कानून लागू हुआ, तो 12 मिलीसेकंड में भारत में ‘typing factory’ बन जाएगी, जहाँ इंसान AI output को नकल करके data laundering में इस्तेमाल करेंगे
उदाहरण के लिए, अगर कोई पहले विदेशी भाषा में लिखे और फिर ChatGPT से उसे अंग्रेज़ी में translate कराए, तो क्या उसे AI-generated माना जाएगा, यह सवाल है
दावा किया गया कि AI outputs में मूल रूप से mean reversion की प्रवृत्ति होती है
इस नज़रिए से यह सब ऐसी जानकारी है जिसे इंसान सीधे पूछकर भी पा सकता है
सभी AI-generated content पर सिर्फ़
<AI generated content>टैग लगा देना चाहिए, और बाकी सब सार्वजनिक हित से ज़्यादा प्रदूषण जैसा हैअगर यही तर्क मानें, तो फिर कुछ भी लिखने की ज़रूरत ही नहीं बचेगी
कभी इस सहज विश्वास के समर्थन में थोड़ा-बहुत प्रायोगिक प्रमाण भी था
मानव विशेषज्ञ के नाम से जुड़ी verification और curation प्रक्रिया स्वयं भी बहुत मूल्यवान है
यह जिज्ञासा भी है कि AI से edit या style-change किया गया लेख भी अंततः मानव-लिखित माना जा सकता है या नहीं
यह सब बेतुका लगता है
लगा कि इस लेख में चुने गए शब्द बड़ी चतुराई से चिंता को कम करके दिखाते हैं
परमाणु परीक्षण बंद होने के बाद radiation level लगभग प्राकृतिक स्तर के क़रीब आ गया, इसलिए नए low-background steel की ज़रूरत घट गई; और नया steel भी पर्याप्त रूप से low-radiation signal वाला है, इसलिए अधिकांश उपयोगों के लिए ठीक है
एक बात यह भी कि ‘अप्रदूषित’ data अनिवार्य हो, ऐसा नहीं लगता
यह सच है कि परमाणु परीक्षण बंद होने की वजह से background radiation घटी
यह मामला शायद उतना गंभीर नहीं होगा जितना आम लोग सोचते हैं
तर्क यह है कि लंबे समय में AI वास्तविक अनुभवों से सीखेगा, जिससे अनंत non-copyright training data संभव होगा और AI contamination की समस्या भी टल जाएगी
लेकिन व्यवहार में AI hallucinations/तथ्य-विकृति को उद्धृत किया जाता है और वे सच की तरह जम जाती हैं
वास्तविक अनुभव data, जैसे car repair, पैदा करना खुद महँगा और जोखिम भरा है
YouTube पर वास्तविक car repair experience data बहुत है, लेकिन copyright का मुद्दा बना रहता है
लंबे समय में AGI सच में ज़रूरी है या नहीं, इस पर भी सवाल है
अनुमान है कि सामान्य बुद्धि वाले humanoid robots आने से पहले कार ठीक करने वाली AI systems वास्तविकता नहीं बनेंगी
अभी तक इस बात का कोई प्रमाण नहीं है कि ‘AI contamination’ वास्तव में AI training में समस्या पैदा कर रही है
2022 से पहले के सार्वजनिक data पर trained AI ने 2022 के बाद के data पर trained AI की तुलना में कोई स्पष्ट performance advantage नहीं दिखाया
कुछ मामलों में हाल का data थोड़ा बेहतर भी दिखता है
‘low background steel’ वाली analogy के पीछे असल सोच यह है कि synthetic data पर बार-बार training करने से AI model पूरी तरह अर्थहीन हो जाएगा — यानी ‘model collapse’ आएगा
ऊपर का दावा कई कारणों से तर्कसंगत नहीं लगता
अभी AI contamination का ‘कचरा’ वास्तव में बड़े पैमाने पर नहीं उमड़ा है, लेकिन आगे इसके तेज़ी से बढ़ने की उम्मीद है
कुछ लोग AI content से उतने असहज नहीं हैं, और low-background steel वाली analogy को बहुत शानदार विचार मानते हैं
मैं भी AI content से बहुत असहज नहीं हूँ, और वास्तव में इस विषय पर एक site भी बनाई है
व्यक्तिगत रूप से यह AI phobia से ज़्यादा, AI को अपने ही outputs दोबारा सीखने से रोकने की इच्छा है
आज का मेरा विचार हैरानी की हद तक भविष्यसूचक निकला
मेरी पुरानी टिप्पणी
कम-से-कम 1 साल पहले, या शायद उससे भी पहले, hackernews पर यह उदाहरण देखा था
ChatGPT रिलीज़ होने के बाद यह एक आम इस्तेमाल होने वाली analogy थी
AI ‘contamination’-free content वाली framing भी पहले देख चुका हूँ, लेकिन ‘low background steel’ से इसकी तुलना करना काफ़ी नया और ताज़ा लगा
मेरी राय अलग है
low-background analogy की दिलचस्पी से सहमति है
संदेह है कि यह analogy वास्तव में इतनी प्रभावशाली है भी या नहीं
low-background steel वास्तव में नया बनाना लगभग असंभव है, जबकि AI-free content तो बस AI का उपयोग न करके बनाया जा सकता है, इसलिए कठिनाई कम है
वास्तव में किसी output के AI-free होने को वस्तुनिष्ठ रूप से साबित करना लगभग असंभव है, इसलिए स्वयं लेखक के अलावा कोई निश्चित नहीं हो सकता
सवाल है कि कौन, किस कारण से, और किस पैसे पर AI-free content बनाएगा
यह बस clickbait शीर्षक जैसा लगता है
इस site के नाम के Y combinator से आने की बात पकड़ते हुए, function के fixed point को ढूँढना inference model की requirement बताया गया
भले ही AI-पक्षपाती data generation बढ़े, फिर भी उम्मीद है कि original human content, derived content, और derived content के भी derived versions जैसी कई परतें training में मिलें, तब भी मूलभूत विशेषताएँ लगातार निकाली जा सकेंगी