1 पॉइंट द्वारा GN⁺ 2025-06-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Low-background Steel साइट AI-जनित सामग्री से दूषित न हुए संसाधनों को इकट्ठा करने का काम करती है
  • यह प्रोजेक्ट 2022 में बड़े पैमाने पर AI सामग्री के प्रसार से पहले बनाई गई टेक्स्ट, इमेज और वीडियो सामग्री पर फोकस करता है
  • Wikipedia, Arctic Code Vault, Project Gutenberg जैसे प्रमुख योगदान स्रोतों का मार्गदर्शन करता है
  • साइट विज़िटर नई अदूषित सामग्री भी जमा कर सकते हैं
  • परमाणु परीक्षणों से पहले के स्वच्छ धातु की अवधारणा से प्रेरित यह विचार विश्वसनीयता और मौलिकता बनाए रखने पर केंद्रित है

परिचय

  • Low-background Steel AI द्वारा बनाई गई सामग्री से दूषित न हुए ऑनलाइन संसाधनों को एकत्र करने वाली वेबसाइट है
  • इस साइट का नाम परमाणु परीक्षणों से पहले निर्मित और रेडियोधर्मी प्रदूषण से मुक्त धातु Low-background Steel (और Lead) से प्रेरित है
  • परमाणु परीक्षण (Trinity Test) से पहले डूबे जहाज़ों से निकाली गई धातु लगभग रेडियोधर्मी प्रदूषण से मुक्त होने के कारण मूल्यवान मानी जाती है
  • इसी विचार से प्रेरित होकर, AI-जनित सामग्री के तेज़ी से बढ़ने से पहले तैयार की गई शुद्ध डिजिटल सामग्री को संरक्षित और निर्देशित करने का उद्देश्य है

लक्ष्य और पृष्ठभूमि

  • 2022 में बड़े पैमाने पर AI-आधारित जनरेटिव सामग्री के आगमन से पहले के टेक्स्ट, इमेज, वीडियो आदि जैसे विभिन्न मौलिक प्रारूपों वाली सामग्री को सुरक्षित करना इसका मुख्य उद्देश्य है
  • इनमें Wikipedia का पूरा dump, Arctic Code Vault, Project Gutenberg जैसे विश्वसनीय प्रमुख open source डेटाबेस शामिल हैं
  • साइट उपयोगकर्ता नए अदूषित संसाधनों को submission form के ज़रिए सीधे जोड़ सकते हैं

साइट का महत्व

  • AI-जनित सामग्री के तेज़ी से बढ़ते दौर में, मौलिकता का संरक्षण और विश्वसनीय जानकारी हासिल करना अधिक महत्वपूर्ण हो गया है
  • Low-background Steel का लक्ष्य ऐसा स्वच्छ data reference उपलब्ध कराना है जिसे सूचना प्रदूषण की चिंता के बिना इस्तेमाल किया जा सके

योगदान कैसे करें

  • कोई भी व्यक्ति नए Non-contaminated content source को साइट के submit फीचर से जोड़ने का सुझाव दे सकता है

संदर्भ

  • साइट के उद्देश्य को अच्छी तरह दर्शाने वाला Wikipedia का Low-background Steel संबंधी विवरण लिंक किया गया है
  • यह प्रोजेक्ट मार्च 2023 में शुरू हुआ और व्यावहारिक रूप से ऑनलाइन सामग्री संरक्षण के लिए एक प्रयोगात्मक hub की भूमिका निभा रहा है

1 टिप्पणियां

 
GN⁺ 2025-06-11
Hacker News राय
  • Unicode में एक नया 'plane' जोड़कर सभी उपयोगी अक्षरों की mirror-copy बनाई जाए, और उन्हें अलग पहचानने के लिए अतिरिक्त state bits जोड़े जाएँ — यह विचार दिलचस्प लगा

    • उदाहरण के लिए, ‘मानव द्वारा सीधे लिखा गया’ ज़ोन में AI-generated text का उपयोग करते ही दंड मिले, ‘केवल मानव के लिए सार्वजनिक’ क्षेत्र में AI का training या access तक प्रतिबंधित हो, और ‘AI द्वारा generated होने की स्वीकृति’ वाले दायरे में सभी AI outputs को अनिवार्य रूप से उसी character range में रखा जाए — ऐसी कल्पना की

    • बेशक, इन अक्षरों को दृश्य रूप से अलग पहचानना कठिन होगा और वे केवल software के माध्यम से ही पहचाने जा सकेंगे, इसलिए वे एक सूक्ष्म channel की तरह काम करेंगे

    • text को copy-paste करने पर भी मूल जानकारी character encoding के छोटे अंतर के रूप में साथ चली जाएगी

    • लगभग मज़ाक जैसा है, लेकिन ऐसा system फिर भी दिलचस्प लगता है

    • जैसे organic food होता है, वैसे 100% इंसानों द्वारा लिखे गए ‘organic’ content के लिए premium value बन सकती है

      • लेकिन food industry की तरह, वास्तव में क्या अनुमति है और कहाँ तक organic माना जाए, यह तय करना दुःस्वप्न होगा
      • certification भरोसे के network पर निर्भर करेगा, और अंततः AI outputs मिलावट के बावजूद ऊँची कीमत पर बिक सकते हैं
    • ‘AI-generated text’ का मानदंड अस्पष्ट लगा, इसलिए कुछ ठोस उदाहरण दिए

        1. छात्र ने पूरी तरह हाथ से लिखा
        1. उसने एक online encyclopedia देखी, लेकिन वह encyclopedia अंदरूनी तौर पर AI का उपयोग करती है
        1. AI से paper की structure, मुख्य बिंदु और conclusion बनवाकर खुद लिखा
        1. अपने लिखे हुए text में AI से केवल spelling, sentence correction और style adjustment करवाया
        1. AI ने पूरा text ghostwrite किया
        1. कई रचनाएँ खुद लिखीं, फिर AI से सबसे अच्छी रचना चुनवाई
      • पहला और आख़िरी मामला साफ़ हैं, लेकिन बीच के मामलों में कहाँ तक AI output माना जाए, यह उलझन है
    • Unicode में मूल रूप से भाषा क्षेत्रों को चिह्नित करने के लिए tag characters मौजूद थे, लेकिन higher-level markup (HTML आदि) के आगे वे अब deprecated हो चुके हैं

      • ये characters दिखाई नहीं देते, और cursor movement में कई characters एक character की तरह handle होते हैं
      • ये ASCII के अनुरूप हैं, इसलिए मनमाना JSON या data insert करना संभव है
      • LLM-generated क्षेत्रों को चिह्नित करने में इनका उपयोग हो सकता है, लेकिन यह hidden data या non-recommended use जैसा महसूस हो सकता है
      • संबंधित लिंक: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • अगर ऐसा कानून लागू हुआ, तो 12 मिलीसेकंड में भारत में ‘typing factory’ बन जाएगी, जहाँ इंसान AI output को नकल करके data laundering में इस्तेमाल करेंगे

    • उदाहरण के लिए, अगर कोई पहले विदेशी भाषा में लिखे और फिर ChatGPT से उसे अंग्रेज़ी में translate कराए, तो क्या उसे AI-generated माना जाएगा, यह सवाल है

      • या पहले हाथ से लिखा जाए, फिर LLM से OCR कराया जाए, या AI को बहुत विस्तृत outline दी जाए और fact-checking भी सख्ती से की जाए, तो क्या होगा
      • अगर AI का उपयोग केवल grammar check या वैज्ञानिक अभिव्यक्ति सुधारने के लिए किया गया हो, तो क्या वह भी AI-generated है
      • मेरे हिसाब से इन सबका जवाब ‘नहीं’ है
  • दावा किया गया कि AI outputs में मूल रूप से mean reversion की प्रवृत्ति होती है

    • इस नज़रिए से यह सब ऐसी जानकारी है जिसे इंसान सीधे पूछकर भी पा सकता है

    • सभी AI-generated content पर सिर्फ़ <AI generated content> टैग लगा देना चाहिए, और बाकी सब सार्वजनिक हित से ज़्यादा प्रदूषण जैसा है

    • अगर यही तर्क मानें, तो फिर कुछ भी लिखने की ज़रूरत ही नहीं बचेगी

      • Shakespeare, गणितीय प्रमाण, सभी उपन्यास और रिपोर्टिंग — सब अंततः संभव शब्द-संयोजनों का ही रूप हैं
      • किसी चीज़ की कीमत सिर्फ़ इस बात में नहीं कि वह ‘उत्पन्न की जा सकती है’, बल्कि इस बात में है कि उसे किसी खास उद्देश्य, परिस्थिति और पाठक के लिए बनाया गया है
    • कभी इस सहज विश्वास के समर्थन में थोड़ा-बहुत प्रायोगिक प्रमाण भी था

      • लेकिन हाल में अच्छी तरह curated AI outputs ने innovative breakthroughs दिखाए हैं, जिससे अब यह दावा सही नहीं लगता
    • मानव विशेषज्ञ के नाम से जुड़ी verification और curation प्रक्रिया स्वयं भी बहुत मूल्यवान है

      • वास्तव में इंटरनेट का अधिकांश content पहले से ही गैर-विशेषज्ञ, कम वेतन वाले, निम्न-गुणवत्ता वाले लोगों द्वारा बनाया गया था; AI ने इसे और खराब किया है, ऐसा नहीं मानता
    • यह जिज्ञासा भी है कि AI से edit या style-change किया गया लेख भी अंततः मानव-लिखित माना जा सकता है या नहीं

      • मेरे मामले में, मैं notes में आवाज़ से blog post बोलकर रिकॉर्ड करता हूँ, फिर उसे CGPT या Claude से tone और rhythm के हिसाब से polish कराता हूँ
    • यह सब बेतुका लगता है

      • अगर आपने deep research tools सच में इस्तेमाल किए हों, तो समझ आएगा कि इंसान भी बहुत बेकार content बनाते हैं
      • utopian ग़लतफ़हमी में मत पड़िए
  • लगा कि इस लेख में चुने गए शब्द बड़ी चतुराई से चिंता को कम करके दिखाते हैं

    • परमाणु परीक्षण बंद होने के बाद radiation level लगभग प्राकृतिक स्तर के क़रीब आ गया, इसलिए नए low-background steel की ज़रूरत घट गई; और नया steel भी पर्याप्त रूप से low-radiation signal वाला है, इसलिए अधिकांश उपयोगों के लिए ठीक है

    • एक बात यह भी कि ‘अप्रदूषित’ data अनिवार्य हो, ऐसा नहीं लगता

      • LLM data सामान्य reddit comments की तुलना में कहीं बेहतर लगता है
      • archive.org, gutenberg आदि से ‘शुद्ध’ data अभी भी आसानी से मिल सकता है
      • LLM outputs अंततः हर जगह घुल-मिल जाएँगे, इसलिए यह एक अपरिहार्य प्रवाह है
    • यह सच है कि परमाणु परीक्षण बंद होने की वजह से background radiation घटी

  • यह मामला शायद उतना गंभीर नहीं होगा जितना आम लोग सोचते हैं

    • तर्क यह है कि लंबे समय में AI वास्तविक अनुभवों से सीखेगा, जिससे अनंत non-copyright training data संभव होगा और AI contamination की समस्या भी टल जाएगी

    • लेकिन व्यवहार में AI hallucinations/तथ्य-विकृति को उद्धृत किया जाता है और वे सच की तरह जम जाती हैं

      • उदाहरण: “MS-DOS के लिए built-in Connect Four productivity program का नाम क्या था?” यह सवाल असली AI से कई बार पूछा गया, और हर बार अलग लेकिन सब ग़लत जवाब मिले
      • फिर वही ग़लत जानकारी web पर उद्धृत होती है, और AI उसे दोबारा सीख लेता है — एक चक्रीय लूप बन जाता है
      • ऐसी स्थिति में सच तक पहुँचना मुश्किल हो जाता है
    • वास्तविक अनुभव data, जैसे car repair, पैदा करना खुद महँगा और जोखिम भरा है

      • इंसानी mechanic की तरह AI को भी manuals और explicit training curriculum से शुरुआत करनी होगी
      • अगर वह केवल वास्तविक execution data से सीखे, तो trial-and-error में गाड़ियों को नुकसान पहुँचा सकता है, और उस दौरान भी इंसानों को हस्तक्षेप करना पड़ेगा
      • off-policy reinforcement learning (RL) में भी data पिछले generation के models से आया हो सकता है, यानी AI द्वारा ही बनाया गया हो
      • इसलिए केवल real-world experience supply limits, cost और AI contamination की समस्या को पूरी तरह हल नहीं कर सकता
    • YouTube पर वास्तविक car repair experience data बहुत है, लेकिन copyright का मुद्दा बना रहता है

      • बहस यह है कि AI companies को उस content का उपयोग करने से पहले copyright license लेना चाहिए या नहीं
    • लंबे समय में AGI सच में ज़रूरी है या नहीं, इस पर भी सवाल है

      • AGI आने के बाद spam content की quality भी बढ़ जाएगी — इस तर्क पर संदेह है
      • संबंधित xkcd: https://xkcd.com/810/
    • अनुमान है कि सामान्य बुद्धि वाले humanoid robots आने से पहले कार ठीक करने वाली AI systems वास्तविकता नहीं बनेंगी

      • 5-star hotel में AI maid आने की बात भी ऐसी ही है
      • इसलिए यह मानना कि language database contamination समय के साथ अपने-आप सुलझ जाएगी, थोड़ा अवास्तविक लगता है
  • अभी तक इस बात का कोई प्रमाण नहीं है कि ‘AI contamination’ वास्तव में AI training में समस्या पैदा कर रही है

    • 2022 से पहले के सार्वजनिक data पर trained AI ने 2022 के बाद के data पर trained AI की तुलना में कोई स्पष्ट performance advantage नहीं दिखाया

    • कुछ मामलों में हाल का data थोड़ा बेहतर भी दिखता है

    • ‘low background steel’ वाली analogy के पीछे असल सोच यह है कि synthetic data पर बार-बार training करने से AI model पूरी तरह अर्थहीन हो जाएगा — यानी ‘model collapse’ आएगा

      • लेकिन व्यवहार में ऐसा नहीं दिखा, और AI companies भी शायद AI data को अलग करके filter करने वाले systems अंदरूनी तौर पर नहीं चला रहीं
      • बल्कि अगर इंसान AI data के अत्यधिक संपर्क में आएँ, तो model collapse जैसा असर इंसानों में दिख सकता है
      • यह पूरी तरह मेरे अनुभव और intuition पर आधारित बात है
    • ऊपर का दावा कई कारणों से तर्कसंगत नहीं लगता

        1. 2022 के बाद LLM training techniques बहुत बेहतर हुई हैं, इसलिए data में मौजूद AI ‘कचरे’ का नकारात्मक असर बस इतना बड़ा नहीं दिख रहा
        1. performance evaluation अस्पष्ट है, और यह अंतर बस समान पीढ़ी के models (Gemini 2.5 vs Claude 4 आदि) के बीच छोटे फ़र्क के रूप में दिखता है
      • ऐसे छोटे effects को data से साबित करना कठिन है, और ऐसे में सैद्धांतिक/सिद्धांत-आधारित रुख अधिक महत्वपूर्ण हो जाता है
      • सिद्धांततः AI-generated data पर training से बचना बेहतर है
    • अभी AI contamination का ‘कचरा’ वास्तव में बड़े पैमाने पर नहीं उमड़ा है, लेकिन आगे इसके तेज़ी से बढ़ने की उम्मीद है

  • कुछ लोग AI content से उतने असहज नहीं हैं, और low-background steel वाली analogy को बहुत शानदार विचार मानते हैं

    • मैं भी AI content से बहुत असहज नहीं हूँ, और वास्तव में इस विषय पर एक site भी बनाई है

      • उद्देश्य उन सामग्रियों का रिकॉर्ड रखना है जिनके बारे में स्पष्ट रूप से जाना जाता है कि वे इंसानों ने बनाई हैं
    • व्यक्तिगत रूप से यह AI phobia से ज़्यादा, AI को अपने ही outputs दोबारा सीखने से रोकने की इच्छा है

      • ‘pre-AI’ युग का content अब फिर से नया पैदा नहीं किया जा सकता, इसलिए उसकी scarcity अपने-आप बढ़ती जाएगी
      • अगर 2015 के आसपास ही हर data पर cryptographic timestamp लगा दिया गया होता तो बेहतर होता, लेकिन अब भी जो बचा है उसे संभालने का समय है
  • आज का मेरा विचार हैरानी की हद तक भविष्यसूचक निकला

    • मेरी पुरानी टिप्पणी

    • कम-से-कम 1 साल पहले, या शायद उससे भी पहले, hackernews पर यह उदाहरण देखा था

    • ChatGPT रिलीज़ होने के बाद यह एक आम इस्तेमाल होने वाली analogy थी

    • AI ‘contamination’-free content वाली framing भी पहले देख चुका हूँ, लेकिन ‘low background steel’ से इसकी तुलना करना काफ़ी नया और ताज़ा लगा

    • मेरी राय अलग है

      • मुझे विश्वास है कि हम content और synthetic data पर annotations जोड़ेंगे, और मशीनें उनका उपयोग करके भविष्य के outputs को धीरे-धीरे बेहतर बनाएँगी
      • भले ही LLMs में यह असर बहुत स्पष्ट न हो, image और video models में यह साफ़ दिखता है
      • जब केवल सबसे बेहतरीन visual outputs को चुना जाता है, तो परिणाम धीरे-धीरे सुधरते हैं, और इस प्रक्रिया में ‘रुचि-आधारित curation’ भी बड़ी भूमिका निभाती है
      • genetics और biology में विभिन्न ecological niches की तरह, हम synthetic machines के साथ game के rules को तेज़ी से evolve कर रहे हैं
  • low-background analogy की दिलचस्पी से सहमति है

  • संदेह है कि यह analogy वास्तव में इतनी प्रभावशाली है भी या नहीं

    • low-background steel वास्तव में नया बनाना लगभग असंभव है, जबकि AI-free content तो बस AI का उपयोग न करके बनाया जा सकता है, इसलिए कठिनाई कम है

    • वास्तव में किसी output के AI-free होने को वस्तुनिष्ठ रूप से साबित करना लगभग असंभव है, इसलिए स्वयं लेखक के अलावा कोई निश्चित नहीं हो सकता

    • सवाल है कि कौन, किस कारण से, और किस पैसे पर AI-free content बनाएगा

    • यह बस clickbait शीर्षक जैसा लगता है

  • इस site के नाम के Y combinator से आने की बात पकड़ते हुए, function के fixed point को ढूँढना inference model की requirement बताया गया

    • आशावादी नज़रिया यह है कि एक content खुद को transform करेगा, फिर उसी result को input बनाकर अपनी मूलभूत patterns को बार-बार निकालता रहेगा
  • भले ही AI-पक्षपाती data generation बढ़े, फिर भी उम्मीद है कि original human content, derived content, और derived content के भी derived versions जैसी कई परतें training में मिलें, तब भी मूलभूत विशेषताएँ लगातार निकाली जा सकेंगी