AI से दूषित नहीं हुए कंटेंट के लिए Low-background Steel

(blog.jgc.org)

1 पॉइंट द्वारा GN⁺ 2025-06-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें

AI-जनित सामग्री वेब पर बड़े पैमाने पर मिलनी शुरू होने से पहले के स्रोत खोजने के लिए lowbackgroundsteel.ai मार्च 2023 में बनाया गया
इसका नाम परमाणु परीक्षणों के रेडियोधर्मी समस्थानिकों से दूषित न हुए low-background steel और lead से लिए गए एक रूपक पर आधारित है
वास्तविक low-background steel और lead आम तौर पर 1945 के Trinity Test से पहले डूबे जहाज़ों से बरामद धातुओं को कहते हैं
साइट 2022 में AI-जनित कंटेंट के तेज़ी से बढ़ने से पहले बने text·image·video स्रोतों को इकट्ठा करने पर केंद्रित है
यह ChatGPT के सार्वजनिक होने से पहले के Wikipedia dumps, Arctic Code Vault, Project Gutenberg जैसी सामग्रियों से लिंक करती है, और अन्य गैर-दूषित स्रोतों के सबमिशन भी स्वीकार करती है

AI से पहले की सामग्रियों को इकट्ठा करने वाला हब

lowbackgroundsteel.ai AI-जनित कंटेंट से न मिले हुए ऑनलाइन स्रोतों को इकट्ठा करने के लिए बनाया गया एक resource hub है
इसकी शुरुआत मार्च 2023 में हुई, और यह AI-जनित सामग्री के फैलने से पहले के ऑनलाइन resources को व्यवस्थित करने का काम करता है

नाम में छिपा रूपक

Low-background Steel उस धातु को कहा जाता है जो परमाणु परीक्षणों से निकले radioactive isotopes से दूषित नहीं हुई हो
ऐसा steel और lead आम तौर पर 1945 के Trinity Test से पहले डूबे जहाज़ों से बरामद किया जाता है
साइट इसी अवधारणा को कंटेंट पर लागू करती है, और AI-जनित कंटेंट से दूषित न हुए स्रोतों को Low-background Steel कहती है

संग्रह का दायरा और उदाहरण

संग्रह का लक्ष्य 2022 में AI-जनित कंटेंट के अचानक बढ़ने से पहले बने text, image, video स्रोत हैं
अभी जिन उदाहरणों से लिंक किया गया है, वे इस प्रकार हैं
- ChatGPT के सार्वजनिक होने से पहले के Wikipedia dumps
- Arctic Code Vault
- Project Gutenberg
  - इसके अलावा अन्य अतिरिक्त स्रोत

सामग्री जमा करना

यदि आप AI-जनित कंटेंट से दूषित न हुए किसी अन्य स्रोत को जानते हैं, तो उसे submit page के माध्यम से भेज सकते हैं

1 टिप्पणियां

GN⁺ 2025-06-11

Hacker News की रायें

मुझे लगता है Unicode में एक नया plane जोड़ देना चाहिए, जिसमें संचार के लिए ज़रूरी सभी characters की नकल हो, लेकिन एक अतिरिक्त status bit भी हो
निश्चित रूप से मानव-लिखित, केवल मानव आंखों के लिए, AI-generated माना गया जैसी ranges रखी जाएं, और इन्हें तोड़ने पर जेल भेजने जैसा नियम हो
बेशक सभी ranges visually अलग न पहचाने जा सकने वाले homograph characters होंगे, इसलिए यह निष्पक्ष disclosure के लिए software-mediated semi-hidden channel बन जाएगा
कई स्रोतों से copy-paste करने पर भी subtle character encoding differences के कारण source information साथ आती रहेगी, और मैं लगभग 1 के अनुपात में ही मजाक कर रहा हूं
- खाने की तरह पूरी तरह organic content की भी market value बन जाएगी
  यानी ऐसा content जिसे इंसानों ने लिखा, बनाया, compose किया, edit किया और curate किया हो
  लेकिन खाने की तरह इसकी अनुमति-सीमा define करना एक nightmare होगा, organic होना साबित करना मुश्किल होगा, certification trust networks पर निर्भर करेगा, असल में वह उसी चीज़ से contaminated होगा जिससे बचना था, और यह साबित होने पर भी कि वह और खराब है, उससे ज्यादा कीमत ली जा सकेगी
- Unicode में मूल रूप से Tag Characters की एक range है, जो यह बताने के लिए बनाई गई थी कि text का कोई हिस्सा किसी दूसरी भाषा से आया है
  यह उपयोग HTML tags जैसे higher-level notation से replace होकर deprecated हो गया, लेकिन characters अब भी मौजूद हैं
  खास बात यह है कि वे दिखाई नहीं देते, और लगातार tag characters cursor movement में एक character की तरह behave करते हैं
  चूंकि यह ASCII को reflect करता है, इसलिए मनमाना JSON या दूसरा data इसके अंदर encode किया जा सकता है; अगर hidden data या deprecated uses से लोगों को चिढ़ाने में आपको दिक्कत नहीं है, तो LLM-generated sections mark करने के लिए भी यह काफी उपयुक्त है
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- समस्या यह है कि AI-generated को define कैसे किया जाए
  homework का उदाहरण लें: छात्र अगर सब कुछ pen और paper से खुद लिखता है, या AI से पूरा लिखवाता है, तो मामला साफ है; लेकिन अगर उसने online encyclopedia से research की और वह encyclopedia AI से जवाब देता है, या AI से सिर्फ writing structure, main points और conclusion लिए, या खुद लिखने के बाद typo, grammar और style improvement ही AI से कराया, तो मामला अस्पष्ट है
  इसके अलावा, कई topics पर writing खुद लिखने के बाद AI से best piece चुनवाने का मामला भी है
- ऐसा कानून लागू होने के 12 milliseconds बाद भारत में typing factories बन जाएंगी, जहां human workers AI स्रोत वाले text को हाथ से फिर से copy करके “data laundering” करेंगे
- अगर किसी foreign language में लिखे text को ChatGPT से English में translate कराया जाए, तो क्या वह AI-generated content है
  कागज पर लिखे text को LLM से OCR कराया जाए तो क्या होगा
  बहुत detailed outline देकर बार-बार rewrite करवाया जाए और जिन facts पर certainty न हो उन्हें बेरहमी से हटवा दिया जाए तो क्या होगा
  अगर AI का इस्तेमाल सिर्फ grammar ठीक करने और कमजोर English को proper scientific style में बदलने तक किया जाए तो क्या होगा
  इन सभी मामलों में final result LLM से copy-paste किया हुआ दिखे, तब भी मेरा मानना है कि जवाब साफ तौर पर “नहीं” है
AI-generated content मूलतः regression to the mean है, और learning के लिए भी और इंसानी utility के लिए भी हानिकारक है
जिसे AI generate कर सकता है उसे publish करने का कोई खास फायदा नहीं; बस सीधे पूछ लिया जाए
AI content को tag लगाकर publish किया जा सकता है, लेकिन उसके अलावा ज्यादातर मामलों में यह public good से ज्यादा pollution जैसा है
- उस logic से तो शुरुआत में कुछ भी लिखना ही क्यों चाहिए
  Shakespeare के sonnets भी पहले से मौजूद words की arrangements हैं, और सभी mathematical proofs, novels और journalism भी possible symbol arrangements के space में सिर्फ एक configuration हैं
  किसी चीज़ का generate किया जा सकना इस बात की value को खारिज नहीं करता कि वह किसी खास purpose, context और audience के लिए generate की गई है
- कुछ साल पहले तक यह belief intuitively plausible था, और इसके लिए limited experimental evidence भी था
  लेकिन उसके बाद अच्छी तरह curated AI outputs से कई capability breakthroughs आए, इसलिए मेरे हिसाब से वह विचार निर्णायक रूप से refute हो चुका है
- AI द्वारा modify या proofread किए गए content को कैसे देखना चाहिए
  आजकल blog posts को voice memo में dictate करता हूं, transcription के बाद उन्हें CGPT या Claude में डालकर tone और rhythm polish करवाता हूं
- सीधे पूछने पर कोई human expert content review करके अपने नाम से guarantee देने वाला step नहीं होता
  उस curation और guarantee की value है
  बेशक तुरंत यह ख्याल आ सकता है कि “क्या वे लोग सच में ऐसा करेंगे?”, और मैं सहमत हूं, लेकिन AI से पहले भी आम तौर पर ऐसा नहीं होता था
  Internet content का बड़ा हिस्सा पहले से ही low-paid writers द्वारा बिना expertise के जल्दबाजी में निकाला गया low-quality writing था, और AI इस बात को नहीं बदलता
- बकवास
  क्या आपने deep research tools इस्तेमाल किए हैं
  utopia fallacy में नहीं फंसना चाहिए
  इंसान भी घटिया लेख publish करते हैं
यकीन नहीं कि यह उतनी बड़ी समस्या बनेगी जितनी लोग सोचते हैं
लंबे समय में लक्ष्य शायद यह होगा कि AI को कार repair manual पढ़ाने के बजाय, सचमुच कार ठीक कराने जैसी वास्तविक अनुभव से सीखने दिया जाए
तब बिना copyright वाला training data असीमित मात्रा में मिल सकेगा, और AI से दूषित training data की समस्या से भी स्वाभाविक रूप से बचा जा सकेगा
- समस्या यह है कि hallucinations को quote किया जाता है, और अंततः वे source के साथ facts की तरह दिखने लगते हैं
  उदाहरण के लिए पूछिए, “Connect Four built-in वाला MS-DOS productivity program कौन सा है?”
  MSDOS emulator है और सही जवाब भी पता है, लेकिन सवाल थोड़ा obscure है शायद इसलिए हर AI हर बार अलग जवाब देता है, और मैंने कभी सही जवाब देते नहीं देखा
  दोबारा पूछो कि पक्का है क्या, तो अपना मन बदल लेता है
  अगर ऐसे जवाब online quote होने लगें, और फिर AI उसी circular reference को source मानकर training में सीख ले, तब सच गायब हो जाता है
  सच में ऊपर वाला सवाल पूछकर देखिए; यह AI द्वारा पूरी तरह गढ़े गए जवाब को authority के साथ दोहराने का बेहतरीन उदाहरण बन जाता है
- वास्तविक अनुभव से सीधे data generate करना बहुत महंगा हो सकता है, और data acquisition के साथ वास्तविक operational risk जुड़ सकता है
  Waymo असली सड़कों पर गाड़ियां चलाकर अनुभव हासिल करता है, लेकिन प्रति unit time मिलने वाले data की सीमा उसके vehicle fleet के आकार पर निर्भर है, और पहले उसे ऐसी capability तक पहुंचना होगा जो वास्तविक दुनिया में चलाने के लिए सुरक्षित हो
  अगर कोई कार repair करना चाहे और on-policy rollout के अलावा कोई knowledge लेकर शुरू न करे, तो वह काफी समय तक बहुत सी कारें खराब करते हुए सीखेगा, और robot के fail होने की जानकारी देने वाले इंसान को भी पैसा देना पड़ेगा
  mechanic से manual पढ़ने और explicit training लेने की उम्मीद करने की वजह होती है, और यह cost logic mechanic इंसान हो या AI, दोनों पर समान रूप से लागू होता है
  off-policy reinforcement learning इस्तेमाल करने पर भी, अगर वह data पिछली generation के models की demonstrations है, तो वह अभी भी AI-दूषित training data ही है
- YouTube पर वास्तविक कार repair अनुभव वाला training data बहुत भारी मात्रा में है, लेकिन वह सब copyright के अंतर्गत है
  AI कंपनियों को training से पहले इस content को license करना चाहिए या नहीं, यह विवाद का विषय है
- मुझे लगता है कि general intelligence वाले humanoid robots आने से पहले कार repair करने वाला AI system भी नहीं होगा
  ऐसे robots आने से पहले 5-star hotel की AI maid भी नहीं होगी
  इसका मतलब यह नहीं कि मूल बात गलत है, लेकिन आज और उस समय के बीच का अंतर इतना अकल्पनीय रूप से बड़ा है कि “AI कचरा language word frequency databases को दूषित कर रहा है, इसकी चिंता मत करो, किसी दिन हल हो जाएगा” कहना थोड़ा भटका हुआ लगता है
- क्या मतलब यह है कि लंबे समय में AGI चाहिए
  क्या AGI आ जाए तो spam भी बेहतर हो जाएगा
  https://xkcd.com/810/
मुझे अच्छा लगा कि चुना गया term बहुत बारीकी से ऐसा चुना गया है कि चिंता अप्रासंगिक लगे
यह उस explanation जैसा है कि atmospheric nuclear testing खत्म होने के बाद background radiation natural level के करीब आ गया, इसलिए नया steel भी radioactive signal में इतना low है कि radiation-sensitive uses के अधिकांश मामलों में special low-background steel की अब जरूरत नहीं रही
लेकिन न तो ऐसा दिखता है कि “uncontaminated” data की जरूरत है, न कि ऐसा data ढूंढना मुश्किल है, और न कि LLM output वैसे भी सब कुछ infect कर देगा
LLM data प्राकृतिक background के Reddit comments से थोड़ा बेहतर भी हो सकता है, और archive.org या Gutenberg जैसी जगहें भी हैं
- लेकिन हाल का uncontaminated data ढूंढना मुश्किल है
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- हम्म… background radiation इसलिए कम हुआ क्योंकि हमने nuclear testing बंद कर दी
फिलहाल यह मानने की कोई वजह नहीं कि AI contamination AI training runs में कोई वास्तविक समस्या है
2022 से पहले के public crawl data पर train किया गया AI, 2022 के बाद के crawl data पर train किए गए AI से स्पष्ट रूप से बेहतर नहीं है
बल्कि कुछ मामलों में, पता नहीं क्यों, newer crawl data token-per-token performance में थोड़ा बेहतर है
- “low-background steel” विचार के पीछे यह सोच है कि synthetic data पर AI train करने से AI पूरी तरह पागल और बेकार हो सकता है, यानी model collapse हो सकता है
  या तो ऐसा हुआ नहीं, या सभी AI कंपनियों के पास internally AI data को filter करने वाले काम करने वाले filters हैं
  मैं पहले विकल्प पर दांव लगाऊंगा
  हालांकि मुझे लगता है कि AI-generated data के बहुत ज्यादा exposure से इंसानों में model collapse जैसी चीज हो सकती है, लेकिन यह anecdotal observations और intuition के करीब है
- यह reasoning कई वजहों से काफी कमजोर है
  2022 के बाद LLM training बहुत बेहतर हुई है, और training data में AI कचरे के negative effects अगर parameter scale बढ़ने और बेहतर training techniques के gains पर भारी नहीं पड़ते, तो इसका मतलब यह नहीं कि negative effects नहीं हैं
  “performance बेहतर है” भी बहुत ढीला expression है, और इसे meaningful तरीके से measure करने का अच्छा जवाब अभी नहीं है
  यह पता चल सकता है कि Gemini 2.5, GPT-4o से बेहतर है, लेकिन Gemini 2.5 और Claude 4 के बीच फर्क करना ज्यादा मुश्किल है
  मौजूदा चरण में garbage data का effect size शायद same-generation models के बीच छोटे differences के स्तर का है
  अगर हम ऐसा effect ढूंढ रहे हैं जो data से prove करना मुश्किल होने जितना छोटा है, तो इस मामले में first principles से शुरू करना उचित है, और first principles साफ कहते हैं कि AI-generated content पर train न करना बेहतर है
- अभी लोगों ने बड़े पैमाने पर कचरा content बनाना शुरू नहीं किया है, और मुझे लगता है आगे यह बहुत ज्यादा बढ़ेगा
मुझे AI content से कोई खास allergy नहीं है, लेकिन low-background steel वाली analogy वाकई प्रशंसनीय है
शानदार
- मुझे भी AI content से allergy नहीं है
  मैंने यह site इसलिए बनाई थी ताकि उन चीजों को track कर सकूं जिनके बारे में पता है कि वे इंसानों ने बनाई हैं
- यह phobia से ज्यादा AI को उसके अपने output पर train कराने से बचने जैसा लगता है
  हाल में colleagues के साथ भी इसी topic पर बात कर रहा था
  AI से पहले का content आगे चलकर और कीमती होना ही है, क्योंकि वैसा content फिर कभी बनाया नहीं जा सकता
  आदर्श रूप में, 2015 के आसपास उपलब्ध सारे data पर cryptographic timestamps लगा दिए जाने चाहिए थे, लेकिन अब जो स्थिति है उसी में काम करना होगा
आज अजीब तरह से भविष्यवक्ता जैसा महसूस हो रहा है
https://news.ycombinator.com/item?id=44217676
- यह उदाहरण मैंने Hacker News पर कम से कम 1 साल पहले, शायद उससे भी काफी पहले सुना था
  2 साल पुरानी पोस्ट भी है: https://news.ycombinator.com/item?id=34085194
- यह उपमा ChatGPT के लॉन्च के बाद से आम उपमा रही है
- मुझे लगता है यह विचार सचमुच गलत है
  कंटेंट और synthetic data को annotate करने की प्रक्रिया AI output को भविष्य के output को बेहतर बनाने वाले gradient में बदल देगी
  LLM output में यह कम स्पष्ट हो सकता है, लेकिन image और video models में यह बहुत साफ दिखना चाहिए
  सिस्टम के सबसे अच्छे visual outputs चुनने की प्रक्रिया में, शामिल हुई छोटी-छोटी त्रुटियां और पसंद-आधारित curation सिस्टम को बेहतर performance और ज्यादा generality की ओर ले जाएगी
  अगर genome को synthesis machine और physics को probabilistic gradient मानें, तो यह life और heredity के हर ecological niche में adapt करने से अलग नहीं है
  हम वही काम तेज गति से चला रहे हैं
- बढ़िया किया
  AI “pollution” से मुक्त content वाली framing मैंने पहले भी सुनी है, और मुझे लगता है यह पहले से घूम रहा idea था
  हालांकि low-background steel उपमा उपयुक्त है—इस बात को आप आराम से सफल prediction कह सकते हैं
सेकंड-हैंड कागजी किताबें, खासकर “reading copies” या “ex-library” कही जाने वाली पुरानी लेकिन काम की किताबें, used-book market में बहुत सस्ते में बिक रही हैं
basic reference books सहित अपनी physical library बनाने, और स्थानीय public libraries व university libraries को support करने की सलाह दूंगा
अपनी specialization और interest वाले क्षेत्रों के papers की paper copies रखना भी अच्छा है
मतलब, अपने पूर्वजों वाला तरीका अपनाइए
AI ने कभी facts के बारे में खुलेआम झूठ बोला था, और भले ही हर मामले में मैं AI को मना नहीं पाया, मेरे पास ऐसी physical library थी जिससे मैं खुद verify कर सका कि मैं सही था—यह अच्छा हुआ
क्या यह उपमा ठीक बैठती है
नया low-background steel बनाना बेहद मुश्किल है क्योंकि radioactive particles हर जगह हैं, लेकिन AI-free content बनाना मुश्किल नहीं है
बस AI से मत लिखिए
- किसी work में AI नहीं है, यह prove करना पूरी तरह अव्यावहारिक है, भले ही असंभव न हो
  इसलिए आपके अलावा कोई भी निश्चित नहीं हो सकता
- नया low-background steel बनाना मुश्किल नहीं है
  वजह यह है कि reclaim करके इस्तेमाल करना ज्यादा सस्ता है
- कौन, किस वजह से, और किस पैसे से ऐसा AI-free content बनाएगा
- यह बस clickbait title है
इस साइट का नाम ही Y combinator से लिया गया है
थोड़े-से दार्शनिक इशारों को छोड़ दें, तो reasoning model से अपेक्षित क्षमताओं में से एक यह होनी चाहिए कि वह content को input के रूप में लेकर content output करने और फिर उसी content को consume करने वाले function का fixed point ढूंढ सके
मैं आशावादी हूं कि मूल human content, मूल content से निकला content, और फिर उस derived content से निकला content मिले-जुले data पर recursive training करने पर भी underlying system की प्रमुख विशेषताओं और patterns को extract किया जा सकेगा

AI से दूषित नहीं हुए कंटेंट के लिए Low-background Steel

AI से पहले की सामग्रियों को इकट्ठा करने वाला हब

नाम में छिपा रूपक

संग्रह का दायरा और उदाहरण

Arctic Code Vault

Project Gutenberg

सामग्री जमा करना

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें