इंटरनेट, AI से भरी कचरा जानकारी

(aftermath.site)

6 पॉइंट द्वारा GN⁺ 2024-01-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

इंटरनेट search कभी इतना आसान था कि “let me Google that for you” कहना चल जाता था, लेकिन अब AI-generated जानकारी और गलत search results की वजह से लोगों से दोबारा पुष्टि करनी पड़ने की स्थिति बढ़ रही है
Google links के बजाय page snapshots को search results के अंदर दिखाता है, और Quora के AI answers की तरह “अंडे पिघल सकते हैं” जैसी गलत जानकारी तक सामने आ जाती है
search quality में गिरावट सिर्फ AI answers की समस्या से आगे जाकर search context को ही हिला रही है, जैसे sinus inflammation search करने पर penile inflammation results आना
एक Twitter user ने competitor site के indexed URLs export करने के बाद AI से जल्दी-जल्दी मिलते-जुलते articles बनाकर Google results में आगे निकलने की traffic hijacking technique publicly बताई
Sports Illustrated पर AI-written और fake authors के आरोप दिखाते हैं कि search visibility और ad revenue को target करने वाला content production readers के trust को कैसे नुकसान पहुंचाता है

Google search गलत जवाबों को आगे कैसे रखता है

पहले online सवाल पूछने वाले को “खुद Google पर ढूंढ लो” कहकर चिढ़ाया जा सकता था, इतना search पर भरोसा था, और “let me Google that for you” expression भी इसी context में इस्तेमाल होता था
अब internet पर AI-generated junk information बहुत बढ़ गई है, इसलिए सिर्फ search results से जानकारी verify करना मुश्किल हो रहा है और लोगों से फिर पूछने की संभावना बढ़ रही है
Google केवल website links दिखाने के बजाय page के कुछ हिस्से snapshot के रूप में dropdown में दिखाता है, जिससे users बिना click किए ही result पढ़ लेते हैं
- यह तरीका original context check करने से पहले ही गलत जानकारी दिखा सकता है
- सितंबर 2023 में Quora का AI-generated answer उठाकर Google ने गलत तरीके से बताया था कि अंडे पिघल सकते हैं
sinus inflammation search करने पर penile inflammation से जुड़े results लौटने का case भी reproduce हुआ, जिससे दिखता है कि search results की relevance ही डगमगा रही है

AI content के search results पर कब्जा करने के उदाहरण

एक Twitter user ने दावा किया कि उसने Google search results में किसी खास website से आगे निकलने के लिए internet traffic “heist” किया
- target website का site index check किया
- article URLs export किए
- AI से उन URLs के आधार पर articles जल्दी लिखवाए
- webpage titles को manually edit करने का काम “optional” बताया
Sports Illustrated पर Futurism की report के बाद आरोप लगा कि कई articles AI से लिखे गए थे और nonexistent लोगों को authors के रूप में दिखाया गया था
- Futurism ने comment मांगा तो वह content delete कर दिया गया
- Sports Illustrated ने बाद में कहा कि वे articles third party ने लिखे थे, AI-generated नहीं थे, और authors pen names इस्तेमाल कर रहे थे
- यह explanation यह नहीं बताता कि media inquiry के बाद articles delete क्यों किए गए
- यह तथ्य भी मौजूद है कि Sports Illustrated ने फरवरी 2023 के Wall Street Journal article में publicly कहा था कि वह AI से content और article ideas generate करेगा
internet अब लोगों के बीच जानकारी साझा करने वाला repository कम, और धीरे-धीरे machines के आपस में communicate करने की जगह ज्यादा बनता जा रहा है
“let me Google that for you” expression अब पहले जैसा valid नहीं रहा, और search results में गलत जानकारी या पूरी तरह fabricated material मिलने की संभावना बढ़ रही है
Sports Illustrated के funding decision-makers पर यह criticism है कि वे readers की ठीक से सेवा करने के बजाय Google search results को manipulate करने और उससे ad revenue कमाने में ज्यादा interested हैं

1 टिप्पणियां

GN⁺ 2024-01-12

Hacker News की राय

LLM के फैलने से हमने एक उपयोगी heuristic खो दिया है। पहले खराब spelling और grammar वाले लेख देखकर बेकार पोस्टों को जल्दी filter किया जा सकता था, लेकिन AI से बने कचरा लेखों पर यह बिल्कुल काम नहीं करता।
भाषा पर पकड़ परफेक्ट होती है, और ज्यादातर लोगों से बेहतर भी, इसलिए कोई भी तुरंत ऊपर से भरोसेमंद दिखने वाला लेख बना सकता है। पुराने SEO spammers की तरह copywriter hire करने की जरूरत भी नहीं रह गई, और curl का fake AI bug reports से परेशान होना इसका अच्छा उदाहरण है: https://news.ycombinator.com/item?id=38845878
यह तो बस शुरुआत है और आगे बहुत खराब होगा, इसलिए किसी दिन गेहूं और भूसी में फर्क करना असंभव भी हो सकता है
- archive.org को और ज्यादा donate करना चाहिए। शायद Wayback Machine ही 2020 के आसपास के बाद की चीजों को काटकर Internet पर उपयोगी data खोजने का एकमात्र तरीका बन जाए
- trend cyclic होता है। Search engines linked websites खोजने में काफी बेहतर थे, लेकिन लोगों ने SEO game खेलना शुरू किया और fake articles व mutual links की बाढ़ ला दी, जिससे सब वही घिसी-पिटी बातें दोहराने लगे और search quality गिर गई
  अगर वही विचार बार-बार दोहराने हैं तो उसे automate न करने की कोई वजह नहीं, और आखिर में लोग यह भी भूल जाते हैं कि अच्छा लेख असल में कहां से आया था। जैसे LLM Stack Overflow की जगह ले लेता है, और Stack Overflow technical documentation की जगह ले लेता है। अगर production cost लगभग 0 हो तो कोई quality की परवाह नहीं करता, फिर जब लोग काफी तंग आ जाएंगे तो शायद व्यवहार दूसरी तरफ झूलेगा और word-of-mouth आधारित curated web की ओर लौटेगा
- High school में SEO copywriting की थी, और ChatGPT output लगभग उसी level का है जो मैं तब बनाता था। मुख्य बात थी कुछ खास keywords डालना और जिसे बेचना है उससे थोड़ा जुड़ा हुआ shallow informational article लिखना
  समय के साथ AI intelligence में कोई अजीब vortex जैसा effect बन सकता है। अभी ChatGPT से Stack Overflow-style सवाल पूछें तो Stack Overflow-style जवाब तुरंत मिल जाता है, लेकिन सचाई और accuracy लगभग जुए जैसी है। आगे लोग उस पर ज्यादा निर्भर करेंगे और Stack Overflow पर कम post करेंगे, तो AI के सीखने वाली जानकारी का कुआं सूखता जाएगा और कभी-कभी सही होने वाला चिपचिपा loop ही बच सकता है। Technology के बढ़ने के साथ यह समस्या बन सकता है, और तब शायद वह technical documentation से train होगा
- खराब spelling और grammar का मतलब सिर्फ non-native speaker की writing भी हो सकता है
- सही बात है। मैं सोच रहा था कि ClosedAI के बिगाड़ने से पहले वाला Internet miss करता हूं, लेकिन अब तो 2020 वाला Internet भी वापस चाहिए
  LLM research कई तरीकों से society के पतन का कारण बनेगी लगता है। मेरा एक दोस्त masters कर रहा है और हर कोई ChatGPT से जवाब लिख रहा है; politically cautious phrasing के पीछे आखिर में summary देने का pattern बहुत obvious है। काश उन्हें बस निकाल दिया जाए
title से सहमत हूं, लेकिन मुझे नहीं लगता कि Internet GPT-4, 3, 2 से पहले की तुलना में बहुत बदल गया है। Interns या Indian virtual assistants द्वारा general topics पर लिखे गए articles भी ज्यादातर AI-generated content जितने ही खराब थे और उन्हें अलग पहचानना भी आसान नहीं था
आजकल search engines query और webpage text के match से ज्यादा authority को priority देकर rank करते हैं, इससे भी मदद नहीं मिलती। लोग अब web का ज्यादा इस्तेमाल भी नहीं करते, apps के अंदर रहते हैं, और phone पर webpage browse करना आमतौर पर तब होता है जब किसी सवाल को “Google” करना हो। उसमें भी वे आम तौर पर एक level से ज्यादा अंदर नहीं जाते और app experience पर लौट आते हैं
web बहुत पहले से खराब था और और खराब हुआ है, लेकिन जल्द ही शायद मायने न रखे। reader धीरे-धीरे उबलते पानी में बैठा मेंढक था, और अब तापमान अचानक बढ़ गया है इसलिए उसे हालात समझ आए हैं
आगे “web” को बचना है तो वह सिर्फ नए anonymization layer पर shift नहीं होगा, बल्कि low-quality material को mass-generate करना मुश्किल बनाने के लिए frequent monetary exchange की भी जरूरत होगी। अगर जनता के 90% लोग पैसे नहीं देना चाहते, तो वे यही बचा-खुचा खाते रहें। मैंने boiling frog analogy spam की मात्रा बहुत बढ़ जाने के अर्थ में इस्तेमाल की है
- पूरी तरह सहमत। SEO spammers ने कुछ साल पहले ही open web को खराब कर दिया था, और Google ने ad revenue के लिए उसे संभव बनाने में पूरी ताकत लगा दी
- आप key variable यानी quantity को miss कर रहे हैं। Interns या outsourced content पहले भी था, लेकिन फिर भी वह इंसान के समय से बना कचरा था
  अब उस कचरे की मात्रा को limit करने वाला factor गायब हो गया है
- web का content social media, news और “books” बन चुकी ebooks में बहकर जाता है, और manipulated information का intangible vortex बनाता है
  अगर sewage water supply में घुस जाए तो कोई सुरक्षित नहीं रहता। source से दूर faucet इस्तेमाल करने से आप निश्चिंत नहीं हो सकते
- low-quality content हमेशा था, इससे सहमत हूं। लेकिन अभी समस्या generate की जा सकने वाली misleading information के scale की है
  मात्रा बढ़ गई है या लगातार बढ़ रही है, इसलिए अब legitimate और अच्छी चीजें खोजना कहीं ज्यादा मुश्किल हो गया है। apps पर insight अच्छी है
- उत्सुक हूं कि अगली generation का AI web को curate करने में कितना अच्छा हो सकता है
  अगर हर publisher की 1 साल, 2 साल, 5 साल के time horizons पर predictive ability, bias, factual accuracy के लिए AI से automatic evaluation हो, तो क्या होगा
मुझे नहीं पता था कि मैं कभी ऐसा कहूंगा, लेकिन जब clearnet की हालत इतनी नाजुक है, तो सारी जानकारी का Discord के अंदर silo हो जाना भी इतना बुरा नहीं लगता। अगर वह search engines में index नहीं होती, तो AI के कचरे के बगल में दिखने या training data के रूप में इस्तेमाल होने की संभावना लगभग खत्म हो जाती है
इंटरनेट का भविष्य आखिरकार लोग ही हैं। मशीनों पर अब वे बुनियादी काम भी भरोसेमंद नहीं रहे जिनमें वे कभी अच्छी थीं, और जटिल काम न कर पाने का रास्ता चुनते-चुनते उन्होंने बुनियादी कामों की efficiency भी गंवा दी
- हर technology को खराब करने वाली मूल गतिशीलता अत्यधिक commercialization है। आज के दौर में ads ने इंटरनेट, खासकर web के incentives को पूरी तरह बिगाड़ दिया है
  online retail के दौर में transactions और business models पारदर्शी थे, लेकिन पर्दे के पीछे की advertising और attention economy में वे धुंधले और विकृत हो जाते हैं। असल में लगभग सभी सहभागी लोगों के free time और attention को monetize करने और consumption थोपते हुए उन्हें खुशी-खुशी खत्म करने की साजिश में शामिल हैं
  मैं 2010 में Google में शामिल हुआ और 2019 में निकला; 2010 में annual revenue करीब 30 billion dollar था और पिछले साल 300 billion dollar था। स्थापना के बाद से सालाना 20% growth काफी लगातार रही, इसलिए 2024 में उसे बनाए रखने के लिए 60 billion dollar का नया revenue चाहिए। यानी 1 साल के भीतर 2010 के Google के दो गुना revenue के बराबर पैसा ढूंढना होगा, और 2010 वाला Google बनाने में 12 साल लगे थे—यह बात ही बेतुकी है
- मैं इसका कड़ा विरोध करता हूं। मैं लंबे समय से online immigration से जुड़े सवालों के जवाब देता आया हूं, और लोग अक्सर कई साल पुराने threads पर comment करते हैं या private तौर पर उनके बारे में पूछते हैं। यानी public content समय के साथ बहुत लोगों की मदद करता है
  इसके उलट, private Facebook groups की content life ज्यादा से ज्यादा कुछ दिनों की होती है। अगर लक्ष्य उपयोगी ज्ञान को यथासंभव बड़े audience के साथ share करना है, तो Discord groups एक बड़ा कदम पीछे हैं
- अगर Discord वह data AI कंपनियों को बेचना शुरू कर दे, तो बात अलग नहीं हो जाएगी?
- training data के रूप में इस्तेमाल होने का इस मुद्दे से क्या संबंध है, समझ नहीं आता। असली बात AI कचरे और सही जानकारी में फर्क कर पाने की क्षमता है
- Discord भी searchable है: https://www.answeroverflow.com/
बाहर निकलने का रास्ता authenticity है, और signed content ही यह दे सकता है। किसी भी चीज़ को उसके चेहरे-मोहरे पर सच नहीं माना जा सकता; वह generate की गई या forged हो सकती है
जब कोई भी कुछ भी post कर सकता है, और AI इंसानों पर हावी होकर उससे भी ज्यादा post करता है, तो filter करने के लिए reputation और authenticity पर निर्भर रहना पड़ेगा ताकि पता चल सके कि किसने क्या जारी किया और क्या कहा। web of trust पहले भी आजमाया गया था, लेकिन वह tin-foil hat पहने सनकियों की चीज़ वाली छवि से बाहर नहीं निकल पाया। अब शायद फिर कोशिश करने का समय है
- signed content यह बिल्कुल guarantee नहीं करता कि content किसी इंसान ने लिखा या edit किया है। key theft के जोखिम की वजह से, यह भी guarantee नहीं कि sign करने वाले व्यक्ति ने सच में post किया था
  digital content की authenticity verify करना भौतिक, दार्शनिक और तकनीकी—हर तरह से असंभव है। analog और digital दुनिया की सीमा पर धोखा देना हमेशा संभव होता है
  supply-chain certification में blockchain के सफलतापूर्वक इस्तेमाल न हो पाने की वजह भी यही है। आप verify कर सकते हैं कि item 523 के साथ valid hash जुड़ा है, लेकिन यह साबित नहीं कर सकते कि वह hash नकली नहीं बल्कि असली item 523 पर ही लागू हुआ था
- असली खेल मुझे provable identity systems लगता है। जब attestation support करने वाले identity systems आ जाएंगे, तो इससे फर्क नहीं पड़ेगा कि AI high-quality results देता है या शुद्ध कचरा बड़े पैमाने पर बनाता है
  दूसरे मामले में Apple, Google, Microsoft (TPM के जरिए) जैसे platform owners की बड़ी जीत होगी। क्योंकि वे साबित कर सकेंगे कि user “bot नहीं है”। 5 साल बाद meaningful तरीके से online हिस्सा लेने के लिए इन तीनों में से किसी एक से रिश्ता जरूरी हो जाए, तो मुझे हैरानी नहीं होगी
  AI के “fail” होने पर भी उसे आगे धकेलते रहने की वजह बन जाती है। क्योंकि इससे internet users के बड़े हिस्से को identity और attestation subscription model पर ले जाया जा सकता है। अगर आप पैसे नहीं देते, तो आपका content default रूप से generated कचरा माना जाएगा और दिखाई नहीं देगा
  enterprise side पर ऐसी संरचना आ सकती है जिसके सामने पुराने SSL और code signing schemes भी charity जैसे लगेंगे। BIMI जैसी चीज़ को सभी published content पर लागू किया जा सकता है, और per-item charge लेने का तरीका भी संभव है। जितना ज्यादा pay करेंगे, उतना ज्यादा “trustworthy” दिखने जैसा price discrimination भी आ सकता है। आखिरकार डर यह है कि government services की identity और authentication Google या Apple जैसी private companies के हाथ में चली जाए, और real identity उन कंपनियों की attestations से बंध जाए
  1. https://www.w3.org/TR/webauthn/#sctn-defined-attestation-for...
  2. https://bimigroup.org/
- सच में जानना चाहता हूं, इससे problem कैसे solve होगी। मैं ढेर सारी कचरा posts generate करके उन्हें sign कर के publish कर सकता हूं
  Apple या Google जैसी जगहें user attestation services दें भी, तो AI कचरा auto-generate करके sign करना भी संभव नहीं होगा क्या
- अगर बाहर निकलने का रास्ता authenticity है, तो flat-earthers में भी काफी लोग सचमुच ईमानदारी से विश्वास करते दिखते हैं
- सबसे पागलपन वाली बात यह है कि Jaron Lanier ने यह बात 20 साल पहले ही कह दी थी, शायद उससे भी पहले
LLM द्वारा बनाए गए कंटेंट ने बस रफ्तार बढ़ाई है; समस्या पुरानी ही है। Google विज्ञापन revenue और ad-tech dominance बढ़ाने की दिशा में जोर से गया, और SEO पूरे search results में फैल गया, इसलिए LMGTFY मर चुका है
आजकल सिर्फ साफ-सुथरी query से बिना bias वाली factual जानकारी पाना काफी मुश्किल है, इसलिए मैं पहले Reddit पर जानकारी खोजने की कोशिश करता हूँ। यह भी कोई रामबाण नहीं है और पिछले कुछ वर्षों में covert promotional content से भरा रहा है, लेकिन Reddit के कम popular और manipulate करना मुश्किल होने के समय के पुराने threads या छोटी communities के threads आमतौर पर ठीक विकल्प होते हैं
- किसी ThreeJS class documentation page को Google किसी भी keyword से खोज नहीं पा रहा था, यह देखकर आखिरकार मैंने Kagi अपना लिया। उस page का URL ही paste करने पर वह search results में सबसे ऊपर दिखा
  Kagi ने सिर्फ class name से पहली कोशिश में ही ढूंढ लिया। Paid search ही रास्ता है, और advertising incentives search से टकराते हैं। मैंने address bar का default search Kagi सेट कर दिया है और यह बहुत अच्छा है
- हमेशा याद रखने वाली बात यह है कि Google Search search results देता नहीं, बल्कि user के bubble के हिसाब से एक carefully crafted page generate करता है। Facebook और Twitter भी algorithm अलग होने के अलावा वही करते हैं
  Google Search एक ही query पर अलग-अलग लोगों को समान results वापस नहीं देता। यह AltaVista जैसे पुराने search engines या ElasticSearch से अलग है, और भले ही इसे अभी भी search engine कहा जाता हो, इसे search engine न मानने की पर्याप्त वजह है। यह personalized ads के लिए बकवास की दीवार जैसा ज्यादा है
- क्या आपको लगता है spammers अभी Reddit पर posts लिखने के लिए AI इस्तेमाल नहीं कर रहे
मैं इतना बूढ़ा हूँ कि वह दौर याद है जब internet organic कुत्ते की गंदगी से भरा हुआ था
- इंसान ही असली बकवास generator है। AI बस वही कर रहा है जो इंसान हमेशा से करते आए हैं
- Google छोड़कर webring पर लौटने का समय है
- आजकल craftsmanship वाली organic बकवास बेचने वाले भी हैं, लेकिन महंगे हैं
- क्या आप Stack Overflow scrape करके बनाए गए answer spam जैसी चीज़ की बात कर रहे हैं। वह पिछले साल के आसपास नहीं था क्या। अब मैं Google लगभग इस्तेमाल नहीं करता और सीधे Bing chat से पूछता हूँ
- इंसानों की फालतू लिखाई कम-से-कम मजेदार तो होती है
आखिरकार विज्ञापन पैसे कमाने के लिए होते हैं, और जब तक bots के पास credit card नहीं होते, वह पैसा इंसानों से आता है। अगर किसी क्षेत्र में अचानक “engagement” या traffic बढ़ता है लेकिन वह इंसानी spending में convert नहीं होता, तो Google जैसी कंपनियां भी profit and loss में इसे notice करेंगी
Google तब प्रतिक्रिया देना शुरू करेगा जब यह समस्या budget में पर्याप्त रूप से बड़ी दिखेगी। कई कंपनियों से सुनाई दे रही tech industry layoffs, और आज किसी दूसरी HN thread में आई Google वाली कहानी भी हवा का रुख दिखाने वाले संकेत हो सकते हैं
- AI content consume नहीं करता, generate करता है। अगर लोग AI द्वारा बनाए गए ads या content से fake/low-quality products के झांसे में आसानी से आ जाते हैं, तो यह Google revenue को आगे भी बढ़ाता रहेगा
  Google को SEO manipulation से नफरत होने की इकलौती वजह यह है कि sites paid promotion के बिना search के top space पर कब्जा कर सकती हैं; product quality मायने नहीं रखती
  समस्या तब बनेगी जब लोग बहुत सारे खराब products से ठगे जाकर उन sites या search results पर भरोसा करना छोड़ देंगे जिन पर वे पहले भरोसा करते थे—यानी trust collapse। अपने काम की वजह से Instagram पर मैं grey-market drugs के बहुत ads देखता हूँ, लेकिन जानता हूँ कि वे FDA-verified नहीं हैं और उनमें से ज्यादातर scam medicines या Amanita Muscaria, Delta-8 THC के रूप में छुपाए गए research chemicals हैं, इसलिए उन्हें ignore करता हूँ
- Google इसे notice कर सकता है, लेकिन चूंकि जिन चीजों पर इंसान पैसा खर्च करना बंद करेंगे वह Google नहीं है, इसलिए इसे रोकने पर पैसा खर्च करने का incentive नहीं है
  Google पर advertise करने वाली companies ads के ROI में गिरावट महसूस कर सकती हैं, लेकिन ज्यादातर को लगता है कि उनके पास और विकल्प नहीं हैं, इसलिए Google छोड़ने में समय लगेगा। अगर हम इसके Google के profit and loss तक पहुंचने का इंतजार करेंगे, तो internet कैसे बदल जाएगा, यह सोचकर डर लगता है
- लगता है आप ad-tech spending के बारे में बहुत उदार सोच रहे हैं। सबसे बड़े players पहले से ही सीधे ऐसा काम कर रहे हैं
- दिलचस्प नजरिया है, लेकिन जब तक advertisers यह तय नहीं करते कि वे online ads पर पैसा बर्बाद कर रहे हैं, Google को चोट नहीं लगेगी
  कुछ topics ऐसे हैं जो अब तक सूख जाने चाहिए थे, लेकिन शायद fraud ही उन क्षेत्रों की ad machine को चला रहा है। Fitness या weight loss जैसी चीजों के लिए Google लगभग इस्तेमाल करने लायक नहीं है। Remodeling करते समय भी पता चला कि building materials, खासकर paint, search करना असंभव हो गया है। आखिर में store जाकर पूछना ही भरोसेमंद जानकारी और recommendations पाने का एकमात्र तरीका था
  Google अब भी कई क्षेत्रों में काम करता है, लेकिन जो चीज वह सच में अच्छी तरह करता है वह product ads हैं। अगर आप कुछ खरीदना चाहते हैं तो Google ad engine उसे ढूंढ देगा, बस आपको ठीक-ठीक पता होना चाहिए कि आप क्या चाहते हैं
- यह इंसानी खर्च में क्यों नहीं बदलेगा। अगर ad भी असली है और visitor भी असली है, तो content असली है या नहीं, इससे फर्क नहीं पड़ता
  बल्कि page जितना generic और boring होगा, लोगों के ad पर click करने की संभावना उतनी ज्यादा हो सकती है
“AI” के कब्जे से पहले भी यह पहले से ही SEO द्वारा मांगी गई human-generated बकवास से भरा था, इसलिए पिछले कुछ वर्षों में वास्तव में इतना कुछ नहीं खोया। Industry में आए 10 साल से कहीं ज्यादा हो गए हैं और लगभग उतने ही समय से मैं यह बात कहता आया हूँ
- अगर यह सच है, तो पिछले 10 सालों की सारी news और history भी human-generated बकवास ही हुई। मैं यह नहीं कह रहा कि यह गलत है, लेकिन अपने विश्वास के निष्कर्ष तक जाना चाहिए
कोई फर्क नहीं है। Web search 15 साल से ज्यादा समय से पहले ही बेकार था। अब यह पहले से बस थोड़ा और खराब है, जबकि पहले भी हालत यह थी कि कोई सवाल पूछने पर पहला result marketing pages से भरा होता था, या फिर “blog” के रूप में पतले marketing कचरे तक ले जाता था
मैं toilet साफ करने जैसे सवाल का जवाब किसी ऐसे व्यक्ति के भरोसे नहीं छोड़ना चाहता जिसका पेशा “content creation” या “monetized blog” है। लेख के example और 10 साल पहले के results में बस इतना फर्क है कि पहला साफ तौर पर गलत है, और दूसरा ऐसा content है जिसे गलत साबित करने में शायद कई दिन लग जाएं अगर आप उस क्षेत्र में काम नहीं करते
अगर आपने Anathem पढ़ी है, तो Ita के तौर पर Reticulum का कचरा छांटना वैसे भी हमारा ही काम है। अब बस इसे कर दिखाने जैसा लग रहा है
https://en.wikipedia.org/wiki/Anathem
https://anathem.fandom.com/wiki/Ita
https://anathem.fandom.com/wiki/Reticulum
- Anathem का वह अंश याद आता है, जिसमें कहा गया था कि Reticulum के शुरुआती दिनों में वह खामियों वाली, पुरानी या साफ तौर पर गुमराह करने वाली जानकारी से इतना भर गया था कि लगभग बेकार हो गया, और इसलिए कचरा फ़िल्टरिंग अहम हो गई
  कंपनियों ने उस कचरे को छांटने वाले उत्पाद बेचने के लिए जानबूझकर कुएं को प्रदूषित किया, और यादृच्छिक अक्षरों के बजाय “अच्छी तरह बनाया गया कचरा” तैयार किया—यानी ऐसे सुंदर दिखने वाले दस्तावेज़ जिनमें 100 सत्यापित किए जा सकने वाले सही वाक्य और 1 हल्का-सा गलत वाक्य होता था। शुरुआत में इसके लिए लोगों को नियुक्त करना पड़ता था, लेकिन सेना की दिलचस्पी बढ़ने के साथ “Artificial Inanity” प्रोग्राम विकसित हुआ और फिर यह व्यावसायिक क्षेत्र और botnet तक फैल गया—बात यही है
  LLM का वर्णन करने के लिए Artificial Inanity अभिव्यक्ति मुझे पसंद है
- करीब 25 साल पहले से ही मुझे लगता था कि यही भविष्य है। #5 देखें: https://ymlibrary.com/download/Topics/Self/Work-School/Work-...

इंटरनेट, AI से भरी कचरा जानकारी

Google search गलत जवाबों को आगे कैसे रखता है

AI content के search results पर कब्जा करने के उदाहरण

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय