- जापान में Sega Genesis के लिए दोबारा जारी किए गए गेम ‘Phantasy Star Fukkokuban’ को खोजते समय, वास्तव में मौजूद ही नहीं होने वाले AI-जनित झूठे लेख मिलने की घटना के आधार पर इंटरनेट पर भरोसे के टूटने पर लिखी गई पोस्ट
- सर्च रिज़ल्ट में ऊपर दिख रही साइट ने ग्राफिक्स सुधार, मौसम प्रभाव जैसी ऐसी बातें लिखीं जो पूरी तरह तथ्यहीन थीं, और बाद में पता चला कि यह Large Language Model (LLM) द्वारा गढ़ी गई कल्पना थी
- लेखक ने जब ChatGPT से उसी गेम का विवरण देने को कहा, तब भी उसने गलत platform और सामग्री बताई, जिससे training data की कमी से पैदा होने वाले hallucination को सीधे देखा गया
- इस तरह का auto-generated content SEO-उद्देश्य वाले ad sites पर बड़े पैमाने पर पहुँच रहा है, जिससे बिना सत्यापन के विश्वसनीय दिखने वाली झूठी जानकारी फैलाने वाली संरचना और मजबूत हो रही है
- नतीजतन, इंटरनेट का shared knowledge base क्षतिग्रस्त हो रहा है, और भरोसेमंद जानकारी के लिए अंततः LLM से पहले के दौर की प्रतिष्ठित sites पर ही निर्भर होना पड़ रहा है
Phantasy Star Fukkokuban का मामला
- 1994 में जापान में जारी Sega Genesis के लिए ‘Phantasy Star Fukkokuban’ मूल Master System गेम को ज्यों का त्यों शामिल करने वाला reissue संस्करण था
- कुछ Genesis consoles पर Master System गेम चल ही नहीं सकते, इसलिए वह cartridge भी काम नहीं करती
- लेखक इस गेम की रिलीज़ तारीख़ जाँचने की कोशिश कर रहा था, तभी उसे सर्च रिज़ल्ट के ऊपर झूठी जानकारी वाली साइट मिली
- संबंधित साइट ‘Press Start Gaming’ ने ग्राफिक्स सुधार, मौसम प्रभाव, दिन-रात बदलाव जैसी चीज़ों का उल्लेख किया, जबकि वास्तविक गेम में ऐसा कुछ नहीं है
- लेख का पहला वाक्य “Game data not found” था, फिर भी उसके बाद AI द्वारा बनाया गया विश्वसनीय दिखने वाला विवरण चलता रहा
Large Language Model के hallucination की समस्या
- LLM अगले token की भविष्यवाणी के आधार पर काम करते हैं, और training data में न होने वाले दुर्लभ विषयों पर विश्वसनीय लगने वाली काल्पनिक बातें बना देते हैं
- ‘Phantasy Star’ series और ‘Fukkokuban(पुनर्मुद्रित संस्करण)’ शब्द के अर्थ को जोड़कर, इसने वास्तव में मौजूद न होने वाला remake संस्करण कल्पना कर लिया
- जब लेखक ने ChatGPT से उसी गेम का विवरण माँगा, तो उसे Sega Saturn compilation के रूप में गलत पहचानने वाला जवाब मिला
- संभव है कि इसे वास्तव में मौजूद दूसरे गेम ‘Phantasy Star Collection’ के साथ भ्रमित किया गया हो
- इसी तरह, लेखक द्वारा उठाया गया एक और दुर्लभ गेम ‘Mahjong Daireikai’ भी जापानी वेब पर AI-जनित काल्पनिक विवरणों के साथ दिखाई देता है
इंटरनेट पर भरोसे का पतन
- ‘Press Start Gaming’ साइट को ad revenue के लिए बनी automated content platform माना जा रहा है
- साइट के नीचे “©2025 Cloud Gears Media” लिखा है, लेकिन किसी वास्तविक कंपनी से इसका संबंध स्पष्ट नहीं है
- ऐसी sites में तथ्य देने से ज़्यादा search exposure (SEO) को प्राथमिकता दी जाती है
- LLM के आने से झूठी जानकारी पैदा करने की लागत बहुत कम हो गई है, और बिना सत्यापन वाला content बड़े पैमाने पर फैल रहा है
- पहले कम वेतन वाले writers भी कम से कम बुनियादी तथ्य-जाँच कर लेते थे, लेकिन अब AI पूरी तरह काल्पनिक सामग्री बना रहा है
- लेखक कहता है, “अब नई sites पर भरोसा करना मुश्किल है,” और बताता है कि वह सिर्फ उन्हीं media outlets पर निर्भर हो गया है जिन्होंने AI से पहले प्रतिष्ठा बनाई थी
AI युग में सूचना पारिस्थितिकी तंत्र की क्षति
- लेखक का आकलन है कि इंटरनेट का shared knowledge (common) पहले ही ऐसी हद तक क्षतिग्रस्त हो चुका है जहाँ से लौटना मुश्किल है
- यहाँ तक कि भरोसेमंद सूचना स्रोत भी AI content से प्रदूषित होने के जोखिम में हैं
- उदाहरण के तौर पर, Ars Technica का वह मामला दिया गया है जिसमें AI-जनित उद्धरण वाला लेख प्रकाशित होने के बाद सुधारा और वापस लिया गया
- अगर LLM आगे चलकर और अधिक data को समाहित करेंगे, तो कभी न कभी उनकी सटीकता बेहतर हो सकती है, लेकिन मौजूदा नुकसान अभी से हो रहा है
- लेखक कहता है, “यह लेख सिर्फ गुस्से की भड़ास (rant) है,” लेकिन इसके ज़रिये वह इंटरनेट पर भरोसा खोने की वास्तविक अनुभूति पर ज़ोर देता है
निष्कर्ष
- AI और SEO-केंद्रित content ecosystem में जानकारी की सच्चाई से ज़्यादा उत्पादन दक्षता को प्राथमिकता दी जाती है
- परिणामस्वरूप, तथ्य-जाँच के बिना auto-generated लेख सर्च में ऊपर आने लगते हैं और यूज़र की सीखने-समझने की बुनियाद को नुकसान पहुँचाते हैं
- लेखक “इंटरनेट पर अब भरोसा नहीं किया जा सकता” कहकर लेख समाप्त करता है और संकेत देता है कि digital knowledge में भरोसा बहाल करना तत्काल ज़रूरी है
1 टिप्पणियां
Hacker News की राय
मैं अपने दोस्तों के साथ अपने कस्बे में एक mesh network बना रहा हूँ
open internet तो बहुत पहले से गिरावट में था, लेकिन LLM उसकी मौत को तेज़ कर रहे हैं
मैंने मान लिया है कि 90s से 2000s की शुरुआत वाला internet अब मर चुका है
आगे के लिए मुझे लगता है कि भरोसेमंद local network ही विकल्प है
सिर्फ पैसे कमाने में लगे लोगों की वजह से हमें बंद जगहों में पीछे हटना पड़ रहा है, यह दुखद है
असली बात network नहीं, बल्कि content quality है
जिन लोगों पर भरोसा है, सिर्फ उन्हें बुलाकर forum बना लेना काफी है
आपके प्रयास के लिए शुभकामनाएँ
अभी network-based MP3 player को बेहतर बना रहा हूँ, और यह अभी शुरुआती दौर में है, लेकिन मैं आशावादी हूँ
project link
मुझे लगता है कि आजकल online misinformation पहले से बहुत ज़्यादा होने की एक वजह prediction markets भी हो सकती है
यह ऐसा ढाँचा है जो पैसे लगाने के लिए लोगों की धारणा तक को विकृत करता है
2023 की LK99 superconductor घटना के बाद यह तेज़ी से बढ़ा है
prediction markets जानकारी को पैसों में trade करने देते हैं, लेकिन इनका आकार इतना बड़ा नहीं कि जानबूझकर false information फैलाई जाए
मुझे लगता है कि असली वजह politicians, influencers, और ad revenue के पीछे भागने वाली engagement-driven misinformation है
समस्या internet के trust collapse की है
पहले कभी-कभार गलत जानकारी से धोखा हो जाता था, लेकिन अब bots द्वारा दोहराया गया content हर जगह है
इंसानों और bots का अनुपात लगभग शून्य के करीब लगने लगा है
आखिरकार हमने web को खुद ही जला डाला है
अब तो शायद इसे चलाने वाले लोगों को भी समझ नहीं आ रहा कि क्या हो रहा है
इसलिए हो सकता है कि मौजूदा models ही सबसे कम biased version बनकर रह जाएँ
मैंने सोचा कि HN को कैसे बचाया जा सकता है, लेकिन आखिर में invite-based system के अलावा कोई जवाब नहीं दिखता
आजकल तो यह भी शक होता है कि comments इंसानों ने लिखे हैं या नहीं, और यह भावनात्मक रूप से थका देता है
वहाँ AI को धर्म की तरह मानने वाला माहौल है, इसलिए bot accounts और AI-filtered comments आपस में मिले हुए हैं
Mastodon जैसा Fediverse अभी तक स्वस्थ है, लेकिन कभी न कभी वह भी दूषित होगा
internet का signal-to-noise ratio (SNR) इतिहास के सबसे निचले स्तर पर है
मुझे लगता है कि इसका हल सिर्फ human-verified digital signatures हैं
eIDAS जैसी व्यवस्था के ज़रिए anonymity बनाए रखते हुए भी इंसान होने का प्रमाण दिया जा सके, ऐसा होना चाहिए
संबंधित चर्चा लिंक
anonymity बनी रहे, लेकिन Sybil attacks को रोकने वाली संरचना चाहिए
Intel i7-4790T से जुड़े videos खोजते हुए मैं चौंक गया
हाल के ज़्यादातर videos ऐसे ‘slop’ content थे जिनमें LLM-generated scripts पढ़ी जा रही थीं
यह product कभी retail में बिका भी नहीं, फिर भी YouTube channels रोज़ दर्जनों videos डालकर Amazon affiliate links से कमाई करने की कोशिश कर रहे हैं
उदाहरण video 1 / उदाहरण video 2
अब जब fake content बनाने की लागत लगभग शून्य हो गई है, तो scalable trust mechanism की ज़रूरत है
निजी तौर पर मुझे Web of Trust संरचना आकर्षक लगती है
कुछ लोग बाहर रह जाएँगे, लेकिन शायद यह टाला नहीं जा सकता
मैं Gemini protocol पर आधारित एक सहायक archiver बना रहा हूँ
केवल robots.txt से अनुमति प्राप्त web को ही archive करने का इरादा है
सिर्फ व्यक्तियों के बीच नहीं, sites के बीच भी trust network बन सकता है
यह local communities या hobby groups से शुरू होकर धीरे-धीरे फैलने वाली संरचना बन सकती है
हाल ही में Hollow Knight के नए game की जानकारी खोजते समय, मैंने LLM से बनी कई fake guide sites देखीं
game आए सिर्फ 6 महीने हुए हैं, इसलिए असली जानकारी ज़्यादा नहीं है, और लगता है कि यह ad revenue के लिए बनाया गया है
मुझे समझ नहीं आता कि ऐसे niche topics पर भी fake content बनाना वाकई फायदे का सौदा है या नहीं
यानी ‘bullshit asymmetry principle’ व्यवहार में काम कर रहा है
SEO वाले खराब websites ही कभी-कभी ज़्यादा भरोसेमंद लगते हैं
मुझे लगता है internet का भविष्य invite-based communities की ओर जाएगा
देखना यह है कि अगली पीढ़ी के forums आएँगे या हम फिर PHPBB era में लौटेंगे
सिर्फ वही content बच पाएगा जो gaming या spam का target नहीं बनेगा
माहौल HN जैसा है, लेकिन यह invite-only structure पर चलता है