- AI-जनित सामग्री प्रदूषण से बचने के लिए बनाया गया एक browser extension, जिसे केवल इंसानों द्वारा लिखे गए कंटेंट को खोजने के लिए डिज़ाइन किया गया है
- Google Search API का उपयोग करके केवल 30 नवंबर 2022 से पहले प्रकाशित परिणाम लौटाता है
- Chrome और Firefox पर डाउनलोड और उपयोग के लिए उपलब्ध
- यह इस स्थिति को आधार मानता है कि ChatGPT और अन्य बड़े language models के आने के बाद इंटरनेट पर AI-जनित टेक्स्ट·इमेज·वीडियो में तेज़ी से बढ़ोतरी हुई है
- केवल इंसानों द्वारा बनाए गए स्रोतों तक पहुँचना चाहने वाले उपयोगकर्ताओं को विश्वसनीय search environment प्रदान करता है
Slop Evader का परिचय
- Slop Evader एक AI-जनित सामग्री से बचने के लिए बनाया गया browser extension है, जो Chrome और Firefox पर उपलब्ध है
- उपयोगकर्ता extension इंस्टॉल करके AI द्वारा बनाए गए कंटेंट को फ़िल्टर कर सकते हैं
- यह टूल केवल ChatGPT के सार्वजनिक होने से पहले (30 नवंबर 2022) बनाए गए कंटेंट को ही search results में दिखाता है
- यह Google Search API का उपयोग करके तारीख के आधार पर results को सीमित करता है
विकास की पृष्ठभूमि
- ChatGPT और अन्य बड़े language models (LLM) के सार्वजनिक होने के बाद इंटरनेट पर AI द्वारा बनाए गए टेक्स्ट·इमेज·वीडियो में तेज़ वृद्धि हुई है
- Slop Evader को AI-जनित सामग्री से होने वाले ऑनलाइन सूचना प्रदूषण से बचने के उद्देश्य से बनाया गया है
- इस extension के ज़रिए उपयोगकर्ता केवल इंसानों द्वारा सीधे लिखी या बनाई गई सामग्री को ही खोज सकते हैं
सुविधाएँ और महत्व
- search results को 30 नवंबर 2022 से पहले प्रकाशित पोस्टों तक सीमित करके AI-जनित सामग्री के प्रभाव को न्यूनतम करता है
- Google Search API पर आधारित होने के कारण यह मौजूदा search experience जैसा उपयोग अनुभव बनाए रखता है
- AI कंटेंट के प्रसार के बीच यह मानव-केंद्रित सूचना पहुँच सुनिश्चित करने वाले टूल के रूप में काम करता है
1 टिप्पणियां
Hacker News राय
कहा गया है कि यह एक ऐसा टूल है जो सिर्फ़ ChatGPT के सार्वजनिक होने से पहले (30 नवंबर 2022) तक की सामग्री खोजता है
लेकिन search quality में गिरावट तो उससे बहुत पहले ही शुरू हो गई थी
सिर्फ़ Google नहीं, सभी search engine पहले से खराब होते जा रहे थे, और बाद में AI ने उस गिरावट को और तेज़ कर दिया
खासकर YouTube search UI को ज़बरदस्ती Google search में फिट करना एक समस्या थी
यूज़र को “दूसरे लोगों ने xyz के लिए क्या खोजा” नहीं, बल्कि सटीक नतीजे चाहिए होते हैं, लेकिन ads और clickbait तत्वों ने सिर्फ़ UI confusion बढ़ाया
वहाँ AI features को पूरी तरह बंद किया जा सकता है
अभी इसके लगभग 61 हज़ार सदस्य हैं, और हर महीने 2 हज़ार की बढ़ोतरी हो रही है (stats link)
2020 के आसपास ही scraped content या keyword spam से भरे SEO pages बहुत थे
साधारण language model या Markov chain से बने लेख भी काफ़ी थे
“worse results near me”, “best worse results” जैसे autocomplete jokes किए गए
और तंज़ किया गया कि corporate wording से लोगों की ज़िंदगी को असुविधाजनक बनाने की बात को पैक किया जाता है
ज़्यादातर programming-related docs खोजने के लिए, और अब भी इसके results काफ़ी सटीक हैं
हो सकता है मेरा search pattern सरल हो, लेकिन DDG अब भी उपयोगी है
किसी ने कहा, “हम द्वितीय विश्वयुद्ध के बाद के low-background steel की तरह ‘low-background tokens’ की mining कर रहे हैं,” और वह उपमा दिमाग़ से निकल नहीं रही
इससे जुड़ी बातों को Latent Space में संकलित किया गया है
यह पक्का नहीं कि इंसानों द्वारा बनाए गए tokens वास्तव में AI के बनाए tokens से ज़्यादा ‘high-signal’ हैं
Wikipedia explanation के अनुसार 1963 की Partial Nuclear Test Ban Treaty के बाद radiation level काफ़ी कम हो गया था
इसे हम “giants के shoulders पर खड़े होना” कहते थे
ऐसे प्रोजेक्ट्स को देखकर Cyberpunk 2077 की setting याद आती है
कहानी यह थी कि पहला internet ख़तरनाक AI से दूषित हो गया, फिर एक विशाल firewall खड़ी की गई और इंसान-केंद्रित नया internet बनाया गया
लगता है कि कभी न कभी सिर्फ़ इंसानों के लिए internet की ज़रूरत पड़ सकती है
बेशक, व्यावहारिक रूप से यह कठिन है, और एक ऐसे meatspace-first network की कल्पना की जाती है जहाँ लगातार यह प्रमाणित करना पड़े कि आप इंसान हैं
ज़्यादातर content पहले ही AI के प्रभाव में है, और सिर्फ़ reference लेने व copy-paste fraud में फ़र्क है
आख़िरकार हमें अनुकूलित होना पड़ेगा
Mastodon, Discord, Matrix जैसे autonomous networks उसी दिशा के उदाहरण लगते हैं
ChatGPT से पहले em-dash (—) इस्तेमाल की मात्रा दिखाने वाला एक HN leaderboard है
लिंक
यह सुविधा extension के बिना भी संभव है
Google search में
before:filter जोड़ देंउदाहरण: Happiness before:2022
पता नहीं AI-generated content वाकई इतना बड़ा संकट है या नहीं
ज़्यादातर मामलों में उसने बस पुराने content-farm SEO spam की जगह ली है
पहले भी ऐसे लेख नहीं पढ़ता था, अब सिर्फ़ वाक्य थोड़े ज़्यादा polished हो गए हैं
अगर search hygiene ठीक रखी जाए तो शायद समस्या नहीं है
लेकिन Reddit के r/chess में लोग ChatGPT के जवाबों को ऐसे पोस्ट करते हैं जैसे वह उन्होंने खुद लिखा हो
उसके बाद भी बातचीत ChatGPT के सहारे जारी रखकर उसने कहा कि मैं ग़लत हूँ
ऐसा भविष्य परेशान करने वाला है
अब सिर्फ़ format बदले हुए वही ग़लत जवाब दर्जनों में मिलते हैं
लोग यह भ्रम पालकर पोस्ट लिखते हैं कि उन्होंने कोई दार्शनिक breakthrough खोज लिया है
/r/localllama जैसी जगहों पर भी AI spam बहुत है, और HN के कुछ “Show HN” भी LLM से बने fake portfolio हैं
मैं भी ऐसे पोस्ट पर अपना समय बर्बाद कर चुका हूँ
जैसे recipe sites में अनावश्यक हिस्से छोड़कर आगे बढ़ा जा सकता था
लेकिन अब लगभग हर search query AI-generated वाक्यों से ढकी हुई है
पहले दुर्लभ queries से सटीक result मिल जाते थे, अब बेमतलब pages छाँटने पड़ते हैं
लेकिन अब वही इंसानी लेख LLM training data में समा जाता है और अगली पीढ़ी के AI content के रूप में फिर इस्तेमाल होता है
चाहे कोई यह चाहता हो या नहीं
“internet का low-background steel” यह अभिव्यक्ति दिलचस्प लगी
संबंधित wiki link
ChatGPT से research करते समय हुआ एक अनुभव
आख़िर में मूल source, यानी संस्था द्वारा लिखे गए human-authored document तक पहुँचकर समस्या सुलझी
ऐसा अक्सर knowledge के boundary areas में होता है
पहला जवाब सही भी हो सकता है, नहीं भी
लेकिन chatbot के लिए ग़लत दिशा से बाहर निकलना मुश्किल होता है
और अगर नतीजे मिलते-जुलते हों तो hallucination की संभावना कम मानी जाए
image search के लिए same.energy ठीक है
कई सालों से लगभग छोड़ा हुआ है, फिर भी काम करता है, और वहाँ AI images लगभग नहीं हैं
product खुद भी काफ़ी अच्छा है
Google search results, ChatGPT से पहले ही 90% SEO कचरा बन चुके थे
बस Kagi इस्तेमाल करें और SEO sites को block कर दें
पूछना चाहता हूँ कि क्या कोई filter list या classification criteria है