16 पॉइंट द्वारा GN⁺ 2025-12-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • AI-जनित सामग्री प्रदूषण से बचने के लिए बनाया गया एक browser extension, जिसे केवल इंसानों द्वारा लिखे गए कंटेंट को खोजने के लिए डिज़ाइन किया गया है
  • Google Search API का उपयोग करके केवल 30 नवंबर 2022 से पहले प्रकाशित परिणाम लौटाता है
  • Chrome और Firefox पर डाउनलोड और उपयोग के लिए उपलब्ध
  • यह इस स्थिति को आधार मानता है कि ChatGPT और अन्य बड़े language models के आने के बाद इंटरनेट पर AI-जनित टेक्स्ट·इमेज·वीडियो में तेज़ी से बढ़ोतरी हुई है
  • केवल इंसानों द्वारा बनाए गए स्रोतों तक पहुँचना चाहने वाले उपयोगकर्ताओं को विश्वसनीय search environment प्रदान करता है

Slop Evader का परिचय

  • Slop Evader एक AI-जनित सामग्री से बचने के लिए बनाया गया browser extension है, जो Chrome और Firefox पर उपलब्ध है
    • उपयोगकर्ता extension इंस्टॉल करके AI द्वारा बनाए गए कंटेंट को फ़िल्टर कर सकते हैं
  • यह टूल केवल ChatGPT के सार्वजनिक होने से पहले (30 नवंबर 2022) बनाए गए कंटेंट को ही search results में दिखाता है
    • यह Google Search API का उपयोग करके तारीख के आधार पर results को सीमित करता है

विकास की पृष्ठभूमि

  • ChatGPT और अन्य बड़े language models (LLM) के सार्वजनिक होने के बाद इंटरनेट पर AI द्वारा बनाए गए टेक्स्ट·इमेज·वीडियो में तेज़ वृद्धि हुई है
  • Slop Evader को AI-जनित सामग्री से होने वाले ऑनलाइन सूचना प्रदूषण से बचने के उद्देश्य से बनाया गया है
  • इस extension के ज़रिए उपयोगकर्ता केवल इंसानों द्वारा सीधे लिखी या बनाई गई सामग्री को ही खोज सकते हैं

सुविधाएँ और महत्व

  • search results को 30 नवंबर 2022 से पहले प्रकाशित पोस्टों तक सीमित करके AI-जनित सामग्री के प्रभाव को न्यूनतम करता है
  • Google Search API पर आधारित होने के कारण यह मौजूदा search experience जैसा उपयोग अनुभव बनाए रखता है
  • AI कंटेंट के प्रसार के बीच यह मानव-केंद्रित सूचना पहुँच सुनिश्चित करने वाले टूल के रूप में काम करता है

1 टिप्पणियां

 
GN⁺ 2025-12-02
Hacker News राय
  • कहा गया है कि यह एक ऐसा टूल है जो सिर्फ़ ChatGPT के सार्वजनिक होने से पहले (30 नवंबर 2022) तक की सामग्री खोजता है
    लेकिन search quality में गिरावट तो उससे बहुत पहले ही शुरू हो गई थी
    सिर्फ़ Google नहीं, सभी search engine पहले से खराब होते जा रहे थे, और बाद में AI ने उस गिरावट को और तेज़ कर दिया
    खासकर YouTube search UI को ज़बरदस्ती Google search में फिट करना एक समस्या थी
    यूज़र को “दूसरे लोगों ने xyz के लिए क्या खोजा” नहीं, बल्कि सटीक नतीजे चाहिए होते हैं, लेकिन ads और clickbait तत्वों ने सिर्फ़ UI confusion बढ़ाया

    • पूछना चाहता हूँ कि क्या आप Kagi नाम के search engine को जानते हैं
      वहाँ AI features को पूरी तरह बंद किया जा सकता है
      अभी इसके लगभग 61 हज़ार सदस्य हैं, और हर महीने 2 हज़ार की बढ़ोतरी हो रही है (stats link)
    • सच तो यह है कि auto-generated content, ChatGPT से पहले भी मौजूद था
      2020 के आसपास ही scraped content या keyword spam से भरे SEO pages बहुत थे
      साधारण language model या Markov chain से बने लेख भी काफ़ी थे
    • “Google made the search results worse” वाक्य की पैरोडी करते हुए
      “worse results near me”, “best worse results” जैसे autocomplete jokes किए गए
    • यह बताया गया कि Google का लक्ष्य यूज़र को जानकारी दिलाना नहीं, बल्कि dwell time बढ़ाना है
      और तंज़ किया गया कि corporate wording से लोगों की ज़िंदगी को असुविधाजनक बनाने की बात को पैक किया जाता है
    • मैं 10 साल से ज़्यादा समय से DuckDuckGo इस्तेमाल कर रहा हूँ
      ज़्यादातर programming-related docs खोजने के लिए, और अब भी इसके results काफ़ी सटीक हैं
      हो सकता है मेरा search pattern सरल हो, लेकिन DDG अब भी उपयोगी है
  • किसी ने कहा, “हम द्वितीय विश्वयुद्ध के बाद के low-background steel की तरह ‘low-background tokens’ की mining कर रहे हैं,” और वह उपमा दिमाग़ से निकल नहीं रही
    इससे जुड़ी बातों को Latent Space में संकलित किया गया है
    यह पक्का नहीं कि इंसानों द्वारा बनाए गए tokens वास्तव में AI के बनाए tokens से ज़्यादा ‘high-signal’ हैं

    • असल में अब low-background steel की ज़रूरत नहीं रह गई है
      Wikipedia explanation के अनुसार 1963 की Partial Nuclear Test Ban Treaty के बाद radiation level काफ़ी कम हो गया था
    • आजकल synthetic data इतना आम है कि यह विचार भी नया नहीं लगता
    • “वह बात कहने वाला मैं ही था, swyx,” ऐसा बताया गया
    • मानव पीढ़ियाँ हमेशा पिछली पीढ़ियों की अपूर्ण विरासत पर ही आगे बढ़ती आई हैं
      इसे हम “giants के shoulders पर खड़े होना” कहते थे
  • ऐसे प्रोजेक्ट्स को देखकर Cyberpunk 2077 की setting याद आती है
    कहानी यह थी कि पहला internet ख़तरनाक AI से दूषित हो गया, फिर एक विशाल firewall खड़ी की गई और इंसान-केंद्रित नया internet बनाया गया
    लगता है कि कभी न कभी सिर्फ़ इंसानों के लिए internet की ज़रूरत पड़ सकती है
    बेशक, व्यावहारिक रूप से यह कठिन है, और एक ऐसे meatspace-first network की कल्पना की जाती है जहाँ लगातार यह प्रमाणित करना पड़े कि आप इंसान हैं

    • समस्या यह है कि किसी content के सचमुच इंसानी सोच से निकले होने को verify करना असंभव है
      ज़्यादातर content पहले ही AI के प्रभाव में है, और सिर्फ़ reference लेने व copy-paste fraud में फ़र्क है
    • Nick Bostrom के शब्दों में, एक बार दुनिया में आ चुकी civilization-disrupting technology को वापस नहीं लिया जा सकता
      आख़िरकार हमें अनुकूलित होना पड़ेगा
      Mastodon, Discord, Matrix जैसे autonomous networks उसी दिशा के उदाहरण लगते हैं
    • लोग पहले ही Signal, WhatsApp, Telegram जैसे private groups की ओर जा रहे हैं
    • Peter Watts की Starfish trilogy और Neal Stephenson की Anathem में भी मिलती-जुलती setting थी
    • “सिर्फ़ इंसानों का internet” भी बेअर्थ होगा, अगर इंसान खुद AI से प्रभावित हों
  • ChatGPT से पहले em-dash (—) इस्तेमाल की मात्रा दिखाने वाला एक HN leaderboard है
    लिंक

    • सुझाव दिया गया कि double hyphen (--) इस्तेमाल करने वालों को भी शामिल किया जाना चाहिए
    • नंबर 1 यूज़र की comments देखकर लगा कि उसमें apostrophe की जगह backtick (`) इस्तेमाल करने की आदत भी थी
    • मज़ाक में कहा गया कि en dash (–) यूज़र्स का भी थोड़ा ख़याल रखा जाए
  • यह सुविधा extension के बिना भी संभव है
    Google search में before: filter जोड़ दें
    उदाहरण: Happiness before:2022

  • पता नहीं AI-generated content वाकई इतना बड़ा संकट है या नहीं
    ज़्यादातर मामलों में उसने बस पुराने content-farm SEO spam की जगह ली है
    पहले भी ऐसे लेख नहीं पढ़ता था, अब सिर्फ़ वाक्य थोड़े ज़्यादा polished हो गए हैं
    अगर search hygiene ठीक रखी जाए तो शायद समस्या नहीं है
    लेकिन Reddit के r/chess में लोग ChatGPT के जवाबों को ऐसे पोस्ट करते हैं जैसे वह उन्होंने खुद लिखा हो

    • एक सहकर्मी ने ChatGPT से लिखी bug report भेजी, लेकिन उसमें bug को पूरी तरह ग़लत समझा गया था
      उसके बाद भी बातचीत ChatGPT के सहारे जारी रखकर उसने कहा कि मैं ग़लत हूँ
      ऐसा भविष्य परेशान करने वाला है
    • पहले ग़लत जवाब एक-दो ही होते थे, इसलिए उन्हें आसानी से छाँटा जा सकता था,
      अब सिर्फ़ format बदले हुए वही ग़लत जवाब दर्जनों में मिलते हैं
    • science और technology से जुड़े subreddits भी ChatGPT reposts से भरे पड़े हैं
      लोग यह भ्रम पालकर पोस्ट लिखते हैं कि उन्होंने कोई दार्शनिक breakthrough खोज लिया है
      /r/localllama जैसी जगहों पर भी AI spam बहुत है, और HN के कुछ “Show HN” भी LLM से बने fake portfolio हैं
      मैं भी ऐसे पोस्ट पर अपना समय बर्बाद कर चुका हूँ
    • पुराना SEO spam कम से कम facts पर आधारित होता था
      जैसे recipe sites में अनावश्यक हिस्से छोड़कर आगे बढ़ा जा सकता था
      लेकिन अब लगभग हर search query AI-generated वाक्यों से ढकी हुई है
      पहले दुर्लभ queries से सटीक result मिल जाते थे, अब बेमतलब pages छाँटने पड़ते हैं
    • इसके जवाब में कहा गया कि पहले अगर कोई अच्छा लेख लिखता था तो search engines उसे खोज लेते थे,
      लेकिन अब वही इंसानी लेख LLM training data में समा जाता है और अगली पीढ़ी के AI content के रूप में फिर इस्तेमाल होता है
      चाहे कोई यह चाहता हो या नहीं
  • “internet का low-background steel” यह अभिव्यक्ति दिलचस्प लगी
    संबंधित wiki link

  • ChatGPT से research करते समय हुआ एक अनुभव

    • इसने ग़लत जवाब पूरे आत्मविश्वास के साथ hallucinate किया
    • उस सामग्री को memory में सहेजकर बनाए रखा
    • जब source पूछा गया तो AI ने खुद बनाए हुए दो fake articles का खुद को ही citation दे दिया
      आख़िर में मूल source, यानी संस्था द्वारा लिखे गए human-authored document तक पहुँचकर समस्या सुलझी
      ऐसा अक्सर knowledge के boundary areas में होता है
    • AI, Stack Overflow answers खंगालने जैसा लगता है
      पहला जवाब सही भी हो सकता है, नहीं भी
      लेकिन chatbot के लिए ग़लत दिशा से बाहर निकलना मुश्किल होता है
    • एक सरल उपाय यह है कि 3 अलग-अलग LLMs से वही सवाल पूछा जाए
      और अगर नतीजे मिलते-जुलते हों तो hallucination की संभावना कम मानी जाए
  • image search के लिए same.energy ठीक है
    कई सालों से लगभग छोड़ा हुआ है, फिर भी काम करता है, और वहाँ AI images लगभग नहीं हैं
    product खुद भी काफ़ी अच्छा है

  • Google search results, ChatGPT से पहले ही 90% SEO कचरा बन चुके थे
    बस Kagi इस्तेमाल करें और SEO sites को block कर दें

    • लेकिन Kagi SEO sites को अलग कैसे पहचानता है, यह जानने की जिज्ञासा है
      पूछना चाहता हूँ कि क्या कोई filter list या classification criteria है