6 पॉइंट द्वारा GN⁺ 2026-02-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • uBlock Origin में AI द्वारा बनाई गई content farm साइटों को ब्लॉक करने के लिए एक सार्वजनिक ब्लैकलिस्ट प्रोजेक्ट
  • generative AI द्वारा लिखी गई वेबसाइटें अक्सर विज्ञापनों और referral links से भरी होती हैं और इनमें अविश्वसनीय जानकारी शामिल होती है
  • उपयोगकर्ता list.txt फ़ाइल को subscribe कर सकते हैं या URL को सीधे जोड़कर block list लागू कर सकते हैं
  • AI-जनित साइटों की विशेषताएँ और पहचान के मानदंड विस्तार से दिए गए हैं, और contributors के Pull Request के ज़रिए सूची का विस्तार किया जा सकता है
  • search results में ऊपर दिखने वाली AI content pollution की समस्या को कम करने के लिए एक व्यावहारिक टूल के रूप में उपयोग किया जा सकता है

परियोजना अवलोकन

  • AI uBlock Blacklist uBlock Origin extension में इस्तेमाल के लिए AI-जनित content block list प्रदान करता है
  • generative AI द्वारा लिखी गई वेबसाइटें ब्राउज़ करते समय मिलें तो उन्हें मैन्युअली सूची में जोड़ा जाता है
  • कोई automation tool इस्तेमाल नहीं किया जाता, और यह स्पष्ट किया गया है कि algorithm से यह तय करना कठिन है कि content AI-जनित है या नहीं

परियोजना का उद्देश्य

  • generative AI द्वारा लिखी गई वेबसाइटों में अक्सर उपयोगी जानकारी कम होती है और वे विज्ञापन व referral links से कमाई करने की संरचना रखती हैं
  • AI द्वारा लिखा गया content बिना समीक्षा के बड़े पैमाने पर प्रकाशित होता है, इसलिए इसमें खतरनाक जानकारी शामिल हो सकती है
    • उदाहरण के तौर पर circuit short करना, rm -rf / कमांड चलाना, bleach और ammonia मिलाना जैसी खतरनाक सलाह दिए जाने की संभावना का उल्लेख है
  • इन कारणों से AI-जनित content पर भरोसा नहीं किया जा सकता और उसे ब्लॉक करने की ज़रूरत है
  • लेखक इतालवी नागरिक है, इसलिए इतालवी साइटें अधिक संख्या में शामिल हैं, और अन्य भाषाओं की साइटें जोड़ने के लिए contributions का स्वागत है

वेबसाइट जोड़ने का तरीका

  • जिन उपयोगकर्ताओं के पास तकनीकी ज्ञान नहीं है, वे GitHub Issue के माध्यम से संदिग्ध साइटों की रिपोर्ट कर सकते हैं
  • Pull Request के ज़रिए सीधे जोड़ते समय, डोमेन स्तर या किसी विशेष ब्लॉग पाथ स्तर पर ब्लॉक किया जा सकता है
    • उदाहरण: ||example.com/@slopUser^$doc या ||example.com^$doc प्रारूप
  • यदि SEO और digital marketing services बेचने वाली कोई संस्था कई content farms चला रही हो, तो संबंधित साइटों को साथ में जोड़ने की सिफारिश की गई है

AI content farm की पहचान के मानदंड

  • अनावश्यक भूमिका और निष्कर्ष, ‘Comprehensive Guide’ जैसे बढ़ा-चढ़ाकर लिखे गए शीर्षक, बाहरी links या स्रोतों का अभाव, बहुत सारे referral links
  • कम समय में हज़ारों पोस्ट, गलत जानकारी (hallucination), नवंबर 2022 के बाद की पोस्ट, AI-जनित images और logos
  • खराब formatting वाला text, render न हुआ Markdown syntax, विषय से असंबंधित लंबा text, search में बार-बार ऊपर दिखना
  • संपर्क जानकारी का अभाव, अस्पष्ट परिचय पेज, AI की अंध-प्रशंसा करने वाला content आदि भी प्रमुख संकेत बताए गए हैं

Google Dorks का उपयोग

  • यदि AI द्वारा बनाई गई पंक्तियाँ ज्यों-की-त्यों कॉपी करके पोस्ट की गई हों, तो विशिष्ट वाक्यांश खोजकर AI पेजों को ढूँढा जा सकता है
    • उदाहरण: "Sure! Here's an article about" (अंग्रेज़ी), "Certo! Ecco un articolo" (इतालवी)
  • ऐसे वाक्यांशों वाले पेज मिलें तो पूरे डोमेन को ब्लैकलिस्ट में जोड़ दिया जाता है

समान परियोजनाएँ

  • uBlockOrigin & uBlacklist Huge AI Blocklist प्रोजेक्ट AI से जुड़े सभी परिणामों को छिपा देता है
  • यह प्रोजेक्ट वैध AI tools को बनाए रखते हुए केवल AI content farms को ब्लॉक करने के कारण अलग है

1 टिप्पणियां

 
GN⁺ 2026-02-23
Hacker News की राय
  • यह आइडिया दिलचस्प था और मैंने भी इस सूची में योगदान देने की कोशिश की, लेकिन FAQ में “Cry about it” पढ़कर रुक गया
    मुझे लगता है कि इस तरह का रवैया सार्वजनिक blacklist चलाने के तरीके के लिए ठीक नहीं है। इससे ऐसा प्रभाव पड़ता है मानो maintainer खुद को अचूक समझता हो

    • मेरी निजी वेबसाइट के साथ भी कुछ ऐसा ही हुआ। दोस्तों ने कहा कि साइट खुल नहीं रही, तो मुझे लगा सर्वर की समस्या है, लेकिन बाद में पता चला कि PiHole की किसी blocklist में मेरी साइट शामिल थी
      मैंने unban का अनुरोध किया, लेकिन कोई जवाब नहीं मिला, और वह अब भी block है
    • कुछ लोगों का मानना था कि ऐसी शिकायतों पर भरोसा करना कठिन है, जैसे VAC ban appeal पर भरोसा करना मुश्किल होता है
    • इस रवैये के साथ मुझे नहीं लगता कि यह प्रोजेक्ट 5 साल बाद भी maintain रहेगा। ऐसा काम Easylist जैसी tested team को संभालना चाहिए
    • कुछ लोगों ने कहा कि यह आखिरकार personal uBlock Origin list है, यह बात नहीं भूलनी चाहिए
    • लेकिन अब लगता है कि इसे बदल दिया गया है। संबंधित commit यहाँ देखा जा सकता है
  • एक अधिक व्यावहारिक तरीके से, अब एक नई सूची आई है जो सिर्फ content farm या low-quality sites को block करती है
    यह पहले की broad AI block lists की तुलना में बेहतर विकल्प लगती है
    देखें: uBlockOrigin-HUGE-AI-Blocklist
    Reddit पर भी इस पर चर्चा काफी सक्रिय है

    • कुछ लोगों को लगा कि पुरानी सूची लगभग एक hate list जैसी थी। उसमें वे साइटें भी शामिल थीं जो AI content को खुलकर चला रही थीं
    • वेबसाइटों की सूची spreadsheet में व्यवस्थित है, यह दिलचस्प लगा। पहले मैंने SEO से भरे मीडिया समूह का एक मामला देखा था, और फिर वैसे ही साइटें ढूंढकर उन्हें uBlacklist में जोड़ा
      मैंने अपने gist में खोज प्रक्रिया और सूची साझा की है
    • हालांकि इस सूची को 5 महीनों से update नहीं किया गया है
    • कुछ लोगों ने कहा कि उन्होंने दोनों सूचियाँ जोड़ ली हैं
  • समय बीतने के साथ false positive की समस्या और गंभीर हो जाती है। domain बिक सकते हैं, साइटें दिशा बदल सकती हैं, या content हटाया जा सकता है
    “Cry about it” जैसे रवैये के साथ यह बस एक defamation black hole बन जाएगा। कम से कम कोई expiry या review mechanism होना चाहिए

  • Ublock Origin में पहले से ही “AI widget” block list मौजूद है। इसी फीचर की वजह से मैं अब भी Firefox इस्तेमाल कर रहा हूँ। Chromium पर यह बेकार है

  • मैं सिद्धांत से सहमत हूँ, लेकिन “AI से लिखना skill issue है” जैसा रवैया Grammarly users या गैर-अंग्रेज़ी भाषी उपयोगकर्ताओं के साथ अनुचित है

    • जिन लोगों को “Skill issue” कहा जाता है, वे शायद ही कभी बिना नाराज़ हुए रहते हैं
    • मुझे तो AI-generated text की तुलना में टूटी-फूटी अंग्रेज़ी या अनुवाद जैसी भाषा अधिक मानवीय और विविध लगती है
      वैसे भी यह प्रोजेक्ट व्यक्तिगत लेखकों को नहीं बल्कि content farm को निशाना बना रहा है, इसलिए मुद्दा अलग है
    • लेकिन यह लेखक domain ownership बदल जाने पर भी उसे सूची से नहीं हटाता। उदाहरण के लिए Whitehouse.com पहले porn site थी, लेकिन अब नहीं है
    • कुछ लोगों की राय थी कि अगर अंग्रेज़ी अच्छी नहीं आती, तो बस machine translation का इस्तेमाल करना चाहिए
    • मैं काम के लिए Grammarly इस्तेमाल करता हूँ, ताकि brand guidelines का पालन कर सकूँ। यह लेखन को AI-जैली शैली में नहीं बदलता।
      लगता है कि लेखक का निशाना AI bot farm है
  • फिर भी अभी इंटरनेट पर whitelist नहीं बनी है

    • app-केंद्रित दौर के खत्म होने के साथ वह संकट भी टल गया
  • कुछ लोग एक ऐसा टूल इस्तेमाल कर रहे हैं जो यह पहचानता है कि कोई लेख AI से लिखा गया है या नहीं, वह भी tropes-based detection से, और मूल prompt को पुनर्निर्मित करने की कोशिश करता है
    tropes.fyi/aidr

  • यह दिशा अच्छी लगती है। काश site category के हिसाब से blocking और अधिक विविध हो पाती
    enterprise माहौल में URL reputation services के जरिए साइटों को वर्गीकृत करके access नियंत्रित किया जाता है
    मुझे लगता है कि individual users को भी ऐसी crowdfunded infrastructure की ज़रूरत है
    उदाहरण के लिए, browser, VPN, DNS, email, certificate authority जैसी भरोसेमंद ecosystem के लिए अगर सालाना 1 अरब डॉलर का nonprofit fund हो, तो अच्छा होगा

  • botblock.ai जैसा एक extension भी है जो Twitter पर AI replies detect करता है

    • लेकिन कुछ लोगों की प्रतिक्रिया थी कि “Twitter इस्तेमाल ही न करना बेहतर है”
    • असल में यह ठीक से काम करता नहीं दिखता। उदाहरण के लिए, यह एक साफ़ तौर पर AI account को 100% human बताता है
      सबूत की image
    • Twitter पहले ही paid accounts को ऊपर दिखाकर $8 ad platform बन चुका है
  • अगर किसी साइट पर विज्ञापन बहुत ज़्यादा हों, तो मैं आमतौर पर उसे बंद कर देता हूँ। अगर ad setup उचित हो, तो मैं उसे वैसे ही इस्तेमाल करता हूँ
    मैं adblock war से थक चुका हूँ। हर बार किसी नए plugin का नाम सामने आता है, और यह एक अंतहीन दौड़ जैसा लगता है

    • असली समस्या यह है कि ads अक्सर malware के प्रवेश मार्ग बन जाते हैं