5 पॉइंट द्वारा GN⁺ 2026-03-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Miasma एक Rust-आधारित सर्वर टूल है जो AI web scrapers को अनंत लूप में फंसाकर training data collection में बाधा डालता है
  • वेबसाइट कंटेंट को बड़े पैमाने पर इकट्ठा करने वाली AI कंपनियों के ट्रैफ़िक को redirect करके, ‘poison fountain’ से लाया गया प्रदूषित डेटा और self-referential links लौटाता है
  • तेज़ processing speed और कम memory usage के साथ सर्वर resources बर्बाद किए बिना रक्षा संभव
  • Nginx reverse proxy और hidden link insertion के ज़रिए scrapers को /bots path पर ले जाकर अनंत circular structure बनाता है
  • सामान्य search engines को robots.txt exception rules से सुरक्षित रखता है, और open source के रूप में community contribution की अनुमति देता है

इंस्टॉलेशन और रन

  • Cargo का उपयोग करके इंस्टॉल किया जा सकता है
    • cargo install miasma कमांड से इंस्टॉल करें
  • GitHub Releases पेज से prebuilt binaries डाउनलोड किए जा सकते हैं
  • डिफ़ॉल्ट settings के साथ चलाने के लिए केवल miasma कमांड दर्ज करें
  • सभी configuration options को miasma --help से देखा जा सकता है

scraper trap सेट करने का तरीका

  • /bots path को scraper entry point के रूप में सेट करें
  • Nginx को reverse proxy के रूप में उपयोग करके /bots path के requests को Miasma server तक भेजें
    location ~ ^/bots($|/.*)$ {
      proxy_pass http://localhost:9855;
    }
    
    • /bots, /bots/, /bots/12345 आदि सभी path variants से match करता है
  • hidden link insertion

    • वेबपेज में ऐसे hidden links जोड़ें जो मानव visitors को दिखाई न दें लेकिन scrapers उन्हें detect कर सकें
      [Amazing high quality data here!](/bots)
      
    • display: none, aria-hidden="true", tabindex="1" attributes के कारण accessibility tools और users को यह दिखाई नहीं देता
  • Miasma चलाना

    • /bots को link prefix के रूप में सेट करें और port व concurrent connection limit निर्धारित करें
      miasma --link-prefix '/bots' -p 9855 -c 50
      
    • अधिकतम 50 concurrent connections की अनुमति देता है, और अतिरिक्त requests पर HTTP 429 response लौटाता है
    • 50 connections पर लगभग 50~60MB memory usage अपेक्षित है
  • deployment के बाद व्यवहार

    • setup पूरा करके deploy करने पर scrapers /bots path का अनुसरण करते हुए अनंत रूप से प्रदूषित डेटा पेजों में घूमते रहेंगे
    • logs के ज़रिए scrapers के बार-बार आने वाले requests को real time में देखा जा सकता है

robots.txt सेटिंग

  • सामान्य search engine crawlers को Miasma तक पहुँचने से रोकने के लिए robots.txt में exception rules जोड़ना आवश्यक है
    User-agent: Googlebot
    User-agent: Bingbot
    User-agent: DuckDuckBot
    User-agent: Slurp
    User-agent: SomeOtherNiceBot
    Disallow: /bots
    Allow: /
    

configuration options

  • CLI options के माध्यम से विस्तृत configuration संभव है
विकल्प डिफ़ॉल्ट मान विवरण
port 9999 वह port जिस पर server bind करेगा
host localhost वह host address जिस पर server bind करेगा
max-in-flight 500 एक साथ process किए जा सकने वाले requests की अधिकतम संख्या। इससे अधिक होने पर 429 response लौटता है। memory usage इस मान के अनुपात में बढ़ता है
link-prefix / self-referential links का prefix। उदाहरण: /bots
link-count 5 प्रत्येक response page में शामिल self-referential links की संख्या
force-gzip false client के Accept-Encoding header की परवाह किए बिना हमेशा gzip compression लागू करता है। transfer cost कम करने में उपयोगी
poison-source https://rnsaffn.com/poison2/ प्रदूषित training data लाने के लिए proxy source

development और contribution

  • bug reports या feature suggestions GitHub Issues के माध्यम से भेजे जा सकते हैं
  • AI द्वारा generated code contributions अपने-आप अस्वीकार कर दिए जाते हैं
  • community contributions का स्वागत है, और project open source बना रहता है

1 टिप्पणियां

 
GN⁺ 2026-03-30
Hacker News की राय
  • जैसे कोई किसी फोन spammer को 45 मिनट तक उलझाकर रखता है, वैसे ही मुझे शक है कि ऐसी bot disruption तकनीकें सच में असरदार हैं या नहीं
    Google Search policy के मुताबिक hidden links डालना साफ़ उल्लंघन है, और इससे साइट की ranking गिर सकती है या वह search results से बाहर हो सकती है
    आखिर में ऐसा तरीका bots से ज़्यादा मेरी अपनी साइट को नुकसान पहुँचा सकता है

    • अगर इसे automate किया जाए तो शायद असर हो सकता है
      YouTuber Kitboga की उस वीडियो की तरह, जहाँ AI call center spam calls को उलझाकर रखता है, इसे दुश्मन के resources खर्च करवाने वाली guerrilla-style strategy माना जा सकता है
    • मैंने सच में फोन spammers को काफ़ी देर तक उलझाकर रखा था, उसके बाद से वे फिर कभी कॉल नहीं करते
      लगता है वे “do-not-call list” और “unprofitable list” अलग-अलग रखते हैं। असली बात दूसरी वाली list में पहुँचना है
    • इससे 2000 के दशक का रूस का English academy spam याद आता है
      लोग इतने गुस्सा हो गए थे कि Golden Telecom ने automatic revenge calls शुरू कर दीं और कंपनी ही गायब हो गई
      इस तरह असर हो सकता है, लेकिन इसके लिए modem pool lease चाहिए
    • hidden links डालना मना है, यह बात सही है, लेकिन मैं इसे ‘small web’ के फिर से उभरने का मौका मानना चाहूँगा
      अगर anti-scraping, anti-Google crawler, और human-centered search index वाले tools आएँ, तो संभावना है
    • ऐसी data poisoning तकनीकों के असरदार होने पर सचमुच research मौजूद है
  • मेरी public website का content scrapers चुरा रहे हैं
    आखिर मैंने भी यह लेख चुराया है, और तुम भी मेरा comment चुरा रहे हो। दुनिया चोरों से भरी है

    • समस्या यह है कि वे इतने ज़्यादा requests भेजते हैं कि मेरी साइट down हो जाती है
      content सबके लिए खुला है, लेकिन मुझे यह पसंद नहीं कि उसकी वजह से किसी के लिए भी access मुश्किल हो जाए
    • ‘चोरी’ कहना थोड़ा ज़्यादा हो सकता है, लेकिन मेरी लिखी चीज़ों का पैसा कमाने के साधन की तरह दुरुपयोग होना बुरा लगता है
      अगर यह ऐसे ही चलता रहा, तो शायद मैं साझा करना ही बंद कर दूँ
    • इंसानों के पास कानूनी अधिकार और स्वतंत्रताएँ होती हैं, लेकिन LLMs के पास नहीं
      इसलिए इंसानों और कंपनियों के tools को एक ही स्तर पर रखना गलत तुलना है
    • “Welcome to the internet…” जैसी व्यंग्यात्मक पंक्ति की तरह, हम पहले से ही डेटा और privacy छोड़ चुकी दुनिया में जी रहे हैं
  • पहले मैं paid software बनाता था और उसमें copy protection code डालता था, लेकिन हर बार कोई नया crack आ जाता था
    आखिर मुझे समझ आया कि वह लड़ाई बेकार है, और मैंने protection code हटा दिया
    AI bots की crawling रोकने की कोशिश भी उसी तरह का whack-a-mole game लगती है

    • शायद अगर cracking को boring बना देने वाली strategy अपनाई होती, तो जीत सकता था
      लेकिन उस community की motivation ही मज़ा और reputation है, इसलिए हक़ीक़त में यह मुश्किल लगता है
    • सच कहें तो बहुत-सी समस्याएँ obsession छोड़ देने से हल हो जाती हैं
      लेकिन social media और copyright obsession ने लोगों की control की इच्छा और बढ़ा दी है
  • मुझे जिज्ञासा है कि यह तरीका वास्तव में असरदार है या नहीं
    ज़्यादातर scrapers के पास शायद ऐसी defenses को bypass करने की तकनीक पहले से होगी

    • मान लो यह असरदार भी हो, तो भी सच कहूँ तो अब उसमें ध्यान देने की ताकत नहीं बची। बस थकान रह गई है
    • मैंने एक नकली Python library बनाकर GitHub पर डाली थी, और कुछ महीनों बाद ChatGPT ने उसे सीख लिया
      मेरे अनुभव में यह तरीका कुछ हद तक काम करता है
    • सैकड़ों bots paid proxies इस्तेमाल कर रहे हैं, तो बस उन्हें इसकी कीमत चुकवानी चाहिए
    • Meta और Anthropic के crawlers जितने समझे जाते हैं, उतने sophisticated नहीं हैं
      पता नहीं उन्होंने मेरा बनाया हुआ junk data सीखा भी या नहीं, लेकिन सपना देखने में क्या जाता है
  • data poisoning वाला approach दिलचस्प है
    जब model web data से सीखता है, तो उसमें मौजूद bias और manipulation भी साथ ले लेता है
    अगर कोई malicious actor बड़े पैमाने पर data को poison कर दे, तो training खुद एक adversarial structure में बदल जाती है
    आखिरकार समाधान विश्वसनीय data source provenance management है

  • ऐसी कोशिशें आखिर में AI को और ज़्यादा समझदार बनाने वाला training data ही दे रही हैं
    ad-based content market के टूटने की संभावना काफ़ी है, और उसके बाद शायद बाज़ार content quality-केंद्रित रूप में फिर से बनेगा

    • तब यह सवाल आएगा, “तो क्या कुछ भी न करें?” लेकिन हक़ीक़त में जवाब देना आसान नहीं है
    • AI ad-based content के अंत को तेज़ करेगा
      उसकी जगह सीधे licensing करके data देने वाला model स्थापित होगा
    • अगर crawler सारे links click ही न करे और सिर्फ locally parse करे, तो मैं उसे उल्टा जीत मानूँगा
    • आखिर technology एक अंतहीन arms race ही है
  • क्या सिर्फ style="display:none" या aria-hidden="true" attributes हटाकर ऐसी tricks से बचा नहीं जा सकता?

    • लेकिन ऐसा करने पर robots.txt को ignore करना पड़ेगा
      अगर scraper ईमानदार है, तो उसे वह नियम मानने चाहिए
    • links को पूरी तरह छिपाने के बजाय, उन्हें screen के बाहर छोटे आकार में रखना काफ़ी है
      इंसान नहीं देखेगा, लेकिन bot उसके पीछे जाएगा
  • यह idea अच्छा है, लेकिन आखिर में इसका ज़्यादा नुकसान SMEs को ही होगा
    बड़ी कंपनियाँ और मज़बूत होंगी, और छोटी sites AI search results से गायब हो जाएँगी
    आखिर में flow के साथ चलने के अलावा रास्ता नहीं बचेगा, और कभी-कभार छोटी-सी resistance ही हक़ीक़त होगी

  • Nightshade 2.0 जैसे tools ढीले-ढाले attention-grabbing projects लगते हैं
    असली समाधान यह है कि data को LLM-friendly format में दिया जाए
    साधारण display:none trick smart crawlers पर काम नहीं करेगी
    संबंधित thread देखें

  • सच में दिलचस्प बात इस project का इस्तेमाल किया गया Poison Fountain dataset है
    rnsaffn.com/poison3 पर “I want to harm machine intelligence systems” जैसी पंक्ति लिखी है
    यह hacker ideology मुझे किसी roleplay जैसी लगती है, इसलिए उससे जुड़ाव महसूस करना मुश्किल है

    • लेकिन असल में “poisoned data” क्या है, और “थोड़ी-सी मात्रा भी बड़ा असर डालती है” इस दावे का आधार क्या है, यह कोई समझाता ही नहीं