• Miasma एक Rust-आधारित सर्वर टूल है जो AI web scrapers को अनंत लूप में फंसाकर training data collection में बाधा डालता है
  • वेबसाइट कंटेंट को बड़े पैमाने पर इकट्ठा करने वाली AI कंपनियों के ट्रैफ़िक को redirect करके, ‘poison fountain’ से लाया गया प्रदूषित डेटा और self-referential links लौटाता है
  • तेज़ processing speed और कम memory usage के साथ सर्वर resources बर्बाद किए बिना रक्षा संभव
  • Nginx reverse proxy और hidden link insertion के ज़रिए scrapers को /bots path पर ले जाकर अनंत circular structure बनाता है
  • सामान्य search engines को robots.txt exception rules से सुरक्षित रखता है, और open source के रूप में community contribution की अनुमति देता है

इंस्टॉलेशन और रन

  • Cargo का उपयोग करके इंस्टॉल किया जा सकता है
    • cargo install miasma कमांड से इंस्टॉल करें
  • GitHub Releases पेज से prebuilt binaries डाउनलोड किए जा सकते हैं
  • डिफ़ॉल्ट settings के साथ चलाने के लिए केवल miasma कमांड दर्ज करें
  • सभी configuration options को miasma --help से देखा जा सकता है

scraper trap सेट करने का तरीका

  • /bots path को scraper entry point के रूप में सेट करें
  • Nginx को reverse proxy के रूप में उपयोग करके /bots path के requests को Miasma server तक भेजें
    location ~ ^/bots($|/.*)$ {
      proxy_pass http://localhost:9855;
    }
    
    • /bots, /bots/, /bots/12345 आदि सभी path variants से match करता है
  • hidden link insertion

    • वेबपेज में ऐसे hidden links जोड़ें जो मानव visitors को दिखाई न दें लेकिन scrapers उन्हें detect कर सकें
      <a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
        Amazing high quality data here!
      </a>
      
    • display: none, aria-hidden="true", tabindex="1" attributes के कारण accessibility tools और users को यह दिखाई नहीं देता
  • Miasma चलाना

    • /bots को link prefix के रूप में सेट करें और port व concurrent connection limit निर्धारित करें
      miasma --link-prefix '/bots' -p 9855 -c 50
      
    • अधिकतम 50 concurrent connections की अनुमति देता है, और अतिरिक्त requests पर HTTP 429 response लौटाता है
    • 50 connections पर लगभग 50~60MB memory usage अपेक्षित है
  • deployment के बाद व्यवहार

    • setup पूरा करके deploy करने पर scrapers /bots path का अनुसरण करते हुए अनंत रूप से प्रदूषित डेटा पेजों में घूमते रहेंगे
    • logs के ज़रिए scrapers के बार-बार आने वाले requests को real time में देखा जा सकता है

robots.txt सेटिंग

  • सामान्य search engine crawlers को Miasma तक पहुँचने से रोकने के लिए robots.txt में exception rules जोड़ना आवश्यक है
    User-agent: Googlebot
    User-agent: Bingbot
    User-agent: DuckDuckBot
    User-agent: Slurp
    User-agent: SomeOtherNiceBot
    Disallow: /bots
    Allow: /
    

configuration options

  • CLI options के माध्यम से विस्तृत configuration संभव है
विकल्प डिफ़ॉल्ट मान विवरण
port 9999 वह port जिस पर server bind करेगा
host localhost वह host address जिस पर server bind करेगा
max-in-flight 500 एक साथ process किए जा सकने वाले requests की अधिकतम संख्या। इससे अधिक होने पर 429 response लौटता है। memory usage इस मान के अनुपात में बढ़ता है
link-prefix / self-referential links का prefix। उदाहरण: /bots
link-count 5 प्रत्येक response page में शामिल self-referential links की संख्या
force-gzip false client के Accept-Encoding header की परवाह किए बिना हमेशा gzip compression लागू करता है। transfer cost कम करने में उपयोगी
poison-source https://rnsaffn.com/poison2/ प्रदूषित training data लाने के लिए proxy source

development और contribution

  • bug reports या feature suggestions GitHub Issues के माध्यम से भेजे जा सकते हैं
  • AI द्वारा generated code contributions अपने-आप अस्वीकार कर दिए जाते हैं
  • community contributions का स्वागत है, और project open source बना रहता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.