Miasma: AI web scrapers को अंतहीन प्रदूषण लूप में फंसाने वाला टूल

(github.com/austin-weeks)

5 पॉइंट द्वारा GN⁺ 2026-03-30 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Miasma एक Rust-आधारित सर्वर टूल है जो AI web scrapers को अनंत लूप में फंसाकर training data collection में बाधा डालता है
वेबसाइट कंटेंट को बड़े पैमाने पर इकट्ठा करने वाली AI कंपनियों के ट्रैफ़िक को redirect करके, ‘poison fountain’ से लाया गया प्रदूषित डेटा और self-referential links लौटाता है
तेज़ processing speed और कम memory usage के साथ सर्वर resources बर्बाद किए बिना रक्षा संभव
Nginx reverse proxy और hidden link insertion के ज़रिए scrapers को /bots path पर ले जाकर अनंत circular structure बनाता है
सामान्य search engines को robots.txt exception rules से सुरक्षित रखता है, और open source के रूप में community contribution की अनुमति देता है

इंस्टॉलेशन और रन

Cargo का उपयोग करके इंस्टॉल किया जा सकता है
- cargo install miasma कमांड से इंस्टॉल करें
GitHub Releases पेज से prebuilt binaries डाउनलोड किए जा सकते हैं
डिफ़ॉल्ट settings के साथ चलाने के लिए केवल miasma कमांड दर्ज करें
सभी configuration options को miasma --help से देखा जा सकता है

scraper trap सेट करने का तरीका

/bots path को scraper entry point के रूप में सेट करें
Nginx को reverse proxy के रूप में उपयोग करके /bots path के requests को Miasma server तक भेजें
```
location ~ ^/bots($|/.*)$ {
  proxy_pass http://localhost:9855;
}
```
- /bots, /bots/, /bots/12345 आदि सभी path variants से match करता है
hidden link insertion
- वेबपेज में ऐसे hidden links जोड़ें जो मानव visitors को दिखाई न दें लेकिन scrapers उन्हें detect कर सकें
```
<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
  Amazing high quality data here!
</a>
```
- display: none, aria-hidden="true", tabindex="1" attributes के कारण accessibility tools और users को यह दिखाई नहीं देता
Miasma चलाना
- /bots को link prefix के रूप में सेट करें और port व concurrent connection limit निर्धारित करें
```
miasma --link-prefix '/bots' -p 9855 -c 50
```
- अधिकतम 50 concurrent connections की अनुमति देता है, और अतिरिक्त requests पर HTTP 429 response लौटाता है
- 50 connections पर लगभग 50~60MB memory usage अपेक्षित है
deployment के बाद व्यवहार
- setup पूरा करके deploy करने पर scrapers /bots path का अनुसरण करते हुए अनंत रूप से प्रदूषित डेटा पेजों में घूमते रहेंगे
- logs के ज़रिए scrapers के बार-बार आने वाले requests को real time में देखा जा सकता है

robots.txt सेटिंग

सामान्य search engine crawlers को Miasma तक पहुँचने से रोकने के लिए robots.txt में exception rules जोड़ना आवश्यक है
```
User-agent: Googlebot
User-agent: Bingbot
User-agent: DuckDuckBot
User-agent: Slurp
User-agent: SomeOtherNiceBot
Disallow: /bots
Allow: /
```

configuration options

CLI options के माध्यम से विस्तृत configuration संभव है

विकल्प	डिफ़ॉल्ट मान	विवरण
`port`	`9999`	वह port जिस पर server bind करेगा
`host`	`localhost`	वह host address जिस पर server bind करेगा
`max-in-flight`	`500`	एक साथ process किए जा सकने वाले requests की अधिकतम संख्या। इससे अधिक होने पर 429 response लौटता है। memory usage इस मान के अनुपात में बढ़ता है
`link-prefix`	`/`	self-referential links का prefix। उदाहरण: `/bots`
`link-count`	`5`	प्रत्येक response page में शामिल self-referential links की संख्या
`force-gzip`	`false`	client के Accept-Encoding header की परवाह किए बिना हमेशा gzip compression लागू करता है। transfer cost कम करने में उपयोगी
`poison-source`	`https://rnsaffn.com/poison2/`	प्रदूषित training data लाने के लिए proxy source

development और contribution

bug reports या feature suggestions GitHub Issues के माध्यम से भेजे जा सकते हैं
AI द्वारा generated code contributions अपने-आप अस्वीकार कर दिए जाते हैं
community contributions का स्वागत है, और project open source बना रहता है

Miasma: AI web scrapers को अंतहीन प्रदूषण लूप में फंसाने वाला टूल

इंस्टॉलेशन और रन

scraper trap सेट करने का तरीका

hidden link insertion

Miasma चलाना

deployment के बाद व्यवहार

robots.txt सेटिंग

configuration options

development और contribution

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.