Miasma: AI web scrapers को अंतहीन प्रदूषण लूप में फंसाने वाला टूल
(github.com/austin-weeks)- Miasma एक Rust-आधारित सर्वर टूल है जो AI web scrapers को अनंत लूप में फंसाकर training data collection में बाधा डालता है
- वेबसाइट कंटेंट को बड़े पैमाने पर इकट्ठा करने वाली AI कंपनियों के ट्रैफ़िक को redirect करके, ‘poison fountain’ से लाया गया प्रदूषित डेटा और self-referential links लौटाता है
- तेज़ processing speed और कम memory usage के साथ सर्वर resources बर्बाद किए बिना रक्षा संभव
- Nginx reverse proxy और hidden link insertion के ज़रिए scrapers को
/botspath पर ले जाकर अनंत circular structure बनाता है - सामान्य search engines को robots.txt exception rules से सुरक्षित रखता है, और open source के रूप में community contribution की अनुमति देता है
इंस्टॉलेशन और रन
- Cargo का उपयोग करके इंस्टॉल किया जा सकता है
cargo install miasmaकमांड से इंस्टॉल करें
- GitHub Releases पेज से prebuilt binaries डाउनलोड किए जा सकते हैं
- डिफ़ॉल्ट settings के साथ चलाने के लिए केवल
miasmaकमांड दर्ज करें - सभी configuration options को
miasma --helpसे देखा जा सकता है
scraper trap सेट करने का तरीका
/botspath को scraper entry point के रूप में सेट करें- Nginx को reverse proxy के रूप में उपयोग करके
/botspath के requests को Miasma server तक भेजेंlocation ~ ^/bots($|/.*)$ { proxy_pass http://localhost:9855; }/bots,/bots/,/bots/12345आदि सभी path variants से match करता है
-
hidden link insertion
- वेबपेज में ऐसे hidden links जोड़ें जो मानव visitors को दिखाई न दें लेकिन scrapers उन्हें detect कर सकें
<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1"> Amazing high quality data here! </a> display: none,aria-hidden="true",tabindex="1"attributes के कारण accessibility tools और users को यह दिखाई नहीं देता
- वेबपेज में ऐसे hidden links जोड़ें जो मानव visitors को दिखाई न दें लेकिन scrapers उन्हें detect कर सकें
-
Miasma चलाना
/botsको link prefix के रूप में सेट करें और port व concurrent connection limit निर्धारित करेंmiasma --link-prefix '/bots' -p 9855 -c 50- अधिकतम 50 concurrent connections की अनुमति देता है, और अतिरिक्त requests पर HTTP 429 response लौटाता है
- 50 connections पर लगभग 50~60MB memory usage अपेक्षित है
-
deployment के बाद व्यवहार
- setup पूरा करके deploy करने पर scrapers
/botspath का अनुसरण करते हुए अनंत रूप से प्रदूषित डेटा पेजों में घूमते रहेंगे - logs के ज़रिए scrapers के बार-बार आने वाले requests को real time में देखा जा सकता है
- setup पूरा करके deploy करने पर scrapers
robots.txt सेटिंग
- सामान्य search engine crawlers को Miasma तक पहुँचने से रोकने के लिए robots.txt में exception rules जोड़ना आवश्यक है
User-agent: Googlebot User-agent: Bingbot User-agent: DuckDuckBot User-agent: Slurp User-agent: SomeOtherNiceBot Disallow: /bots Allow: /
configuration options
- CLI options के माध्यम से विस्तृत configuration संभव है
| विकल्प | डिफ़ॉल्ट मान | विवरण |
|---|---|---|
port |
9999 |
वह port जिस पर server bind करेगा |
host |
localhost |
वह host address जिस पर server bind करेगा |
max-in-flight |
500 |
एक साथ process किए जा सकने वाले requests की अधिकतम संख्या। इससे अधिक होने पर 429 response लौटता है। memory usage इस मान के अनुपात में बढ़ता है |
link-prefix |
/ |
self-referential links का prefix। उदाहरण: /bots |
link-count |
5 |
प्रत्येक response page में शामिल self-referential links की संख्या |
force-gzip |
false |
client के Accept-Encoding header की परवाह किए बिना हमेशा gzip compression लागू करता है। transfer cost कम करने में उपयोगी |
poison-source |
https://rnsaffn.com/poison2/ |
प्रदूषित training data लाने के लिए proxy source |
development और contribution
- bug reports या feature suggestions GitHub Issues के माध्यम से भेजे जा सकते हैं
- AI द्वारा generated code contributions अपने-आप अस्वीकार कर दिए जाते हैं
- community contributions का स्वागत है, और project open source बना रहता है
अभी कोई टिप्पणी नहीं है.