Amazon के AI crawler की वजह से मेरा Git server अस्थिर हो गया

(xeiaso.net)

1 पॉइंट द्वारा GN⁺ 2025-01-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Amazon के AI crawler की वजह से मेरा Git server अस्थिर हो गया
सपोर्ट ब्लॉग: अगर आपको ब्लॉग पसंद है, तो Patreon पर Xe को सपोर्ट कर सकते हैं
Patreon subscription: EthicalAds विज्ञापन
संपादन (2025-01-18 23:50 UTC): मैंने एक proxy लिखा है जो Gitea server पर requests की अनुमति देने से पहले proof-of-work जाँच करता है। इसका नाम Anubis है, और मैं जल्द ही इस पर एक ब्लॉग पोस्ट लिखूंगा। फिलहाल इसे https://git.xeserv.us/ पर देखा जा सकता है। यह थोड़ा असमतल है, लेकिन पर्याप्त रूप से काम करता है
संपादन (2025-01-18 19:00 UTC): मैंने हार मान ली। Gitea server को VPN के पीछे स्थानांतरित कर दिया है। bot से server को बचाने के लिए proof-of-work reverse proxy पर काम कर रहा हूँ। जल्द ही इसे फिर से चालू करने की योजना है
संपादन (2025-01-17 17:50 UTC): मैंने ingress configuration में निम्न snippet जोड़ा:
```
nginx.ingress.kubernetes.io/configuration-snippet: |
  if ($http_user_agent ~* "(Amazon)" ){
    return 418;
  }
```
bot अब भी दूसरे IPs से हमला कर रहा है। लगभग 10% requests में amazonbot user agent नहीं है। मुझे नहीं पता अगला कदम क्या होना चाहिए। मुझे भविष्य से नफ़रत है
मदद का अनुरोध: मैं AmazonBot चलाने वाले लोगों से git.xeserv.us को blocked domain list में जोड़ने का अनुरोध करता हूँ। अगर आप Amazon में किसी को जानते हैं, तो कृपया यह संदेश उन तक पहुँचाएँ। अगर आप मेरे Git server को crawl करना चाहते हैं, तो कृपया मुझसे संपर्क करें ताकि hardware upgrade के बराबर लागत का भुगतान किया जा सके। मैं Gitea server को जनता के लिए बंद नहीं करना चाहता, लेकिन अगर ज़रूरत पड़ी तो ऐसा करूँगा। AI crawler bot को block करना बेकार है। bot झूठ बोलते हैं, user agent बदलते हैं, और residential IP addresses को proxy के रूप में इस्तेमाल करते हैं। मैं बस चाहता हूँ कि requests रुक जाएँ
मैंने robots.txt फ़ाइल को पहले ही सभी bots को block करने के लिए सेट कर दिया है:
```
User-agent: *
Disallow: /
```
मुझे नहीं पता कि इसके अलावा और क्या कर सकता हूँ

1 टिप्पणियां

GN⁺ 2025-01-19

Hacker News की राय

किसी वकील से "स्पष्ट cease and desist" पत्र तैयार करवाकर Amazon को भेजने से समस्या हल करने की कोशिश की जा सकती है
- अगर Amazon नहीं रुकता, तो आपराधिक शिकायत के ज़रिए उसका ध्यान खींचा जा सकता है
वेबसाइट में ऐसे लिंक जोड़ने का सुझाव जो इंसान विज़िट न करें, और उन्हें robots.txt में प्रतिबंधित करके AI crawler को ब्लॉक किया जाए
- अगर कोई IP address उस लिंक पर जाता है, तो उसे 24 घंटे के लिए ब्लॉक कर दिया जाए
AI और SEO bots robots.txt का लगभग पालन नहीं करते और इन्हें ब्लॉक करना मुश्किल है
- अगर AI crawler access चाहता है, तो उसे नियम मानने चाहिए या भुगतान करना चाहिए
यह संभव है कि Amazon नहीं बल्कि कोई दूसरा पक्ष AI crawler बनकर छद्मवेश कर रहा हो
- rotating residential IP और बदलती user-agent strings संदिग्ध लगती हैं
निजी सर्वर पर AI crawler की वजह से CPU usage तेज़ी से बढ़ने की समस्या हुई
- robots.txt और user-agent आधारित blocklist से समस्या कुछ कम हुई, लेकिन यह कितने समय तक चलेगा, स्पष्ट नहीं है
AI crawler को ब्लॉक करने के बजाय हानिकारक content देकर समस्या सुलझाने की राय
- अगर Amazon को इसका पता चले, तो संभव है कि वह समस्या हल करने के लिए पैसा खर्च करे
यह संभावना उठाई गई कि यह Amazon का नहीं बल्कि Amazon का रूप धरकर किया गया DDoS attack हो सकता है
- residential IP से requests आना संदिग्ध है
Pinboard साइट भी AI crawler की वजह से ट्रैफ़िक अचानक बढ़ने से डाउन हो गई
- IP range के आधार पर ब्लॉक नहीं कर सके, इसलिए CAPTCHA का इस्तेमाल करना पड़ा
ऐसी राय कि Amazon AWS credits देकर अतिरिक्त ट्रैफ़िक लागत की भरपाई करे
- उम्मीद है कि इसे ad revenue से संतुलित किया जा सकता है
Nginx configure करके ब्लॉक करने से पहले, Bytespider और Amazonbot कुल ट्रैफ़िक का 80% थे
- ClaudeBot ने Redmine पर एक महीने में 5 साल के ट्रैफ़िक से भी ज़्यादा ट्रैफ़िक पैदा कर दिया

Amazon के AI crawler की वजह से मेरा Git server अस्थिर हो गया

Amazon के AI crawler की वजह से मेरा Git server अस्थिर हो गया

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय