-
Amazon के AI crawler की वजह से मेरा Git server अस्थिर हो गया
-
सपोर्ट ब्लॉग: अगर आपको ब्लॉग पसंद है, तो Patreon पर Xe को सपोर्ट कर सकते हैं
-
Patreon subscription: EthicalAds विज्ञापन
-
संपादन (2025-01-18 23:50 UTC): मैंने एक proxy लिखा है जो Gitea server पर requests की अनुमति देने से पहले proof-of-work जाँच करता है। इसका नाम Anubis है, और मैं जल्द ही इस पर एक ब्लॉग पोस्ट लिखूंगा। फिलहाल इसे https://git.xeserv.us/ पर देखा जा सकता है। यह थोड़ा असमतल है, लेकिन पर्याप्त रूप से काम करता है
-
संपादन (2025-01-18 19:00 UTC): मैंने हार मान ली। Gitea server को VPN के पीछे स्थानांतरित कर दिया है। bot से server को बचाने के लिए proof-of-work reverse proxy पर काम कर रहा हूँ। जल्द ही इसे फिर से चालू करने की योजना है
-
संपादन (2025-01-17 17:50 UTC): मैंने ingress configuration में निम्न snippet जोड़ा:
nginx.ingress.kubernetes.io/configuration-snippet: | if ($http_user_agent ~* "(Amazon)" ){ return 418; }bot अब भी दूसरे IPs से हमला कर रहा है। लगभग 10% requests में amazonbot user agent नहीं है। मुझे नहीं पता अगला कदम क्या होना चाहिए। मुझे भविष्य से नफ़रत है
-
मदद का अनुरोध: मैं AmazonBot चलाने वाले लोगों से
git.xeserv.usको blocked domain list में जोड़ने का अनुरोध करता हूँ। अगर आप Amazon में किसी को जानते हैं, तो कृपया यह संदेश उन तक पहुँचाएँ। अगर आप मेरे Git server को crawl करना चाहते हैं, तो कृपया मुझसे संपर्क करें ताकि hardware upgrade के बराबर लागत का भुगतान किया जा सके। मैं Gitea server को जनता के लिए बंद नहीं करना चाहता, लेकिन अगर ज़रूरत पड़ी तो ऐसा करूँगा। AI crawler bot को block करना बेकार है। bot झूठ बोलते हैं, user agent बदलते हैं, और residential IP addresses को proxy के रूप में इस्तेमाल करते हैं। मैं बस चाहता हूँ कि requests रुक जाएँ -
मैंने
robots.txtफ़ाइल को पहले ही सभी bots को block करने के लिए सेट कर दिया है:User-agent: * Disallow: /मुझे नहीं पता कि इसके अलावा और क्या कर सकता हूँ
1 टिप्पणियां
Hacker News की राय
किसी वकील से "स्पष्ट cease and desist" पत्र तैयार करवाकर Amazon को भेजने से समस्या हल करने की कोशिश की जा सकती है
वेबसाइट में ऐसे लिंक जोड़ने का सुझाव जो इंसान विज़िट न करें, और उन्हें robots.txt में प्रतिबंधित करके AI crawler को ब्लॉक किया जाए
AI और SEO bots robots.txt का लगभग पालन नहीं करते और इन्हें ब्लॉक करना मुश्किल है
यह संभव है कि Amazon नहीं बल्कि कोई दूसरा पक्ष AI crawler बनकर छद्मवेश कर रहा हो
निजी सर्वर पर AI crawler की वजह से CPU usage तेज़ी से बढ़ने की समस्या हुई
AI crawler को ब्लॉक करने के बजाय हानिकारक content देकर समस्या सुलझाने की राय
यह संभावना उठाई गई कि यह Amazon का नहीं बल्कि Amazon का रूप धरकर किया गया DDoS attack हो सकता है
Pinboard साइट भी AI crawler की वजह से ट्रैफ़िक अचानक बढ़ने से डाउन हो गई
ऐसी राय कि Amazon AWS credits देकर अतिरिक्त ट्रैफ़िक लागत की भरपाई करे
Nginx configure करके ब्लॉक करने से पहले, Bytespider और Amazonbot कुल ट्रैफ़िक का 80% थे