AI कंपनियां अधिकांश वेब ट्रैफ़िक बना रही हैं
(pod.geraspora.de)- हाल ही में diaspora प्रोजेक्ट के web infrastructure (Discourse, Wiki, प्रोजेक्ट वेबसाइट आदि) में होने वाले load spike और धीमेपन की समस्या का विश्लेषण करने पर पता चला कि "ज़्यादातर ट्रैफ़िक LLM crawling bots की वजह से हो रहा है"
- पिछले 60 दिनों में 1,130 लाख requests (औसतन 2.19 req/s) आए, जिनमें से 70% से अधिक LLM-संबंधित crawling bots से उत्पन्न हुए
- GPTBot/1.2: 24.6% (278 लाख requests)
- Amazonbot/0.1: 14.9% (169 लाख requests)
- ClaudeBot/1.0: 4.3% (49 लाख requests)
- meta-externalagent/1.1: 2.2% (22 लाख requests)
- असामान्य crawling patterns
- दोहरावदार crawling: एक ही page को हर 6 घंटे के अंतराल पर crawl करना
- robots.txt की अनदेखी: crawling प्रतिबंध नियमों का बिल्कुल पालन नहीं करना
- अक्षम crawling: बेकार data (जैसे Wiki का पूरा edit history) को बड़े पैमाने पर crawl करना
- load spike: कुछ समय बिंदुओं पर 10req/s से अधिक requests पैदा कर database और MediaWiki server पर overload डालना
- बचाव भी संभव नहीं
- IP बदलना: rate limit को bypass करने के लिए लगातार IP बदलना
- UA string बदलना: bot user agent को मनमाने string में बदलकर blocking को bypass करना
- Googlebot और Bingbot जैसे मौजूदा search engine crawlers सामान्य और efficient crawling patterns दिखाते हैं।
- Googlebot: 0.14% (16,600 requests)
- Bingbot: 0.14% (15,900 requests)
- duplicate crawling को न्यूनतम करना, robots.txt नियमों का पालन करना
परिणाम और प्रभाव
- प्रभावी सेवा प्रदान करना असंभव: LLM crawling bots की वजह से मानव उपयोगकर्ताओं का अनुभव काफी खराब हो रहा है
- server overload: database server और MediaWiki बार-बार load spike झेल रहे हैं
- व्यवहारिक रूप से पूरे इंटरनेट पर DDoS: इस तरह की crawling दुनिया भर में अनावश्यक resource waste पैदा कर रही है
निष्कर्ष
- LLM crawling bots के असामान्य traffic patterns की वजह से infrastructure पर लगातार बोझ पड़ रहा है, और इससे बचाव की कोशिशें प्रभावी नहीं हो पा रही हैं
- यह समस्या सिर्फ व्यक्तिगत थकान से आगे बढ़कर पूरे इंटरनेट ecosystem पर गंभीर असर डाल रही है
1 टिप्पणियां
Hacker News की राय
Meta के AI bot ने वेबसाइट को बहुत ज़्यादा crawl किया, जिससे server down हो गया — ऐसा अनुभव साझा किया गया। इसे Cloudflare का उपयोग करके block करने का तरीका बताया गया
अलग-अलग platforms पर होने वाले bot traffic का data साझा किया गया
robots.txtको नज़रअंदाज़ करते हैं या delay होने पर भी back off नहीं करतेbots को block करने के तरीकों पर चर्चा की गई
resource समस्या के कारण CGTalk forum के बंद होने का मामला उल्लेखित किया गया
दावा किया गया कि AI कंपनियों को scraping ज़्यादा समझदारी से करनी चाहिए
poisoning attack को लेकर जिज्ञासा व्यक्त की गई
GCP पर deploy किए गए app में bot traffic के कारण cost बढ़ने का अनुभव साझा किया गया
बड़े forum को crawl किए जाने का अनुभव साझा किया गया
दावा किया गया कि
robots.txtको नज़रअंदाज़ करके service पर बुरा असर डालने वाले bots के व्यवहार को अवैध माना जा सकता है