14 पॉइंट द्वारा GN⁺ 2024-12-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • हाल ही में diaspora प्रोजेक्ट के web infrastructure (Discourse, Wiki, प्रोजेक्ट वेबसाइट आदि) में होने वाले load spike और धीमेपन की समस्या का विश्लेषण करने पर पता चला कि "ज़्यादातर ट्रैफ़िक LLM crawling bots की वजह से हो रहा है"
  • पिछले 60 दिनों में 1,130 लाख requests (औसतन 2.19 req/s) आए, जिनमें से 70% से अधिक LLM-संबंधित crawling bots से उत्पन्न हुए
    • GPTBot/1.2: 24.6% (278 लाख requests)
    • Amazonbot/0.1: 14.9% (169 लाख requests)
    • ClaudeBot/1.0: 4.3% (49 लाख requests)
    • meta-externalagent/1.1: 2.2% (22 लाख requests)
  • असामान्य crawling patterns
    • दोहरावदार crawling: एक ही page को हर 6 घंटे के अंतराल पर crawl करना
    • robots.txt की अनदेखी: crawling प्रतिबंध नियमों का बिल्कुल पालन नहीं करना
    • अक्षम crawling: बेकार data (जैसे Wiki का पूरा edit history) को बड़े पैमाने पर crawl करना
    • load spike: कुछ समय बिंदुओं पर 10req/s से अधिक requests पैदा कर database और MediaWiki server पर overload डालना
  • बचाव भी संभव नहीं
    • IP बदलना: rate limit को bypass करने के लिए लगातार IP बदलना
    • UA string बदलना: bot user agent को मनमाने string में बदलकर blocking को bypass करना
  • Googlebot और Bingbot जैसे मौजूदा search engine crawlers सामान्य और efficient crawling patterns दिखाते हैं।
    • Googlebot: 0.14% (16,600 requests)
    • Bingbot: 0.14% (15,900 requests)
  • duplicate crawling को न्यूनतम करना, robots.txt नियमों का पालन करना

परिणाम और प्रभाव

  • प्रभावी सेवा प्रदान करना असंभव: LLM crawling bots की वजह से मानव उपयोगकर्ताओं का अनुभव काफी खराब हो रहा है
  • server overload: database server और MediaWiki बार-बार load spike झेल रहे हैं
  • व्यवहारिक रूप से पूरे इंटरनेट पर DDoS: इस तरह की crawling दुनिया भर में अनावश्यक resource waste पैदा कर रही है

निष्कर्ष

  • LLM crawling bots के असामान्य traffic patterns की वजह से infrastructure पर लगातार बोझ पड़ रहा है, और इससे बचाव की कोशिशें प्रभावी नहीं हो पा रही हैं
  • यह समस्या सिर्फ व्यक्तिगत थकान से आगे बढ़कर पूरे इंटरनेट ecosystem पर गंभीर असर डाल रही है

1 टिप्पणियां

 
GN⁺ 2024-12-31
Hacker News की राय
  • Meta के AI bot ने वेबसाइट को बहुत ज़्यादा crawl किया, जिससे server down हो गया — ऐसा अनुभव साझा किया गया। इसे Cloudflare का उपयोग करके block करने का तरीका बताया गया

    • Cloudflare का AI bot blocking feature उपयोगी बताया गया
    • दावा किया गया कि AI bots का content access कोई मूल्य नहीं देता
  • अलग-अलग platforms पर होने वाले bot traffic का data साझा किया गया

    • Claude, Amazon, Data For SEO, Chat GPT आदि के bots बहुत सारा traffic पैदा करते हैं
    • बताया गया कि ये bots robots.txt को नज़रअंदाज़ करते हैं या delay होने पर भी back off नहीं करते
  • bots को block करने के तरीकों पर चर्चा की गई

    • IP बदलने या non-bot User Agent में switch करने वाले bots के व्यवहार का वर्णन किया गया
    • OpenAI के IP range को public करने वाला GitHub link साझा किया गया
    • WordPress plugin का उपयोग करके AI bots को block करने का तरीका सुझाया गया
  • resource समस्या के कारण CGTalk forum के बंद होने का मामला उल्लेखित किया गया

    • कई forums server संचालन का बोझ कम करने के लिए Slack और Discord पर चले गए
  • दावा किया गया कि AI कंपनियों को scraping ज़्यादा समझदारी से करनी चाहिए

    • कहा गया कि AI कंपनियों का यह व्यवहार शर्मनाक है
  • poisoning attack को लेकर जिज्ञासा व्यक्त की गई

    • इंसानों द्वारा लिखे गए गलत content से AI model को भ्रमित करने की संभावना पर विचार किया गया
  • GCP पर deploy किए गए app में bot traffic के कारण cost बढ़ने का अनुभव साझा किया गया

    • अनुमान लगाया गया कि app को Reddit पर share करना इसका कारण था
  • बड़े forum को crawl किए जाने का अनुभव साझा किया गया

    • कहा गया कि ChatGPT forum के इतिहास के बारे में काफ़ी जानता है
    • LLMs को प्रभावित कर सकने वाला text जोड़ने का विचार सुझाया गया
  • दावा किया गया कि robots.txt को नज़रअंदाज़ करके service पर बुरा असर डालने वाले bots के व्यवहार को अवैध माना जा सकता है

    • स्थानीय cyber law enforcement agency से संपर्क करने की सिफारिश की गई