1 पॉइंट द्वारा GN⁺ 2025-03-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Drew DeVault (SourceHut के संस्थापक) ने चेतावनी दी कि AI crawlers robots.txt को नज़रअंदाज़ कर रहे हैं और SourceHut में गंभीर बाधाएँ पैदा कर रहे हैं
  • KDE के GitLab इंफ्रास्ट्रक्चर में भी Alibaba के IP रेंज से आए AI crawler हमलों के कारण एक्सेस न हो पाने की स्थिति बनी
  • AI crawlers की समस्याएँ
    • AI crawlers robots.txt की आवश्यकताओं को नज़रअंदाज़ करते हैं
      • git blame, git log के सभी पेज और commits crawl करते हैं
      • रैंडम User-Agent और दसियों हज़ार IP से requests भेजते हैं → सामान्य user traffic जैसा छद्म रूप
    • crawlers को block करना मुश्किल → उच्च-प्राथमिकता वाले काम हफ्तों या महीनों तक टल जाते हैं
  • सिस्टम एडमिनिस्ट्रेटरों की शिकायतें
    • AI crawlers की समस्या कोई अलग-थलग मामला नहीं, बल्कि व्यापक समस्या है
      • कई सिस्टम एडमिनिस्ट्रेटर यही समस्या झेल रहे हैं
      • OpenAI और Anthropic सटीक User-Agent सेट करते हैं, लेकिन चीनी AI कंपनियाँ ऐसा नहीं करतीं
  • KDE GitLab की प्रतिक्रिया
    • MS Edge का रूप धारण करने वाले bots को block किया गया → अस्थायी समाधान
    • GNOME ने बिना लॉगिन उपयोगकर्ताओं के merge requests और commit देखने की speed limit लागू की
    • Anubis अपनाया गया → ब्राउज़र को puzzle हल करने के बाद ही एक्सेस मिलता है
  • Anubis की समस्याएँ
    • इसका असर उपयोगकर्ताओं पर भी पड़ता है → puzzle हल करने में समय लगता है
      • चैट रूम में लिंक शेयर होने पर overload हो जाता है → 1–2 मिनट का इंतज़ार
  • 97% traffic bots का
    • GNOME में ढाई घंटे के दौरान 81,000 requests आए → 97% AI crawlers
    • कुछ projects में AI crawlers को block करने के बाद traffic 75% घट गया
  • अन्य FOSS projects की समस्याएँ
    • Fedora → crawlers को block करने के लिए पूरे Brazil के IP block किए
    • Inkscape → crawlers ने browser जानकारी spoof की → बड़े पैमाने पर IP block
    • Frama Software → 4.6 लाख IPs की block list बनाई
  • AI crawler प्रतिक्रिया projects
    • ai.robots.txt → AI crawlers को block करने के लिए open list देता है
      • robots.txt और .htaccess file सेट करने पर → AI crawler requests के लिए error page लौटाया जाता है
  • traffic analysis के नतीजे
    • Diaspora में traffic का 70% AI crawlers था
      • OpenAI user agent: 25%
      • Amazon: 15%
      • Anthropic: 4.3%
    • Google और Bing crawlers की traffic हिस्सेदारी 1% से कम
  • AI-जनित bug reports की समस्या
    • Curl project में AI-जनित bug reports की समस्या सामने आई
      • रिपोर्ट किए गए bugs में ज़्यादातर hallucination की समस्या थी
    • CPython, pip, urllib3, Requests → AI-जनित security reports को संभालने में समय खर्च हो रहा है
      • विश्वसनीयता कम → फिर भी जाँच ज़रूरी → maintainers पर बोझ बढ़ता है

निष्कर्ष

  • AI crawlers और AI-जनित bug reports open source community पर बड़ा बोझ डाल रहे हैं
  • open source projects के पास commercial products की तुलना में कम संसाधन होते हैं, और वे community-आधारित होते हैं, इसलिए ऐसी समस्याओं के प्रति अधिक संवेदनशील हैं

1 टिप्पणियां

 
GN⁺ 2025-03-21
Hacker News की राय
  • बड़े पैमाने पर इंटरनेट इन्फ्रास्ट्रक्चर चलाने वाले कई लोग इसी तरह के अनुभव कर रहे हैं

    • AI crawlers के दुरुपयोग पर अनुभव साझा किए जा रहे हैं, और ऐसे मुद्दों को एक जगह इकट्ठा करके व्यवस्थित करने वाली एक पोस्ट मौजूद है
    • कुछ startups ने समस्या हल की और लागत वापस की, लेकिन Facebook ने ईमेल का जवाब नहीं दिया
  • Fastly, FOSS projects को मुफ़्त security services दे रहा है

    • हाल में AI scraping से जुड़े अनुरोध बढ़ रहे हैं
  • अपने project का preview image में दिखाई देना हैरान करने वाला था

    • project को xeiaso.net पर deploy करके वास्तविक environment में उसका व्यवहार देखा जा रहा है
  • सिर्फ FOSS infrastructure ही नहीं, बल्कि anonymous internet access भी खतरे में है

    • नए bots captcha हल कर सकते हैं और असली users की तरह व्यवहार कर सकते हैं
    • संभव है कि sites credit card या Worldcoin जैसे verification की मांग करने लगें
  • हाल ही में Forgejo instance पर हमला हुआ

    • disk, बनाए गए zip files से भर गई थी, और Alibaba Cloud के IP ranges को block करने पर हमला कम हो गया
    • DISABLE_DOWNLOAD_SOURCE_ARCHIVES setting को true करने की सिफारिश की गई
  • पहले search engine समस्याओं को हल करने के लिए robots.txt बनाया गया था, लेकिन अब नए indexers इसे नज़रअंदाज़ कर रहे हैं

    • इसका तर्क है कि कानूनी दंड ज़रूरी है
  • Google और ads की web पर पकड़ कमजोर होगी

    • captcha की वजह से search engines sites को index नहीं कर पाएंगे, और इससे search engines की value घटेगी
  • LLaMa का इस्तेमाल करके एक-दूसरे से विरोधाभासी posts बनाकर जानकारी में भ्रम पैदा किया जा रहा है

  • VideoLAN भी AI कंपनियों के bots की वजह से forum और Gitlab पर हमले झेल रहा है

    • ज़्यादातर bots robots.txt को नज़रअंदाज़ करते हैं
  • यह संभव है कि ऐसा web उभरे जिसे search engines index न कर सकें

    • LLM scraping के समाधान के तौर पर proof of work मांगने का तरीका प्रस्तावित किया गया है