- Drew DeVault (SourceHut के संस्थापक) ने चेतावनी दी कि AI crawlers robots.txt को नज़रअंदाज़ कर रहे हैं और SourceHut में गंभीर बाधाएँ पैदा कर रहे हैं
- KDE के GitLab इंफ्रास्ट्रक्चर में भी Alibaba के IP रेंज से आए AI crawler हमलों के कारण एक्सेस न हो पाने की स्थिति बनी
- AI crawlers की समस्याएँ
- AI crawlers robots.txt की आवश्यकताओं को नज़रअंदाज़ करते हैं
- git blame, git log के सभी पेज और commits crawl करते हैं
- रैंडम User-Agent और दसियों हज़ार IP से requests भेजते हैं → सामान्य user traffic जैसा छद्म रूप
- crawlers को block करना मुश्किल → उच्च-प्राथमिकता वाले काम हफ्तों या महीनों तक टल जाते हैं
- सिस्टम एडमिनिस्ट्रेटरों की शिकायतें
- AI crawlers की समस्या कोई अलग-थलग मामला नहीं, बल्कि व्यापक समस्या है
- कई सिस्टम एडमिनिस्ट्रेटर यही समस्या झेल रहे हैं
- OpenAI और Anthropic सटीक User-Agent सेट करते हैं, लेकिन चीनी AI कंपनियाँ ऐसा नहीं करतीं
- KDE GitLab की प्रतिक्रिया
- MS Edge का रूप धारण करने वाले bots को block किया गया → अस्थायी समाधान
- GNOME ने बिना लॉगिन उपयोगकर्ताओं के merge requests और commit देखने की speed limit लागू की
- Anubis अपनाया गया → ब्राउज़र को puzzle हल करने के बाद ही एक्सेस मिलता है
- Anubis की समस्याएँ
- इसका असर उपयोगकर्ताओं पर भी पड़ता है → puzzle हल करने में समय लगता है
- चैट रूम में लिंक शेयर होने पर overload हो जाता है → 1–2 मिनट का इंतज़ार
- 97% traffic bots का
- GNOME में ढाई घंटे के दौरान 81,000 requests आए → 97% AI crawlers
- कुछ projects में AI crawlers को block करने के बाद traffic 75% घट गया
- अन्य FOSS projects की समस्याएँ
- Fedora → crawlers को block करने के लिए पूरे Brazil के IP block किए
- Inkscape → crawlers ने browser जानकारी spoof की → बड़े पैमाने पर IP block
- Frama Software → 4.6 लाख IPs की block list बनाई
- AI crawler प्रतिक्रिया projects
- ai.robots.txt → AI crawlers को block करने के लिए open list देता है
- robots.txt और .htaccess file सेट करने पर → AI crawler requests के लिए error page लौटाया जाता है
- traffic analysis के नतीजे
- Diaspora में traffic का 70% AI crawlers था
- OpenAI user agent: 25%
- Amazon: 15%
- Anthropic: 4.3%
- Google और Bing crawlers की traffic हिस्सेदारी 1% से कम
- AI-जनित bug reports की समस्या
- Curl project में AI-जनित bug reports की समस्या सामने आई
- रिपोर्ट किए गए bugs में ज़्यादातर hallucination की समस्या थी
- CPython, pip, urllib3, Requests → AI-जनित security reports को संभालने में समय खर्च हो रहा है
- विश्वसनीयता कम → फिर भी जाँच ज़रूरी → maintainers पर बोझ बढ़ता है
निष्कर्ष
- AI crawlers और AI-जनित bug reports open source community पर बड़ा बोझ डाल रहे हैं
- open source projects के पास commercial products की तुलना में कम संसाधन होते हैं, और वे community-आधारित होते हैं, इसलिए ऐसी समस्याओं के प्रति अधिक संवेदनशील हैं
1 टिप्पणियां
Hacker News की राय
बड़े पैमाने पर इंटरनेट इन्फ्रास्ट्रक्चर चलाने वाले कई लोग इसी तरह के अनुभव कर रहे हैं
Fastly, FOSS projects को मुफ़्त security services दे रहा है
अपने project का preview image में दिखाई देना हैरान करने वाला था
सिर्फ FOSS infrastructure ही नहीं, बल्कि anonymous internet access भी खतरे में है
हाल ही में Forgejo instance पर हमला हुआ
DISABLE_DOWNLOAD_SOURCE_ARCHIVESsetting को true करने की सिफारिश की गईपहले search engine समस्याओं को हल करने के लिए robots.txt बनाया गया था, लेकिन अब नए indexers इसे नज़रअंदाज़ कर रहे हैं
Google और ads की web पर पकड़ कमजोर होगी
LLaMa का इस्तेमाल करके एक-दूसरे से विरोधाभासी posts बनाकर जानकारी में भ्रम पैदा किया जा रहा है
VideoLAN भी AI कंपनियों के bots की वजह से forum और Gitlab पर हमले झेल रहा है
यह संभव है कि ऐसा web उभरे जिसे search engines index न कर सकें