FOSS इंफ्रास्ट्रक्चर पर AI कंपनियों का हमला

(thelibre.news)

1 पॉइंट द्वारा GN⁺ 2025-03-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Drew DeVault (SourceHut के संस्थापक) ने चेतावनी दी कि AI crawlers robots.txt को नज़रअंदाज़ कर रहे हैं और SourceHut में गंभीर बाधाएँ पैदा कर रहे हैं
KDE के GitLab इंफ्रास्ट्रक्चर में भी Alibaba के IP रेंज से आए AI crawler हमलों के कारण एक्सेस न हो पाने की स्थिति बनी
AI crawlers की समस्याएँ
- AI crawlers robots.txt की आवश्यकताओं को नज़रअंदाज़ करते हैं
  - git blame, git log के सभी पेज और commits crawl करते हैं
  - रैंडम User-Agent और दसियों हज़ार IP से requests भेजते हैं → सामान्य user traffic जैसा छद्म रूप
- crawlers को block करना मुश्किल → उच्च-प्राथमिकता वाले काम हफ्तों या महीनों तक टल जाते हैं
सिस्टम एडमिनिस्ट्रेटरों की शिकायतें
- AI crawlers की समस्या कोई अलग-थलग मामला नहीं, बल्कि व्यापक समस्या है
  - कई सिस्टम एडमिनिस्ट्रेटर यही समस्या झेल रहे हैं
  - OpenAI और Anthropic सटीक User-Agent सेट करते हैं, लेकिन चीनी AI कंपनियाँ ऐसा नहीं करतीं
KDE GitLab की प्रतिक्रिया
- MS Edge का रूप धारण करने वाले bots को block किया गया → अस्थायी समाधान
- GNOME ने बिना लॉगिन उपयोगकर्ताओं के merge requests और commit देखने की speed limit लागू की
- Anubis अपनाया गया → ब्राउज़र को puzzle हल करने के बाद ही एक्सेस मिलता है
Anubis की समस्याएँ
- इसका असर उपयोगकर्ताओं पर भी पड़ता है → puzzle हल करने में समय लगता है
  - चैट रूम में लिंक शेयर होने पर overload हो जाता है → 1–2 मिनट का इंतज़ार
97% traffic bots का
- GNOME में ढाई घंटे के दौरान 81,000 requests आए → 97% AI crawlers
- कुछ projects में AI crawlers को block करने के बाद traffic 75% घट गया
अन्य FOSS projects की समस्याएँ
- Fedora → crawlers को block करने के लिए पूरे Brazil के IP block किए
- Inkscape → crawlers ने browser जानकारी spoof की → बड़े पैमाने पर IP block
- Frama Software → 4.6 लाख IPs की block list बनाई
AI crawler प्रतिक्रिया projects
- ai.robots.txt → AI crawlers को block करने के लिए open list देता है
  - robots.txt और .htaccess file सेट करने पर → AI crawler requests के लिए error page लौटाया जाता है
traffic analysis के नतीजे
- Diaspora में traffic का 70% AI crawlers था
  - OpenAI user agent: 25%
  - Amazon: 15%
  - Anthropic: 4.3%
- Google और Bing crawlers की traffic हिस्सेदारी 1% से कम
AI-जनित bug reports की समस्या
- Curl project में AI-जनित bug reports की समस्या सामने आई
  - रिपोर्ट किए गए bugs में ज़्यादातर hallucination की समस्या थी
- CPython, pip, urllib3, Requests → AI-जनित security reports को संभालने में समय खर्च हो रहा है
  - विश्वसनीयता कम → फिर भी जाँच ज़रूरी → maintainers पर बोझ बढ़ता है

निष्कर्ष

AI crawlers और AI-जनित bug reports open source community पर बड़ा बोझ डाल रहे हैं
open source projects के पास commercial products की तुलना में कम संसाधन होते हैं, और वे community-आधारित होते हैं, इसलिए ऐसी समस्याओं के प्रति अधिक संवेदनशील हैं

1 टिप्पणियां

GN⁺ 2025-03-21

Hacker News की राय

बड़े पैमाने पर इंटरनेट इन्फ्रास्ट्रक्चर चलाने वाले कई लोग इसी तरह के अनुभव कर रहे हैं
- AI crawlers के दुरुपयोग पर अनुभव साझा किए जा रहे हैं, और ऐसे मुद्दों को एक जगह इकट्ठा करके व्यवस्थित करने वाली एक पोस्ट मौजूद है
- कुछ startups ने समस्या हल की और लागत वापस की, लेकिन Facebook ने ईमेल का जवाब नहीं दिया
Fastly, FOSS projects को मुफ़्त security services दे रहा है
- हाल में AI scraping से जुड़े अनुरोध बढ़ रहे हैं
अपने project का preview image में दिखाई देना हैरान करने वाला था
- project को xeiaso.net पर deploy करके वास्तविक environment में उसका व्यवहार देखा जा रहा है
सिर्फ FOSS infrastructure ही नहीं, बल्कि anonymous internet access भी खतरे में है
- नए bots captcha हल कर सकते हैं और असली users की तरह व्यवहार कर सकते हैं
- संभव है कि sites credit card या Worldcoin जैसे verification की मांग करने लगें
हाल ही में Forgejo instance पर हमला हुआ
- disk, बनाए गए zip files से भर गई थी, और Alibaba Cloud के IP ranges को block करने पर हमला कम हो गया
- DISABLE_DOWNLOAD_SOURCE_ARCHIVES setting को true करने की सिफारिश की गई
पहले search engine समस्याओं को हल करने के लिए robots.txt बनाया गया था, लेकिन अब नए indexers इसे नज़रअंदाज़ कर रहे हैं
- इसका तर्क है कि कानूनी दंड ज़रूरी है
Google और ads की web पर पकड़ कमजोर होगी
- captcha की वजह से search engines sites को index नहीं कर पाएंगे, और इससे search engines की value घटेगी
LLaMa का इस्तेमाल करके एक-दूसरे से विरोधाभासी posts बनाकर जानकारी में भ्रम पैदा किया जा रहा है
VideoLAN भी AI कंपनियों के bots की वजह से forum और Gitlab पर हमले झेल रहा है
- ज़्यादातर bots robots.txt को नज़रअंदाज़ करते हैं
यह संभव है कि ऐसा web उभरे जिसे search engines index न कर सकें
- LLM scraping के समाधान के तौर पर proof of work मांगने का तरीका प्रस्तावित किया गया है

FOSS इंफ्रास्ट्रक्चर पर AI कंपनियों का हमला

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय