- AI crawlers ओपन सोर्स प्रोजेक्ट साइटों पर अत्यधिक ट्रैफिक पैदा कर रहे हैं, जिससे वास्तव में सेवा ठप होने जैसी क्षति हो रही है
- AI crawlers
robots.txt को नज़रअंदाज़ करते हैं, User-Agent को spoof करते हैं, और लोकेशन IP को bypass करके मौजूदा रक्षा प्रणालियों से बच निकलते हैं
- डेवलपर Xe Iaso ने इसे रोकने के लिए सर्वर को VPN के पीछे शिफ्ट किया और
**Anubis** नाम की एक proof-based system लागू की, जिसमें एक्सेस से पहले उपयोगकर्ताओं को puzzle हल करना पड़ता है
- LibreNews के अनुसार, एक प्रोजेक्ट के मामले में कुल ट्रैफिक का 97% AI crawlers से आया
- Fedora, GNOME, KDE जैसे प्रसिद्ध प्रोजेक्ट भी country block, Anubis लागू करने और अस्थायी shutdown जैसे उपायों से जवाब दे रहे हैं
वास्तविक नुकसान के मामले और AI crawlers की अंधाधुंध पहुंच
- GNOME के GitLab में 84,056 में से केवल 3.2% ही Anubis पार कर पाए → अधिकांश को असामान्य crawling माना जा रहा है
- KDE में Alibaba IP से आए ट्रैफिक के कारण GitLab infrastructure अस्थायी रूप से ठप हो गया
- कुछ mobile users को puzzle लोड होने में 2 मिनट से अधिक समय लगा
- Diaspora infrastructure के रखरखाव प्रभारी Dennis Schubert ने AI crawler ट्रैफिक को "पूरे इंटरनेट पर DDoS" बताया
- Read the Docs ने AI crawlers को ब्लॉक करने के बाद ट्रैफिक 800GB प्रतिदिन से घटाकर 200GB कर लिया, जिससे हर महीने लगभग $1,500 की बचत हुई
ओपन सोर्स प्रोजेक्ट्स पर केंद्रित असंतुलित बोझ
- ओपन सोर्स सीमित संसाधनों पर चलता है और सार्वजनिक सहयोग पर आधारित होता है
- कई crawlers
robots.txt को नज़रअंदाज़ करते हैं, User-Agent को फर्जी बनाते हैं, और लगातार IP बदलते हुए पहुंचते हैं
- Inkscape के Martin Owens ने बताया कि browser जानकारी spoof करने वाली AI कंपनियों के कारण उन्हें बड़े पैमाने पर blocklist बनाए रखनी पड़ रही है
- Hacker News पर AI कंपनियों की पूंजी शक्ति और असहयोगी रवैये को लेकर गुस्सा फैल रहा है
- SourceHut के Drew DeVault ने कहा कि crawlers हर git log page और commits तक पहुंचते हैं, जिससे संसाधनों की अत्यधिक खपत होती है
- Curl प्रोजेक्ट ने AI द्वारा बनाए गए झूठे bug reports मिलने का मामला भी रिपोर्ट किया
AI crawlers का उद्देश्य और कंपनियों के व्यवहार के पैटर्न
- AI crawlers के अलग-अलग उद्देश्य हैं, जैसे training data इकट्ठा करना या AI जवाबों के लिए real-time search करना
- Diaspora के विश्लेषण के अनुसार: OpenAI 25%, Amazon 15%, Anthropic 4.3% ट्रैफिक के लिए जिम्मेदार थे
- Crawlers समय-समय पर वही पेज बार-बार crawl करते हैं (उदाहरण: हर 6 घंटे में)
- OpenAI और Anthropic जैसे कुछ खिलाड़ी अपेक्षाकृत सामान्य User-Agent इस्तेमाल करते हैं, जबकि कुछ चीनी AI कंपनियां अधिक उन्नत स्तर का disguise अपनाती हैं
- Amazon और Alibaba जैसे नाम भी नुकसान के मामलों में सामने आए हैं, लेकिन इन कंपनियों की ओर से अभी तक कोई आधिकारिक प्रतिक्रिया नहीं आई है
जवाबी उपाय: Tarpit, puzzles, सहयोगी मॉडल आदि
"Nepenthes" नाम का टूल AI crawlers को अंतहीन नकली कंटेंट की भूलभुलैया में फंसा देने वाला एक आक्रामक रक्षा उपाय है
- इसके निर्माता Aaron का दावा है कि यह टूल crawler की लागत बढ़ाता है और training data को दूषित करने में मदद करता है
- Cloudflare ने व्यावसायिक security feature के रूप में 'AI Labyrinth' पेश किया, जो crawlers को बेकार पन्नों की ओर मोड़ देता है
- Cloudflare नेटवर्क पर रोज़ 50 अरब से अधिक AI crawling requests आती हैं
- ओपन सोर्स प्रोजेक्ट
"ai.robots.txt" AI crawler सूची और blocking के लिए robots.txt / .htaccess फाइलें उपलब्ध कराता है
लगातार जारी AI data collection और open web का संकट
- बिना नियमन के बड़े पैमाने पर data collection जारी रखने वाली AI कंपनियां ओपन सोर्स infrastructure के लिए गंभीर खतरा बन रही हैं
- यह आलोचना उठ रही है कि AI खुद उसी digital ecosystem को नष्ट कर रहा है, जिस पर वह निर्भर है
- सहयोगी data collection framework एक विकल्प हो सकता है, लेकिन प्रमुख AI कंपनियों में स्वैच्छिक सहयोग की इच्छा कम दिखती है
- सार्थक regulation या स्वैच्छिक जवाबदेही के बिना AI और ओपन सोर्स के बीच टकराव और गहरा सकता है
1 टिप्पणियां
Hacker News टिप्पणियाँ
लक्ष्य यह है कि बॉट्स को वेबसाइट विज़िट से नकारात्मक utility value मिले। यह उन्हें सिर्फ ब्लॉक करने से ज़्यादा प्रभावी है
यह स्पष्ट नहीं है कि कंपनियाँ ज़्यादा सहयोगी approach क्यों नहीं अपनातीं। कम से कम उन्हें data collection की speed limit करनी चाहिए ताकि source websites पर अत्यधिक लोड न पड़े
मेरा मानना है कि resources access करने के लिए microtransactions लाने चाहिए। सर्वर को एक छोटी राशि चुकाएँ और वह content लौटाए। अगर crawler traffic पर कब्ज़ा करते हैं, तो उन्हें उसी के हिसाब से भुगतान करना चाहिए
जब मैंने sugaku.net को बिना login के इस्तेमाल के लिए खोल दिया, तो crawlers बहुत जल्दी सक्रिय हो गए। मैं साइट को सभी के लिए सुलभ रखना चाहता हूँ, लेकिन मुझे ज़्यादातर dynamic features को logged-in users तक सीमित करना पड़ा। robots.txt को सख्त किया, Cloudflare का इस्तेमाल कर AI crawlers और bad bots को ब्लॉक किया, फिर भी अब भी रोज़ लगभग 10 लाख automated requests मिलते हैं। लगता है जल्द ही साइट को केवल logged-in users तक सीमित करना पड़ेगा
हाल ही में मैंने "code everything in prod" approach के साथ एक side project शुरू किया। पिछले 20 सालों में यह कई बार किया है, लेकिन इस बार मामला अलग था। मैंने hostname का कहीं भी प्रचार नहीं किया था, फिर भी 24 घंटे से कम समय में बहुत सारे spam form submissions आ गए। थोड़ी-बहुत publicity के बाद ऐसा होगा, इसकी उम्मीद थी, लेकिन सर्वर शुरू करते ही bots interaction करने लगेंगे, यह अपेक्षित नहीं था
मुद्दा यह नहीं है कि दूसरे लोग Lynx या curl का इस्तेमाल करके files copy न कर सकें, बल्कि यह है कि खराब software की वजह से server overload न हो
मुझे ClaudeBot (Anthropic) की ओर से DoS attack झेलना पड़ा। वह हर महीने वेबसाइट पर 7 लाख बार hit कर रहा था और hosting provider की bandwidth limit पार करवा रहा था। user agent को ब्लॉक करना और hosting provider support के साथ मिलकर restriction हटवाना काफ़ी झंझट भरा था
JS-केंद्रित "anti-bot" उपाय browser monopoly को और मज़बूत करते हैं। इसकी बजाय मैं एक साधारण HTML form की सिफारिश करता हूँ जो ऐसे सवाल पूछे जिन्हें LLM अभी हल नहीं कर सकते या लगातार गलत हल करते हैं। सवाल साइट के content से जुड़े हों तो और बेहतर। एक electronics forum पर registration form में इसी तरह के "technical test" सवाल इस्तेमाल किए गए थे; कुछ को LLM हल कर सकते हैं, लेकिन यह अब भी ऐसा CAPTCHA है जिसे सिर्फ इंसान हल कर सकते हैं
किसी वेबसाइट पर हद से ज़्यादा spam करना बुरा व्यवहार है। लेकिन अगर आप AI crawlers को ब्लॉक करते हैं, तो अंततः आपका ही नुकसान होगा। ज़रा अंदाज़ा लगाइए कि लंबे समय में SEO की जगह क्या लेगा
मैंने कई content sites चलाई हैं, और पिछले कुछ दिनों में आक्रामक AI bots की वजह से कुछ साइटें बंद कर दीं। लगता है Alexa सबसे खराब है