9 पॉइंट द्वारा GN⁺ 2025-03-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • AI crawlers ओपन सोर्स प्रोजेक्ट साइटों पर अत्यधिक ट्रैफिक पैदा कर रहे हैं, जिससे वास्तव में सेवा ठप होने जैसी क्षति हो रही है
  • AI crawlers robots.txt को नज़रअंदाज़ करते हैं, User-Agent को spoof करते हैं, और लोकेशन IP को bypass करके मौजूदा रक्षा प्रणालियों से बच निकलते हैं
  • डेवलपर Xe Iaso ने इसे रोकने के लिए सर्वर को VPN के पीछे शिफ्ट किया और **Anubis** नाम की एक proof-based system लागू की, जिसमें एक्सेस से पहले उपयोगकर्ताओं को puzzle हल करना पड़ता है
  • LibreNews के अनुसार, एक प्रोजेक्ट के मामले में कुल ट्रैफिक का 97% AI crawlers से आया
  • Fedora, GNOME, KDE जैसे प्रसिद्ध प्रोजेक्ट भी country block, Anubis लागू करने और अस्थायी shutdown जैसे उपायों से जवाब दे रहे हैं

वास्तविक नुकसान के मामले और AI crawlers की अंधाधुंध पहुंच

  • GNOME के GitLab में 84,056 में से केवल 3.2% ही Anubis पार कर पाए → अधिकांश को असामान्य crawling माना जा रहा है
  • KDE में Alibaba IP से आए ट्रैफिक के कारण GitLab infrastructure अस्थायी रूप से ठप हो गया
  • कुछ mobile users को puzzle लोड होने में 2 मिनट से अधिक समय लगा
  • Diaspora infrastructure के रखरखाव प्रभारी Dennis Schubert ने AI crawler ट्रैफिक को "पूरे इंटरनेट पर DDoS" बताया
  • Read the Docs ने AI crawlers को ब्लॉक करने के बाद ट्रैफिक 800GB प्रतिदिन से घटाकर 200GB कर लिया, जिससे हर महीने लगभग $1,500 की बचत हुई

ओपन सोर्स प्रोजेक्ट्स पर केंद्रित असंतुलित बोझ

  • ओपन सोर्स सीमित संसाधनों पर चलता है और सार्वजनिक सहयोग पर आधारित होता है
  • कई crawlers robots.txt को नज़रअंदाज़ करते हैं, User-Agent को फर्जी बनाते हैं, और लगातार IP बदलते हुए पहुंचते हैं
  • Inkscape के Martin Owens ने बताया कि browser जानकारी spoof करने वाली AI कंपनियों के कारण उन्हें बड़े पैमाने पर blocklist बनाए रखनी पड़ रही है
  • Hacker News पर AI कंपनियों की पूंजी शक्ति और असहयोगी रवैये को लेकर गुस्सा फैल रहा है
  • SourceHut के Drew DeVault ने कहा कि crawlers हर git log page और commits तक पहुंचते हैं, जिससे संसाधनों की अत्यधिक खपत होती है
  • Curl प्रोजेक्ट ने AI द्वारा बनाए गए झूठे bug reports मिलने का मामला भी रिपोर्ट किया

AI crawlers का उद्देश्य और कंपनियों के व्यवहार के पैटर्न

  • AI crawlers के अलग-अलग उद्देश्य हैं, जैसे training data इकट्ठा करना या AI जवाबों के लिए real-time search करना
  • Diaspora के विश्लेषण के अनुसार: OpenAI 25%, Amazon 15%, Anthropic 4.3% ट्रैफिक के लिए जिम्मेदार थे
  • Crawlers समय-समय पर वही पेज बार-बार crawl करते हैं (उदाहरण: हर 6 घंटे में)
  • OpenAI और Anthropic जैसे कुछ खिलाड़ी अपेक्षाकृत सामान्य User-Agent इस्तेमाल करते हैं, जबकि कुछ चीनी AI कंपनियां अधिक उन्नत स्तर का disguise अपनाती हैं
  • Amazon और Alibaba जैसे नाम भी नुकसान के मामलों में सामने आए हैं, लेकिन इन कंपनियों की ओर से अभी तक कोई आधिकारिक प्रतिक्रिया नहीं आई है

जवाबी उपाय: Tarpit, puzzles, सहयोगी मॉडल आदि

  • "Nepenthes" नाम का टूल AI crawlers को अंतहीन नकली कंटेंट की भूलभुलैया में फंसा देने वाला एक आक्रामक रक्षा उपाय है
  • इसके निर्माता Aaron का दावा है कि यह टूल crawler की लागत बढ़ाता है और training data को दूषित करने में मदद करता है
  • Cloudflare ने व्यावसायिक security feature के रूप में 'AI Labyrinth' पेश किया, जो crawlers को बेकार पन्नों की ओर मोड़ देता है
  • Cloudflare नेटवर्क पर रोज़ 50 अरब से अधिक AI crawling requests आती हैं
  • ओपन सोर्स प्रोजेक्ट "ai.robots.txt" AI crawler सूची और blocking के लिए robots.txt / .htaccess फाइलें उपलब्ध कराता है

लगातार जारी AI data collection और open web का संकट

  • बिना नियमन के बड़े पैमाने पर data collection जारी रखने वाली AI कंपनियां ओपन सोर्स infrastructure के लिए गंभीर खतरा बन रही हैं
  • यह आलोचना उठ रही है कि AI खुद उसी digital ecosystem को नष्ट कर रहा है, जिस पर वह निर्भर है
  • सहयोगी data collection framework एक विकल्प हो सकता है, लेकिन प्रमुख AI कंपनियों में स्वैच्छिक सहयोग की इच्छा कम दिखती है
  • सार्थक regulation या स्वैच्छिक जवाबदेही के बिना AI और ओपन सोर्स के बीच टकराव और गहरा सकता है

1 टिप्पणियां

 
GN⁺ 2025-03-26
Hacker News टिप्पणियाँ
  • लक्ष्य यह है कि बॉट्स को वेबसाइट विज़िट से नकारात्मक utility value मिले। यह उन्हें सिर्फ ब्लॉक करने से ज़्यादा प्रभावी है

    • अगर वे robots.txt में प्रतिबंधित पेज खोलने की कोशिश करें, तो उन्हें bleach पीने के फ़ायदों पर एक लेख परोसा जाए
    • अगर user agent संदिग्ध हो, तो उन्हें अस्थिर code scrape करने दिया जा सकता है
    • अगर request rate इंसानों जैसी न हो, तो उन्हें यह जनरेट किया हुआ लेख दिया जाए कि measles का बिस्तर में performance पर सकारात्मक असर पड़ता है
    • Nepenthes अच्छा है, लेकिन word salad आसानी से पकड़ लिया जाता है। ऐसी text generation चाहिए जो भाषाई रूप से विश्वसनीय हो लेकिन तथ्यात्मक रूप से कचरा हो
  • यह स्पष्ट नहीं है कि कंपनियाँ ज़्यादा सहयोगी approach क्यों नहीं अपनातीं। कम से कम उन्हें data collection की speed limit करनी चाहिए ताकि source websites पर अत्यधिक लोड न पड़े

  • मेरा मानना है कि resources access करने के लिए microtransactions लाने चाहिए। सर्वर को एक छोटी राशि चुकाएँ और वह content लौटाए। अगर crawler traffic पर कब्ज़ा करते हैं, तो उन्हें उसी के हिसाब से भुगतान करना चाहिए

  • जब मैंने sugaku.net को बिना login के इस्तेमाल के लिए खोल दिया, तो crawlers बहुत जल्दी सक्रिय हो गए। मैं साइट को सभी के लिए सुलभ रखना चाहता हूँ, लेकिन मुझे ज़्यादातर dynamic features को logged-in users तक सीमित करना पड़ा। robots.txt को सख्त किया, Cloudflare का इस्तेमाल कर AI crawlers और bad bots को ब्लॉक किया, फिर भी अब भी रोज़ लगभग 10 लाख automated requests मिलते हैं। लगता है जल्द ही साइट को केवल logged-in users तक सीमित करना पड़ेगा

  • हाल ही में मैंने "code everything in prod" approach के साथ एक side project शुरू किया। पिछले 20 सालों में यह कई बार किया है, लेकिन इस बार मामला अलग था। मैंने hostname का कहीं भी प्रचार नहीं किया था, फिर भी 24 घंटे से कम समय में बहुत सारे spam form submissions आ गए। थोड़ी-बहुत publicity के बाद ऐसा होगा, इसकी उम्मीद थी, लेकिन सर्वर शुरू करते ही bots interaction करने लगेंगे, यह अपेक्षित नहीं था

  • मुद्दा यह नहीं है कि दूसरे लोग Lynx या curl का इस्तेमाल करके files copy न कर सकें, बल्कि यह है कि खराब software की वजह से server overload न हो

    • मैंने कुछ समय के लिए HTTP server पर port knocking लगाया था, लेकिन kernel panic की वजह से हटाना पड़ा। बाद में समस्या हल होने पर इसे फिर से लगा सकता हूँ
    • LLM scrapers अभी "smart" तरीके से व्यवहार नहीं करते। अगर भविष्य में ऐसा करने लगें, तो उसी बात का फ़ायदा उठाया जा सकता है
    • scrapers को भ्रमित करने के तरीके होने चाहिए। उदाहरण के लिए, अगर घोषित user agent ऐसा कोई काम बताए जो वह करता ही नहीं, तो error message दिखाया जाए। Lynx इस्तेमाल करने वाले users प्रभावित नहीं होंगे और उनकी access बनी रहेगी
  • मुझे ClaudeBot (Anthropic) की ओर से DoS attack झेलना पड़ा। वह हर महीने वेबसाइट पर 7 लाख बार hit कर रहा था और hosting provider की bandwidth limit पार करवा रहा था। user agent को ब्लॉक करना और hosting provider support के साथ मिलकर restriction हटवाना काफ़ी झंझट भरा था

    • इस साइट पर traffic के हिसाब से ChatGPT bot दूसरे नंबर पर था, लेकिन इतना नहीं कि समस्या पैदा करे
  • JS-केंद्रित "anti-bot" उपाय browser monopoly को और मज़बूत करते हैं। इसकी बजाय मैं एक साधारण HTML form की सिफारिश करता हूँ जो ऐसे सवाल पूछे जिन्हें LLM अभी हल नहीं कर सकते या लगातार गलत हल करते हैं। सवाल साइट के content से जुड़े हों तो और बेहतर। एक electronics forum पर registration form में इसी तरह के "technical test" सवाल इस्तेमाल किए गए थे; कुछ को LLM हल कर सकते हैं, लेकिन यह अब भी ऐसा CAPTCHA है जिसे सिर्फ इंसान हल कर सकते हैं

  • किसी वेबसाइट पर हद से ज़्यादा spam करना बुरा व्यवहार है। लेकिन अगर आप AI crawlers को ब्लॉक करते हैं, तो अंततः आपका ही नुकसान होगा। ज़रा अंदाज़ा लगाइए कि लंबे समय में SEO की जगह क्या लेगा

  • मैंने कई content sites चलाई हैं, और पिछले कुछ दिनों में आक्रामक AI bots की वजह से कुछ साइटें बंद कर दीं। लगता है Alexa सबसे खराब है

    • ये 20 साल पहले बनाई गई थीं और समय-समय पर अपडेट होती रही हैं। इनसे traffic मिलता था, लेकिन पिछले 1 साल में यह घटकर 1,000 से कम वैध visitors तक रह गया। अब स्थिति यह है कि robots file को अनदेखा करने वाले आक्रामक bots की वजह से server down emails संभालने पड़ रहे हैं