5 पॉइंट द्वारा GN⁺ 2025-01-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • यह web crawler को पकड़ने के लिए बनाया गया software है, खासकर उन crawler के लिए जो बड़े language model (LLM) के डेटा को scrape करते हैं.
    • यह पेजों की एक अनंत श्रृंखला बनाता है ताकि crawler उससे बाहर न निकल सकें.
    • crawler सर्वर पर अधिक लोड न डालें, इसके लिए जानबूझकर delay जोड़ा जाता है, और Markov-babble का उपयोग करके crawler को डेटा इकट्ठा करने के लिए उकसाया जा सकता है.
    • यह software दुर्भावनापूर्ण उद्देश्य से डिज़ाइन किया गया है, इसलिए उपयोग करते समय सावधानी ज़रूरी है.
  • चेतावनी
    • LLM crawler बहुत ज़िद्दी होते हैं, और इस software का उपयोग करने पर crawler को वही डेटा लगातार मिलता रहेगा जो वह चाहता है.
    • search engine के लिए crawler और AI model को train करने वाले crawler में फर्क करने का कोई तरीका नहीं है, और इस software का उपयोग करने पर साइट के search result से गायब होने की संभावना काफ़ी अधिक है.
  • उपयोग का तरीका
    • tarpit को Nginx या Apache के पीछे छिपाने की सलाह दी जाती है.
    • HTTP header का उपयोग करके tarpit को configure किया जाता है, और उदाहरण के तौर पर nginx configuration snippet दिया गया है.
  • इंस्टॉलेशन
    • Docker का उपयोग किया जा सकता है या मैन्युअली install किया जा सकता है.
    • Lua, SQLite, OpenSSL और कई Lua module की ज़रूरत होती है.
    • install के बाद config.yml फ़ाइल को समायोजित करके शुरू किया जा सकता है.
  • Markov Babbler bootstrap
    • Markov feature के लिए trained corpus की ज़रूरत होती है, और इसे कई तरह के text source से train किया जा सकता है.
    • training data को POST endpoint पर भेजकर जोड़ा जा सकता है.
  • सांख्यिकी
    • यह JSON फ़ॉर्मेट में कई statistics endpoint देता है, और IP address तथा user-agent string देखी जा सकती है.
  • Nepenthes का रक्षात्मक उपयोग
    • साइट से Nepenthes location की ओर लिंक देकर crawler को असली content तक पहुँचने से रोका जा सकता है.
    • इकट्ठा की गई IP address सूची का उपयोग करके crawler को block किया जा सकता है.
  • Nepenthes का आक्रामक उपयोग
    • crawler को block किए बिना उन्हें अधिकतम डेटा देकर AI model को बाधित किया जा सकता है.
  • configuration फ़ाइल
    • config.yaml फ़ाइल में संभव सभी directive की व्याख्या की गई है.
    • अलग-अलग setting के ज़रिए Nepenthes के व्यवहार को समायोजित किया जा सकता है.

1 टिप्पणियां

 
GN⁺ 2025-01-17
Hacker News राय
  • ChatGPT crawler की reflective DDOS vulnerability को टेस्ट करने के तरीके पर राय दी गई है। इस vulnerability में एक single HTTP request, 5000 HTTP requests ट्रिगर कर सकती है

    • OpenAI और Microsoft ने इस vulnerability को नज़रअंदाज़ किया, और इसे report करने की प्रक्रिया बहुत कठिन थी
    • कानूनी कारणों से इस vulnerability का दुरुपयोग न करने की सलाह दी गई है
  • पहले bot motel चलाने का अनुभव साझा किया गया है, और ऐसे मामलों का ज़िक्र है जहाँ crawlers कई दिनों तक फँसे रहे

    • security को अक्सर बाद में सोचा जाता है, और crawlers के खिलाफ लड़ाई कभी खत्म न होने वाली प्रतिस्पर्धा है
  • एक non-profit वेबसाइट का अनुभव साझा किया गया है, जो Amazon bot की aggressive crawling की वजह से अस्थायी रूप से बंद हो गई थी

    • Siteground ने साइट को restore किया, और उसके बाद robots.txt में Amazon bot को जोड़ा गया
    • मौजूदा स्थिति पर नाराज़गी जताई गई है, और सवाल उठाया गया है कि क्या tarpits या कानून इसका समाधान हो सकते हैं
  • राय है कि tarpits crawling को धीमा कर सकते हैं, लेकिन जब तक बहुत सारी साइटें उनका इस्तेमाल न करें, इसका बड़ा असर नहीं होगा

    • खराब bots की पहचान करना मुश्किल है और search results से बाहर किए जाने का जोखिम है
  • राय है कि random Markov chain आधारित text generator, LLM training crawlers के लिए बड़ी समस्या नहीं होगा

    • random pollution की तुलना में बार-बार दोहराया गया बेतुका text इस्तेमाल करना ज़्यादा प्रभावी हो सकता है
  • राय है कि अभी 502 Bad Gateway error आ रहा है, और यह पता नहीं कि इसे AI web crawler के रूप में classify किया गया है या सिर्फ overload है

  • राय है कि जब तक यह concept mainstream नहीं होता, इसे filter करना आसान है

    • बड़ी कंपनियाँ ऐसे software को रोकने के लिए टीमें बना सकती हैं
  • इंटरनेट पर पहले से ही "infinite" वेबसाइटें मौजूद हैं, और crawlers आमतौर पर हर domain के लिए crawl किए जाने वाले pages की संख्या तय रखते हैं

    • लोकप्रिय साइटों को बहुत ज़्यादा crawling मिलती है, जबकि कम जानी-पहचानी साइटों को कम crawling मिलती है
  • एक simple approach के तौर पर हर गलत HTTP request के जवाब में 100 गलत HTTP requests भेजने के तरीके पर विचार किया जा रहा है

  • राय है कि इस software को लागू करने वाली साइटें संभवतः सभी search results से गायब हो जाएँगी

    • यह bug भी हो सकता है, और feature भी