1 पॉइंट द्वारा GN⁺ 2026-01-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • LWN.net पर बड़े पैमाने के scraping-आधारित DDoS हमले हो रहे हैं, जो दसियों हज़ार पतों से आ रहे हैं, और साइट की response speed धीमी हो गई है
  • Jonathan Corbet ने कहा कि उन्हें साइट को AI-संबंधित scrapers से बचाना पड़ रहा है; वे पाठकों की पहुंच में बाधा नहीं डालना चाहते, लेकिन इसकी ज़रूरत पड़ सकती है
  • कम्युनिटी में यह संभावना उठाई गई कि Bright Data जैसी commercial data collection कंपनियां हमले के पीछे हो सकती हैं, और कई users ने ऐसे ही traffic spike की रिपोर्ट की
  • कुछ लोग RSS subscription, static site generation, LLM tarpit जैसी विधियों से निपट रहे हैं, और Azure·Google·AliCloud जैसे बड़े cloud IPs से हमले आने के उदाहरण भी साझा किए गए
  • इस घटना को AI data collection से web ecosystem की स्थिरता और creators की sustainability को होने वाले नुकसान को दिखाने वाले उदाहरण के रूप में देखा जा रहा है

LWN.net पर बड़े पैमाने का scraper हमला

  • Jonathan Corbet ने बताया कि LWN.net इस समय अब तक का सबसे गंभीर scraper हमला झेल रहा है

    • हमला दसियों हज़ार IP addresses का इस्तेमाल करने वाले DDoS के रूप में हो रहा है, जिससे साइट की responsiveness घट गई है
    • उन्होंने कहा, “AI-संबंधित scrapers से LWN की रक्षा करना वह काम नहीं है जो मैं करना चाहता हूं,” और यह भी जोड़ा कि वे पाठकों की पहुंच पर रुकावट नहीं लगाना चाहते, लेकिन ऐसा करना पड़ सकता है
  • Corbet ने कहा कि वे हमले के जिम्मेदार पक्ष की पहचान नहीं कर सकते, लेकिन Bright Data या इसी तरह के competitors की संलिप्तता की संभावना का ज़िक्र किया

    • कभी-कभी CPU load बहुत गंभीर हो जाता है; server scaling संभव है, लेकिन उन्होंने कहा कि “मेहनत से लिखे गए लेखों को ऐसे लोगों को खिलाने के लिए पैसे देना बेहद खीझ पैदा करने वाला है”

कम्युनिटी की प्रतिक्रिया और सुझाव

  • Tristan Colgate-McFarlane ने कहा कि search engines चोरी किए गए content को प्राथमिकता से दिखाकर मूल रचनाकारों का traffic और ad revenue छीन रहे हैं
  • कई users ने AI scraper traffic में तेज़ उछाल देखने की बात कही
    • Light Owl ने कहा कि उनकी साइट का traffic सामान्य से 20 गुना बढ़ गया
    • Ben Tasker ने बताया कि वे LLM tarpit robot trap के ज़रिए कुछ requests को रोक रहे हैं
  • कुछ लोगों ने बताया कि हमले Azure, Google, AliCloud जैसे बड़े cloud IPs से आए
    • Dec, mx alex tax1a, David Gerard आदि ने अपने-अपने MSFT·Google·Ali IP ranges block करने के उदाहरण साझा किए

जवाबी उपायों पर चर्चा

  • Riku Voipio ने subscriber-only server (subscriber.lwn.net) इस्तेमाल करने का सुझाव दिया, लेकिन Corbet ने जवाब दिया कि इससे नए subscribers लाना मुश्किल हो सकता है
  • Jani Nikula ने registered users only access का सुझाव दिया, लेकिन Corbet ने कहा कि bots पहले से accounts बना रहे हैं, इसलिए यह बहुत प्रभावी नहीं होगा
  • trademark ने content sharding के ज़रिए cache efficiency बढ़ाने का सुझाव दिया, लेकिन Corbet ने कहा कि cache समस्या नहीं है

अन्य साइट ऑपरेटरों के अनुभव

  • कई operators ने मिलते-जुलते attack patterns देखने की बात कही
    • Dec ने कहा कि PHP vulnerability scans और wp-admin login attempts MSFT IPs से आए
    • David Gerard ने बताया कि RationalWiki पर वे JavaScript-आधारित cookie verification से निपट रहे हैं, लेकिन इसका दुष्प्रभाव यह है कि Googlebot भी block हो जाता है
    • Catherine (whitequark) ने कहा कि वे सिर्फ 404 responses को संभालकर ही server load कम कर रहे हैं

कम्युनिटी के भीतर धारणा

  • कुछ लोगों ने कहा कि “web सचमुच टूटता जा रहा है,” और AI scraping web ecosystem के पतन को तेज़ कर रही है
  • Ayush Agarwal ने कहा कि kernel community को भी यह समझना चाहिए कि LLM का इस्तेमाल छोटे sites को नुकसान पहुंचा रहा है
  • Martin Roukala ने तंज में कहा कि “यह बहुत अधिक प्रासंगिक होने की वजह से हुई समस्या है,” लेकिन Jani Nikula ने जवाब दिया, “scrapers को ऐसी बातों से कोई फर्क नहीं पड़ता”

1 टिप्पणियां

 
GN⁺ 2026-01-19
Hacker News की राय
  • सोचता हूँ कि ऐसे आक्रामक scrapers आखिर चला कौन रहा है
    अगर वे AI लैब्स हैं, तो डेटा इकट्ठा करने के लिए एक साथ बहुत-सी साइटें scrape करना उनके लिए efficient हो सकता है, लेकिन reputation risk उठाकर लोकप्रिय साइटों को overload करने की वजह समझ नहीं आती

    • ऐसे मामलों में अक्सर तकनीकी क्षमता या संवेदनशीलता की कमी दिखती है
      शायद AI ने खुद scraper बनाया, उसे बस थोड़ा-बहुत test किया गया और तुरंत deploy कर दिया गया
      ऊपर से ये लोग ‘residential IP provider’ के ज़रिए अपनी पहचान छिपाते हैं, इसलिए reputation risk भी नहीं होता
      चाहे OpenAI या Anthropic जैसी बड़ी कंपनियाँ ही क्यों न हों, लगता है लोग बस इसे नज़रअंदाज़ कर देंगे
    • शुरुआत में OpenAI या Anthropic जैसी अमेरिकी बड़ी कंपनियों पर शक किया गया था, लेकिन असल में अब व्यक्तिगत AI agents के वेबपेज scrape करने के मामले बढ़ते जा रहे हैं
      Claude Cowork जैसे tools से यूज़र खुद crawler बना सकते हैं, इसलिए मैंने भी NASA साइट scrape करते हुए 404 pages पर बमबारी कर दी थी और कुछ समय के लिए block हो गया था
      आखिरकार ‘अच्छी मंशा’ वाले यूज़र भी web traffic patterns बदल रहे हैं
      इससे जुड़े आँकड़े Cloudflare AI Insights में देखे जा सकते हैं
    • मेरी निजी साइट भी कभी-कभी scrapers की वजह से ठप हो जाती है
      OpenAI के GPTBot को छोड़कर ज़्यादातर छोटी कंपनियाँ थीं जिनके बारे में मैंने पहले कभी नहीं सुना था, और कुछ ने तो User-Agent भी छिपाया हुआ था
      डेटा पहले से Common Crawl में है, फिर भी इसे scrape करने की ज़रूरत क्यों पड़ती है, समझ नहीं आता
    • शायद किसी ने Claude Code से कहा होगा, “LWN का पूरा archive बना दो”
    • LWN में कई mailing list archives शामिल हैं, इसलिए वजह वही भी हो सकती है
  • AI का open source code को ऐसे दोबारा बेचना जैसे वह उसी ने लिखा हो, यानी license bypass करना, एक बड़ी समस्या है
    सिर्फ code ही नहीं, दूसरे content के साथ भी यही हो रहा है

    • मैंने पुराने DOS games से जुड़ा एक project किया था, और Claude ने मेरा code लगभग ज्यों का त्यों scrape करके दूसरे license के तहत पुनरुत्पादित कर दिया
      बस variable names थोड़ा बदल दिए गए थे, structure वही था
      अगर किसी कंपनी में कोई इंसान ऐसा करता, तो तुरंत निकाल दिया जाता
      लेकिन AI ऐसा करे तो उसे “fair use” कहकर नैतिक वैधता देने की कोशिश अजीब लगती है
    • आखिरकार यह बौद्धिक संपदा की धुलाई money laundering के नए version जैसी बनती जा रही है
    • हालांकि AI के ऐसा करने को कानूनी रूप से कभी सही नहीं ठहराया गया है, यह सिर्फ AI इंडस्ट्री का दावा है
  • यह scraping सिर्फ AI training के लिए data collection ही हो, ज़रूरी नहीं
    FOSS साइटों पर लगातार हमले हो रहे हैं, और आर्थिक तर्क मेल नहीं खाता
    हो सकता है कि इसके पीछे tech industry या open source community को बाधित करने की मंशा हो

    • niche game modding communities पर भी यही हमला हुआ है
      non-profit projects होने के बावजूद DDoS-स्तर का traffic आया, और अंत में उन्हें login wall लगानी पड़ी
    • शायद data scientists अक्सर इस बात की परवाह ही नहीं करते कि AI से बने scrapers किसी साइट को कितनी बार hit कर रहे हैं
    • जिन कुछ forums पर मैं नज़र रखता था, वे भी आखिरकार login के बिना पढ़े नहीं जा सकते
    • मैं भी एक छोटा browser game wiki चलाता हूँ, और Claude व OpenAI सहित अनगिनत bots उसे आक्रामक तरीके से scrape करते हैं
      ज़्यादातर residential IPs इस्तेमाल कर रहे थे, और लगता है समस्या की जड़ वे लोग हैं जो सोचते हैं कि “इंटरनेट पर जो कुछ है, वह सब मेरा है”
    • स्थानीय hobby communities होने पर थोड़ी आक्रामक blocking करना संभव है, यह राहत की बात है
  • मेरा ब्लॉग इतना नीरस है कि scraping की समस्या नहीं झेलता

    • लेकिन उसी ब्लॉग की वजह से मुझे पहली बार Git Brag के बारे में पता चला। काफ़ी दिलचस्प है
    • अगर आप किसी LLM को बोर कर सकते हैं, तो वह भी अपने-आप में बड़ी उपलब्धि है
  • “हज़ारों-हज़ार addresses शामिल DDoS attack” वाली बात की तरह, हमला बेहद distributed है
    छोटी साइटों पर भी हज़ारों IPs से traffic आता है

    • ऐसे हमले ज़्यादातर residential proxy services के ज़रिए किए जाते हैं
      BrightData इसका एक प्रमुख उदाहरण है, और यह datacenter IPs से महँगा होते हुए भी block करना कठिन है
    • git.ardour.org पर भी 10 लाख से ज़्यादा IPs से बेकार git scraping हुआ है
    • सबसे उदार व्याख्या यह है कि AI कंपनियाँ CommonCrawl जैसे वैकल्पिक resources को जानती ही नहीं और सीधे scrape कर रही हैं,
      जबकि सबसे बुरी व्याख्या यह है कि यह बस असामाजिक developers के बिना सोचे-समझे बनाए bots हैं
    • मैं ऐसे हमलों को “Distributed Intelligence Logic Denial Of Service (DILDOS)” कहना चाहूँगा
  • Residential proxy को वस्तुतः malware माना जाना चाहिए
    इसे antivirus definitions में जोड़ा जाना चाहिए और app stores से भी हटाया जाना चाहिए

  • जिज्ञासा है कि क्या यह सचमुच AI training scraping है
    अगर यह सामान्य DDoS से अलग न दिखे, तो पक्का कैसे कहा जा सकता है?

    • लेकिन LWN लगभग 30 साल से चल रहा है, और AI crawling से पहले कभी DDoS नहीं हुआ था
  • लगता है अभी हमला रुक गया है
    main page भी सामान्य रूप से load हो रहा है

  • मैं blog scrapers को रोकने के लिए JavaScript methods को overwrite करके page content खाली कर देता हूँ
    अगर elements को Shadow DOM में छिपाया जाए तो इसे और मुश्किल बनाया जा सकता है
    हालांकि इससे Playwright या Selenium जैसे testing tools और search engine indexing में दिक्कत आती है

    • लेकिन यह तरीका वास्तव में असरदार रहा या नहीं, इस पर पक्का नहीं कह सकता
    • functions को garbage data generate करने के लिए बनाकर bots को भ्रमित करना भी एक मज़ेदार idea है
  • कुछ लोग दावा करते हैं कि “AI कंपनियाँ प्रतिस्पर्धी साइटों को DDoS से ठप करके data monopoly बनाना चाहती हैं”

    • लेकिन यह षड्यंत्र सिद्धांत जैसा लगता है
    • यह किसी तरह की ‘सीढ़ी खींच लेने’ वाली strategy भी हो सकती है
    • लेकिन LWN तो पहले से एक पुरानी newsletter साइट है, इसलिए वहाँ कीमती data लगभग है ही नहीं
      ऐसी साइट को scrape करके AI को कुछ खास हासिल नहीं होगा, और यह उल्टा हद से ज़्यादा शंकालु सोच जैसा लगता है