LWN अब तक के सबसे गंभीर scraper हमले का सामना कर रहा है
(social.kernel.org)- LWN.net पर बड़े पैमाने के scraping-आधारित DDoS हमले हो रहे हैं, जो दसियों हज़ार पतों से आ रहे हैं, और साइट की response speed धीमी हो गई है
- Jonathan Corbet ने कहा कि उन्हें साइट को AI-संबंधित scrapers से बचाना पड़ रहा है; वे पाठकों की पहुंच में बाधा नहीं डालना चाहते, लेकिन इसकी ज़रूरत पड़ सकती है
- कम्युनिटी में यह संभावना उठाई गई कि Bright Data जैसी commercial data collection कंपनियां हमले के पीछे हो सकती हैं, और कई users ने ऐसे ही traffic spike की रिपोर्ट की
- कुछ लोग RSS subscription, static site generation, LLM tarpit जैसी विधियों से निपट रहे हैं, और Azure·Google·AliCloud जैसे बड़े cloud IPs से हमले आने के उदाहरण भी साझा किए गए
- इस घटना को AI data collection से web ecosystem की स्थिरता और creators की sustainability को होने वाले नुकसान को दिखाने वाले उदाहरण के रूप में देखा जा रहा है
LWN.net पर बड़े पैमाने का scraper हमला
-
Jonathan Corbet ने बताया कि LWN.net इस समय अब तक का सबसे गंभीर scraper हमला झेल रहा है
- हमला दसियों हज़ार IP addresses का इस्तेमाल करने वाले DDoS के रूप में हो रहा है, जिससे साइट की responsiveness घट गई है
- उन्होंने कहा, “AI-संबंधित scrapers से LWN की रक्षा करना वह काम नहीं है जो मैं करना चाहता हूं,” और यह भी जोड़ा कि वे पाठकों की पहुंच पर रुकावट नहीं लगाना चाहते, लेकिन ऐसा करना पड़ सकता है
-
Corbet ने कहा कि वे हमले के जिम्मेदार पक्ष की पहचान नहीं कर सकते, लेकिन Bright Data या इसी तरह के competitors की संलिप्तता की संभावना का ज़िक्र किया
- कभी-कभी CPU load बहुत गंभीर हो जाता है; server scaling संभव है, लेकिन उन्होंने कहा कि “मेहनत से लिखे गए लेखों को ऐसे लोगों को खिलाने के लिए पैसे देना बेहद खीझ पैदा करने वाला है”
कम्युनिटी की प्रतिक्रिया और सुझाव
- Tristan Colgate-McFarlane ने कहा कि search engines चोरी किए गए content को प्राथमिकता से दिखाकर मूल रचनाकारों का traffic और ad revenue छीन रहे हैं
- कई users ने AI scraper traffic में तेज़ उछाल देखने की बात कही
- Light Owl ने कहा कि उनकी साइट का traffic सामान्य से 20 गुना बढ़ गया
- Ben Tasker ने बताया कि वे LLM tarpit robot trap के ज़रिए कुछ requests को रोक रहे हैं
- कुछ लोगों ने बताया कि हमले Azure, Google, AliCloud जैसे बड़े cloud IPs से आए
- Dec, mx alex tax1a, David Gerard आदि ने अपने-अपने MSFT·Google·Ali IP ranges block करने के उदाहरण साझा किए
जवाबी उपायों पर चर्चा
- Riku Voipio ने subscriber-only server (subscriber.lwn.net) इस्तेमाल करने का सुझाव दिया, लेकिन Corbet ने जवाब दिया कि इससे नए subscribers लाना मुश्किल हो सकता है
- Jani Nikula ने registered users only access का सुझाव दिया, लेकिन Corbet ने कहा कि bots पहले से accounts बना रहे हैं, इसलिए यह बहुत प्रभावी नहीं होगा
- trademark ने content sharding के ज़रिए cache efficiency बढ़ाने का सुझाव दिया, लेकिन Corbet ने कहा कि cache समस्या नहीं है
अन्य साइट ऑपरेटरों के अनुभव
- कई operators ने मिलते-जुलते attack patterns देखने की बात कही
- Dec ने कहा कि PHP vulnerability scans और wp-admin login attempts MSFT IPs से आए
- David Gerard ने बताया कि RationalWiki पर वे JavaScript-आधारित cookie verification से निपट रहे हैं, लेकिन इसका दुष्प्रभाव यह है कि Googlebot भी block हो जाता है
- Catherine (whitequark) ने कहा कि वे सिर्फ 404 responses को संभालकर ही server load कम कर रहे हैं
कम्युनिटी के भीतर धारणा
- कुछ लोगों ने कहा कि “web सचमुच टूटता जा रहा है,” और AI scraping web ecosystem के पतन को तेज़ कर रही है
- Ayush Agarwal ने कहा कि kernel community को भी यह समझना चाहिए कि LLM का इस्तेमाल छोटे sites को नुकसान पहुंचा रहा है
- Martin Roukala ने तंज में कहा कि “यह बहुत अधिक प्रासंगिक होने की वजह से हुई समस्या है,” लेकिन Jani Nikula ने जवाब दिया, “scrapers को ऐसी बातों से कोई फर्क नहीं पड़ता”
1 टिप्पणियां
Hacker News की राय
सोचता हूँ कि ऐसे आक्रामक scrapers आखिर चला कौन रहा है
अगर वे AI लैब्स हैं, तो डेटा इकट्ठा करने के लिए एक साथ बहुत-सी साइटें scrape करना उनके लिए efficient हो सकता है, लेकिन reputation risk उठाकर लोकप्रिय साइटों को overload करने की वजह समझ नहीं आती
शायद AI ने खुद scraper बनाया, उसे बस थोड़ा-बहुत test किया गया और तुरंत deploy कर दिया गया
ऊपर से ये लोग ‘residential IP provider’ के ज़रिए अपनी पहचान छिपाते हैं, इसलिए reputation risk भी नहीं होता
चाहे OpenAI या Anthropic जैसी बड़ी कंपनियाँ ही क्यों न हों, लगता है लोग बस इसे नज़रअंदाज़ कर देंगे
Claude Cowork जैसे tools से यूज़र खुद crawler बना सकते हैं, इसलिए मैंने भी NASA साइट scrape करते हुए 404 pages पर बमबारी कर दी थी और कुछ समय के लिए block हो गया था
आखिरकार ‘अच्छी मंशा’ वाले यूज़र भी web traffic patterns बदल रहे हैं
इससे जुड़े आँकड़े Cloudflare AI Insights में देखे जा सकते हैं
OpenAI के GPTBot को छोड़कर ज़्यादातर छोटी कंपनियाँ थीं जिनके बारे में मैंने पहले कभी नहीं सुना था, और कुछ ने तो User-Agent भी छिपाया हुआ था
डेटा पहले से Common Crawl में है, फिर भी इसे scrape करने की ज़रूरत क्यों पड़ती है, समझ नहीं आता
AI का open source code को ऐसे दोबारा बेचना जैसे वह उसी ने लिखा हो, यानी license bypass करना, एक बड़ी समस्या है
सिर्फ code ही नहीं, दूसरे content के साथ भी यही हो रहा है
बस variable names थोड़ा बदल दिए गए थे, structure वही था
अगर किसी कंपनी में कोई इंसान ऐसा करता, तो तुरंत निकाल दिया जाता
लेकिन AI ऐसा करे तो उसे “fair use” कहकर नैतिक वैधता देने की कोशिश अजीब लगती है
यह scraping सिर्फ AI training के लिए data collection ही हो, ज़रूरी नहीं
FOSS साइटों पर लगातार हमले हो रहे हैं, और आर्थिक तर्क मेल नहीं खाता
हो सकता है कि इसके पीछे tech industry या open source community को बाधित करने की मंशा हो
non-profit projects होने के बावजूद DDoS-स्तर का traffic आया, और अंत में उन्हें login wall लगानी पड़ी
ज़्यादातर residential IPs इस्तेमाल कर रहे थे, और लगता है समस्या की जड़ वे लोग हैं जो सोचते हैं कि “इंटरनेट पर जो कुछ है, वह सब मेरा है”
मेरा ब्लॉग इतना नीरस है कि scraping की समस्या नहीं झेलता
“हज़ारों-हज़ार addresses शामिल DDoS attack” वाली बात की तरह, हमला बेहद distributed है
छोटी साइटों पर भी हज़ारों IPs से traffic आता है
BrightData इसका एक प्रमुख उदाहरण है, और यह datacenter IPs से महँगा होते हुए भी block करना कठिन है
जबकि सबसे बुरी व्याख्या यह है कि यह बस असामाजिक developers के बिना सोचे-समझे बनाए bots हैं
Residential proxy को वस्तुतः malware माना जाना चाहिए
इसे antivirus definitions में जोड़ा जाना चाहिए और app stores से भी हटाया जाना चाहिए
जिज्ञासा है कि क्या यह सचमुच AI training scraping है
अगर यह सामान्य DDoS से अलग न दिखे, तो पक्का कैसे कहा जा सकता है?
लगता है अभी हमला रुक गया है
main page भी सामान्य रूप से load हो रहा है
मैं blog scrapers को रोकने के लिए JavaScript methods को overwrite करके page content खाली कर देता हूँ
अगर elements को Shadow DOM में छिपाया जाए तो इसे और मुश्किल बनाया जा सकता है
हालांकि इससे Playwright या Selenium जैसे testing tools और search engine indexing में दिक्कत आती है
कुछ लोग दावा करते हैं कि “AI कंपनियाँ प्रतिस्पर्धी साइटों को DDoS से ठप करके data monopoly बनाना चाहती हैं”
ऐसी साइट को scrape करके AI को कुछ खास हासिल नहीं होगा, और यह उल्टा हद से ज़्यादा शंकालु सोच जैसा लगता है