LWN अब तक के सबसे गंभीर scraper हमले का सामना कर रहा है
(social.kernel.org)- LWN.net पर बड़े पैमाने के scraping-आधारित DDoS हमले हो रहे हैं, जो दसियों हज़ार पतों से आ रहे हैं, और साइट की response speed धीमी हो गई है
- Jonathan Corbet ने कहा कि उन्हें साइट को AI-संबंधित scrapers से बचाना पड़ रहा है; वे पाठकों की पहुंच में बाधा नहीं डालना चाहते, लेकिन इसकी ज़रूरत पड़ सकती है
- कम्युनिटी में यह संभावना उठाई गई कि Bright Data जैसी commercial data collection कंपनियां हमले के पीछे हो सकती हैं, और कई users ने ऐसे ही traffic spike की रिपोर्ट की
- कुछ लोग RSS subscription, static site generation, LLM tarpit जैसी विधियों से निपट रहे हैं, और Azure·Google·AliCloud जैसे बड़े cloud IPs से हमले आने के उदाहरण भी साझा किए गए
- इस घटना को AI data collection से web ecosystem की स्थिरता और creators की sustainability को होने वाले नुकसान को दिखाने वाले उदाहरण के रूप में देखा जा रहा है
LWN.net पर बड़े पैमाने का scraper हमला
-
Jonathan Corbet ने बताया कि LWN.net इस समय अब तक का सबसे गंभीर scraper हमला झेल रहा है
- हमला दसियों हज़ार IP addresses का इस्तेमाल करने वाले DDoS के रूप में हो रहा है, जिससे साइट की responsiveness घट गई है
- उन्होंने कहा, “AI-संबंधित scrapers से LWN की रक्षा करना वह काम नहीं है जो मैं करना चाहता हूं,” और यह भी जोड़ा कि वे पाठकों की पहुंच पर रुकावट नहीं लगाना चाहते, लेकिन ऐसा करना पड़ सकता है
-
Corbet ने कहा कि वे हमले के जिम्मेदार पक्ष की पहचान नहीं कर सकते, लेकिन Bright Data या इसी तरह के competitors की संलिप्तता की संभावना का ज़िक्र किया
- कभी-कभी CPU load बहुत गंभीर हो जाता है; server scaling संभव है, लेकिन उन्होंने कहा कि “मेहनत से लिखे गए लेखों को ऐसे लोगों को खिलाने के लिए पैसे देना बेहद खीझ पैदा करने वाला है”
कम्युनिटी की प्रतिक्रिया और सुझाव
- Tristan Colgate-McFarlane ने कहा कि search engines चोरी किए गए content को प्राथमिकता से दिखाकर मूल रचनाकारों का traffic और ad revenue छीन रहे हैं
- कई users ने AI scraper traffic में तेज़ उछाल देखने की बात कही
- Light Owl ने कहा कि उनकी साइट का traffic सामान्य से 20 गुना बढ़ गया
- Ben Tasker ने बताया कि वे LLM tarpit robot trap के ज़रिए कुछ requests को रोक रहे हैं
- कुछ लोगों ने बताया कि हमले Azure, Google, AliCloud जैसे बड़े cloud IPs से आए
- Dec, mx alex tax1a, David Gerard आदि ने अपने-अपने MSFT·Google·Ali IP ranges block करने के उदाहरण साझा किए
जवाबी उपायों पर चर्चा
- Riku Voipio ने subscriber-only server (subscriber.lwn.net) इस्तेमाल करने का सुझाव दिया, लेकिन Corbet ने जवाब दिया कि इससे नए subscribers लाना मुश्किल हो सकता है
- Jani Nikula ने registered users only access का सुझाव दिया, लेकिन Corbet ने कहा कि bots पहले से accounts बना रहे हैं, इसलिए यह बहुत प्रभावी नहीं होगा
- trademark ने content sharding के ज़रिए cache efficiency बढ़ाने का सुझाव दिया, लेकिन Corbet ने कहा कि cache समस्या नहीं है
अन्य साइट ऑपरेटरों के अनुभव
- कई operators ने मिलते-जुलते attack patterns देखने की बात कही
- Dec ने कहा कि PHP vulnerability scans और wp-admin login attempts MSFT IPs से आए
- David Gerard ने बताया कि RationalWiki पर वे JavaScript-आधारित cookie verification से निपट रहे हैं, लेकिन इसका दुष्प्रभाव यह है कि Googlebot भी block हो जाता है
- Catherine (whitequark) ने कहा कि वे सिर्फ 404 responses को संभालकर ही server load कम कर रहे हैं
कम्युनिटी के भीतर धारणा
- कुछ लोगों ने कहा कि “web सचमुच टूटता जा रहा है,” और AI scraping web ecosystem के पतन को तेज़ कर रही है
- Ayush Agarwal ने कहा कि kernel community को भी यह समझना चाहिए कि LLM का इस्तेमाल छोटे sites को नुकसान पहुंचा रहा है
- Martin Roukala ने तंज में कहा कि “यह बहुत अधिक प्रासंगिक होने की वजह से हुई समस्या है,” लेकिन Jani Nikula ने जवाब दिया, “scrapers को ऐसी बातों से कोई फर्क नहीं पड़ता”
अभी कोई टिप्पणी नहीं है.