"वेब टूट चुका है" - अगर आपका डिवाइस किसी और पर हमला करने वाला Botnet बन जाए? AI crawling और छिपा हुआ proxy ecosystem
(jan.wildeboer.net)- कुछ AI कंपनियां डेटा इकट्ठा करने के लिए ऐप्स में 'botnet-करण किए गए P2P proxy SDK' एम्बेड कर रही हैं, जिससे उपयोगकर्ता की जानकारी के बिना उनका डिवाइस उनकी web crawling infrastructure का हिस्सा बन जाता है
- यह SDK उपयोगकर्ता की network bandwidth का एक हिस्सा (120~150kbps) बिना अनुमति 'बेचता' है, जिससे डेवलपर को आय (प्रति उपयोगकर्ता 18 सेंट) मिलती है, और crawling, mail server brute-forcing जैसी असामान्य गतिविधियां की जाती हैं
- यह botnet हजारों-लाखों residential/mobile IP का इस्तेमाल कर detection से बचता है, और प्रति IP प्रतिदिन सिर्फ 1 बार हमला करके fail2ban जैसे security systems को बायपास करता है
- प्रमुख उदाहरणों में Infatica SDK शामिल है, और इसे शामिल करने वाले ऐप डेवलपर असल में उपयोगकर्ताओं को botnet से संक्रमित कर रहे होते हैं
- 'residential proxy' बाजार AI crawling की मांग से तेजी से बढ़ रहा है, और यह व्यवहार में एक unauthorized crawling infrastructure है
- यह botnet संरचना stealth cyber attack का एक नया रूप है, और ऐप डेवलपर इस ecosystem में शामिल हो रहे हैं
- लेखक web crawling को ही 'वेब की बुनियाद पर हमला' मानते हैं, और डेवलपर व platform कंपनियों की जिम्मेदारी तय करने तथा हर तरह की crawling को रोकने की बात करते हैं
Stealthy Botnets, they are here: Botnets Part 1
निजी mail server पर botnet का हमला
- लेखक का mail server लगातार SMTP brute-force attack झेल रहा है
- हमले का उद्देश्य: अकाउंट पर कब्जा करके spam mail भेजना
- ज्यादातर प्रयास विफल होते हैं, लेकिन प्रयास लगातार और बेहद जिद्दी हैं
botnet की असली पहचान: SDK के जरिए डिवाइस संक्रमण
- ऐप डेवलपर को SDK जोड़ने के बदले पैसे दिए जाते हैं
- उदाहरण: प्रति उपयोगकर्ता प्रति माह 18 सेंट
- यह SDK उपयोगकर्ता के traffic का एक हिस्सा (120~150kbps) किराए पर देता है
- इसे "P2P proxy" या "residential proxy" कहकर पेश किया जाता है, जबकि असल में उपयोगकर्ता के डिवाइस को botnet node की तरह इस्तेमाल किया जाता है
हमले का तरीका: detection-evading distributed attack
- दिन में प्रति IP सिर्फ एक login attempt → fail2ban, UFW जैसी automatic detection को बायपास
- लेकिन हजारों-लाखों IP होने के कारण हमला लगातार और distributed तरीके से जारी रहता है
- लेखक का कहना है कि यह तरीका मानक security tools को बेअसर कर देता है
ASN आधारित blocking की अप्रभाविता
- यह देखने के लिए विश्लेषण किया गया कि क्या IP किसी खास telecom provider (ASN) में केंद्रित हैं
- नतीजा: प्रति ASN औसतन 4 से कम attack IP → पूरे ASN को block करना असरदार नहीं
- फिलहाल हर दिन logs का विश्लेषण → नए IP block command ईमेल से भेजना → manual block का तरीका जारी है
response का तरीका और दर्शन
- automation संभव है, लेकिन खुद देखकर response देने से patterns समझ में आते हैं और निगरानी की जागरूकता बनी रहती है
- attacker IP की संख्या: अभी लगभग 50,000 से ज्यादा block किए जा चुके हैं
- ज्यादातर IPv4 हैं, जबकि IPv6 हमले अभी कम दिखते हैं
botnet ecosystem की हकीकत
- "SDK शामिल करो → revenue share पाओ" जैसी एक वैध दिखने वाली distribution structure
- लेकिन व्यवहार में उपयोगकर्ता के traffic का बिना सहमति इस्तेमाल spam, हमले, crawling आदि के लिए होता है
- ऐसे botnet आम antivirus या security systems में detect नहीं होते
निष्कर्ष
- अगर ऐप डेवलपर ऐसे SDK शामिल करते हैं, तो वे असल में botnet बनाने में भागीदारी कर रहे होते हैं
- आम उपयोगकर्ता को पता ही नहीं चल सकता कि ऐसे SDK शामिल हैं, और वे अपने-आप botnet का हिस्सा बन जाते हैं
- लेखक इस समस्या के आधार पर वेब ecosystem के टूटने की चेतावनी देते हैं
"मैं उन कंपनियों पर बिल्कुल भरोसा नहीं करता जो इसे 'normal SDK' कहती हैं। यह botnet है।"
— Jan Wildeboer, फ़रवरी 2025
# Web is Broken: Botnet Part 2
web crawlers की तेज़ बढ़ोतरी, और उसका कारण
- हाल के समय में AI model training के लिए बड़े पैमाने पर data collection की मांग बढ़ी है
- AI कंपनियां चुपचाप पूरे web content को scrape कर रही हैं, जिससे traffic overload पैदा हो रहा है
- आम webmaster और server operators crawlers से परेशान हैं, लेकिन अक्सर उन्हें यह नहीं पता होता कि वे crawlers चला कौन रहा है
botnet का नया रूप: SDK के जरिए उपयोगकर्ता संक्रमण
- कुछ कंपनियां ऐप डेवलपरों को 'SDK जोड़ने के बदले' पैसे देती हैं
- ऐसे SDK वाले ऐप इंस्टॉल करने वाले आम उपयोगकर्ताओं का traffic उनकी जानकारी के बिना AI crawlers के लिए इस्तेमाल होता है
- ऐसे SDK को iOS, Android, MacOS, Windows apps में एम्बेड किया जा सकता है
प्रमुख उदाहरण: Infatica
- वेबसाइट: https://infatica.io
- डेवलपर्स के लिए विवरण पेज पर यह प्रचार किया जाता है कि उपयोगकर्ता के network के जरिए crawling संभव है
- कंपनी लाखों rotating (residential/mobile) IP उपलब्ध कराने का दावा करती है
यह समस्या क्यों है?
- Infatica जैसी कंपनियां कहती हैं कि वे अपने ग्राहकों (जैसे crawling करने वाली AI कंपनियां) द्वारा कौन-से commands चलाए जाते हैं, इसकी निगरानी करती हैं, लेकिन व्यवहार में यह जिम्मेदारी से बचने की संरचना है
- Trend Micro की 2023 रिपोर्ट में भी ऐसे ही मामले दर्ज किए गए थे
- कुछ मामलों में free software में चुपके से SDK डालकर वितरित किया गया, और उपयोगकर्ता की सहमति के बिना इंस्टॉल हुआ
नुकसान: व्यक्तिगत उपयोगकर्ता और छोटे server, दोनों
- ऐप डेवलपर: पैसों के लालच में SDK शामिल करना → व्यवहार में malware distributor बन जाना
- उपयोगकर्ता: मेरा डिवाइस और network web crawling और DDoS के लिए इस्तेमाल होना
- server operator: अनजाने में अत्यधिक requests पाने वाला target बन जाना
- उदाहरण: लेखक की
Forgejoinstance भी ज़्यादा bot traffic के कारण private करनी पड़ी
- उदाहरण: लेखक की
'residential proxy' का आवरण
- उपयोगकर्ता के डिवाइस को relay point की तरह इस्तेमाल करने वाले proxy को "residential IP" कहा जाता है
- Proxy service review site का उदाहरण:
https://proxyway.com/reviews - ऊपर से यह 'वैध infrastructure' जैसा दिखता है, लेकिन असल में यह बिना अनुमति फैलाए गए proxy नेटवर्क की संरचना है
निष्कर्ष: web crawling अब दुरुपयोग के स्तर पर पहुंच चुका है
- लेखक का तर्क है कि हर तरह की web crawling को malicious activity माना जाना चाहिए
- उनके अनुसार web crawlers वेब की नींव पर हमला कर रहे हैं
- AI इस संरचना का मुख्य चालक है, और इसे 'वैध' कहे जाने पर वे कड़ा विरोध जताते हैं
सुझाव और चिंताएं
- ऐसे SDK शामिल करने वाले ऐप डेवलपरों को जवाबदेह ठहराया जाना चाहिए
- Apple, Google, Microsoft जैसी platform कंपनियों को इस बाजार पर कार्रवाई करनी चाहिए
- आम उपयोगकर्ताओं के लिए इसे पहचानना या रोकना लगभग असंभव है
- web operators तकनीकी रूप से crawlers को रोकने की कोशिश करते हैं, लेकिन उसकी सीमाएं हैं
“AI की वजह से web अब एक भरोसेमंद जगह नहीं रह गया है। धन्यवाद, AI।”
– Jan Wildeboer, अप्रैल 2025
1 टिप्पणियां
Hacker News राय
राजस्व के लिए app developers द्वारा 3rd party SDK शामिल करना समस्या का एक हिस्सा है, और मेरा मानना है कि उन्हें उपयोगकर्ताओं तक malware पहुँचाने की ज़िम्मेदारी लेनी चाहिए
iOS, Android, MacOS, Windows पर app developers को libraries शामिल करवाकर उपयोगकर्ताओं की network bandwidth बेचने का एक बाज़ार मौजूद है
web की समस्या यह है कि data को पढ़ने योग्य बनाए रखने के लिए किसी खास system administrator को server बनाए रखना पड़ता है
network-sharing software को unwanted application के रूप में वर्गीकृत किया जाना चाहिए
malware शामिल करने वाले apps को तुरंत quarantine कर देना चाहिए
web scraping को abuse माना जाना चाहिए और web servers को इसे block करना चाहिए
सोच रहा हूँ कि क्या किसी ने ऐसे software की सूची compile की है जो इन libraries का उपयोग करते हैं
residential IP proxies की एक कमजोरी है कि IP addresses अक्सर बदलते रहते हैं
अभी तक कोई स्पष्ट प्रमाण नहीं है, लेकिन इस तरह के व्यवहार का आसानी से पता लगाया जा सकता है
सोच रहा हूँ कि क्या c&c servers की कोई सूची है जिसे Pihole आदि में जोड़ा जा सके