8 पॉइंट द्वारा GN⁺ 2025-04-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • कुछ AI कंपनियां डेटा इकट्ठा करने के लिए ऐप्स में 'botnet-करण किए गए P2P proxy SDK' एम्बेड कर रही हैं, जिससे उपयोगकर्ता की जानकारी के बिना उनका डिवाइस उनकी web crawling infrastructure का हिस्सा बन जाता है
  • यह SDK उपयोगकर्ता की network bandwidth का एक हिस्सा (120~150kbps) बिना अनुमति 'बेचता' है, जिससे डेवलपर को आय (प्रति उपयोगकर्ता 18 सेंट) मिलती है, और crawling, mail server brute-forcing जैसी असामान्य गतिविधियां की जाती हैं
  • यह botnet हजारों-लाखों residential/mobile IP का इस्तेमाल कर detection से बचता है, और प्रति IP प्रतिदिन सिर्फ 1 बार हमला करके fail2ban जैसे security systems को बायपास करता है
  • प्रमुख उदाहरणों में Infatica SDK शामिल है, और इसे शामिल करने वाले ऐप डेवलपर असल में उपयोगकर्ताओं को botnet से संक्रमित कर रहे होते हैं
  • 'residential proxy' बाजार AI crawling की मांग से तेजी से बढ़ रहा है, और यह व्यवहार में एक unauthorized crawling infrastructure है
  • यह botnet संरचना stealth cyber attack का एक नया रूप है, और ऐप डेवलपर इस ecosystem में शामिल हो रहे हैं
  • लेखक web crawling को ही 'वेब की बुनियाद पर हमला' मानते हैं, और डेवलपर व platform कंपनियों की जिम्मेदारी तय करने तथा हर तरह की crawling को रोकने की बात करते हैं

Stealthy Botnets, they are here: Botnets Part 1

निजी mail server पर botnet का हमला

  • लेखक का mail server लगातार SMTP brute-force attack झेल रहा है
  • हमले का उद्देश्य: अकाउंट पर कब्जा करके spam mail भेजना
  • ज्यादातर प्रयास विफल होते हैं, लेकिन प्रयास लगातार और बेहद जिद्दी हैं

botnet की असली पहचान: SDK के जरिए डिवाइस संक्रमण

  • ऐप डेवलपर को SDK जोड़ने के बदले पैसे दिए जाते हैं
    • उदाहरण: प्रति उपयोगकर्ता प्रति माह 18 सेंट
  • यह SDK उपयोगकर्ता के traffic का एक हिस्सा (120~150kbps) किराए पर देता है
  • इसे "P2P proxy" या "residential proxy" कहकर पेश किया जाता है, जबकि असल में उपयोगकर्ता के डिवाइस को botnet node की तरह इस्तेमाल किया जाता है

हमले का तरीका: detection-evading distributed attack

  • दिन में प्रति IP सिर्फ एक login attempt → fail2ban, UFW जैसी automatic detection को बायपास
  • लेकिन हजारों-लाखों IP होने के कारण हमला लगातार और distributed तरीके से जारी रहता है
  • लेखक का कहना है कि यह तरीका मानक security tools को बेअसर कर देता है

ASN आधारित blocking की अप्रभाविता

  • यह देखने के लिए विश्लेषण किया गया कि क्या IP किसी खास telecom provider (ASN) में केंद्रित हैं
    • नतीजा: प्रति ASN औसतन 4 से कम attack IP → पूरे ASN को block करना असरदार नहीं
  • फिलहाल हर दिन logs का विश्लेषण → नए IP block command ईमेल से भेजना → manual block का तरीका जारी है

response का तरीका और दर्शन

  • automation संभव है, लेकिन खुद देखकर response देने से patterns समझ में आते हैं और निगरानी की जागरूकता बनी रहती है
  • attacker IP की संख्या: अभी लगभग 50,000 से ज्यादा block किए जा चुके हैं
  • ज्यादातर IPv4 हैं, जबकि IPv6 हमले अभी कम दिखते हैं

botnet ecosystem की हकीकत

  • "SDK शामिल करो → revenue share पाओ" जैसी एक वैध दिखने वाली distribution structure
  • लेकिन व्यवहार में उपयोगकर्ता के traffic का बिना सहमति इस्तेमाल spam, हमले, crawling आदि के लिए होता है
  • ऐसे botnet आम antivirus या security systems में detect नहीं होते

निष्कर्ष

  • अगर ऐप डेवलपर ऐसे SDK शामिल करते हैं, तो वे असल में botnet बनाने में भागीदारी कर रहे होते हैं
  • आम उपयोगकर्ता को पता ही नहीं चल सकता कि ऐसे SDK शामिल हैं, और वे अपने-आप botnet का हिस्सा बन जाते हैं
  • लेखक इस समस्या के आधार पर वेब ecosystem के टूटने की चेतावनी देते हैं

"मैं उन कंपनियों पर बिल्कुल भरोसा नहीं करता जो इसे 'normal SDK' कहती हैं। यह botnet है।"
— Jan Wildeboer, फ़रवरी 2025


# Web is Broken: Botnet Part 2

web crawlers की तेज़ बढ़ोतरी, और उसका कारण

  • हाल के समय में AI model training के लिए बड़े पैमाने पर data collection की मांग बढ़ी है
  • AI कंपनियां चुपचाप पूरे web content को scrape कर रही हैं, जिससे traffic overload पैदा हो रहा है
  • आम webmaster और server operators crawlers से परेशान हैं, लेकिन अक्सर उन्हें यह नहीं पता होता कि वे crawlers चला कौन रहा है

botnet का नया रूप: SDK के जरिए उपयोगकर्ता संक्रमण

  • कुछ कंपनियां ऐप डेवलपरों को 'SDK जोड़ने के बदले' पैसे देती हैं
  • ऐसे SDK वाले ऐप इंस्टॉल करने वाले आम उपयोगकर्ताओं का traffic उनकी जानकारी के बिना AI crawlers के लिए इस्तेमाल होता है
  • ऐसे SDK को iOS, Android, MacOS, Windows apps में एम्बेड किया जा सकता है

प्रमुख उदाहरण: Infatica

  • वेबसाइट: https://infatica.io
  • डेवलपर्स के लिए विवरण पेज पर यह प्रचार किया जाता है कि उपयोगकर्ता के network के जरिए crawling संभव है
  • कंपनी लाखों rotating (residential/mobile) IP उपलब्ध कराने का दावा करती है

यह समस्या क्यों है?

  • Infatica जैसी कंपनियां कहती हैं कि वे अपने ग्राहकों (जैसे crawling करने वाली AI कंपनियां) द्वारा कौन-से commands चलाए जाते हैं, इसकी निगरानी करती हैं, लेकिन व्यवहार में यह जिम्मेदारी से बचने की संरचना है
  • Trend Micro की 2023 रिपोर्ट में भी ऐसे ही मामले दर्ज किए गए थे
  • कुछ मामलों में free software में चुपके से SDK डालकर वितरित किया गया, और उपयोगकर्ता की सहमति के बिना इंस्टॉल हुआ

नुकसान: व्यक्तिगत उपयोगकर्ता और छोटे server, दोनों

  • ऐप डेवलपर: पैसों के लालच में SDK शामिल करना → व्यवहार में malware distributor बन जाना
  • उपयोगकर्ता: मेरा डिवाइस और network web crawling और DDoS के लिए इस्तेमाल होना
  • server operator: अनजाने में अत्यधिक requests पाने वाला target बन जाना
    • उदाहरण: लेखक की Forgejo instance भी ज़्यादा bot traffic के कारण private करनी पड़ी

'residential proxy' का आवरण

  • उपयोगकर्ता के डिवाइस को relay point की तरह इस्तेमाल करने वाले proxy को "residential IP" कहा जाता है
  • Proxy service review site का उदाहरण:
    https://proxyway.com/reviews
  • ऊपर से यह 'वैध infrastructure' जैसा दिखता है, लेकिन असल में यह बिना अनुमति फैलाए गए proxy नेटवर्क की संरचना है

निष्कर्ष: web crawling अब दुरुपयोग के स्तर पर पहुंच चुका है

  • लेखक का तर्क है कि हर तरह की web crawling को malicious activity माना जाना चाहिए
  • उनके अनुसार web crawlers वेब की नींव पर हमला कर रहे हैं
  • AI इस संरचना का मुख्य चालक है, और इसे 'वैध' कहे जाने पर वे कड़ा विरोध जताते हैं

सुझाव और चिंताएं

  • ऐसे SDK शामिल करने वाले ऐप डेवलपरों को जवाबदेह ठहराया जाना चाहिए
  • Apple, Google, Microsoft जैसी platform कंपनियों को इस बाजार पर कार्रवाई करनी चाहिए
  • आम उपयोगकर्ताओं के लिए इसे पहचानना या रोकना लगभग असंभव है
  • web operators तकनीकी रूप से crawlers को रोकने की कोशिश करते हैं, लेकिन उसकी सीमाएं हैं

“AI की वजह से web अब एक भरोसेमंद जगह नहीं रह गया है। धन्यवाद, AI।”
– Jan Wildeboer, अप्रैल 2025

1 टिप्पणियां

 
GN⁺ 2025-04-20
Hacker News राय
  • राजस्व के लिए app developers द्वारा 3rd party SDK शामिल करना समस्या का एक हिस्सा है, और मेरा मानना है कि उन्हें उपयोगकर्ताओं तक malware पहुँचाने की ज़िम्मेदारी लेनी चाहिए

    • शक है कि कई SDK में ऐसी समस्याएँ हैं
    • व्यक्तिगत रूप से dependency की लत से बचना और खुद development करना पसंद है
    • दुर्भावनापूर्ण actor आधुनिक developers की dependency की लत का फायदा उठाकर जाल बिछाते हैं
  • iOS, Android, MacOS, Windows पर app developers को libraries शामिल करवाकर उपयोगकर्ताओं की network bandwidth बेचने का एक बाज़ार मौजूद है

    • इसका संबंध इस बात से हो सकता है कि Cloudflare और Google CAPTCHA क्यों माँगते हैं
    • समझ नहीं आता कि Play Protect, MS Defender, और Apple का antivirus ऐसे malware का पता क्यों नहीं लगाते
    • किसी SDK library का उपयोगकर्ता के device को botnet का हिस्सा बना देना Trojan horse का साफ़ उदाहरण है
  • web की समस्या यह है कि data को पढ़ने योग्य बनाए रखने के लिए किसी खास system administrator को server बनाए रखना पड़ता है

    • content-address model इस्तेमाल करने से uniqueness constraints हटाई जा सकती हैं
    • AI scrapers तब data आपस में साझा कर सकते हैं और मूल source पर बोझ नहीं डालेंगे
  • network-sharing software को unwanted application के रूप में वर्गीकृत किया जाना चाहिए

    • यह उस चीज़ के साथ install हो जाता है जिसे उपयोगकर्ता वास्तव में install करना चाहता था और फिर resources का दुरुपयोग करता है
    • Wireshark का उपयोग करके संदिग्ध activity जाँचना चाहूँगा
    • ऐसे व्यवहार करने वाले apps का एक सार्वजनिक repository होना चाहिए
  • malware शामिल करने वाले apps को तुरंत quarantine कर देना चाहिए

    • भले ही वे सीधा नुकसान न पहुँचाएँ, फिर भी वे malware हैं
  • web scraping को abuse माना जाना चाहिए और web servers को इसे block करना चाहिए

    • Youtube जैसे platforms संभवतः इससे सहमत होंगे
  • सोच रहा हूँ कि क्या किसी ने ऐसे software की सूची compile की है जो इन libraries का उपयोग करते हैं

    • यह जानना अच्छा होगा कि किन apps से बचना चाहिए
  • residential IP proxies की एक कमजोरी है कि IP addresses अक्सर बदलते रहते हैं

    • एक ही proxy provider से आने वाले IPs को आसानी से detect किया जा सकता है
    • एक open source fraud prevention platform पर काम कर रहा हूँ, और residential proxies से आने वाले fake users का detection उसके use cases में से एक है
  • अभी तक कोई स्पष्ट प्रमाण नहीं है, लेकिन इस तरह के व्यवहार का आसानी से पता लगाया जा सकता है

    • iOS में app connections जाँचने की सुविधा है
    • Android में यह सुविधा नहीं है, लेकिन pcapdroid जैसे third-party firewall का उपयोग किया जा सकता है
    • MacOS में Little Snitch, Windows में Fort Firewall का उपयोग किया जा सकता है
    • ऐसे apps का उपयोग करने वाले लोग ज़्यादा नहीं हैं, लेकिन वे device को botnet की तरह इस्तेमाल करने वाले apps की report कर सकते हैं
  • सोच रहा हूँ कि क्या c&c servers की कोई सूची है जिसे Pihole आदि में जोड़ा जा सके