1 पॉइंट द्वारा GN⁺ 2025-07-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • डेटा ब्रोकर लोगों की व्यक्तिगत फ्लाइट संबंधी जानकारी अमेरिकी Customs (CBP) और Immigration and Customs Enforcement (ICE) को बेच रहे हैं
  • हाल की खुलासों से पता चला है कि Airlines Reporting Corporation (ARC) यात्री रिकॉर्ड इकट्ठा करके सरकारी एजेंसियों के साथ साझा करता है
  • यूज़र की सहमति के बिना जानकारी बेची जा रही है, जिससे गोपनीयता सुरक्षा और संवैधानिक अधिकारों को दरकिनार करने की समस्या पैदा होती है
  • संवेदनशील लोकेशन डेटा, इंटरनेट उपयोग रिकॉर्ड, यूटिलिटी डेटा भी इसी तरह इकट्ठा कर law enforcement एजेंसियों तक पहुंचाए जा रहे हैं
  • इस समस्या के समाधान के लिए ‘Privacy First’ और ‘Fourth Amendment is Not For Sale’ जैसे मजबूत privacy कानूनों की जरूरत उभर रही है

डेटा ब्रोकर और निजी जानकारी की बिक्री की समस्या

  • डेटा ब्रोकर लंबे समय से privacy कानूनों की खामियों का फायदा उठाकर यूज़र जानकारी इकट्ठा करते रहे हैं
  • वे हमारी सहमति के बिना लोकेशन जैसी संवेदनशील जानकारी बेचते हैं, और उनके बड़े ग्राहकों में law enforcement एजेंसियां शामिल हैं
  • यह डेटा बाज़ार ऐसा ढांचा बन गया है जिसमें जो भी व्यक्तिगत डेटा इकट्ठा करे, वह उससे कमाई कर सकता है, और यही बात कानून से बचना चाहने वाली सरकारी एजेंसियों के लिए इसे आकर्षक बनाती है

ARC द्वारा फ्लाइट जानकारी बेचने का मामला

  • 404 Media और अन्य मीडिया संस्थानों के खुलासों के अनुसार, Airlines Reporting Corporation (ARC) कम से कम 8 बड़ी अमेरिकी एयरलाइंस के स्वामित्व और संचालन वाला एक डेटा ब्रोकर है
  • यह United Airlines, American Airlines आदि से यात्री सूची, पूरा यात्रा कार्यक्रम, भुगतान विवरण जैसी संवेदनशील टिकटिंग जानकारी इकट्ठा कर, उसे चुपचाप अमेरिकी Customs (CBP) को बेचता रहा है
  • डेटा ब्रोकर जानकारी के स्रोत को छिपाने के तरीके भी अपनाते हैं, ताकि सरकारी एजेंसियों द्वारा उस जानकारी का खुलासा रोका जा सके
  • यानी सरकार वॉरंट जैसी न्यायिक प्रक्रिया के बिना जानकारी तक पहुंच बना सकती है, और स्रोत छिपे रहने से privacy उल्लंघन और अधिकारों को दरकिनार करने की समस्या और बढ़ जाती है

Travel Intelligence Program (TIP) और उसका प्रभाव

  • ARC का Travel Intelligence Program (TIP) अतीत और भविष्य के 39 महीनों में फैले 1 अरब से अधिक हवाई यात्रा रिकॉर्ड इकट्ठा करता है
  • CBP ने एक आंतरिक रिपोर्ट में कहा कि ऐसी जानकारी स्थानीय और राज्य पुलिस द्वारा निगरानी में रखे गए व्यक्तियों की पहचान में मदद के लिए आवश्यक है
  • लेकिन अमेरिका में immigration enforcement और अनुचित पूछताछ व तलाशी बढ़ने की स्थिति में, यह जोखिम बढ़ जाता है कि यह जानकारी निर्दोष यात्रियों तक भी संदेह का दायरा फैला दे

ARC का प्रभाव और एयरलाइंस की भागीदारी

  • ARC के जरिए दुनिया भर की 54% से अधिक फ्लाइट जानकारी प्रोसेस होती है, और इस नेटवर्क में 200 से अधिक एयरलाइंस शामिल हैं
  • इसके बोर्ड में JetBlue, Delta, Lufthansa, Air France, Air Canada जैसी अमेरिकी और अंतरराष्ट्रीय एयरलाइंस के कई प्रतिनिधि शामिल हैं
  • law enforcement एजेंसियों को बड़े पैमाने पर संवेदनशील जानकारी बेचकर, एयरलाइंस व्यक्तिगत privacy से ज्यादा मुनाफे को प्राथमिकता देती दिखती हैं
  • हाल ही में यह भी सामने आया कि ICE ने ARC से यात्रियों की व्यक्तिगत जानकारी खरीदी थी

व्यापक प्रभाव और privacy उल्लंघन की स्थिति

  • स्वतंत्र रूप से यात्रा करना लोकतांत्रिक समाज का एक मूल तत्व है, फिर भी ARC जैसे डेटा ब्रोकर गुप्त रूप से यात्रा इतिहास ट्रैक किए जाने वाला माहौल बना रहे हैं
  • अमेरिका में अभी राष्ट्रीयता, धर्म, राजनीतिक झुकाव आदि के आधार पर कानूनी नुकसान की आशंका को लेकर चर्चा बढ़ रही है, और ऐसे में ARC डेटा का उपयोग राजकीय शक्तियों के दुरुपयोग तक ले जा सकता है
  • डेटा ब्रोकर फ्लाइट जानकारी के अलावा स्मार्टफोन लोकेशन डेटा, इंटरनेट बैकबोन डेटा, यूटिलिटी रिकॉर्ड तक बेच रहे हैं, जिससे privacy उल्लंघन का दायरा और बढ़ रहा है

नीतिगत मांगें और समाधान

  • ऐसे समय में जब सरकारी प्राधिकरण सीमाओं आदि पर स्वतंत्रता और अधिकारों को कमजोर करने वाले कदम बढ़ा रहे हैं, इस तरह का *** बड़े पैमाने पर डेटा संग्रह और बिक्री और भी बड़ी चिंता*** पैदा करता है
  • ARC का मामला ‘Privacy First’ जैसे privacy-first कानूनों की जरूरत और कंपनियों पर डेटा प्रोसेसिंग को न्यूनतम रखने के सिद्धांत को कानूनी रूप देने की मांग को और मजबूत करता है
  • साथ ही, यह मांग भी उठ रही है कि law enforcement एजेंसियां डेटा ब्रोकरों से जानकारी खरीदकर बिना वॉरंट सूचना संग्रह का रास्ता न निकाल सकें, इसके लिए ‘Fourth Amendment is Not For Sale’ कानून पारित किया जाए
  • अंत में, डेटा ब्रोकर पंजीकरण और पारदर्शिता बढ़ाने जैसे नियम भी तत्काल प्राथमिकता के रूप में सामने आ रहे हैं

1 टिप्पणियां

 
GN⁺ 2025-07-15
Hacker News राय
  • बहुत से लोग यह नहीं समझते कि privileged first-party data access के बिना भी ऐसा data model बनाना कितना आसान है। 2012 में मैंने जो prototype बनाया था, उसने दिखाया कि सिर्फ social media या advertising data से भी बड़े पैमाने पर ज़्यादातर लोगों की flight history को काफ़ी सटीकता से track किया जा सकता है। यह बहुत पुराने समय से संभव रहा है। मोटे तौर पर तरीका यह था कि entity graph में 300km/h से कम या 200km से कम दूरी वाले spatiotemporal edges को फ़िल्टर कर दिया जाए। इस आधार पर “plane boarding” का अनुमान लगाया जा सकता था और departure व arrival location भी पता चल जाते थे। अगर इन edges को public flight data या jet engine maintenance IoT data से जोड़ा जाए, तो इन्हें specific flights से भी match किया जा सकता है। ज़्यादातर लोग यह नज़रअंदाज़ करते हैं कि साधारण industrial IoT data का इस्तेमाल दूसरे domains में relationships infer करने के लिए कैसे किया जा सकता है। कभी-कभार ऐसे cases होते थे जहाँ एक साथ कई flights संभव होती थीं, लेकिन past flight history देखकर पहले इस्तेमाल की गई major airline चुन ली जाए तो लगभग हमेशा exact match मिल जाता था। यह हैरान कर देने जितना प्रभावी था, और इसके लिए airline first-party data या किसी complex analysis की बिल्कुल ज़रूरत नहीं थी। आख़िरकार समय और स्थान ही real world की primary key हैं

    • “संभावित flight paths को चुना गया” यह सुनकर लगता है कि असली मुद्दा आख़िरकार यह है कि शुरू में 'spatiotemporal data' किसके पास है। यह आख़िरकार “अगर तुम्हारे पास किसी के credit card transactions हैं, तो तुम जान सकते हो कि वह कब, कहाँ, किस दुकान पर गया” से अलग नहीं है। यह डरावना तो है, लेकिन सचमुच गंभीर बात यह है कि ऐसी data access संभव है। अगर शुरू से किसी के मोटे location data का पूरा timeline ही उपलब्ध है, तो वह व्यक्ति किन-किन flights पर चढ़ा, उससे कहीं ज़्यादा क़ीमती data वही spatiotemporal data है

    • मुझे दिलचस्प यह लगता है कि लोग इस बात से डरते हैं कि कोई तरह-तरह की personal information इकट्ठा करके उसका दुरुपयोग कर सकता है, लेकिन ज़्यादातर मामलों में उस जानकारी का उपयोग बस और बेहतर targeted ads दिखाने तक ही सीमित रहता है

    • “jet engine maintenance IoT data” जैसी चीज़ आख़िर मिलती कहाँ से है?

    • शायद ICE को यह data इसीलिए चाहिए होगा ताकि वह track कर सके कि कोई खास व्यक्ति कब किस शहर या देश में गया था

  • ARC को सिर्फ़ एक “data broker” कहना दिलचस्प है। असल में ARC और IATA airline ticket payment clearinghouse हैं और संबंधित industry systems को maintain और oversee भी करते हैं। transaction data मूल रूप से इनके पास आता ही है, और ये उसे बेचकर revenue कमाते हैं। लेकिन यह दूसरे data brokers की तरह बाहर से data इकट्ठा करके दोबारा बेचने वाला मॉडल नहीं है; इनके पास अपना first-party data होता है। असली बुनियादी सवाल यह है कि क्या इस तरह के sensitive, non-anonymized data की बिक्री या sharing की अनुमति होनी चाहिए, लेकिन उतना ही बुनियादी तथ्य यह भी है कि यह original first-party data है। Airline Reporting Corporation की पूरी संरचना का विवरण भी देखने लायक है

    • यह बात article में उठाए गए मुख्य बिंदु का कोई खास खंडन नहीं करती
  • brokers जो data बेचते हैं, उसकी मात्रा और दायरा कल्पना से भी बहुत बड़ा है। जितना बुरा आप सोचते हैं, असलियत उससे भी दस गुना बदतर है

    • मेरे एक सहकर्मी ने एक बार किसी खास व्यक्ति को target करके image banner ad चलाया था, जिसमें लिखा था “मैंने कहा था न कि मैं इतना कर सकता हूँ, दोस्त!” — सिर्फ़ capability demo के लिए। आम लोगों को लगभग कोई अंदाज़ा नहीं है कि ad companies और data brokers उनके बारे में कितना कुछ जानते हैं

    • लगभग 2014 में जब मैं recruiters के साथ काम कर रहा था, तब मैंने ऐसे tools देखे थे जो LinkedIn, Yelp, Twitter, GitHub, Eventbrite वगैरह से लोगों की जानकारी scrape करते थे। उस समय भी 10 साल से ज़्यादा का history निकाल सकने लायक विशाल data मिल जाता था। अगर Palantir जैसी किसी कंपनी के साथ काम किया जाए, तो सरकार Reddit posts तक पर style analysis या psychological analysis भी कर सकती है

    • मेरे पास एक art project का idea है जिसके लिए इस तरह के data profiles चाहिए। अगर सस्ते में खरीदे जा सकने वाले अच्छे sources की कोई सिफ़ारिश हो तो बताइए। project इतना बड़ा है कि समझ नहीं आ रहा कहाँ से शुरू करूँ

    • इस industry में काम करने के नाते, मुझे लगता है असलियत “1000 गुना ज़्यादा गंभीर” है

    • मुझे लगता है कि HN के ज़्यादातर users असली industry reality को लगभग समझते ही नहीं। दिशा को ही पूरी तरह अलग तरह से पकड़ना चाहिए। ज़्यादातर लोग सोचते हैं कि बस Google जैसा कोई खिलाड़ी ही उनकी personal information बेचता है, लेकिन असल में data industry में safeguards कहीं ज़्यादा ढीले हैं। उदाहरण के लिए, आप फ़ोन करके कह सकते हैं कि 35 साल के किसी मोहल्ले के dentist के credit card transaction records सिर्फ़ उसी व्यक्ति के लिए, अपनी पसंद के format में, एक दिन के भीतर निकालकर दे दो — और यह हैरान कर देने जितना आसान है

  • यह हैरानी की बात है कि data market कितना छिपा हुआ है। अनगिनत बड़ी कंपनियाँ हर दिन data extract और trade कर रही हैं, लेकिन इतनी शोरगुल वाली “decentralization” लहर के बीच भी कोई खुला data marketplace नहीं है। मैं लंबे समय से चाहता रहा हूँ कि ऐसा model आए जहाँ खुले behavioral data की भी खरीद-फरोख्त हो सके, और लोग सिर्फ़ “product” बने रहने के बजाय कंपनियों को data दें और उसके बदले भुगतान पाएं

    • मुझे नहीं लगता कि यह इतना छिपा हुआ भी है। 2021 में एक व्यक्ति 50 साल पुरानी दुश्मनी निकालने के लिए किसी के घर गया था, और CCTV में वह PeopleFinders फ़ोल्डर पकड़े हुए दिखा। हैरान करने वाली बात यह है कि सरकारी एजेंसियाँ भी ऐसा data बेचती हैं

    • इस revenue model से और कमाने की कोशिश करने के बजाय, सब कुछ बंद कर देना और रोक देना ही सही होगा

  • समझ नहीं आता कि CBP और ICE को data broker से जानकारी खरीदने की ज़रूरत क्यों पड़ती है। TSA तो वैसे भी सबके boarding passes scan करती है

    • शायद TSA द्वारा जुटाए गए data तक पहुँचने के लिए सख़्त नियम और प्रक्रियाएँ होंगी, जबकि broker से वही या मिलती-जुलती जानकारी खरीदने के लिए लगभग कोई खास शर्त नहीं होती। data source भी TSA नहीं बल्कि airlines, payment processors वगैरह हो सकते हैं। broker data की quality की गारंटी देना मुश्किल है, लेकिन प्रक्रिया बहुत आसान है

    • जब मैं federal agency में काम करता था, तो मेरी नज़र से देखें तो public tweets तक collect करने के लिए यह दस्तावेज़ बनाना पड़ता था कि इसकी ज़रूरत क्यों है, कौन-सी personal information store होगी, retention period क्या होगा, और deletion कैसे होगा — फिर जाकर approval मिलता था। जो काम कोई आम आदमी वीकेंड पर कर सकता है, वही सरकार के अंदर बहुत बड़े approval chain से गुज़रता है। और अगर किसी दूसरी agency का data माँगना हो? वह तो कल्पना से भी ज़्यादा political burden बन जाता है। सहयोगी agency हो तब भी आसान नहीं होता, बल्कि मीटिंग में दूसरी agency से ऐसा request उठाने पर भी बेवजह friction बढ़ने की चेतावनी मिलती थी। इसके उलट, data broker से खरीद लो तो यह सारी जटिल प्रक्रिया ही नहीं रहती

    • शायद वजह यह भी है कि TSA approvals इतनी आसानी से नहीं देती। यह कुछ वैसा है जैसे police को phone data माँगने के लिए warrant चाहिए, लेकिन telecom company real-time location किसी तीसरे पक्ष को बेच दे और police वही खरीद ले। संदर्भ लिंक

    • सरकार कानून और संविधान से बचने के लिए कंपनियों का इस्तेमाल करती है, और कंपनियाँ regulation से बचने के लिए सरकार का। यह बहुत पुराना ढाँचा है

    • regulation और कानून से जुड़ी वजहों के अलावा भी, संगठन के भीतर अलग-अलग departments के इस्तेमाल लायक practical data streams बनाना और उनका coordination करना, पहले से data curation, management और distribution के लिए optimized broker से खरीदने की तुलना में ज़्यादा मुश्किल और महंगा होता है। भले यह बेतुका लगे, लेकिन आख़िरकार premium देकर broker data लेना आसान और ज़्यादा भरोसेमंद पड़ता है। TSA की technical team के पास data पर metadata जोड़ने या SLA manage करने का कोई खास incentive नहीं है। data broker के पास हमेशा होता है

  • yaelwrites/Big-Ass-Data-Broker-Opt-Out-List data broker opt-out शुरू करने के लिए एक अच्छी सूची है। हालाँकि article में जिस ARC का ज़िक्र है, वह अभी इस list में नहीं है

  • विषय से थोड़ा अलग, लेकिन मैं जानना चाहता हूँ कि आम कंपनियाँ (advertising companies को छोड़कर) consumer data और behavioral patterns बेचकर वास्तव में लगभग कितना revenue कमाती हैं — क्या किसी के पास इसका मोटा अनुमान है?

  • लगभग दो महीने पहले HN पर इससे जुड़ी चर्चा और एक दूसरी thread भी हुई थी

  • यह मामला इसलिए दिलचस्प है कि अतीत में कई बदनाम brokers के EU में operating base नहीं होते थे, इसलिए वे GDPR fines को नज़रअंदाज़ कर देते थे, या अगर illegal profit बहुत बड़ा हो तो risk मानकर चल लेते थे (जैसे Clearview)। लेकिन airlines जैसी कंपनियों के लिए, जिनका core business margin कम और global revenue बड़ा होता है, GDPR violation कहीं ज़्यादा घातक हो सकता है। अगर data controller airline है, तो broker को data देना ही illegal हो सकता है, और EU exposure इतना ज़्यादा है कि fine से बचना भी मुश्किल होगा। गंभीर स्थिति में कोई member state उस aircraft को ही seize कर सकती है, या सभी operations पर ban लगाने की कोशिश कर सकती है। जर्मनी द्वारा थाई crown prince के विमान को seize करने का एक वास्तविक उदाहरण भी है। संबंधित article link

    • airline एक बड़ा data source लगता है, लेकिन असल में sources बहुत तरह के हैं। boarding pass barcode में बहुत ज़्यादा जानकारी होती है, और यह encryption नहीं बल्कि simple encoding होती है, इसलिए बस पढ़ना आना चाहिए। barcode readers कई कंपनियाँ बनाकर बेचती हैं, और airport में check-in, baggage, duty-free, lounge वगैरह बहुत जगह barcode scan होता है। इस तरह मापी गई जानकारी कई तरीकों से जमा की जा सकती है। passport scanners भी सस्ते में मिल जाते हैं, और airport shops या rental car कंपनियाँ भी उनका अच्छी तरह इस्तेमाल करती हैं। हाल के समय में facial recognition की वजह से बिना boarding pass या passport check के भी boarding हो जाती है। Uber booking data जैसी अतिरिक्त जानकारी भी जोड़ी जा सकती है। barcode पर विस्तृत link
  • मैं यह जानने के लिए उत्सुक हूँ कि अगर मैं पैसे दूँ, तो data broker से अपने बारे में और दूसरों के बारे में किस तरह की जानकारी हासिल कर सकता हूँ — क्या कोई जानता है कि ऐसे data brokers तक पहुँचा कैसे जाए?