Census Bureau के जारी किए गए सांख्यिकीय उत्पादों में noise injection पर रोक

(desfontain.es)

1 पॉइंट द्वारा GN⁺ 2026-06-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

गोपनीय datasets से public statistics बनाते समय इस्तेमाल होने वाला noise injection एक disclosure avoidance tool है, जो मूल डेटा की privacy छिपाते हुए statistics की उपयोगिता बनाए रखने की कोशिश करता है
अमेरिकी वाणिज्य विभाग का आदेश Census Bureau और Bureau of Economic Analysis के सभी statistical products में noise injection पर रोक लगाता है, और सीधे differential privacy को निशाना बनाता है
Census Bureau ने 1990~2010 की decennial census में मुख्य रूप से swapping का इस्तेमाल किया, लेकिन public statistics से individual records को आसानी से reconstruct किए जाने की समस्या सामने आने के बाद 2020 Census में differential privacy अपनाई
differential privacy contribution limits और सावधानी से calibrated noise जोड़ने को मिलाकर समान privacy स्तर पर अधिक utility देती है
noise हटा देने पर भविष्य में जारी किए जाने वाले statistics या तो पहले की तुलना में काफी कम उपयोगी होंगे, या बहुत असुरक्षित डेटा बन जाएंगे

पृष्ठभूमि

statistical products वे कई संख्याएँ हैं जो गोपनीय datasets से public की जाती हैं, और जब उन datasets में confidential information हो तो जारी की गई संख्याएँ उस जानकारी को उजागर नहीं करनी चाहिए
U.S. Census इसका एक प्रतिनिधि उदाहरण है; statistics public किए जाते हैं, लेकिन अमेरिका में रहने वालों द्वारा भरे गए individual forms की सामग्री गोपनीय रहनी चाहिए
statistics के क्षेत्र में मूल डेटा की privacy बचाते हुए उपयोगी statistics जारी करने की तकनीकों को disclosure avoidance कहा जाता है
disclosure avoidance तकनीकों में किसी तय threshold से नीचे के डेटा को हटाने वाला suppression, attributes को कम precise बनाना यानी generalization, और कुछ records को randomly हटाना यानी sampling शामिल हैं
disclosure avoidance तकनीकों में अलग-अलग records के attributes को randomly बदलने वाला swapping, किसी एक व्यक्ति के अधिकतम प्रभाव को सीमित करने वाला contribution limiting, और statistics में random numbers जोड़ने वाला noise addition भी शामिल है
differential privacy और 2020 Census
- कुछ तकनीकों को मिलाने से differential privacy हासिल की जा सकती है, और वैज्ञानिकों के बीच इसे privacy protection का gold standard माना जाता है
- differential privacy आमतौर पर contribution limiting और सावधानी से calibrated noise addition के संयोजन पर निर्भर करती है
- Census Bureau ने 1990 से 2010 तक की decennial census में मुख्य रूप से swapping का इस्तेमाल किया
- बाद में यह समझ आया कि swapping बहुत सुरक्षित नहीं है, और केवल public statistics के आधार पर individual records को reconstruct करना आसान है
- Bureau को संघीय कानून के तहत उन records को गोपनीय रखना होता है, इसलिए उसने कुछ विकल्प आजमाए, और attacks को रोकते हुए statistics की utility सबसे बेहतर बनाए रखने वाले तरीके के रूप में 2020 Census में differential privacy अपनाई
utility में गिरावट और विरोध
- differential privacy को इसलिए नहीं चुना गया कि उसका गणित सुंदर है, बल्कि इसलिए कि attack mitigation के कई विकल्पों में उसने data utility को सबसे अधिक बचाकर रखा
- सटीक privacy parameters भी इसलिए नहीं चुने गए कि वे सबसे मजबूत proof guarantees देते हैं, बल्कि इसलिए कि स्वीकार्य privacy protection स्तर तक पहुँचते हुए data utility को अधिकतम किया जा सके
- नई पहचानी गई privacy constraints के तहत utility को सबसे अधिक बचाने का मतलब यह नहीं था कि 2010 Census जितनी utility को बनाए रखा गया
- संख्याएँ कम सटीक हो गईं, और inaccuracies कहीं अधिक पारदर्शी हो गईं, इसलिए उन्हें नज़रअंदाज़ करना मुश्किल हो गया
- demographers और social scientists अब यह अनदेखा नहीं कर सकते थे कि वे जिस data के साथ काम कर रहे हैं उसमें noise है, और इस data को समझने और संभालने के तरीके में बड़े बदलाव की जरूरत पड़ी
- जो लोग Census data का इस्तेमाल वास्तव में individual records reconstruct करने के लिए करते थे, वे अब ऐसा नहीं कर सकते थे, और demographers ने माना कि यह एक आम प्रथा थी
- यह भी एक खुला रहस्य है कि gerrymandering की कोशिशों के हिस्से के रूप में राजनीतिक operatives ऐसे reconstruction करते थे

आदेश की सामग्री

प्रशासन ने तय किया है कि noise injection अब disclosure avoidance की स्वीकार्य तकनीक नहीं है
आदेश स्पष्ट रूप से differential privacy को निशाना बनाता है, लेकिन ऐसा लगता है कि इसका असर randomization शामिल करने वाली दूसरी तकनीकों पर भी पड़ेगा
आदेश के पाठ में कहा गया है कि generalization को हमेशा प्राथमिकता दी जानी चाहिए, और suppression का इस्तेमाल केवल “अंतिम उपाय” के रूप में होना चाहिए
आदेश इतना विशिष्ट क्यों है, यह स्पष्ट नहीं है
आदेश सावधानी से यह भी कहता है कि इसे “संविधान, कानून, regulation या अन्य कानूनी प्रावधानों से टकराव” के रूप में नहीं पढ़ा जाना चाहिए, और उन statistical products पर लागू गोपनीयता संबंधी दायित्व बने रहते हैं

वास्तविक प्रभाव

परिणाम utility, privacy, या दोनों के लिए गंभीर हो सकते हैं
भविष्य में statistics releases पहले के releases की तुलना में कम उपयोगी हो सकती हैं, या फिर अविश्वसनीय रूप से असुरक्षित हो सकती हैं
disclosure avoidance toolbox से उपयोगी tools हटाने पर privacy और utility के बीच tradeoff हमेशा अधिक दर्दनाक हो जाता है
इस research field का उद्देश्य privacy risks को बेहतर समझना और quantify करना है, और utility को बचाए रखते हुए risk को कम करने के बेहतर tools विकसित करना है
differential privacy की स्थिति
- statistical releases में differential privacy इस समय उपलब्ध सबसे अच्छा tool है
- differential privacy tradeoff को अधिक बारीकी से quantify करने का तरीका देती है, और समान privacy स्तर पर competing techniques की तुलना में data utility अधिक बचाती है
- differential privacy को हटा देने पर केवल ऐसी techniques बचती हैं जिनमें समान privacy स्तर पर utility कम हो, या समान utility पर privacy बदतर हो
- competing techniques भी noise addition पर निर्भर करती हैं
दूसरी तकनीकें भी randomness का उपयोग करती हैं
- दूसरी statistical agencies द्वारा इस्तेमाल किया जाने वाला Cell Key method statistics में noise जोड़ता है
- 1990 से 2010 तक Census द्वारा इस्तेमाल किया गया swapping भी प्रक्रिया में randomness inject करता है
- sampling statistical work में व्यापक रूप से इस्तेमाल होती है
- imputation) भी तकनीकी रूप से data में noise जोड़ता है
generalization और suppression की सीमाएँ
- generalization और suppression बहुत blunt tools हैं
- generalization और suppression केवल उन्हीं स्थितियों में काम करते हैं जहाँ statistics पहले से ही बहुत coarse हों, और जारी किए जाने वाले statistics की संख्या अधिक न हो
- U.S. Census जैसे जटिल data products में, जहाँ छोटे समूहों पर बहुत सारे statistics होते हैं, generalization और suppression या तो data utility को पूरी तरह नष्ट कर देते हैं या privacy attacks के प्रति बहुत संवेदनशील बन जाते हैं
- utility का नष्ट होना विशेष रूप से minority groups के लिए अधिक स्पष्ट होता है
noise attacks को कठिन क्यों बनाता है
- statistical releases पर privacy attacks simultaneous equations को हल करने की समस्या के करीब होते हैं
- जब यह पूरी निश्चितता हो कि सभी statistics पूरी तरह accurate हैं, तब यह काम बहुत आसान हो जाता है
- noise attackers को probabilities की गणना करने, uncertainty को quantify करने, और baselines पर सावधानी से विचार करने के लिए मजबूर करता है
- randomness औपचारिक guarantees के बिना भी disclosure avoidance में उपयोगी होती है, और attacks को काफी कठिन बना देती है
- randomness हटा देने पर attacks लगभग तुच्छ हो जाते हैं

यह क्यों हो रहा है

इसका motivation स्पष्ट नहीं है
यह भी स्पष्ट नहीं है कि लक्ष्य भविष्य के gerrymandering प्रयासों में मदद के लिए U.S. Census को ऐसे statistics जारी करने के लिए मजबूर करना है जो वास्तविक re-identification को संभव बनाते हों
इसके उलट, यह भी स्पष्ट नहीं है कि लक्ष्य researchers को population के भीतर unfair disparities दिखाने से रोकने के लिए उपयोगी demographic data releases को बंद करना है
Hanlon's razor एक वैकल्पिक व्याख्या देता है
statistical data releases में privacy और utility के बीच एक बुनियादी tradeoff होता है, और यह tradeoff एक परेशान करने वाली समस्या है
अगर बहुत सारे statistics जारी करने पर अपने-आप high privacy risk न पैदा होता, तो स्थिति बहुत आसान होती
differential privacy इस tradeoff को स्पष्ट रूप से सामने लाती है, और इसलिए इसे नज़रअंदाज़ करना मुश्किल बना देती है
differential privacy पर रोक शायद इस समस्या के अस्तित्व को नकारने और उसके अपने-आप गायब हो जाने की उम्मीद करने का एक तरीका हो सकती है

1 टिप्पणियां

GN⁺ 2026-06-14

Hacker News की राय

पिछली जनगणना के समय मैंने enumerator के रूप में काम किया था, और तब भी समुदाय का भरोसा पहले से कम था, हालांकि कई दिलचस्प मुलाकातें भी हुईं
मैं एक दोस्ताना चेहरे के साथ काफ़ी दखल देने वाला डेटा इकट्ठा कर रहा था, फिर भी मुझे सच में भरोसा था कि इस डेटा का ज़िम्मेदारी से उपयोग और प्रबंधन होगा
अब जब संवेदनशील सरकारी डेटा को हथियार बनाने और उससे मुनाफ़ा कमाने से रोकने वाली दीवार टूट चुकी है, तो 2030 में घर-घर जाने वाले लोगों के लिए भी बुरा लगता है, और उन लोगों के लिए तो और भी ज़्यादा जो अपनी ही हानि वाली जानकारी स्वेच्छा से देंगे
“महंगी जनगणना में बस लोगों की गिनती कर लो” जैसी प्रतिक्रिया भी अजीब लगती है। इकट्ठा किया गया डेटा हमारी साझा समझ की एक महत्वपूर्ण baseline था, और आगे इसकी गुणवत्ता के लिए यह अच्छा नहीं होगा
वैसे मुझे ज़्यादातर nonresponse households सौंपे गए थे, इसलिए स्वाभाविक रूप से लगा कि मेरे इलाके के लोग या तो सरकार से नफ़रत करते हैं, या अजीब तरह के धमकीभरे pamphlet को नज़रअंदाज़ करते हैं, या हाल ही में आए हैं और सर्वे अवधि में वहाँ कौन रहता था यह नहीं जानते
- यह सिर्फ़ जनगणना डेटा प्रोडक्ट्स की बात नहीं है, demographic data दरअसल लगभग हर दूसरे survey research के extrapolation की बुनियाद है
  दसियों हज़ार उत्तरदाताओं पर आधारित राष्ट्रीय opinion poll से लेकर छोटे सामुदायिक सर्वे तक, सब इसी पर निर्भर करते हैं
  सबसे विविध भागीदारी से मिली जनगणना के नतीजे अमेरिका को लगभग असीम लाभ देते हैं, और राष्ट्रीय अख़बारों से लेकर ग्रामीण county तक सबको फ़ायदा होता है
  अगर सबसे छोटे समुदाय भी जनगणना की privacy protections पर बचा-खुचा भरोसा खो देते हैं, तो इन्हीं सभी पहलुओं में उनका सबसे बड़ा नुकसान होगा
- मैंने भी ऐसा ही काम किया है, और यह भावनाओं को अच्छी तरह समेटता है। ऐसा भरोसा फिर से बनाना सच में दुखद और बहुत कठिन है
  और यह भी निराशाजनक है कि लोग अब भी उस राजनीतिक पार्टी की ओर खिंचे चले जाते हैं जो खुलेआम कहती है कि वह इस डेटा का दुरुपयोग करना चाहती है
- मेरी नज़र में असली गिरावट Edward Snowden के बाद शुरू हुई, जब NSA से जुड़ी जानकारी की बाढ़ आ गई
  इससे सरकार पर अविश्वास बहुत बढ़ा, और लोगों से सर्वे का जवाब लेना पहले ही मुश्किल था
  आम लोग क्यों मानें कि Census Bureau सच में उनका डेटा सुरक्षित रखेगा?
  कानून या संविधान कुछ भी कहें, किसी भी एजेंसी में काम करो तो लोग तुम्हें सरकार ही समझते हैं। response rate लगातार गिर रही है, और अब राष्ट्रपति आर्थिक आँकड़ों पर भी हमला कर रहे हैं
  निंदक नज़रिए से देखें तो लगता है वे सांख्यिकीय एजेंसियों को लगातार छोटा करेंगे और आँकड़ों को और बेकार बनाएँगे। यह नीति बदलाव भी उसी दिशा में है, और आख़िरकार इसे private sector को सौंपना चाहेंगे
  लेकिन private sector वह काम नहीं कर सकता जो सरकार मैदान में जाकर करती है
- कोई देश जनगणना इसलिए करता है ताकि वह बहुत विस्तार से समझ सके कि उस देश के लोगों की स्थिति क्या है
  सही जानकारी होनी चाहिए ताकि सुधार की योजना बनाई जा सके और सबकी ज़िंदगी बेहतर की जा सके
  “बस लोगों की गिनती कर लो” वाला रवैया दिलचस्प तरीके से दिखाता है कि आजकल बहुत से लोग कैसे सोचते हैं
  जैसे वे ज़िंदगी बेहतर बनाना ही नहीं चाहते, या यह कल्पना भी नहीं कर सकते कि कैसे बनाया जाए। यह सच में दुखद है
इस हफ़्ते Texas Republican state convention में platform draft में differential privacy के विरोध वाला वाक्य amendment के रूप में जोड़ने का प्रस्ताव रखा गया
जनगणना से जुड़े किसी व्यक्ति के उदाहरण का हवाला देकर कहा गया कि पुल के नीचे रहने वाला 1 बेघर व्यक्ति differential privacy की वजह से 5 दिख सकता है, इसलिए यह common sense के हिसाब से हास्यास्पद है
पता नहीं यह पारित हुआ या नहीं, लेकिन इस तरह की चीज़ों को आगे बढ़ाने वाला grassroots दबाव कुछ ऐसा ही दिखता है
- आपको कैसे पता कि यह grassroots है?
यह काफ़ी दुखद है। आदर्श रूप से राज्य को यह देखने में सक्षम होना चाहिए कि अभी मौजूद लोगों की संरचना क्या है, ताकि हम मिलकर चलाने वाली संस्थाओं के बारे में अच्छे फ़ैसले ले सकें
data collection infrastructure को जानबूझकर नुकसान पहुँचाना मुझे ऐसी गलती लगता है जिस पर बाद में पछतावा होगा
अमेरिका की सफलता का बड़ा हिस्सा मेरी नज़र में उन अच्छे संस्थानों से आया है जो सूक्ष्म डेटा संभालते थे। इसी वजह से नीतियों को नतीजों के हिसाब से जल्दी समायोजित किया जा सका
मैं समझ सकता हूँ कि लोग राज्य की सारी क्षमता क्यों घटाना चाहते हैं। उन्हें लगता है कि सरकार उनके विरोधियों से भरी हुई है, और वही क्षमता उनके ख़िलाफ़ इस्तेमाल होगी
लेकिन जैसे-जैसे उनकी सापेक्ष शक्ति घटती है, वैसे-वैसे इस जड़ता को हराने की उनकी क्षमता भी घटती है, सरकार कम सक्षम होती जाती है, और आख़िर में ज़िंदगी बदतर होने लगती है
housing unit data की तुरंत ज़रूरत नहीं होती, लेकिन कुछ अपवाद हो सकते हैं, जैसे census blocks को सही निर्वाचन क्षेत्रों में रखना। फिर भी, किसी भी aggregation level के ऊपर जितना संभव हो उतनी अच्छी जानकारी इस्तेमाल करनी चाहिए
- infrastructure को जानबूझकर तोड़ना इस प्रशासन की बार-बार दिखने वाली थीम है
- इससे सरकारी शक्ति कमज़ोर नहीं होती
  बस सरकार और मूर्ख बन जाती है, ताकि बाद में सही काम करना भी चाहे तो प्रभावी फ़ैसले लेने लायक जानकारी ही उसके पास न हो
- मुझे ज़्यादा रुचि इस बात में है कि विस्तृत जानकारी राज्यों को दी जाए और कार्यक्रम वे चलाएँ
  संघीय सरकार के पास सिर्फ aggregated data होना चाहिए
- उससे आगे बढ़ना, जब अमेरिकी सरकार ने जनगणना की गोपनीयता तोड़कर जापानी मूल के लोगों को नस्ल के आधार पर internment camps में भेजा था, जनसंहार को संभव बनाने जैसा हो जाता है
  यह “सारी” सरकारी क्षमता का सवाल नहीं है; राज्य के पास केवल वही न्यूनतम क्षमता होनी चाहिए जो आवश्यक काम करने के लिए बिल्कुल ज़रूरी हो
  उदाहरण के लिए नस्ल संबंधी जानकारी इकट्ठा करना बिल्कुल आवश्यक नहीं है, इसलिए यह नहीं होना चाहिए
  क्योंकि भविष्य में सरकार विरोधियों से भरी हो सकती है। और व्यापक रूप से देखें तो राज्य के कर्ताओं द्वारा किया गया सबसे बड़ा नुकसान अक्सर जानबूझकर की गई बुराई से नहीं, बल्कि “मदद करने” की कोशिशों से लगातार आया है
- यह लेख जनगणना को कम ख़राब करने वाले फ़ैसले के बारे में है
  अगर आप सटीक जनगणना को महत्वपूर्ण मानते हैं, तो आपको तो इसका स्वागत करना चाहिए
जनगणना में, आप कुछ भी करें, एक स्तर का भरोसा पहले से मानकर चलना पड़ता है
भरोसा कि इस डेटा को इस तरह पहचानने योग्य नहीं बनाया जाएगा कि इसका इस्तेमाल धोखाधड़ी, financial scam या दूसरे दुरुपयोगों में हो सके
लेकिन NY में housing sales records सार्वजनिक हैं, और उसके दुष्प्रभाव के तौर पर बहुत-सी mortgage companies payment demand को वैध बिल जैसा बनाकर भेजती हैं
differential privacy बिल्कुल ज़रूरी है, और social scientists व्यक्तिगत स्तर पर डेटा को reconstruct न कर सकें, यह जानबूझकर चाहा गया नतीजा है
ज़्यादातर उद्देश्यों के लिए macro-level description काफ़ी है, और उससे ज़्यादा माँगना surveillance state की माँग करने जैसा है
- ईमानदारी से कहूँ तो यह ज़्यादा एक enforcement failure और financial system design failure जैसा लगता है
  जर्मनी में mortgage या उसे रखने वाला बैंक उसे ऐसे किसी और भोले व्यक्ति को बेचता फिरता नहीं है जैसे वह कोई hot potato हो, इसलिए ऐसी चिट्ठी आते ही तुरंत शक पैदा होगा
डेटासेट में इसे प्रतिबंधित करें, और analysis चरण में जोड़ें तो ठीक है। आप अपनी पसंद का noise चुन सकते हैं
यहाँ राजनीतिक निहितार्थ क्या हैं, यह मुझे ठीक से नहीं पता, लेकिन किसी स्तर पर “इस व्यक्ति/परिवार ने उत्तर देने से इनकार किया” सहित वास्तविक baseline values की ज़रूरत होती है
लेकिन raw data को सार्वजनिक करना राष्ट्रीय सुरक्षा के नज़रिए से खुद अपने पैर पर कुल्हाड़ी मारने जैसा लगता है, और इसके अलावा भी ऐसा न करने की बहुत-सी वजहें हैं
- प्रस्ताव ठीक-ठीक क्या है, यह पता नहीं, लेकिन अगर noise हर व्यक्ति पर स्वतंत्र रूप से जोड़ा जाए, तो कई प्रतियाँ खरीदकर उनका औसत निकालने जैसे तरीके से उसे घटाया जा सकता है
  इसे गलत तरीके से करने के बहुत सारे तरीके हैं, और इसी वजह से differential privacy पर इतना अधिक analysis हुआ है
- noise सार्वजनिक डेटा में डाला जाता है, निजी डेटा में नहीं
हो सकता है बात यह हो कि differential privacy इस trade-off को स्पष्ट रूप से सामने लाकर उसे नज़रअंदाज़ करना असंभव बना देती है, बल्कि यह कह रही हो कि इन दो लक्ष्यों में से एक दूसरे से अधिक मूल्यवान है, इसलिए उसे बलिदान नहीं किया जाना चाहिए
यहाँ “सब कुछ सार्वजनिक कर देना चाहिए” जैसी प्रतिक्रियाएँ बुरी तरह की एक-आयामी सोच लगती हैं, और यह चौंकाने वाला है
जनगणना तो सिर्फ सवाल पूछती है
अगर आप विभिन्न गुणों वाले लोगों का डेटा सार्वजनिक कर उसे हथियार की तरह इस्तेमाल करना शुरू कर दें, तो लोग बस झूठ बोलेंगे या जवाब देना बंद कर देंगे
तब जो बचेगा वह बिना डेटा के होने से भी बदतर डेटा होगा, क्योंकि लोग उसी खराब डेटा के आधार पर काम करने की कोशिश करेंगे
- शुरुआत में डेटा तब इकट्ठा कर लो जब लोग या तो जानते न हों या परवाह न करते हों, और बाद में उसे हथियार बना लो
  हाल में किसी दूसरे देश में कम-से-कम एक बार ऐसा हो चुका है, इसलिए मुझे नहीं लगता कि यह चिंता अतिप्रतिक्रिया है
- डेटा को हथियार बनाने वाली इकाई खुद अमेरिकी सरकार है
  सबसे स्पष्ट उदाहरण यह है कि Census Bureau ने द्वितीय विश्वयुद्ध के दौरान जापानी मूल के लोगों की सूची बनाकर उसे internment के लिए इस्तेमाल किया था
  मुझे लगता है कि अभी असली प्रेरक शक्ति लोगों के मतदान अधिकार छीनने वाली सूचियाँ बनाने में है
- आसान समाधान यह है कि डेटा की resolution और scope को घटाकर केवल बिल्कुल आवश्यक स्तर तक सीमित कर दिया जाए
  जनगणना का अस्तित्व प्रतिनिधित्व तय करने के लिए जानकारी देने हेतु है। बाकी सब अतिरिक्त सुविधा है
  county या constituency स्तर पर डेटा रखा जा सकता है, लेकिन resolution बढ़ने पर डेटा हटाते जाना चाहिए ताकि मोहल्ले या block स्तर पर केवल जनसंख्या संख्या बचे
  किसी block के निवासियों की नस्ल, जातीयता, या सामाजिक-आर्थिक पृष्ठभूमि जानना मुख्यतः उनके साथ भेदभाव करने में ही काम आता है
- असली सवाल यह है कि लोग ऐसी बातों का जवाब देते ही क्यों हैं
  मैं तो census enumerator के आने तक इंतज़ार करता हूँ और बस इतना बताता हूँ कि मेरे निवास पर कितने लोग रहते हैं
  उचित चुनावी प्रतिनिधित्व के लिए वही ज़रूरी है, उसके अलावा कुछ भी नहीं
- इस प्रशासन को तथ्यों में बिल्कुल दिलचस्पी नहीं है
इन बातों में सामंजस्य बिठाना बहुत मुश्किल है
कहा जाता है कि 2020 की जनगणना में differential privacy अपनाई गई थी, और अगर यह एक फ़िल्टर हटा दिया जाए तो उपयोगिता, गोपनीयता, या दोनों पर “भयानक परिणाम” होंगे
लेकिन जनगणना तो सैकड़ों वर्षों से होती आ रही है और सब ठीक था, और केवल पिछली जनगणना में यह privacy तत्व जोड़ा गया
अगर इनमें से एक को हटाने से अचानक भयानक स्थिति पैदा हो जाती है, तो यह अजीब लगता है। पहले तो ऐसी privacy सुविधा थी ही नहीं, तो क्या हम वस्तुतः सैकड़ों साल पहले की तुलना में कहीं बेहतर स्थिति में नहीं हैं?
इसलिए यह मुझे भावनात्मक रूप से बढ़ा-चढ़ाकर पेश की गई समस्या लगती है
- यकीन करना मुश्किल हो सकता है, लेकिन पिछले कई सौ वर्षों में गणितीय तकनीकें और computing power बढ़ी हैं, और सब कुछ digital भी हो गया है
  पहले जो privacy attacks लागत के कारण असंभव थे, वे अब मामूली पैसे में संभव हैं
  और जैसा बताया गया, लोग पहले से ही जनगणना डेटा का उपयोग gerrymandering के लिए करते आए हैं, इसलिए ऐसे हमले वास्तविक हैं और लंबे समय से चल रहे हैं
- 100 साल पहले जो चीज़ नहीं थी और आज है, वह है computer
  पहले व्यक्तिगत रिकॉर्ड का पुनर्निर्माण, कम-से-कम बड़े पैमाने पर, व्यावहारिक नहीं माना जा सकता था। अब ऐसा नहीं कहा जा सकता
  4-अंकों वाला password सैकड़ों साल तक सुरक्षित होता, लेकिन आज वही उसी कारण से सुरक्षा की दृष्टि से लापरवाही माना जाएगा
- यह चिंता, ज़्यादातर privacy चिंताओं की तरह, पहले बढ़ा-चढ़ाकर कही गई काल्पनिक वहम जैसी लगती है, फिर एक बिंदु पर आकर वैसी नहीं रह जाती
- computer, data science और machine learning में प्रगति लगभग पूरी कहानी समझा देती है
  आज डेटा को re-identify करने में इस्तेमाल होने वाली कई तकनीकों के लिए ऐसी computing capacity चाहिए जो पहले उपलब्ध नहीं थी
  संभव होने पर भी संसाधनों की सीमा scale को रोकती थी। यह मैं statistics degree रखने वाले व्यक्ति के रूप में कह रहा हूँ
  और connectivity भी है। internet, social media, web tracking, और hacking के कारण मिलान करने के लिए डेटा स्रोत बहुत अधिक हो गए हैं
  1970~80 के दशक में भी अमेरिकियों के रिकॉर्ड के निशान आज की तुलना में नाटकीय रूप से कम थे
- जैसा कि लेख में साफ़ लिखा है, privacy सुरक्षा उपाय 1990 से ही जनगणना में मौजूद थे
  बस पहले वाले सुरक्षा उपाय मज़बूत नहीं थे और तोड़े जा सकते थे, इसलिए उनकी जगह अधिक मज़बूत उपाय लाए गए
  1990 वह समय था जब personal computer आम हो रहे थे और व्यक्तियों के लिए उपलब्ध computing power विस्फोटक रूप से बढ़ रही थी, और तभी जनगणना द्वारा जारी डेटा से व्यक्तिगत जानकारी अलग निकालना संभव होने लगा
  इसलिए समस्या उसी समय पैदा हुई। यह बढ़ा-चढ़ाकर पेश की गई समस्या नहीं है
किसी खास यूरोपीय देश से आने वाले व्यक्ति के नज़रिए से, यह पता नहीं होता कि जनगणना में कौन-सा उत्तर आगे चलकर समस्या बन जाएगा
“आपका धर्म क्या है” पूरी तरह निरापद लग सकता है, लेकिन 1940 के दशक में जब किसी विदेशी कब्ज़ा करने वाली ताकत ने उस उत्तर को व्यक्तियों से जोड़ना संभव बना लिया, तो वही बाद में घातक उत्तर बन गया
- अगर ऐसी कोई विदेशी कब्ज़ा करने वाली ताकत हो, तो क्या वह बस बिना संशोधित raw data की माँग नहीं करेगी?
- अमेरिकी जनगणना में धर्म नहीं पूछा जाता
  2020 के सवाल ये थे: 1 अप्रैल के अनुसार इस घर·अपार्टमेंट·mobile home में कितने लोग रहते थे या ठहरे हुए थे, क्या कोई अतिरिक्त व्यक्ति छूट गया, आवास का प्रकार क्या है, फ़ोन नंबर, व्यक्ति 1 का नाम, लिंग, आयु और जन्मतिथि, Hispanic·Latino·Spanish मूल है या नहीं, और race
  झूठ बोलने से रोकने वाली भी खास कोई चीज़ नहीं है
- अमेरिका में जनगणना के ज़रिए धर्म पूछना क़ानून के ख़िलाफ़ है
  किसी को भी अपने धार्मिक विश्वासों या किसी धार्मिक संगठन की सदस्यता के बारे में जानकारी उजागर करने के लिए मजबूर नहीं किया जाना चाहिए
  https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
- फ्रांस पहले बहुत सूचियाँ बनाता था। उसे सूचियाँ पसंद थीं, और वह उन्हें अच्छा मानता था
  यहूदी लोगों की सूचियाँ भी इस सोच से बनाई गईं कि वे कभी न कभी किसी काम आएँगी, और जर्मनों को वे मिलकर बहुत खुशी हुई
  अमेरिका का लोगों से उनकी मानी गई पृष्ठभूमि, जैसे AAPI, AA, Latino आदि, पूछने का जुनून अजीब से आगे बढ़कर खुला ख़तरा लगता है
  ऐसे सवाल पूछे ही नहीं जाने चाहिए, और इन्हें नाम के साथ कभी दर्ज नहीं करना चाहिए
  शुक्र है, अब उनके लिए यह और आसान हो गया है: data brokers से खरीद लो और Palantir से targeting करा लो
- “आपका धर्म क्या है” जनगणना में बिल्कुल भी उचित प्रश्न नहीं लगता
मेरा मानना है कि यह कहना उलटा है कि differential privacy trade-off को स्पष्ट बनाती है
differential privacy जैसी तकनीकें, इस क्षेत्र को गहराई से समझने वाले कुछ विशेषज्ञों को छोड़कर, इस तथ्य को छिपा देती हैं कि trade-off मौजूद है
मैं इस फैसले का बचाव करने लायक पर्याप्त जानकारी नहीं रखता, लेकिन अगर वास्तव में कोई trade-off है, तो जब ऐसी तकनीकों तक पहुंच नहीं रहेगी, तब शायद सांख्यिकीविद् न होने वाले लोग भी उस trade-off का सामना कर पाएंगे
अगर आम जनता से जुड़े डेटा इतने जोखिमपूर्ण हैं कि उनके नतीजों को छिपाना पड़े, तो शायद वे ऐसे डेटा हैं जिन्हें शुरुआत में इकट्ठा ही नहीं करना चाहिए
लोगों का निजी डेटा अनजाने में नियमित रूप से सार्वजनिक हो जाता है. Netflix viewing history और medical records इसके प्रमुख उदाहरण हैं
लोग लगातार इस बात को कम करके आंकते हैं कि कितनी जानकारी लीक हो जाती है, इसलिए वे trade-off का सही आकलन नहीं कर पाते
इसलिए ऐसा तरीका सही है जो केवल सुरक्षित मात्रा में ही जानकारी लीक होने दे
डेटा को साझा या इकट्ठा न करना कुछ मामलों में बेहतर हो सकता है, लेकिन इस डेटा का स्पष्ट मूल्य है, इसलिए इसे संग्रहीत और सार्वजनिक करने की आदर्श मात्रा 0 नहीं है
व्यक्तिगत रूप से मुझे लगता है कि tech companies में बड़े संगठनात्मक स्तर पर data science के प्रभाव के घटने का एक बड़ा कारण यह था कि data science team को डेटा के gatekeeper की तरह माना जाता था
जब statistical thinking की जिम्मेदारी outsource कर दी जाती है, तो एक व्यक्ति को यह अजीब-सी शक्ति मिल जाती है कि वह बाकी लोगों को ठीक से समझने की जरूरत पड़े बिना पहले ही trade-off तय कर दे
उस तर्क से तो किसी को भी किसी भी कारण से कभी भी address इकट्ठा नहीं करना चाहिए
अगर किसी भी संदर्भ में personally identifiable information का आदान-प्रदान या संग्रहण ही नहीं हो सकता, तो समाज चलेगा कैसे?
anonymization और security बेहद महत्वपूर्ण हैं, और वे कई अहम कार्यों को संभव बनाते हैं
ऐसी दुनिया में जहां संभावित रूप से खतरनाक जानकारी कभी दी या इकट्ठा ही न की जाए, डाक कैसे प्राप्त की जाएगी?

Census Bureau के जारी किए गए सांख्यिकीय उत्पादों में noise injection पर रोक

पृष्ठभूमि

differential privacy और 2020 Census

utility में गिरावट और विरोध

आदेश की सामग्री

वास्तविक प्रभाव

differential privacy की स्थिति

दूसरी तकनीकें भी randomness का उपयोग करती हैं

generalization और suppression की सीमाएँ

noise attacks को कठिन क्यों बनाता है

यह क्यों हो रहा है

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय