- auto-identity-remove एक ऐसा टूल है जो नाम और क्षेत्रीय जानकारी के आधार पर data broker साइटों को खोजता है और opt-out फ़ॉर्म अपने-आप सबमिट करता है, ताकि हर महीने 500 से अधिक people-search साइटों और data broker databases से व्यक्तिगत जानकारी हटाने में मदद मिल सके
- इसकी execution flow में broker-वार खोज, खास प्रोफ़ाइल सूची का पता लगाना, opt-out फ़ॉर्म सबमिट करना, ज़रूरत पड़ने पर CAPTCHA हैंडल करना, हाल ही में पूरे किए गए आइटम छोड़ना, परिणामों की सूचना देना, और जिन साइटों पर manual processing चाहिए उनके लिए browser खोलना शामिल है
- स्टेटस ट्रैकिंग
state.json में आख़िरी सफल समय और run history सहेजती है, और डिफ़ॉल्ट recheck cycle 90 दिन है, इसलिए पूरा हो चुके opt-out हर बार दोबारा सबमिट नहीं किए जाते
- CAPTCHA वाले फ़ॉर्म CapSolver के ज़रिए प्रोसेस किए जा सकते हैं, जिसकी लागत लगभग प्रति solve $0.001 है; अगर इसे configure न किया जाए, तो वह साइट manual processing सूची में चली जाती है
- आवश्यकताएँ हैं Node.js 18+, macOS·Linux·Windows, और Playwright browser;
setup.js personal information input, alias, CapSolver key, one-time account, notifications, और monthly schedule registration के लिए मार्गदर्शन देता है
- monthly task को हर महीने की 1 तारीख़ सुबह 9 बजे चलने के लिए register किया जाता है, और platform के अनुसार launchd, systemd, crontab, और schtasks को अपने-आप detect करके इस्तेमाल किया जाता है
- Docker run भी सपोर्टेड है; इसमें आधिकारिक Playwright image का उपयोग होता है जिसमें Chromium और system dependencies शामिल हैं, और containers के बीच completion history बनाए रखने के लिए
state.json को mount करना होगा
- notifications में macOS के iMessage result summary का समर्थन है, और headless या Docker environment में
notify.webhook के जरिए ntfy.sh, Slack incoming webhook, और Discord webhook पर {"text": "<summary>"} POST किया जा सकता है
- broker support दो चरणों में बँटा है; STATUS.md में सूचीबद्ध 42 explicit brokers को अलग-अलग selectors से map किया गया है, और लगभग 490 के लिए heuristic तरीका अपनाया जाता है जो क्रम से Do Not Sell button, OneTrust·TrustArc·Osano, सामान्य फ़ॉर्म, और DSAR links खोजने की कोशिश करता है
✅ Submitted का मतलब सिर्फ़ इतना है कि broker ने फ़ॉर्म प्राप्त कर लिया है; यह deletion की गारंटी नहीं है। node watcher.js --verify रिकॉर्ड किए गए successful items को फिर से खोजकर VERIFIED CLEAR, STILL LISTED, और UNVERIFIABLE में वर्गीकृत करता है
- सपोर्टेड प्रमुख automatic targets में Spokeo, WhitePages, FastPeopleSearch, TruePeopleSearch, BeenVerified, Radaris, Acxiom, LexisNexis, ZoomInfo, और Clearbit शामिल हैं, जबकि Google Results About You और Google Outdated Content को manual processing के लिए खोला जाता है
- गैर-अमेरिकी users के लिए country code, Province/Region, Postal code, मूल phone number को ज्यों का त्यों सहेजना, और country selection field input का समर्थन है; लेकिन Spokeo·WhitePages·FastPeopleSearch जैसे US-only brokers को config में country
US न होने पर अपने-आप skip कर दिया जाता है
--dry-run केवल साइट navigation और फ़ॉर्म भरना करता है, सबमिट नहीं करता; जबकि experimental फीचर --pollute N कुछ ऐसे brokers पर fake records सबमिट करता है जिन्हें acceptsBogus: true के रूप में चिह्नित किया गया है, लेकिन terms violation और कानूनी जोखिम की संभावना स्पष्ट रूप से बताई गई है, इसलिए यह डिफ़ॉल्ट रूप से बंद है
- personal information वाला
config.json, opt-out history state.json, और execution logs, gitignore में शामिल हैं, और repository की license MIT है
1 टिप्पणियां
Hacker News की राय
जिस हिस्से में मदद चाहिए, वह यह है कि heuristic तरीका बहुत कुछ मिस कर देता है। अलग-अलग साइटों के अपने अनोखे flow होते हैं, इसलिए चार सामान्य strategies से सब कवर नहीं होता।
कौन-सी सामान्य साइटें वास्तव में सफल होती हैं और कौन-सी चुपचाप fail हो जाती हैं, इसे verify करने, high-value साइटों के लिए explicit broker definitions जोड़ने, macOS के अलावा दूसरे environments पर test करने, और email verification flow संभालने वाले लोगों की ज़रूरत है।
Repo: https://github.com/stephenlthorn/auto-identity-remove
रिपॉज़िटरी में कोई personal information नहीं है, setup script लोकल पर जानकारी इनपुट लेती है और उसे gitignore किया जाता है
Email verification के लिए फिलहाल ऐसा तरीका भी चल सकता है कि “फलाँ sender की mail में confirmation link पर क्लिक करें”। कई providers में फैले असली inbox को भरोसेमंद तरीके से पढ़ना लगभग एक email client बनाने जैसा है, इसलिए कठिन हो सकता है।
और शायद यह विषय से हटकर हो, लेकिन यह comment खुद भी AI-generated लगती है। अगर ऐसा है, तो यह साइट guidelines का उल्लंघन है।
आइडिया अच्छा है, लेकिन आम तौर पर उपयोगी बनने के लिए इसमें अभी बहुत काम चाहिए। लगता है numeric न होने वाले postal code और अमेरिका के बाहर के addresses ऑटोमेशन को काफी तोड़ देते हैं।
सहकर्मियों के साथ देखने पर पता चला कि opt-out form में सिर्फ़ पता चाहिए था। हमने सोचा था कि देश भर के जाने-पहचाने पते इकट्ठा करके कुछ महीनों में सबको opt out कराने के लिए auto-submit किया जाए, लेकिन वह कभी किया नहीं गया, और हम यह सोचकर हँसे कि Yellow Pages के web developers ने कितने प्रतिशत opt-out पर emergency meeting बुलाई होगी।
डिलीवरी करने वाले लोग काम संभाल नहीं पाए और आख़िर में phone books के ढेर लगाकर उन्हें जलाने लगे। किसी को phone books की कमी महसूस नहीं हुई, इसलिए पकड़े जाने में भी काफ़ी समय लगा।
Uline को साल में दो-तीन बार PO box पर विशाल paper catalogs भेजने से रोकने के लिए मैंने काफ़ी कोशिश की। Form तो है, लेकिन वे बस request को ignore कर देते हैं।
https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
इसका मतलब यह नहीं कि यह अब भी नहीं होता, लेकिन इससे इसके ख़िलाफ़ लड़ने का कानूनी आधार मिलता है। noyb.eu / Max Schrems वगैरह उस मोर्चे पर बहुत महत्वपूर्ण और शानदार काम कर रहे हैं।
reCAPTCHA v3 Enterprise और MtCaptcha की लागत पूरे 3 गुना है: 1000 solves पर $3। इसलिए यह ज़्यादा आकर्षक target वाला CAPTCHA लगता है।
systemd support आसान लगती है। Windows क्या इस्तेमाल करता है, यह मुझे ठीक से नहीं पता।
हालाँकि Task Scheduler से महीने में एक बार चलाने जैसे काम कई तरीक़ों से schedule किए जा सकते हैं।
Threat model थोड़ा धुंधला है, क्योंकि यह टूल exposure कम भी कर सकता है, लेकिन कोई टूटा हुआ selector personal information को ग़लत जगह leak भी कर सकता है।
इससे कहीं बेहतर समाधान अमेरिका में GDPR जैसे क़ानून को आगे बढ़ाना होगा।
यह consumers के लिए पहले से खुला है। आप अपने 2.75 लाख पड़ोसियों के साथ sign up कर सकते हैं।