- सार्वजनिक किए गए Snowden दस्तावेज़ों के PDF metadata version history के विश्लेषण से यह पुष्टि हुई कि अमेरिका के भीतर खुफिया एजेंसी ground station से जुड़े सेक्शन जानबूझकर हटाए गए थे
- हटाई गई सामग्री में Potomac Mission Ground Station(PMGS) और Consolidated Denver Mission Ground Station(CDMGS) के operational नाम और cover नाम की संरचना शामिल थी
- दोनों दस्तावेज़ों के शुरुआती version में यह जानकारी मौजूद थी, लेकिन अंतिम सार्वजनिक संस्करणों में इसे पूरी तरह हटा दिया गया, और इसके निशान केवल PDF के internal version history में बचे
- इसके विपरीत, ब्रिटेन के Menwith Hill और ऑस्ट्रेलिया के Pine Gap जैसी विदेशी सुविधाओं से जुड़ी जानकारी जस की तस रही, जिससे केवल घरेलू सुविधाओं को व्यवस्थित रूप से edit किए जाने का पैटर्न सामने आया
- यह खोज इसलिए महत्वपूर्ण है क्योंकि यह दिखाती है कि Snowden दस्तावेज़ों के प्रकाशन के दौरान हुई editing और censorship प्रक्रिया को तकनीकी रूप से trace किया जा सकता है
अमेरिका के भीतर सूचना-सुविधाओं से जुड़ी हटाई गई सामग्री
- दोनों दस्तावेज़ों के metadata analysis से यह पुष्टि हुई कि घरेलू intelligence facility सेक्शन पूरी तरह हटा दिए गए थे
- 2016 में सार्वजनिक किए गए Menwith satellite classification guide में PMGS(वॉशिंगटन DC) से जुड़ा सेक्शन हटाया गया
- 2017 में सार्वजनिक किए गए NRO SIGINT Guide for Pine Gap में CDMGS(डेनवर क्षेत्र) से जुड़ा सेक्शन हटाया गया
- हटाए गए हिस्सों में facilities के official नाम, cover नाम, location, visitor जानकारी आदि शामिल थे
- दोनों सुविधाओं को National Reconnaissance Office(NRO) की Mission Ground Station के रूप में चिह्नित किया गया था,
- PMGS का cover नाम “Classic Wizard Reporting and Testing Center(CWRTC) ”
- CDMGS का cover नाम “Aerospace Data Facility(ADF) ” के रूप में दर्ज था
Potomac Mission Ground Station (PMGS)
- स्थान: Washington DC Naval Research Laboratory के भवन 259 और 260 के भीतर
- सार्वजनिक नाम: “Classic Wizard Reporting and Testing Center(CWRTC) ”
- वास्तविक कार्य: NRO satellite intelligence network का ground station
- दस्तावेज़ में हर नाम का security classification दिया गया है
- “CWRTC” = गोपनीय नहीं(UNCLASSIFIED)
- “PMGS” = गोपनीय(S//TK)
- “CWRTC, PMGS का cover नाम है” = गोपनीय(S//TK)
- “CWRTC का NRO·CIA·NSA कर्मियों से संबंध” = गोपनीय(S//TK)
- इस तरह की multi-layer classification structure को सार्वजनिक नाम और वास्तविक mission को अलग रखकर संचालन करने वाली व्यवस्था के रूप में समझाया गया है
Consolidated Denver Mission Ground Station (CDMGS)
- स्थान: Colorado के Aurora में Buckley Space Force Base
- सार्वजनिक नाम: “Aerospace Data Facility (ADF) ”
- वास्तविक नाम: “Consolidated Denver Mission Ground Station (CDMGS) ”
- सार्वजनिक रूप से ADF-C को reconnaissance satellite command और control facility के रूप में जाना जाता रहा है,
- लेकिन “ADF, CDMGS का cover नाम है” यह तथ्य पहली बार दस्तावेज़ में पुष्टि हुआ
- दस्तावेज़ के भीतर तालिका में हर सुविधा का वास्तविक नाम और cover नाम साथ-साथ दिखाया गया है,
- CDMGS–ADF–FSD(Field Station Denver)
- PMGS–MSF–CWRTC
- HMGS–RAF MHS, AMGS–JDFPG जैसी संरचना में व्यवस्थित
Editing और metadata analysis के परिणाम
- PDF metadata में editing का समय और इस्तेमाल किए गए tools दर्ज हैं
- Pine Gap दस्तावेज़ में 31 जुलाई 2017 को Nitro Pro 8 से दो version कुछ मिनटों के अंतर पर बनाए गए
- पहले version में CDMGS सेक्शन मौजूद था, लेकिन दूसरे version में हटा दिया गया
- यह भी पुष्टि हुई कि The Intercept और ABC ने एक ही फ़ाइल साझा करके उसे प्रकाशित किया
- Menwith Hill दस्तावेज़ में भी यही पैटर्न दिखाई देता है, जहाँ केवल घरेलू facility सेक्शन हटाए गए
- यह metadata editing और censorship प्रक्रिया के forensic evidence के रूप में काम करता है
आगे का शोध और tools
- आगे के विश्लेषण में PDF metadata के पूरे version tracking के ज़रिए
- हटाए गए agent नाम, edit किए गए screenshots, और multi-stage modification के निशानों को तकनीकी रूप से verify करने की योजना है
- PDF version extraction के लिए pdfresurrect tool का इस्तेमाल किया जा सकता है
- उदाहरण:
pdfresurrect -w filename.pdf
- उदाहरण:
- Libroot.org हर दस्तावेज़ की version 1 और 2 फ़ाइलें सीधे डाउनलोड करने की सुविधा देता है
- Menwith Hill और Pine Gap दस्तावेज़ों के दोनों version सार्वजनिक हैं
1 टिप्पणियां
Hacker News की राय
लगता है कि इन PDF में “incremental update” फीचर का उपयोग किया गया था
यानी दस्तावेज़ संपादित करते समय मूल फ़ाइल को ओवरराइट करने के बजाय केवल बदलाव अंत में जोड़ दिए जाते हैं
सरल शब्दों में, टेक्स्ट एडिटर में “%%EOF” लाइन ढूंढकर उसके बाद का हिस्सा काट दें, तो PDF का पुराना वर्ज़न बहाल किया जा सकता है
बस, linearized PDF में पहला %%EOF असली वर्ज़न नहीं होता, बल्कि तकनीकी कारणों से मौजूद एक नकली revision होता है
सूचना सुरक्षा के नज़रिए से देखें, तो दस्तावेज़ को प्रिंट करके स्कैन कर इमेज PDF बनाना अब और बेहतर तरीका लगता है
इस कोड में printer का serial number, या यहाँ तक कि इंटरनेट से जुड़ने के समय का IP address भी शामिल हो सकता है
इसलिए ऐसे printer से बचना चाहिए जिनके firmware पर आपका नियंत्रण न हो
संबंधित analysis tools में YellowDotDecode, dotsecrets, CCC 2007 प्रस्तुति सामग्री शामिल हैं
या LLM से दस्तावेज़ को दोबारा बनवाकर punctuation और spaces हटाए जाएँ, फिर उसके नतीजे को दोबारा image बना दिया जाए
फिल्म कैमरे से मॉनिटर की analog photography करना forgery रोकने और evidence सुरक्षित रखने में उपयोगी हो सकता है
लेकिन किसी भी तरीके से कुछ न कुछ निशान रह ही जाते हैं, इसलिए बिना अनुमति के सूचना साझा करने से हर हाल में बचना चाहिए
आखिरकार, ऐसा लगता है कि जासूसों के फिर से microfilm पर लौटने का दौर आ गया है
अगर सच में बहुत चिंता होती, तो image पर noise filter लगाकर उसे थोड़ा धुंधला कर देता
PDF दस्तावेज़ों का विश्लेषण करने के लिए बेहतर tooling की ज़रूरत है
अभी कुछ हद तक
qpdfके QDF mode से काम चल जाता है, लेकिन GUI की सख्त ज़रूरत हैयह malicious PDF analysis के लिए है, लेकिन सामान्य दस्तावेज़ समझने में भी कई टूल काम आते हैं
Epstein PDF घटना के बाद यह विचार और दिलचस्प लगने लगा है
यह शोध वास्तव में बहुत insightful है
इससे यह भी याद आता है कि पहले किसी ने Snowden दस्तावेज़ों का दोबारा विश्लेषण कर नई जानकारी निकाली थी
अफ़सोस है कि वह सारी सामग्री पूरी तरह सार्वजनिक नहीं कर सका
उसमें पहले कभी सार्वजनिक न हुई सामग्री शामिल थी
संबंधित लेख Electrospaces ब्लॉग और
Libroot Part 2, Part 3 में देखे जा सकते हैं
पत्रकार Ryan Gallagher से editorial decision के बारे में पूछा गया था, लेकिन अभी तक जवाब नहीं मिला
छुट्टियाँ ख़त्म हो गई हैं, तो अब उम्मीद है कि कुछ खबर मिलेगी
क्या यह सरकारी दबाव की वजह से था, या सामग्री इतनी संवेदनशील थी कि ऐसा करना पड़ा
कहीं ऐसा तो नहीं कि मूल फ़ाइलें सिर्फ पत्रकारों के पास ही हैं
मैं सोच रहा था कि PDF में यह सब संभव कैसे है
क्या इसकी संरचना पूरी version history सहेजकर रखती है, या metadata में diff रखा जाता है?
हर object का एक ID होता है, और संशोधन के समय पुराने object को ओवरराइट करने के बजाय नई generation जोड़ दी जाती है
उदाहरण के लिए,
mutool clean -d in.pdf out.pdfसे compression हटाकर इसकी संरचना देखी जा सकती हैइस तरह मूल को बनाए रखते हुए संशोधित सामग्री बाद में जोड़ी जाती है
यह टूल पुराने वर्ज़न निकाल सकता है और बदलावों का सार भी देता है
भले ही पुराने वर्ज़न के object अब refer न किए जा रहे हों, वे फ़ाइल के भीतर बचे रह सकते हैं
प्रिंट करके स्कैन करने की बजाय, XPS में प्रिंट करके फिर PDF में बदलना भी क्या कारगर हो सकता है?
हैरानी की बात है कि यह जानकारी अब जाकर सामने आई
बस यह जानकारी व्यापक रूप से फैली नहीं थी
क्या किसी ने
% pdfresurrect -w epsteinfiles.pdfकमांड चलाकर देखा है?यह लगभग तय है कि यह पत्रकारों की redaction का नतीजा था
अफ़सोस है कि “संपादित किया गया” जैसा कोई संकेत या कारण नहीं दिया गया
तकनीकी तौर पर भी, अगर इसे screenshot के रूप में प्रकाशित किया जाता तो metadata leak रोकी जा सकती थी
metadata timestamp से पता चलता है कि दस्तावेज़ का वर्ज़न प्रकाशन से 3 हफ्ते पहले बनाया गया था
ज़्यादातर दस्तावेज़ ठीक से संभाले गए थे, लेकिन इन दो दस्तावेज़ों में metadata की गलती से अहम जानकारी उजागर हो गई
अगली पोस्ट में PDF forensics और metadata analysis पर तकनीकी गहराई से चर्चा की जाएगी