Snowden दस्तावेज़ों में PDF metadata version analysis से सामने आई नई जानकारी

(libroot.org)

1 पॉइंट द्वारा GN⁺ 2026-01-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

सार्वजनिक किए गए Snowden दस्तावेज़ों के PDF metadata version history के विश्लेषण से यह पुष्टि हुई कि अमेरिका के भीतर खुफिया एजेंसी ground station से जुड़े सेक्शन जानबूझकर हटाए गए थे
हटाई गई सामग्री में Potomac Mission Ground Station(PMGS) और Consolidated Denver Mission Ground Station(CDMGS) के operational नाम और cover नाम की संरचना शामिल थी
दोनों दस्तावेज़ों के शुरुआती version में यह जानकारी मौजूद थी, लेकिन अंतिम सार्वजनिक संस्करणों में इसे पूरी तरह हटा दिया गया, और इसके निशान केवल PDF के internal version history में बचे
इसके विपरीत, ब्रिटेन के Menwith Hill और ऑस्ट्रेलिया के Pine Gap जैसी विदेशी सुविधाओं से जुड़ी जानकारी जस की तस रही, जिससे केवल घरेलू सुविधाओं को व्यवस्थित रूप से edit किए जाने का पैटर्न सामने आया
यह खोज इसलिए महत्वपूर्ण है क्योंकि यह दिखाती है कि Snowden दस्तावेज़ों के प्रकाशन के दौरान हुई editing और censorship प्रक्रिया को तकनीकी रूप से trace किया जा सकता है

अमेरिका के भीतर सूचना-सुविधाओं से जुड़ी हटाई गई सामग्री

दोनों दस्तावेज़ों के metadata analysis से यह पुष्टि हुई कि घरेलू intelligence facility सेक्शन पूरी तरह हटा दिए गए थे
- 2016 में सार्वजनिक किए गए Menwith satellite classification guide में PMGS(वॉशिंगटन DC) से जुड़ा सेक्शन हटाया गया
- 2017 में सार्वजनिक किए गए NRO SIGINT Guide for Pine Gap में CDMGS(डेनवर क्षेत्र) से जुड़ा सेक्शन हटाया गया
हटाए गए हिस्सों में facilities के official नाम, cover नाम, location, visitor जानकारी आदि शामिल थे
दोनों सुविधाओं को National Reconnaissance Office(NRO) की Mission Ground Station के रूप में चिह्नित किया गया था,
- PMGS का cover नाम “Classic Wizard Reporting and Testing Center(CWRTC) ”
- CDMGS का cover नाम “Aerospace Data Facility(ADF) ” के रूप में दर्ज था

Potomac Mission Ground Station (PMGS)

स्थान: Washington DC Naval Research Laboratory के भवन 259 और 260 के भीतर
सार्वजनिक नाम: “Classic Wizard Reporting and Testing Center(CWRTC) ”
वास्तविक कार्य: NRO satellite intelligence network का ground station
दस्तावेज़ में हर नाम का security classification दिया गया है
- “CWRTC” = गोपनीय नहीं(UNCLASSIFIED)
- “PMGS” = गोपनीय(S//TK)
- “CWRTC, PMGS का cover नाम है” = गोपनीय(S//TK)
- “CWRTC का NRO·CIA·NSA कर्मियों से संबंध” = गोपनीय(S//TK)
इस तरह की multi-layer classification structure को सार्वजनिक नाम और वास्तविक mission को अलग रखकर संचालन करने वाली व्यवस्था के रूप में समझाया गया है

Consolidated Denver Mission Ground Station (CDMGS)

स्थान: Colorado के Aurora में Buckley Space Force Base
सार्वजनिक नाम: “Aerospace Data Facility (ADF) ”
वास्तविक नाम: “Consolidated Denver Mission Ground Station (CDMGS) ”
सार्वजनिक रूप से ADF-C को reconnaissance satellite command और control facility के रूप में जाना जाता रहा है,
- लेकिन “ADF, CDMGS का cover नाम है” यह तथ्य पहली बार दस्तावेज़ में पुष्टि हुआ
दस्तावेज़ के भीतर तालिका में हर सुविधा का वास्तविक नाम और cover नाम साथ-साथ दिखाया गया है,
- CDMGS–ADF–FSD(Field Station Denver)
- PMGS–MSF–CWRTC
- HMGS–RAF MHS, AMGS–JDFPG जैसी संरचना में व्यवस्थित

Editing और metadata analysis के परिणाम

PDF metadata में editing का समय और इस्तेमाल किए गए tools दर्ज हैं
- Pine Gap दस्तावेज़ में 31 जुलाई 2017 को Nitro Pro 8 से दो version कुछ मिनटों के अंतर पर बनाए गए
- पहले version में CDMGS सेक्शन मौजूद था, लेकिन दूसरे version में हटा दिया गया
- यह भी पुष्टि हुई कि The Intercept और ABC ने एक ही फ़ाइल साझा करके उसे प्रकाशित किया
Menwith Hill दस्तावेज़ में भी यही पैटर्न दिखाई देता है, जहाँ केवल घरेलू facility सेक्शन हटाए गए
यह metadata editing और censorship प्रक्रिया के forensic evidence के रूप में काम करता है

आगे का शोध और tools

आगे के विश्लेषण में PDF metadata के पूरे version tracking के ज़रिए
- हटाए गए agent नाम, edit किए गए screenshots, और multi-stage modification के निशानों को तकनीकी रूप से verify करने की योजना है
PDF version extraction के लिए pdfresurrect tool का इस्तेमाल किया जा सकता है
- उदाहरण: pdfresurrect -w filename.pdf
Libroot.org हर दस्तावेज़ की version 1 और 2 फ़ाइलें सीधे डाउनलोड करने की सुविधा देता है
- Menwith Hill और Pine Gap दस्तावेज़ों के दोनों version सार्वजनिक हैं

1 टिप्पणियां

GN⁺ 2026-01-12

Hacker News की राय

लगता है कि इन PDF में “incremental update” फीचर का उपयोग किया गया था
यानी दस्तावेज़ संपादित करते समय मूल फ़ाइल को ओवरराइट करने के बजाय केवल बदलाव अंत में जोड़ दिए जाते हैं
सरल शब्दों में, टेक्स्ट एडिटर में “%%EOF” लाइन ढूंढकर उसके बाद का हिस्सा काट दें, तो PDF का पुराना वर्ज़न बहाल किया जा सकता है
बस, linearized PDF में पहला %%EOF असली वर्ज़न नहीं होता, बल्कि तकनीकी कारणों से मौजूद एक नकली revision होता है
- ऐसा लग रहा है जैसे एक नई OSINT skill मिल गई हो
- Adobe ने MS Word की सुविधा पकड़ने की कोशिश में गलती से ऐसा जासूसी टूल बना दिया, यह मज़ेदार है
सूचना सुरक्षा के नज़रिए से देखें, तो दस्तावेज़ को प्रिंट करके स्कैन कर इमेज PDF बनाना अब और बेहतर तरीका लगता है
- लेकिन हर color printer में अदृश्य पीला डॉट कोड(dotcode) होता है
  इस कोड में printer का serial number, या यहाँ तक कि इंटरनेट से जुड़ने के समय का IP address भी शामिल हो सकता है
  इसलिए ऐसे printer से बचना चाहिए जिनके firmware पर आपका नियंत्रण न हो
  संबंधित analysis tools में YellowDotDecode, dotsecrets, CCC 2007 प्रस्तुति सामग्री शामिल हैं
- इससे बेहतर तरीका यह हो सकता है कि PDF को JPEG/PNG → BMP में बदलकर फिर साझा या प्रिंट किया जाए
  या LLM से दस्तावेज़ को दोबारा बनवाकर punctuation और spaces हटाए जाएँ, फिर उसके नतीजे को दोबारा image बना दिया जाए
  फिल्म कैमरे से मॉनिटर की analog photography करना forgery रोकने और evidence सुरक्षित रखने में उपयोगी हो सकता है
  लेकिन किसी भी तरीके से कुछ न कुछ निशान रह ही जाते हैं, इसलिए बिना अनुमति के सूचना साझा करने से हर हाल में बचना चाहिए
  आखिरकार, ऐसा लगता है कि जासूसों के फिर से microfilm पर लौटने का दौर आ गया है
- मैं होता तो PDF को TIFF या PNG के रूप में सेव करके फिर से PDF बनाता
  अगर सच में बहुत चिंता होती, तो image पर noise filter लगाकर उसे थोड़ा धुंधला कर देता
- क्या हर पेज का screenshot लेना ज़्यादा आसान नहीं होगा?
- ऐसा करने पर Section 508 accessibility regulations को बड़े पैमाने पर पूरा करना काफ़ी विडंबनापूर्ण होगा
PDF दस्तावेज़ों का विश्लेषण करने के लिए बेहतर tooling की ज़रूरत है
अभी कुछ हद तक qpdf के QDF mode से काम चल जाता है, लेकिन GUI की सख्त ज़रूरत है
- REMNux PDF analysis page देखना उपयोगी हो सकता है
  यह malicious PDF analysis के लिए है, लेकिन सामान्य दस्तावेज़ समझने में भी कई टूल काम आते हैं
- वह टूल ज़्यादातर editing के लिए लगता है, इसलिए यह जानने की जिज्ञासा है कि उसे किस संदर्भ में इस्तेमाल किया जाता है
  Epstein PDF घटना के बाद यह विचार और दिलचस्प लगने लगा है
यह शोध वास्तव में बहुत insightful है
इससे यह भी याद आता है कि पहले किसी ने Snowden दस्तावेज़ों का दोबारा विश्लेषण कर नई जानकारी निकाली थी
अफ़सोस है कि वह सारी सामग्री पूरी तरह सार्वजनिक नहीं कर सका
- हाल की पूरी तरह नई जानकारी Jacob Appelbaum की 2022 की doctoral thesis से आई थी
  उसमें पहले कभी सार्वजनिक न हुई सामग्री शामिल थी
  संबंधित लेख Electrospaces ब्लॉग और
  Libroot Part 2, Part 3 में देखे जा सकते हैं
पत्रकार Ryan Gallagher से editorial decision के बारे में पूछा गया था, लेकिन अभी तक जवाब नहीं मिला
छुट्टियाँ ख़त्म हो गई हैं, तो अब उम्मीद है कि कुछ खबर मिलेगी
- यह सवाल उठता है कि पत्रकारों ने दस्तावेज़ों को redact क्यों किया
  क्या यह सरकारी दबाव की वजह से था, या सामग्री इतनी संवेदनशील थी कि ऐसा करना पड़ा
  कहीं ऐसा तो नहीं कि मूल फ़ाइलें सिर्फ पत्रकारों के पास ही हैं
मैं सोच रहा था कि PDF में यह सब संभव कैसे है
क्या इसकी संरचना पूरी version history सहेजकर रखती है, या metadata में diff रखा जाता है?
- PDF कई object से बनी संरचना होती है
  हर object का एक ID होता है, और संशोधन के समय पुराने object को ओवरराइट करने के बजाय नई generation जोड़ दी जाती है
  उदाहरण के लिए, mutool clean -d in.pdf out.pdf से compression हटाकर इसकी संरचना देखी जा सकती है
  इस तरह मूल को बनाए रखते हुए संशोधित सामग्री बाद में जोड़ी जाती है
- पेज के नीचे दिए गए pdfresurrect पैकेज को देखें, उसमें बताया गया है कि PDF संशोधन इतिहास बनाए रख सकती है
  यह टूल पुराने वर्ज़न निकाल सकता है और बदलावों का सार भी देता है
- संबंधित संदर्भ के लिए A Typical PDF देखा जा सकता है
- अंततः PDF object table और reference tree से बनी होती है
  भले ही पुराने वर्ज़न के object अब refer न किए जा रहे हों, वे फ़ाइल के भीतर बचे रह सकते हैं
प्रिंट करके स्कैन करने की बजाय, XPS में प्रिंट करके फिर PDF में बदलना भी क्या कारगर हो सकता है?
हैरानी की बात है कि यह जानकारी अब जाकर सामने आई
- शायद किसी न किसी को यह पहले से पता रहा होगा
  बस यह जानकारी व्यापक रूप से फैली नहीं थी
- संभवतः Epstein PDF फ़ाइल मामले पर ध्यान गया, तो यह मुद्दा फिर उभर आया
क्या किसी ने % pdfresurrect -w epsteinfiles.pdf कमांड चलाकर देखा है?
- जिज्ञासा है कि क्या किसी ने इसे वास्तव में आज़माया है
यह लगभग तय है कि यह पत्रकारों की redaction का नतीजा था
अफ़सोस है कि “संपादित किया गया” जैसा कोई संकेत या कारण नहीं दिया गया
तकनीकी तौर पर भी, अगर इसे screenshot के रूप में प्रकाशित किया जाता तो metadata leak रोकी जा सकती थी
- वास्तव में संपादन पत्रकारों ने ही किया था
  metadata timestamp से पता चलता है कि दस्तावेज़ का वर्ज़न प्रकाशन से 3 हफ्ते पहले बनाया गया था
  ज़्यादातर दस्तावेज़ ठीक से संभाले गए थे, लेकिन इन दो दस्तावेज़ों में metadata की गलती से अहम जानकारी उजागर हो गई
  अगली पोस्ट में PDF forensics और metadata analysis पर तकनीकी गहराई से चर्चा की जाएगी

Snowden दस्तावेज़ों में PDF metadata version analysis से सामने आई नई जानकारी

अमेरिका के भीतर सूचना-सुविधाओं से जुड़ी हटाई गई सामग्री

Potomac Mission Ground Station (PMGS)

Consolidated Denver Mission Ground Station (CDMGS)

Editing और metadata analysis के परिणाम

आगे का शोध और tools

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय