- अमेरिकी न्याय विभाग द्वारा Epstein Files Transparency Act के तहत जारी किए गए PDF दस्तावेज़ों पर, फ़ाइल संरचना और सिंटैक्स-केंद्रित डिजिटल फॉरेंसिक विश्लेषण किया गया
- विश्लेषण के अनुसार, जारी किए गए EFTA dataset 01–07 के PDF सही तरीके से redact किए गए हैं, और सोशल मीडिया पर किया गया “recoverable redaction” का दावा तथ्यात्मक नहीं है
- सभी PDF में encryption, annotations, JavaScript, और attachments नहीं हैं, और अधिकांश scan image-आधारित हैं जिन पर OCR लागू किया गया है, जबकि कुछ फ़ाइलों में hidden metadata (dictionary) मौजूद है
- Bates numbering, uncompressed object streams, incorrect version marking, missing comment handling जैसी तकनीकी बारीकियाँ मिलीं, लेकिन इनका फ़ाइल वैधता पर बड़ा असर नहीं है
- यह मामला PDF forensics की जटिलता और tool reliability की सीमाएँ दिखाता है, और संवेदनशील दस्तावेज़ सार्वजनिक करने से पहले सटीक sanitization और redaction workflow की अहमियत पर ज़ोर देता है
DoJ सार्वजनिक डेटा का अवलोकन
- न्याय विभाग ने 19 दिसंबर 2025 को 7 ZIP archives (कुल 2.97GB) जारी किए, जिनमें 4,085 PDF, 1 AVI फ़ाइल, और हर सेट के लिए
.DAT तथा .OPT डेटा फ़ाइलें शामिल थीं
- PDF फ़ाइल नाम
EFTA00000001.pdf से EFTA00009664.pdf तक क्रमवार हैं
- लगभग 5,879 PDF अभी भी सार्वजनिक नहीं किए गए पाए गए
- PDF अधिकांशतः scan image-आधारित दस्तावेज़ हैं, जिनमें OCR के ज़रिए कुछ searchable text शामिल है
- “black box” शैली की redaction लागू की गई है, और यह pixel स्तर पर सही तरीके से की गई पाई गई
- कोई “born-digital” दस्तावेज़ नहीं मिला
फ़ाइल वैधता और version विश्लेषण
- कई PDF forensic tools से की गई validation में केवल एक मामूली त्रुटि मिली
- 109 फ़ाइलों में FontDescriptor Descent value positive सेट थी, लेकिन यह मामूली font matching त्रुटि है और कुल वैधता को प्रभावित नहीं करती
pdfinfo टूल के दो प्रकारों की तुलना में PDF version reading अलग-अलग निकली
- Tool A ने 1.3 version की 209 फ़ाइलें और 1.5 version की 3,875 फ़ाइलें बताईं
- Tool B ने 1.3 version की 3,817 फ़ाइलें और 1.5 version की 267 फ़ाइलें बताईं
- यह अंतर incremental update में Version entry को संभालने के तरीके के कारण है, और Tool A का परिणाम सही है
- सभी PDF में encryption, tags, annotations, bookmarks, forms, JavaScript, और attachments नहीं हैं
- कुल पृष्ठ संख्या 9,659 है, और इनमें से अधिकांश single-page दस्तावेज़ हैं
Incremental update और Bates numbering
- PDF में कई बार के incremental update के ज़रिए संशोधन इतिहास संचित किया गया है
- पहला PDF (
EFTA00000001.pdf) 2 incremental updates शामिल करता है
- अंतिम update में हर पृष्ठ पर Bates number जोड़ा गया
- Bates numbering जोड़ने के लिए
/Type /XRef cross-reference stream का उपयोग किया गया, और यह पैटर्न सभी sample PDF में समान मिला
- पहले incremental update में PDF version 1.3 से 1.5 में बदला गया, लेकिन header से मेल न खाने वाली तकनीकी त्रुटि मौजूद है
- साथ ही hidden document information dictionary (Info dictionary) मौजूद है, लेकिन final trailer में refer न होने के कारण सामान्य PDF viewer में दिखाई नहीं देती
- इस dictionary में
/Creator (OmniPage CSDK 21.1) और /Producer (Processing-CLI) जानकारी शामिल है
Metadata और तारीख विश्लेषण
pdfinfo परिणामों के अनुसार, अधिकांश PDF में explicit metadata या XMP stream नहीं है
- हालांकि, कुछ फ़ाइलों में orphaned Info dictionary मौजूद है और
/Info entry कई बार दिखाई देती है
- केवल
EFTA00003212.pdf फ़ाइल में Title, Author, Subject, Keywords, Creator entries शामिल हैं
- 215 फ़ाइलों में
/Producer value “pypdf” दिखाई देती है
- creation date (
CreationDate) और modification date (ModDate) दोनों समान हैं, और 18–19 दिसंबर 2025 के बीच की पाई गईं
- इससे संकेत मिलता है कि DoJ की batch processing लगभग 36 घंटे तक चली
Image और scan विशेषताएँ
- सभी PDF में JPEG (DCTDecode) images अनुपस्थित हैं, और इनके स्थान पर FLATE-compressed bitmap उपयोग किए गए हैं
- resolution लगभग 96 DPI है, और color palette 256 रंगों तक सीमित है
- माना जाता है कि यह EXIF, IPTC, और XMP metadata हटाने के उद्देश्य से किया गया
- कुछ दस्तावेज़ों में वास्तविक scan के निशान (कागज़ के किनारे, छेद, लिखावट आदि) हैं, जबकि कुछ digital rendering के बाद scan-simulated images जैसे लगते हैं
- समान skew और noise की अनुपस्थिति से इन्हें अलग किया जा सकता है
- Courier monospace font के उपयोग के कारण redacted अक्षरों की संख्या गिनकर अनुमान लगाने का जोखिम मौजूद है
OCR गुणवत्ता और redaction की सटीकता
- OCR परिणामों में accuracy कम है और language recognition क्षमता नहीं है, यानी यह केवल साधारण character recognition स्तर का है
- पहले PDF (
EFTA00000001.pdf) का OCR text ज्यादातर गलत है
- “black box” redaction सीधे image pixel स्तर पर लागू की गई है, यह text objects के ऊपर डाला गया rectangle नहीं है
- इसलिए recover किया जा सकने वाला text मौजूद नहीं है
निष्कर्ष और संकेत
- DoJ की PDF generation pipeline में JPEG removal, metadata minimization, image-based rendering, और OCR application शामिल हैं
- हालांकि, अनावश्यक objects, empty streams, और incremental update remnants के कारण फ़ाइल आकार और जटिलता बढ़ गई है
- कुछ PDF comments और orphaned objects बचे हुए हैं, जिससे सूचना लीक होने की संभावना रहती है
- tool results में अंतर और format complexity के कारण PDF forensics में गलत निष्कर्ष का जोखिम अधिक है
- इसी उद्देश्य से PDF Association PDF Forensic Liaison Working Group चला रहा है, जो industry standardization और training को आगे बढ़ा रहा है
अभी कोई टिप्पणी नहीं है.