एप्स्टीन PDF का डिजिटल फॉरेंसिक केस स्टडी

(pdfa.org)

1 पॉइंट द्वारा GN⁺ 2026-02-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

अमेरिकी न्याय विभाग द्वारा Epstein Files Transparency Act के तहत जारी किए गए PDF दस्तावेज़ों पर, फ़ाइल संरचना और सिंटैक्स-केंद्रित डिजिटल फॉरेंसिक विश्लेषण किया गया
विश्लेषण के अनुसार, जारी किए गए EFTA dataset 01–07 के PDF सही तरीके से redact किए गए हैं, और सोशल मीडिया पर किया गया “recoverable redaction” का दावा तथ्यात्मक नहीं है
सभी PDF में encryption, annotations, JavaScript, और attachments नहीं हैं, और अधिकांश scan image-आधारित हैं जिन पर OCR लागू किया गया है, जबकि कुछ फ़ाइलों में hidden metadata (dictionary) मौजूद है
Bates numbering, uncompressed object streams, incorrect version marking, missing comment handling जैसी तकनीकी बारीकियाँ मिलीं, लेकिन इनका फ़ाइल वैधता पर बड़ा असर नहीं है
यह मामला PDF forensics की जटिलता और tool reliability की सीमाएँ दिखाता है, और संवेदनशील दस्तावेज़ सार्वजनिक करने से पहले सटीक sanitization और redaction workflow की अहमियत पर ज़ोर देता है

DoJ सार्वजनिक डेटा का अवलोकन

न्याय विभाग ने 19 दिसंबर 2025 को 7 ZIP archives (कुल 2.97GB) जारी किए, जिनमें 4,085 PDF, 1 AVI फ़ाइल, और हर सेट के लिए .DAT तथा .OPT डेटा फ़ाइलें शामिल थीं
- PDF फ़ाइल नाम EFTA00000001.pdf से EFTA00009664.pdf तक क्रमवार हैं
- लगभग 5,879 PDF अभी भी सार्वजनिक नहीं किए गए पाए गए
PDF अधिकांशतः scan image-आधारित दस्तावेज़ हैं, जिनमें OCR के ज़रिए कुछ searchable text शामिल है
- “black box” शैली की redaction लागू की गई है, और यह pixel स्तर पर सही तरीके से की गई पाई गई
- कोई “born-digital” दस्तावेज़ नहीं मिला

फ़ाइल वैधता और version विश्लेषण

कई PDF forensic tools से की गई validation में केवल एक मामूली त्रुटि मिली
- 109 फ़ाइलों में FontDescriptor Descent value positive सेट थी, लेकिन यह मामूली font matching त्रुटि है और कुल वैधता को प्रभावित नहीं करती
pdfinfo टूल के दो प्रकारों की तुलना में PDF version reading अलग-अलग निकली
- Tool A ने 1.3 version की 209 फ़ाइलें और 1.5 version की 3,875 फ़ाइलें बताईं
- Tool B ने 1.3 version की 3,817 फ़ाइलें और 1.5 version की 267 फ़ाइलें बताईं
- यह अंतर incremental update में Version entry को संभालने के तरीके के कारण है, और Tool A का परिणाम सही है
सभी PDF में encryption, tags, annotations, bookmarks, forms, JavaScript, और attachments नहीं हैं
- कुल पृष्ठ संख्या 9,659 है, और इनमें से अधिकांश single-page दस्तावेज़ हैं

Incremental update और Bates numbering

PDF में कई बार के incremental update के ज़रिए संशोधन इतिहास संचित किया गया है
- पहला PDF (EFTA00000001.pdf) 2 incremental updates शामिल करता है
- अंतिम update में हर पृष्ठ पर Bates number जोड़ा गया
Bates numbering जोड़ने के लिए /Type /XRef cross-reference stream का उपयोग किया गया, और यह पैटर्न सभी sample PDF में समान मिला
पहले incremental update में PDF version 1.3 से 1.5 में बदला गया, लेकिन header से मेल न खाने वाली तकनीकी त्रुटि मौजूद है
- साथ ही hidden document information dictionary (Info dictionary) मौजूद है, लेकिन final trailer में refer न होने के कारण सामान्य PDF viewer में दिखाई नहीं देती
- इस dictionary में /Creator (OmniPage CSDK 21.1) और /Producer (Processing-CLI) जानकारी शामिल है

Metadata और तारीख विश्लेषण

pdfinfo परिणामों के अनुसार, अधिकांश PDF में explicit metadata या XMP stream नहीं है
- हालांकि, कुछ फ़ाइलों में orphaned Info dictionary मौजूद है और /Info entry कई बार दिखाई देती है
केवल EFTA00003212.pdf फ़ाइल में Title, Author, Subject, Keywords, Creator entries शामिल हैं
- 215 फ़ाइलों में /Producer value “pypdf” दिखाई देती है
creation date (CreationDate) और modification date (ModDate) दोनों समान हैं, और 18–19 दिसंबर 2025 के बीच की पाई गईं
- इससे संकेत मिलता है कि DoJ की batch processing लगभग 36 घंटे तक चली

Image और scan विशेषताएँ

सभी PDF में JPEG (DCTDecode) images अनुपस्थित हैं, और इनके स्थान पर FLATE-compressed bitmap उपयोग किए गए हैं
- resolution लगभग 96 DPI है, और color palette 256 रंगों तक सीमित है
- माना जाता है कि यह EXIF, IPTC, और XMP metadata हटाने के उद्देश्य से किया गया
कुछ दस्तावेज़ों में वास्तविक scan के निशान (कागज़ के किनारे, छेद, लिखावट आदि) हैं, जबकि कुछ digital rendering के बाद scan-simulated images जैसे लगते हैं
- समान skew और noise की अनुपस्थिति से इन्हें अलग किया जा सकता है
Courier monospace font के उपयोग के कारण redacted अक्षरों की संख्या गिनकर अनुमान लगाने का जोखिम मौजूद है

OCR गुणवत्ता और redaction की सटीकता

OCR परिणामों में accuracy कम है और language recognition क्षमता नहीं है, यानी यह केवल साधारण character recognition स्तर का है
- पहले PDF (EFTA00000001.pdf) का OCR text ज्यादातर गलत है
“black box” redaction सीधे image pixel स्तर पर लागू की गई है, यह text objects के ऊपर डाला गया rectangle नहीं है
- इसलिए recover किया जा सकने वाला text मौजूद नहीं है

निष्कर्ष और संकेत

DoJ की PDF generation pipeline में JPEG removal, metadata minimization, image-based rendering, और OCR application शामिल हैं
- हालांकि, अनावश्यक objects, empty streams, और incremental update remnants के कारण फ़ाइल आकार और जटिलता बढ़ गई है
कुछ PDF comments और orphaned objects बचे हुए हैं, जिससे सूचना लीक होने की संभावना रहती है
tool results में अंतर और format complexity के कारण PDF forensics में गलत निष्कर्ष का जोखिम अधिक है
- इसी उद्देश्य से PDF Association PDF Forensic Liaison Working Group चला रहा है, जो industry standardization और training को आगे बढ़ा रहा है

1 टिप्पणियां

GN⁺ 2026-02-05

Hacker News की राय

पता चला कि कुछ दस्तावेज़ दिखने में असली स्कैन जैसे हैं, लेकिन वे बिलकुल भी भौतिक noise के बिना कृत्रिम PDF हैं
हर पेज पर एक जैसा skew और पूरी तरह परफेक्ट किनारे दिखते हैं, इसलिए लगता है कि मूल digital document को image के रूप में render करने के बाद skew, scaling और color reduction जैसी post-processing की गई है
- असली सवाल यह है कि कौन से दस्तावेज़ ऐसे ‘fake scan’ हैं, और इससे किस तरह की राजनीतिक narrative को मज़बूत करने की कोशिश की जा रही है
  कोई ऐसा काम शायद इसलिए करेगा ताकि AI-generated images या छेड़छाड़ की गई सामग्री को असली जैसा दिखाया जा सके
- अगर आप GNOME Desktop इस्तेमाल करते हैं, तो Bash script को ~/.local/share/nautilus/ में रखकर right-click menu से सीधे fake scan PDF बना सकते हैं
  मूल स्रोत याद नहीं, लेकिन शायद इसे Stack Exchange पर देखा था। magick command से rotation, noise, grayscale conversion वगैरह लागू किए जाते हैं
- इस तरह बनाना अजीब है। दस्तावेज़ को बस print करके फिर से scan करना कहीं आसान है
- खास तौर पर जिस दस्तावेज़ का ज़िक्र हुआ है, वह 2019 में DoJ द्वारा A. Acosta का इंटरव्यू लिया गया रिकॉर्ड लगता है।
  अगर यह असली है, तो सवाल है कि FBI ने इसे scan copy जैसा क्यों दिखाया। क्या Epstein और Acosta की डील में कुछ ऐसा है जिसे सार्वजनिक नहीं करना चाहते
  संबंधित PDF लिंक
- मैं भी कभी-कभी ऐसा ही करता हूँ। जब signature माँगा जाता है, तो खाली कागज़ पर sign करके scan कर लेता हूँ, फिर बाद में उसके ऊपर document merge करके submit कर देता हूँ
मेरा मानना है कि DOJ ने original की जगह modified duplicate जारी की, जो कानूनी रूप से समस्या हो सकती है
इस्तेमाल किया गया software OmniPage CSDK 21.1 metadata सब हटा देता है और encrypted files भी delete कर देता है
सोच रहा हूँ कि क्या किसी ने Epstein(JE) की writing style का analysis करके उसे 4chan जैसी जगहों की posts से compare किया है
Ghislaine के मामले में भी पर्याप्त data होना चाहिए। MaxwellHill वाली बात पर मुझे भरोसा नहीं है, लेकिन शायद कोई सुराग मिल सकता है
- पहले HN users की writing style का analysis करके मिलते-जुलते accounts खोजने वाला एक stylometry project था
  संबंधित पोस्ट
  privacy concerns की वजह से site हटा दी गई थी, लेकिन उसकी accuracy काफ़ी अच्छी थी। मुझे भी ऐसा AI browser helper बनाना है जो मेरी comments को random style में बदल दे
- लेकिन मैं अब भी skeptical हूँ। सिर्फ writing style और vocabulary से बहुत सारे लोग overlap कर जाते हैं, इसलिए किसी एक व्यक्ति की पहचान करना मुश्किल है
  हाँ, Epstein के emails इतने अलग हैं कि शायद वह एक exception हो सकता है
- वास्तव में सिर्फ n-gram analysis से भी लेखक की पहचान करने लायक stylometry काफ़ी advanced है
  HN demo लिंक
  यह तरीका AI-generated writing को भी अच्छी तरह अलग कर लेता है। मुझे लगता है कि यह “AI detection transformer” train करने से कहीं बेहतर approach है
- Epstein की writing में लगभग dyslexia-स्तर की बहुत-सी टूटी-फूटी पंक्तियाँ हैं
  हो सकता है ऊँचे पदों पर बैठे लोग खुद बहुत कम लिखते हों, इसलिए उन्होंने sentence construction की क्षमता खो दी हो, या फिर यह उनकी अपनी अंदरूनी भाषा हो
इस पेज के cookie popup में ‘reject’ button का “Continue without consent” लिखा होना मज़ेदार लगा
- सच में ऐसा लगता है जैसे users को guilt feel कराने वाली wording है
- Epstein से जुड़ी site का Epstein की तरह व्यवहार करना अपने आप में विडंबना है
PDF annotations या compressed object streams के अंदर मौजूद orphan objects के ज़रिए जानकारी leak हो रही हो सकती है
उम्मीद है कोई सभी दस्तावेज़ों को अलग-अलग archive कर रहा होगा। कुछ तो पहले ही delete किए जा चुके लगते हैं
- Reddit पर भी संबंधित posts हटाई जा रही हैं या shadowban किया जा रहा है
  लेकिन Lemmy community में अब भी चर्चा चल रही है
- कुछ दस्तावेज़ों में victims के नाम हैं, इसलिए शायद उन पर additional blinding की गई हो
- शुरू में Epstein Files Transparency Act पेज पर सभी datasets के .zip links थे,
  वे एक समय पूरी तरह गायब हो गए थे, लेकिन अब ज़्यादातर वापस आ गए हैं
अभी allenai/olmocr-2-7b model से DOJ द्वारा दिए गए OCR results की तुलना कर रहा हूँ
लगभग 5 लाख images हैं, इसलिए काफ़ी समय लग रहा है। फिर भी olmocr-2-7b की recognition rate काफ़ी अच्छी है
- क्या किसी ने image size कम करके performance बढ़ाने का तरीका आज़माया है?
  यह भी जानना है कि किस size से नीचे text recognition मुश्किल हो जाती है
सोच रहा था कि कुछ नए files में random ‘=’ characters क्यों हैं
यह OCR error जैसा भी नहीं लगता, बल्कि search मुश्किल बनाने की कोशिश जैसा लगता है
- कल HN main पर इस बारे में पोस्ट आई थी: लिंक
- दरअसल यह email की quoted-printable encoding handling error की वजह से है
  gnus के developer Lars Ingebrigtsen ने इसे अपने blog में समझाया है
कुछ PDF में Base64-encoded attachments सीधे body में पड़े हुए हैं
OCR quality इतनी खराब है कि उन्हें restore करने में काफ़ी मेहनत लगेगी
उदाहरण PDF,
संबंधित Reddit thread
- सोच रहा हूँ कि क्या सिर्फ कुछ bytes की गलती से भी binary restore करना नामुमकिन हो सकता है
व्यक्तिगत रूप से मुझे Epstein के bank accounts ज़्यादा दिलचस्प लगते हैं
असली बात यह है कि उसे पैसे किसने दिए, और उसने किसे पैसे दिए
- DOJ शायद यह सब पहले से जानता है, या चाहे तो तुरंत पता लगा सकता है
- लेकिन fund tracing की root-cause analysis जनता के सामने नहीं लाई जाती
  उसकी जगह उतनी ही जानकारी जारी की जाती है जितनी public opinion को कुछ खास समूहों के बीच नफ़रत की ओर मोड़ने के लिए चाहिए
Cloudflare द्वारा access blocked है

एप्स्टीन PDF का डिजिटल फॉरेंसिक केस स्टडी

DoJ सार्वजनिक डेटा का अवलोकन

फ़ाइल वैधता और version विश्लेषण

Incremental update और Bates numbering

Metadata और तारीख विश्लेषण

Image और scan विशेषताएँ

OCR गुणवत्ता और redaction की सटीकता

निष्कर्ष और संकेत

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय