- PDF फ़ाइल की आंतरिक संरचना का निरीक्षण और रूपांतरण करने के लिए Python लाइब्रेरी
- PDF मानक के अध्याय 7 ("Syntax") को केंद्र में रखकर लागू किया गया है
- बाइट स्तर पर दस्तावेज़ संरचना को प्रबंधित करके metadata access, rotation जैसी विभिन्न transformation प्रक्रियाएँ की जा सकती हैं
मुख्य विशेषताएँ
- PDF read/write कार्यों के लिए API toolkit प्रदान करता है
- खास सुविधाओं को terminal या browser में उपयोग करने के लिए CLI(Command Line Interface) समर्थन
- बिना dependencies वाली हल्की लाइब्रेरी, जो pure Python में लिखी गई है
- simplicity और immutability को महत्व देकर डिज़ाइन की गई है
- PDF मानक द्वारा अनुमत non-destructive editing का समर्थन करती है, और डिफ़ॉल्ट रूप से मूल फ़ाइल के अंत में incremental updates जोड़ती है
- सभी संशोधन इतिहास को वापस लिया जा सकता है या एक ही version में मर्ज किया जा सकता है
लाइव डेमो
- browser में PDFSyntax के static HTML output को एक्सप्लोर करने के लिए live demo उपलब्ध है.
- डेमो, PDF specification की Simple Text String उदाहरण फ़ाइल के output पर आधारित है.
1 टिप्पणियां
Hacker News राय
Hacker News टिप्पणियों का सारांश
पहले PDF से डेटा extract करने का काम किया था। उस समय AI तकनीक नहीं थी, लेकिन अब LLMs का उपयोग करके डेटा extract करने की संभावना है।
एक राय यह थी कि अगर पिछली नौकरी में PDF डेटा extraction tool होता, तो उसका बहुत उपयोग किया जाता। आदर्श tool ऐसा होना चाहिए जिसमें फ़ाइल drop करते ही सारा काम local में हो जाए।
iText RUPS नाम के free tool से PDF debugging करते रहे हैं, और उम्मीद है कि यह नया tool उससे भी ज़्यादा powerful होगा।
सवाल उठाया गया कि PDF को XPS, DjVu, XHTML(EPUB) जैसी formats ने replace क्यों नहीं किया। उनका कहना था कि एक simple document format चाहिए, जिसमें page के अंदर hyperlink, font size बदलना जैसी सुविधाएँ हों।
एक राय थी कि यह forensic और watermark ढूँढने में उपयोगी है।
यह सुझाव भी था कि PDF के सभी bytes दिखाए जाएँ। उन्होंने pointed out किया कि
endobjऔरxrefदिखाई नहीं दे रहे।किसी ने कहा कि GitHub पर ऐसा ही एक project था, और उन्हें TCP/IP example याद है।
एक राय थी कि इसे browser library के रूप में इस्तेमाल करना अच्छा होगा। फ़ाइल को drag-and-drop करके अंदर देख पाने की सुविधा प्रभावशाली लगी।
किसी ने पूछा कि UI tool library है या नहीं। उन्हें यह पसंद आया कि CSS का अच्छा उपयोग करके simple UI बनाया गया है।
एक राय थी कि वे ऐसा tool ढूँढ रहे हैं जो visual media formats की content को byte level पर समझा सके। उन्होंने पूछा कि क्या JPEG, PNG, AVI, MP4 जैसी formats को संभालने वाला कोई tool मालूम है।