- ओपन दस्तावेज़ फ़ॉर्मेट HWPX की संरचना और डेटा को स्टोर व मैनेज करने के तरीक़े की व्याख्या
- HWPX और मौजूदा HWP फ़ॉर्मेट के अंतर को समझाते हुए, HWPX फ़ॉर्मेट के प्रमुख घटकों और प्रत्येक फ़ाइल की भूमिका का विश्लेषण
परिचय
- HWP एक बाइनरी फ़ॉर्मेट है, जबकि HWPX XML फ़ाइलों से बनी ZIP संरचना है — यही सबसे बड़ा अंतर है
- HWP फ़ॉर्मेट में स्ट्रीम record फ़ॉर्मेट में बनी होती हैं, इसलिए डेटा निकालने के लिए अलग विश्लेषण प्रक्रिया से गुज़रना पड़ता है
- इसके विपरीत, HWPX फ़ॉर्मेट में प्रमुख फ़ाइलें XML हैं, इसलिए डेटा extraction आसान है
HWPX क्या है
- Hancom द्वारा विकसित XML-आधारित ओपन दस्तावेज़ फ़ॉर्मेट, जो राष्ट्रीय मानक (KS X 6101) OWPML का पालन करता है
- OWPML का अर्थ है XML-आधारित ‘Open Word-Processor Markup Language’
- 30 दिसंबर 2011 को स्थापित Korean Industrial Standards (KS) के रूप में, लगभग 2 वर्षों तक देश की दस्तावेज़ मानकीकरण समिति के माध्यम से इसका मानक विकास किया गया
- घरेलू मानक विकास में सीधे भाग लेने वाले विशेषज्ञों के साथ संयुक्त रूप से विकसित राष्ट्रीय मानक
- HWP फ़ॉर्मेट के बाइनरी फ़ॉर्मेट की openness, compatibility और preservation सुनिश्चित करने के लिए विकसित फ़ाइल फ़ॉर्मेट
- इसके लिए इसे XML-आधारित package फ़ॉर्मेट के रूप में बनाया गया है
HWPX फ़ाइल संरचना
- HWPX एक ZIP फ़ाइल संरचना वाला XML-आधारित फ़ॉर्मेट है
- unzip करने पर यह कई XML फ़ाइलों और फ़ोल्डरों से बना होता है
- प्रमुख घटक:
mimetype: फ़ाइल टाइप जानकारी रखता है और HWPX फ़ॉर्मेट होने की signature जानकारी देता है
settings.xml: cursor position जैसी बाहरी settings से जुड़ी जानकारी शामिल करता है
version.xml: OWPML फ़ाइल फ़ॉर्मेट version जानकारी और दस्तावेज़ save environment की जानकारी रखता है
BinData/: दस्तावेज़ में शामिल image, OLE object जैसी बाइनरी फ़ाइलें स्टोर होती हैं
Contents/: दस्तावेज़ की formatting जानकारी और मुख्य content शामिल होता है, और content.hpf, header.xml, section0.xml जैसी फ़ाइलों से बना होता है
content.hpf : packaging की मुख्य फ़ाइल सूची. PF(Open Packaging Format) मानक के अनुसार परिभाषित, और metadata, manifest, spine — इन तीन भागों में विभाजित
header.xml : दस्तावेज़ सामग्री से संबंधित सभी settings शामिल करता है, और character style, paragraph style जैसी mapping जानकारी रखता है
section0.xml : सेक्शन-वार मुख्य content स्टोर करता है, और दस्तावेज़ का प्रत्येक सेक्शन अलग फ़ाइल के रूप में सहेजा जाता है
META-INF/: इसमें manifest.xml, container.rdf, container.xml फ़ाइलें शामिल होती हैं, और encrypted documents के मामले में प्रत्येक फ़ाइल की encryption जानकारी स्टोर होती है
Scripts/: दस्तावेज़ में सहेजी गई script जानकारी headerScripts, sourceScripts फ़ाइलों में स्टोर होती है
Preview/: preview image और text फ़ाइलें शामिल होती हैं. फ़ाइल explorer में preview pane खोलने पर दिखने वाली जानकारी. encrypted documents के मामले में सुरक्षा के लिए ये फ़ाइलें स्टोर नहीं की जातीं
समापन
- HWPX का उपयोग करने से पहले इसकी पूरी संरचना और अंदर मौजूद प्रत्येक फ़ाइल की भूमिका की व्याख्या
- आगे की सीरीज़ में वास्तविक HWPX दस्तावेज़ों से इच्छित डेटा निकालने के उदाहरण साझा किए जाएँगे
- आशा है कि यह HWPX के घटकों और डेटा का उपयोग करने में मददगार होगा
4 टिप्पणियां
अच्छी पोस्ट के लिए धन्यवाद। मैं AWS में जनरेट होने वाली फ़ाइलों (जैसे रिपोर्ट) को HWP में बनाना चाहता हूँ, लेकिन संबंधित रेफ़रेंस कम होने के कारण दिक्कत आ रही है। फिलहाल हम Word का उपयोग कर रहे हैं। अगर आपके पास कोई ऐसी सामग्री हो जो संदर्भ के तौर पर मददगार हो, तो कृपया लिंक साझा करें।
पहले मैंने सुना था कि hwpx बस hwp के binary को साधारण रूप से xml में खोलकर लिखने के बाद zip में बाँध दिया गया है।
फिर भी कम-से-कम इसे पढ़ा तो जा सकता है...
कहा जाता है कि वह लगभग docx को ज्यों का त्यों फॉलो करता है.
MS ने भी पहले doc से docx बनाते समय ऐसा ही किया था.
Han/Geul दस्तावेज़ फ़ाइल फ़ॉर्मैट: HWP फ़ॉर्मैट संरचना पर एक नज़र