6 पॉइंट द्वारा GN⁺ 2025-02-26 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • ओपन दस्तावेज़ फ़ॉर्मेट HWPX की संरचना और डेटा को स्टोर व मैनेज करने के तरीक़े की व्याख्या
  • HWPX और मौजूदा HWP फ़ॉर्मेट के अंतर को समझाते हुए, HWPX फ़ॉर्मेट के प्रमुख घटकों और प्रत्येक फ़ाइल की भूमिका का विश्लेषण

परिचय

  • HWP एक बाइनरी फ़ॉर्मेट है, जबकि HWPX XML फ़ाइलों से बनी ZIP संरचना है — यही सबसे बड़ा अंतर है
  • HWP फ़ॉर्मेट में स्ट्रीम record फ़ॉर्मेट में बनी होती हैं, इसलिए डेटा निकालने के लिए अलग विश्लेषण प्रक्रिया से गुज़रना पड़ता है
    • इसके विपरीत, HWPX फ़ॉर्मेट में प्रमुख फ़ाइलें XML हैं, इसलिए डेटा extraction आसान है

HWPX क्या है

  • Hancom द्वारा विकसित XML-आधारित ओपन दस्तावेज़ फ़ॉर्मेट, जो राष्ट्रीय मानक (KS X 6101) OWPML का पालन करता है
  • OWPML का अर्थ है XML-आधारित ‘Open Word-Processor Markup Language’
    • 30 दिसंबर 2011 को स्थापित Korean Industrial Standards (KS) के रूप में, लगभग 2 वर्षों तक देश की दस्तावेज़ मानकीकरण समिति के माध्यम से इसका मानक विकास किया गया
    • घरेलू मानक विकास में सीधे भाग लेने वाले विशेषज्ञों के साथ संयुक्त रूप से विकसित राष्ट्रीय मानक
  • HWP फ़ॉर्मेट के बाइनरी फ़ॉर्मेट की openness, compatibility और preservation सुनिश्चित करने के लिए विकसित फ़ाइल फ़ॉर्मेट
    • इसके लिए इसे XML-आधारित package फ़ॉर्मेट के रूप में बनाया गया है

HWPX फ़ाइल संरचना

  • HWPX एक ZIP फ़ाइल संरचना वाला XML-आधारित फ़ॉर्मेट है
  • unzip करने पर यह कई XML फ़ाइलों और फ़ोल्डरों से बना होता है
  • प्रमुख घटक:
    • mimetype: फ़ाइल टाइप जानकारी रखता है और HWPX फ़ॉर्मेट होने की signature जानकारी देता है
    • settings.xml: cursor position जैसी बाहरी settings से जुड़ी जानकारी शामिल करता है
    • version.xml: OWPML फ़ाइल फ़ॉर्मेट version जानकारी और दस्तावेज़ save environment की जानकारी रखता है
    • BinData/: दस्तावेज़ में शामिल image, OLE object जैसी बाइनरी फ़ाइलें स्टोर होती हैं
    • Contents/: दस्तावेज़ की formatting जानकारी और मुख्य content शामिल होता है, और content.hpf, header.xml, section0.xml जैसी फ़ाइलों से बना होता है
      • content.hpf : packaging की मुख्य फ़ाइल सूची. PF(Open Packaging Format) मानक के अनुसार परिभाषित, और metadata, manifest, spine — इन तीन भागों में विभाजित
      • header.xml : दस्तावेज़ सामग्री से संबंधित सभी settings शामिल करता है, और character style, paragraph style जैसी mapping जानकारी रखता है
      • section0.xml : सेक्शन-वार मुख्य content स्टोर करता है, और दस्तावेज़ का प्रत्येक सेक्शन अलग फ़ाइल के रूप में सहेजा जाता है
    • META-INF/: इसमें manifest.xml, container.rdf, container.xml फ़ाइलें शामिल होती हैं, और encrypted documents के मामले में प्रत्येक फ़ाइल की encryption जानकारी स्टोर होती है
    • Scripts/: दस्तावेज़ में सहेजी गई script जानकारी headerScripts, sourceScripts फ़ाइलों में स्टोर होती है
    • Preview/: preview image और text फ़ाइलें शामिल होती हैं. फ़ाइल explorer में preview pane खोलने पर दिखने वाली जानकारी. encrypted documents के मामले में सुरक्षा के लिए ये फ़ाइलें स्टोर नहीं की जातीं

समापन

  • HWPX का उपयोग करने से पहले इसकी पूरी संरचना और अंदर मौजूद प्रत्येक फ़ाइल की भूमिका की व्याख्या
  • आगे की सीरीज़ में वास्तविक HWPX दस्तावेज़ों से इच्छित डेटा निकालने के उदाहरण साझा किए जाएँगे
  • आशा है कि यह HWPX के घटकों और डेटा का उपयोग करने में मददगार होगा

4 टिप्पणियां

 
penguin5 2025-02-26

अच्छी पोस्ट के लिए धन्यवाद। मैं AWS में जनरेट होने वाली फ़ाइलों (जैसे रिपोर्ट) को HWP में बनाना चाहता हूँ, लेकिन संबंधित रेफ़रेंस कम होने के कारण दिक्कत आ रही है। फिलहाल हम Word का उपयोग कर रहे हैं। अगर आपके पास कोई ऐसी सामग्री हो जो संदर्भ के तौर पर मददगार हो, तो कृपया लिंक साझा करें।

 
regentag 2025-02-26

पहले मैंने सुना था कि hwpx बस hwp के binary को साधारण रूप से xml में खोलकर लिखने के बाद zip में बाँध दिया गया है।
फिर भी कम-से-कम इसे पढ़ा तो जा सकता है...

 
molla 2025-02-26

कहा जाता है कि वह लगभग docx को ज्यों का त्यों फॉलो करता है.
MS ने भी पहले doc से docx बनाते समय ऐसा ही किया था.