23 पॉइंट द्वारा GN⁺ 2025-02-25 | 13 टिप्पणियां | WhatsApp पर शेयर करें

परिचय

  • आधुनिक समाज में AI तकनीक विभिन्न क्षेत्रों में नवाचार को आगे बढ़ा रही है, और डेटा का महत्व बढ़ता जा रहा है
  • HWP फ़ॉर्मैट में ऐसे तत्व मौजूद हैं जो AI training के लिए अनुकूल हैं
    • साधारण टेक्स्ट के अलावा इसमें image, table, chart जैसे विभिन्न तत्व शामिल होते हैं, जो समृद्ध जानकारी प्रदान करते हैं
    • यह title, paragraph, table आदि जैसे विभिन्न फ़ॉर्मैट में संरचित होता है, जिससे AI मॉडल को दस्तावेज़ समझने और विश्लेषण करने में मदद मिल सकती है
  • इस लेख में HWP फ़ॉर्मैट की संरचना और दस्तावेज़ में जानकारी संग्रहीत करने के तरीके को देखा जाएगा

HWP फ़ॉर्मैट क्या है?

  • HWP फ़ॉर्मैट Hancom द्वारा विकसित एक document फ़ॉर्मैट है, जिसे पहली बार 1997 में सार्वजनिक किया गया था.
  • यह फ़ॉर्मैट CFB(Compound File Binary File Format) से बना है, और इसमें कई data stream को एक ही फ़ाइल में संग्रहीत किया जाता है.
  • HWP फ़ाइल में File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage, PrvText आदि जानकारी शामिल होती है.

1. File Header

  • HWP फ़ाइल के file header में Hangul document की पहचान से जुड़ी जानकारी शामिल होती है.
  • इसमें signature information, document version, file identification information आदि शामिल होते हैं, और इनके आधार पर HWP फ़ाइल के document type का निर्धारण किया जाता है.

2. DocInfo

  • यह वह stream है जिसमें दस्तावेज़ में उपयोग किए गए font, character property, paragraph property जैसी common information संग्रहीत होती है.
  • DocInfo को zlib से compress करके संग्रहीत किया जाता है, और decompression के बाद मूल data की पुष्टि की जा सकती है.
  • इसमें कई प्रकार की जानकारी record format में संग्रहीत होती है.

3. DocOptions

  • linked document, distribution document, digital certificate आदि की जानकारी stream के रूप में संग्रहीत होती है.

4. BodyText (Section)

  • इसमें दस्तावेज़ के मुख्य भाग से संबंधित वास्तविक सामग्री संग्रहीत होती है.
  • मुख्य भाग में मौजूद section की संख्या के अनुसार यह कई Section stream से मिलकर बना होता है.

5. Script

  • यह वह storage है जिसमें script macro feature में परिभाषित script information दर्ज होती है.

6. HwpSummaryInformation

  • इसमें दस्तावेज़ की summary information संग्रहीत होती है, और इसकी संरचना Microsoft के PropertySet structure पर आधारित है.

7. PrvImage

  • यह दस्तावेज़ की preview image है, जिसमें पहले पेज की image संग्रहीत होती है.

8. PrvText

  • यह दस्तावेज़ का preview text है, जिसमें पहले पेज की सामग्री Unicode string के रूप में संग्रहीत होती है.

समापन

  • HWP फ़ॉर्मैट binary रूप में संग्रहीत होता है, इसलिए इसे मनुष्य के लिए सीधे पढ़ना कठिन है, और इसे इस तरह डिज़ाइन किया गया है कि इसे केवल विशेष software में ही देखा और संपादित किया जा सके.
  • दूसरी ओर, HWPX फ़ॉर्मैट open XML आधारित फ़ॉर्मैट है, जिसमें data संरचित रूप में होता है, इसलिए इसे इस तरह डिज़ाइन किया गया है कि मनुष्य इसकी सामग्री को आसानी से समझ सके.
  • अगली बार हम देखेंगे कि HWPX फ़ॉर्मैट, HWP फ़ॉर्मैट की तुलना में, जानकारी को किस तरह अलग तरीके से संग्रहीत करता है.

13 टिप्पणियां

 
hahnlee 2025-02-25

मैं hwp.js (https://github.com/hahnlee/hwp.js) विकसित करने वाला hahnlee हूँ :)
जब मैं उस प्रोजेक्ट को बना रहा था, और आज भी, मुझे hwp खास पसंद नहीं है। खासकर इसकी openness के स्तर के मामले में।

लेकिन "HWP फ़ॉर्मैट में AI training के लिए अनुकूल कुछ तत्व हैं" — इस हिस्से से मैं कुछ हद तक सहमत हूँ.

RAG बनाते समय के अनुभव से कहूँ तो, कोरिया में खासकर tables का बहुत इस्तेमाल होता है। PDF के मामले में, वह एक ऐसा format है जिसे printing को ध्यान में रखकर बनाया गया है, इसलिए PDF में "table" जैसी कोई चीज़ वास्तव में नहीं होती। वहाँ सिर्फ lines और text होते हैं।

इसी वजह से, जटिल table जानकारी से data निकालना PDF documents के आधार पर मुश्किल था। खासकर तब भी, जब table अगले page तक चला जाता था।

मोटे तौर पर तुलना करूँ तो, अगर hwp एक तरह का rich text document है, तो pdf मुझे txt document जैसा लगता था। बेशक, यह बात सिर्फ "table" के संदर्भ में है।

लेकिन क्या इसे hwp फ़ॉर्मैट की कोई खास ताकत कहा जा सकता है? मेरा मानना है कि नहीं। साधारण चीज़ों के लिए Markdown ही काफी है, और अगर थोड़ा ज्यादा जटिल हो तो उसे html में परिभाषित करना बेहतर है।

और सबसे निर्णायक बात यह है कि docx और odt में भी यही फायदे मौजूद हैं.

 
iolothebard 2025-02-25

Netscape, IE से बुरी तरह हारने के बाद, source खोलना वगैरह जैसे देर से किए गए कदमों पर बहुत मेहनत से हाथ मार रहा था।

 
riki3 2025-02-25

मुझे hwp पसंद नहीं है और अभी की Hancom कंपनी के प्रोडक्ट्स के बारे में मैं अच्छी बात नहीं कह सकता, लेकिन मेरा मानना है कि पहले प्रोडक्ट खुद Word से कहीं बेहतर सॉफ़्टवेयर था।

 
kuthia 2025-02-26

मेरे हिसाब से भी यह Hancom Hangul 97 के आने तक एक बेहतरीन सॉफ़्टवेयर था।

 
jwh926 2025-02-25

यह क्या है?

 
carnoxen 2025-02-25

दुर्भाग्यवश यह दुनिया का मानक नहीं बन सका

 
wook3910 2025-02-25

मैंने word processor की शुरुआत Arae-a Hangeul से की थी, लेकिन अब लगता है कि यह दक्षिण कोरिया के विकास के लिए गायब हो जाने वाला एक अवशेष है।

 
regentag 2025-02-26

MS Word या Libre Office की तुलना में, Hangeul से मनचाहे फ़ॉर्मैट का दस्तावेज़ बनाना कहीं ज़्यादा आसान लगा। साझा करना तो PDF में कर ही सकते हैं।

बेशक, मुझे Hangeul की आदत होने की वजह से भी ऐसा ज़्यादा महसूस हुआ होगा।

 
yeorinhieut 2025-02-25

"HWP फ़ॉर्मैट में ऐसे तत्व हैं जो AI training के लिए फायदेमंद हैं"

ये सच में है..?

 
regentag 2025-02-26

बस AI की ट्रेनिंग को PDF पर फोकस करना चाहिए, और Hancom Word प्रोसेसर के लिए अच्छा PDF converter बनाना बेहतर नहीं होगा? हाहा

 
iamchp 2025-02-25

मैंने भी वह हिस्सा पढ़कर अजीब महसूस किया था, लेकिन मूल डोमेन देखकर बात समझ में आ गई haha

 
jic5760 2025-02-25

आहा.. अब समझ आ गया.. हाहाहाहा

 
doolayer 2025-02-25

मुझे ख़ास तौर पर इससे सहमति नहीं बनती। हालांकि, अगर बात लेख में भी बताए गए hwpx की हो, तो अलग बात है...