परिचय
- आधुनिक समाज में AI तकनीक विभिन्न क्षेत्रों में नवाचार को आगे बढ़ा रही है, और डेटा का महत्व बढ़ता जा रहा है
- HWP फ़ॉर्मैट में ऐसे तत्व मौजूद हैं जो AI training के लिए अनुकूल हैं
- साधारण टेक्स्ट के अलावा इसमें image, table, chart जैसे विभिन्न तत्व शामिल होते हैं, जो समृद्ध जानकारी प्रदान करते हैं
- यह title, paragraph, table आदि जैसे विभिन्न फ़ॉर्मैट में संरचित होता है, जिससे AI मॉडल को दस्तावेज़ समझने और विश्लेषण करने में मदद मिल सकती है
- इस लेख में HWP फ़ॉर्मैट की संरचना और दस्तावेज़ में जानकारी संग्रहीत करने के तरीके को देखा जाएगा
HWP फ़ॉर्मैट क्या है?
- HWP फ़ॉर्मैट Hancom द्वारा विकसित एक document फ़ॉर्मैट है, जिसे पहली बार 1997 में सार्वजनिक किया गया था.
- यह फ़ॉर्मैट CFB(Compound File Binary File Format) से बना है, और इसमें कई data stream को एक ही फ़ाइल में संग्रहीत किया जाता है.
- HWP फ़ाइल में File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage, PrvText आदि जानकारी शामिल होती है.
1. File Header
- HWP फ़ाइल के file header में Hangul document की पहचान से जुड़ी जानकारी शामिल होती है.
- इसमें signature information, document version, file identification information आदि शामिल होते हैं, और इनके आधार पर HWP फ़ाइल के document type का निर्धारण किया जाता है.
2. DocInfo
- यह वह stream है जिसमें दस्तावेज़ में उपयोग किए गए font, character property, paragraph property जैसी common information संग्रहीत होती है.
- DocInfo को zlib से compress करके संग्रहीत किया जाता है, और decompression के बाद मूल data की पुष्टि की जा सकती है.
- इसमें कई प्रकार की जानकारी record format में संग्रहीत होती है.
3. DocOptions
- linked document, distribution document, digital certificate आदि की जानकारी stream के रूप में संग्रहीत होती है.
4. BodyText (Section)
- इसमें दस्तावेज़ के मुख्य भाग से संबंधित वास्तविक सामग्री संग्रहीत होती है.
- मुख्य भाग में मौजूद section की संख्या के अनुसार यह कई Section stream से मिलकर बना होता है.
5. Script
- यह वह storage है जिसमें script macro feature में परिभाषित script information दर्ज होती है.
6. HwpSummaryInformation
- इसमें दस्तावेज़ की summary information संग्रहीत होती है, और इसकी संरचना Microsoft के PropertySet structure पर आधारित है.
7. PrvImage
- यह दस्तावेज़ की preview image है, जिसमें पहले पेज की image संग्रहीत होती है.
8. PrvText
- यह दस्तावेज़ का preview text है, जिसमें पहले पेज की सामग्री Unicode string के रूप में संग्रहीत होती है.
समापन
- HWP फ़ॉर्मैट binary रूप में संग्रहीत होता है, इसलिए इसे मनुष्य के लिए सीधे पढ़ना कठिन है, और इसे इस तरह डिज़ाइन किया गया है कि इसे केवल विशेष software में ही देखा और संपादित किया जा सके.
- दूसरी ओर, HWPX फ़ॉर्मैट open XML आधारित फ़ॉर्मैट है, जिसमें data संरचित रूप में होता है, इसलिए इसे इस तरह डिज़ाइन किया गया है कि मनुष्य इसकी सामग्री को आसानी से समझ सके.
- अगली बार हम देखेंगे कि HWPX फ़ॉर्मैट, HWP फ़ॉर्मैट की तुलना में, जानकारी को किस तरह अलग तरीके से संग्रहीत करता है.
13 टिप्पणियां
मैं hwp.js (https://github.com/hahnlee/hwp.js) विकसित करने वाला hahnlee हूँ :)
जब मैं उस प्रोजेक्ट को बना रहा था, और आज भी, मुझे hwp खास पसंद नहीं है। खासकर इसकी openness के स्तर के मामले में।
लेकिन "HWP फ़ॉर्मैट में AI training के लिए अनुकूल कुछ तत्व हैं" — इस हिस्से से मैं कुछ हद तक सहमत हूँ.
RAG बनाते समय के अनुभव से कहूँ तो, कोरिया में खासकर tables का बहुत इस्तेमाल होता है। PDF के मामले में, वह एक ऐसा format है जिसे printing को ध्यान में रखकर बनाया गया है, इसलिए PDF में "table" जैसी कोई चीज़ वास्तव में नहीं होती। वहाँ सिर्फ lines और text होते हैं।
इसी वजह से, जटिल table जानकारी से data निकालना PDF documents के आधार पर मुश्किल था। खासकर तब भी, जब table अगले page तक चला जाता था।
मोटे तौर पर तुलना करूँ तो, अगर hwp एक तरह का rich text document है, तो pdf मुझे txt document जैसा लगता था। बेशक, यह बात सिर्फ "table" के संदर्भ में है।
लेकिन क्या इसे hwp फ़ॉर्मैट की कोई खास ताकत कहा जा सकता है? मेरा मानना है कि नहीं। साधारण चीज़ों के लिए Markdown ही काफी है, और अगर थोड़ा ज्यादा जटिल हो तो उसे html में परिभाषित करना बेहतर है।
और सबसे निर्णायक बात यह है कि docx और odt में भी यही फायदे मौजूद हैं.
Netscape, IE से बुरी तरह हारने के बाद, source खोलना वगैरह जैसे देर से किए गए कदमों पर बहुत मेहनत से हाथ मार रहा था।
मुझे hwp पसंद नहीं है और अभी की Hancom कंपनी के प्रोडक्ट्स के बारे में मैं अच्छी बात नहीं कह सकता, लेकिन मेरा मानना है कि पहले प्रोडक्ट खुद Word से कहीं बेहतर सॉफ़्टवेयर था।
मेरे हिसाब से भी यह Hancom Hangul 97 के आने तक एक बेहतरीन सॉफ़्टवेयर था।
यह क्या है?
दुर्भाग्यवश यह दुनिया का मानक नहीं बन सका
मैंने word processor की शुरुआत Arae-a Hangeul से की थी, लेकिन अब लगता है कि यह दक्षिण कोरिया के विकास के लिए गायब हो जाने वाला एक अवशेष है।
MS Word या Libre Office की तुलना में, Hangeul से मनचाहे फ़ॉर्मैट का दस्तावेज़ बनाना कहीं ज़्यादा आसान लगा। साझा करना तो PDF में कर ही सकते हैं।
बेशक, मुझे Hangeul की आदत होने की वजह से भी ऐसा ज़्यादा महसूस हुआ होगा।
"HWP फ़ॉर्मैट में ऐसे तत्व हैं जो AI training के लिए फायदेमंद हैं"
ये सच में है..?
बस AI की ट्रेनिंग को PDF पर फोकस करना चाहिए, और Hancom Word प्रोसेसर के लिए अच्छा PDF converter बनाना बेहतर नहीं होगा? हाहा
मैंने भी वह हिस्सा पढ़कर अजीब महसूस किया था, लेकिन मूल डोमेन देखकर बात समझ में आ गई haha
आहा.. अब समझ आ गया.. हाहाहाहा
मुझे ख़ास तौर पर इससे सहमति नहीं बनती। हालांकि, अगर बात लेख में भी बताए गए hwpx की हो, तो अलग बात है...