AI-readable राजपत्र - दक्षिण कोरिया के 1.28 लाख राजपत्रों को PDF से Markdown corpus में
(github.com/hosungseo)हमारे देश का राजपत्र पहले से ही सार्वजनिक है। इसे Public Data Portal से PDF के रूप में डाउनलोड किया जा सकता है, और इस पर कोई सेंसरशिप भी नहीं है। फिर भी शोधकर्ता, पत्रकार, डेवलपर, नागरिक संगठन और सरकारी अधिकारी हर बार उसी राजपत्र को अलग-अलग फिर से parse क्यों कर रहे हैं?
दक्षिण कोरिया के लगभग 1.28 लाख राजपत्र (2020.01.02 ~ 2026.04.07, 1,474 date groups) को Markdown में re-index किया गया है, और OCR को dictionary-based तरीके से क्रमिक रूप से सुधारकर ऐसा derived corpus बनाया गया है जिसे इंसान और AI साथ में पढ़ सकें
लेखक केंद्रीय मंत्रालय में Administrative Officer हैं
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/
इंसानों के लिए public disclosure की सीमाएँ
- "यह सार्वजनिक है" और "इसे AI agents इस्तेमाल कर सकते हैं" — इन दोनों के बीच का अंतर अपेक्षा से बड़ा है
- PDF में अनुच्छेद-स्तर की तुलना आसान नहीं होती, संस्था·तारीख·मामला-आधारित filtering कठिन है, OCR टूट जाता है, और table structure भी बिगड़ जाता है
- नतीजतन preprocessing की लागत लगातार user (agent) की तरफ धकेली जाती है। पत्रकार, शोधकर्ता और सरकारी अधिकारी उसी PDF को अलग-अलग फिर से खोलकर parse कर रहे हैं
- पारदर्शिता का अगला चरण "और अधिक public disclosure" नहीं, बल्कि "उसी चीज़ को machine-readable बनाना" है
इसमें क्या शामिल है
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— 128,403 corrected Markdown files- frontmatter में
title / publisher / date / source_raw_md— जैसा है वैसा chunk → embedding → RAG में सीधे इस्तेमाल किया जा सकता है docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— static JSON index. CORS restriction के बिना external sites से fetch किया जा सकता है- Live Reader build tool के बिना खुलने वाला pure HTML है (search·heatmap·TOC·dark mode·keyboard shortcuts सहित)
- संस्था coverage: केंद्रीय मंत्रालय ~108,800 items, न्यायपालिका ~7,700 items, शिक्षा ~4,100 items, स्थानीय सरकारें ~3,300 items आदि, कुल लगभग 1,600 संस्थाएँ
OCR: घरेलू open source के आधार पर
- PDF text extraction OCR के लिए Hancom के open source tool opendataloader का उपयोग किया गया है
- दूसरे tools के बजाय इसे चुनना एक सोचा-समझा निर्णय था। चूँकि यह काम राजपत्र जैसे public data को संभालता है, इसलिए लेखक का मानना था कि toolchain भी घरेलू open source पर चलनी चाहिए
- opendataloader खुद बेहतर होता जाएगा तो टूटे हुए अक्षर भी कम होंगे, और correction dictionary भी स्वाभाविक रूप से हल्की होती जाएगी
- यानी tool बेहतर होगा तो corpus भी साथ-साथ बेहतर होगा
PDF के ऊपर एक और परत
- PDF में public disclosure करना tamper prevention के दृष्टिकोण से उचित विकल्प है। मूल दस्तावेज़ का PDF होना अपने आप में समस्या नहीं है
- समाधान "PDF public disclosure को खत्म करना" नहीं, बल्कि "PDF को source of truth के रूप में रहने देना और उसके ऊपर एक AI-readable derived layer जोड़ना" है
- यह repository मूल पाठ को हटाती या बदलती नहीं है। original PDF जस का तस रहता है, और उसके ऊपर केवल derived readable corpus की दो-स्तरीय संरचना बनाई जाती है
2 टिप्पणियां
बहुत बढ़िया है। इससे policy briefing में आगे बढ़ाई जा रही नीतियों में होने वाले बदलावों को राष्ट्रीय नीतियों और कानूनों में real-time में AI से विश्लेषित करवाकर नतीजे निकाले जा सकते हैं।
हिहि, इसका क्या करेंगे?