7 पॉइंट द्वारा ninebow 13 일 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें

पिछली बार Show GN में परिचय देने के बाद, 1 महीने (31 दिन) के दौरान legalize-kr प्रोजेक्ट में हुए अपडेट्स को संक्षेप में साझा कर रहा हूँ। आप सभी ने रुचि दिखाई और समर्थन दिया, उसी की बदौलत हम कई चीज़ों में सुधार कर सके। धन्यवाद!

legalize-kr क्या है?

legalize-kr एक ऐसा प्रोजेक्ट है जो विधि मंत्रालय के राष्ट्रीय विधिक सूचना साझा-उपयोग द्वारा उपलब्ध कराए गए दक्षिण कोरिया के कानूनों और न्यायिक निर्णयों को Markdown + Git history के रूप में आर्काइव करता है। सभी कानूनों को Markdown दस्तावेज़ों के रूप में, और सभी संशोधन इतिहास को Git commit के रूप में आर्काइव किया गया है। न्यायिक निर्णयों को भी Markdown दस्तावेज़ों और निर्णय तिथि-आधारित Git history के साथ आर्काइव किया गया है.

यह क्यों बनाया?

पिछले 30 मार्च को मुझे GitHub Trending पर legalize.dev नाम का एक प्रोजेक्ट मिला, जो स्पेन और अंग्रेज़ीभाषी दुनिया के कानूनों को Markdown और Git commit के रूप में मैनेज करता है। मुझे लगा कि कोरियाई कानूनों के लिए भी ऐसा कुछ ज़रूर होगा, लेकिन खोजने पर ऐसा कुछ नहीं मिला। लगा कि कम-से-कम एक तो होना चाहिए, इसलिए इसे बनाया।

अपडेट 1. प्रशासनिक नियम / स्थानीय उपविधियों के रिपॉज़िटरी जोड़े गए

पहले यह केवल कानूनों और न्यायिक निर्णयों को संभालता था, लेकिन अब उसी राष्ट्रीय विधिक सूचना ओपन-यूज़ स्रोत से उपलब्ध प्रशासनिक नियमों और स्थानीय उपविधियों को भी अलग रिपॉज़िटरी के रूप में जोड़ा गया है। अब दक्षिण कोरिया के सार्वजनिक प्रमुख विधिक दस्तावेज़ों को एक ही जगह Markdown + Git History के साथ ट्रैक किया जा सकता है:

प्रशासनिक नियमों में विभिन्न मंत्रालयों के निर्देश/उदाहरण नियम/अधिसूचनाएँ आदि शामिल हैं, और स्थानीय उपविधियों में स्थानीय निकायों के अध्यादेश/नियम शामिल हैं। इनकी मात्रा कानूनों से अधिक है और इनमें संशोधन भी अधिक बार होते हैं, इसलिए Git History के साथ इन्हें ट्रैक करने का मूल्य काफी बड़ा हो सकता है। हालांकि, प्रशासनिक नियमों के मामले में अलग-अलग मंत्रालयों के नाम परिवर्तन या ज़िम्मेदारियों के बँटवारे को ट्रैक करना काफ़ी जटिल है। कई बार सुधार करने के बावजूद अभी भी काफ़ी काम बाकी लगता है। आप सभी की रुचि और भागीदारी का अनुरोध है.

अपडेट 2. CLI टूल, MCP और Agent Skill जोड़े गए

पूरे रिपॉज़िटरी को git clone करके इस्तेमाल करना सबसे सुविधाजनक और अच्छा तरीका है, लेकिन हर बार कई दसियों GB के रिपॉज़िटरी डाउनलोड करना बोझिल हो सकता है, इसलिए GitHub REST API आधारित CLI टूल बनाया गया। साथ ही, उसी codebase पर MCP server भी उपलब्ध कराया गया है, और Claude Code / Codex आदि में सीधे इस्तेमाल किए जा सकने वाले Agent Skill भी जोड़े गए हैं:

पूरे रिपॉज़िटरी को डाउनलोड किए बिना भी किसी विशेष कानून/न्यायिक निर्णय को खोजा जा सकता है, अनुच्छेद-स्तर पर देखा जा सकता है, या संशोधन इतिहास ट्रैक किया जा सकता है। MCP के ज़रिए LLM/Agent इसे सीधे कॉल भी कर सकता है। AGENT SKILL में यह गाइड भी शामिल है कि किन परिस्थितियों में CLI / MCP / git clone / सीधे GitHub access में से किसका उपयोग करना चाहिए। हालांकि, GitHub REST API बिना अलग authentication के केवल प्रति घंटे 60 request तक ही अनुमति देता है, इसलिए ज़रूरत पड़ने पर GitHub token जारी करके उसका उपयोग करना होगा (इससे प्रति घंटे 5,000 request तक संभव हैं)।

अपडेट 3. उपयोग उदाहरण / इकोसिस्टम पेज जोड़ा गया

legalize-kr द्वारा उपलब्ध कराए गए datasets का उपयोग करने वाले प्रोजेक्ट धीरे-धीरे सामने आ रहे हैं, इसलिए उन्हें होमपेज के मुख्य पेज के निचले हिस्से और 'उपयोग विधि' मेनू में व्यवस्थित करना शुरू किया गया है। केवल स्वयं उपयोग किए गए प्रोजेक्ट ही नहीं, बल्कि समान उद्देश्य वाले अन्य प्रोजेक्ट और टूल भी साथ में बताए जा रहे हैं (जैसे पहले GN में परिचित कराए गए Beommang, Korean Law MCP आदि)।

अगर आप legalize-kr के datasets में से एक या अधिक का उपयोग कर रहे हैं, या इसी तरह के क्षेत्र में काम कर रहे किसी प्रोजेक्ट से जुड़े हैं, तो PR, issue, या इस पोस्ट की टिप्पणी में बताइए—हम उसे भी साथ में व्यवस्थित करेंगे।

अपडेट 4. बेहतर डेटा उपयोग के लिए अन्य सुधार

कई रिपॉज़िटरी के issues के आधार पर डेटा parsing rules और metadata संगठन पर काम चल रहा है। मुख्य बदलाव इस प्रकार हैं:

  • मौजूदा 'भाग/अध्याय/अनुभाग/खंड' के अलावा 'उपखंड/श्रृंखला' जैसी अतिरिक्त इकाइयों के parsing rules में सुधार (legalize-kr/legalize-kr#32)
  • <제M조의 N> पैटर्न के खो जाने की समस्या का समाधान (legalize-kr/legalize-kr#31 तथा legalize-kr/legalize-pipeline#2)
  • छूटे हुए कानूनों की पूर्ति - उदाहरण: Commercial Act और उसके Enforcement Decree (legalize-kr/legalize-kr#9)
  • संशोधन-पूर्व enforcement rule files के बचे रहने से git log में 'modified' की जगह 'added' के रूप में दर्ज होने वाली समस्या का समाधान (legalize-kr/legalize-kr#24)
  • न्यायिक निर्णय फ़ाइल नाम परिवर्तन और निर्णय तिथि-आधारित directory classification (legalize-kr/precedent-kr#4)
  • न्यायिक निर्णय source URL में Korean address format टूटने (law.go.kr 404) की समस्या का समाधान (legalize-kr/precedent-kr#3)
  • Dangi (檀紀) year notation वाले 17 निर्णय तिथियों के git commit छूटने की पूर्ति (legalize-kr/precedent-kr#1)
  • प्रत्येक कानून / न्यायिक निर्णय / प्रशासनिक नियम / स्थानीय उपविधि से संबंधित attachment file links को Markdown Frontmatter में List फ़ॉर्मेट में जोड़ा गया

अधिक विवरण मुख्य रिपॉज़िटरी के closed issues में देखे जा सकते हैं:

अंत में

शुरुआत में सोचा था, "बस बना कर रख दें, कहीं न कहीं काम आ ही जाएगा," लेकिन पिछली Show GN पोस्ट के बाद बहुत सारे ⭐ और issues मिलने लगे, और स्वाभाविक रूप से इसका दायरा भी बढ़ता जा रहा है। मैं लगातार इसका maintenance/management कर रहा हूँ, इसलिए कृपया रुचि, समर्थन और इसे साझा करने में मदद करते रहें। धन्यवाद!

2 टिप्पणियां

 
ptlkiki 13 일 전

हमारे मंत्रालय में एक RAG डेवलपमेंट चल रहा है। हम इसे clone करके सिर्फ़ हमारी तरफ़ से संबंधित क़ानून आदि निकालकर इस्तेमाल करना चाहते हैं,
क्या ऐसा संभव होगा?

 
ninebow 12 일 전

हाँ, अभी pipeline कैसे configured है यह तो मुझे नहीं पता, लेकिन मूल रूप से लगता है कि वर्तमान RAG setup के लिए documents को Vector DB में डालने से पहले आप उससे जुड़े काम जोड़ सकते हैं.

हालाँकि, मुख्य बात शायद यह होगी कि आप 'संबंधित कानून' कैसे extract करते हैं; मेरा मानना है कि कानून के नाम या प्रमुख शब्दों आदि के आधार पर filtering करके देखा जा सकता है. ^^;

धन्यवाद!