Garu: ब्राउज़र में चलने वाला 1.7MB का Korean morphological analyzer (F1 95.3%, WASM)
(github.com/ongjin)मैंने एक Korean morphological analyzer बनाया है जो ब्राउज़र में बिना सर्वर के चलता है.
मौजूदा morphological analyzers (Kiwi ~40MB, MeCab-ko ~50MB) सर्वर environment को ध्यान में रखकर डिज़ाइन किए गए थे, इसलिए जब client-side पर morphological analysis की ज़रूरत होती थी, तब कोई विकल्प नहीं था.
Garu, codebook + Viterbi आधारित non-neural architecture का उपयोग करता है, और सिर्फ 1.7MB मॉडल तथा 93KB WASM engine के साथ सीधे ब्राउज़र में चलता है.
- मॉडल आकार: 1.7MB (gzip ~950KB, network transfer लगभग 1MB)
- सटीकता: F1 95.3% (NIKL Everyone's Corpus के आधार पर)
- तुलना: Kiwi 87.9% / MeCab-ko ~85%
- neural network नहीं: training parameters 0, pure lookup + Viterbi decoding
npm install garu-koसे server/ब्राउज़र दोनों में इस्तेमाल संभव
BiLSTM knowledge distillation, jaso unit sequence labeling जैसी दो असफल कोशिशों के बाद मैं codebook + Viterbi वाली non-neural architecture तक पहुँचा. 76.1% से 95.3% तक के optimization process (NIKL gold data पर direct training, smart eojeol cache, context-based post-processing rules आदि) को technical paper में संकलित किया है.
GitHub: https://github.com/ongjin/garu
तकनीकी पेपर: https://github.com/ongjin/garu/blob/main/docs/paper.md
npm: https://www.npmjs.com/package/garu-ko
1 टिप्पणियां
इसे Show GN में स्थानांतरित कर दिया गया है.
संदर्भ के लिए, moderator द्वारा category समायोजित की गई पोस्टों की होम स्क्रीन पर दृश्यता सीमित हो सकती है, इसलिए रजिस्टर करने से पहले कृपया category एक बार फिर जाँच लें.