12 पॉइंट द्वारा dydwls140 2026-03-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें

मैंने एक Korean morphological analyzer बनाया है जो ब्राउज़र में बिना सर्वर के चलता है.

मौजूदा morphological analyzers (Kiwi ~40MB, MeCab-ko ~50MB) सर्वर environment को ध्यान में रखकर डिज़ाइन किए गए थे, इसलिए जब client-side पर morphological analysis की ज़रूरत होती थी, तब कोई विकल्प नहीं था.

Garu, codebook + Viterbi आधारित non-neural architecture का उपयोग करता है, और सिर्फ 1.7MB मॉडल तथा 93KB WASM engine के साथ सीधे ब्राउज़र में चलता है.

  • मॉडल आकार: 1.7MB (gzip ~950KB, network transfer लगभग 1MB)
  • सटीकता: F1 95.3% (NIKL Everyone's Corpus के आधार पर)
  • तुलना: Kiwi 87.9% / MeCab-ko ~85%
  • neural network नहीं: training parameters 0, pure lookup + Viterbi decoding
  • npm install garu-ko से server/ब्राउज़र दोनों में इस्तेमाल संभव

BiLSTM knowledge distillation, jaso unit sequence labeling जैसी दो असफल कोशिशों के बाद मैं codebook + Viterbi वाली non-neural architecture तक पहुँचा. 76.1% से 95.3% तक के optimization process (NIKL gold data पर direct training, smart eojeol cache, context-based post-processing rules आदि) को technical paper में संकलित किया है.

GitHub: https://github.com/ongjin/garu
तकनीकी पेपर: https://github.com/ongjin/garu/blob/main/docs/paper.md
npm: https://www.npmjs.com/package/garu-ko

1 टिप्पणियां

 
moderator 2026-03-30

इसे Show GN में स्थानांतरित कर दिया गया है.
संदर्भ के लिए, moderator द्वारा category समायोजित की गई पोस्टों की होम स्क्रीन पर दृश्यता सीमित हो सकती है, इसलिए रजिस्टर करने से पहले कृपया category एक बार फिर जाँच लें.