Stanza - ओपन सोर्स Python NLP Library
(stanfordnlp.github.io)-
कोरियाई सहित 66 भाषाओं को सपोर्ट करने वाला भाषा-स्वतंत्र natural language processing toolkit
-
PyTorch आधारित
-
टेक्स्ट analysis के लिए पूर्ण neural network pipeline
टोकनाइज़ेशन, multi-word token (MWT) expansion, lemmatization
POS और morpheme tagging, dependency parsing, named entity recognition
-
Stanford NLP Group द्वारा विकसित और प्रकाशित
→ पहले जारी किए गए CoreNLP Java के साथ इंटरऑपरेट करने वाला interface भी शामिल
2 टिप्पणियां
NER (named entity recognition) में अफ़सोस की बात है कि समर्थित भाषाओं की संख्या काफ़ी कम लगती है.
इसमें कोरियन शामिल नहीं है, और बताया गया है कि यह Arabic, Chinese, German, English, French, Dutch और Spanish समेत कुल 8 भाषाओं को सपोर्ट करता है.
कोरियाई मॉडल दो हैं।
लगता है कि Universal Dependencies (UD) https://universaldependencies.org/ में रजिस्टर किए गए मॉडलों में से टोकन ज़्यादा वाले Kaist और GSD को लिया गया है।
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html