7 पॉइंट द्वारा xguru 2020-03-25 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • कोरियाई सहित 66 भाषाओं को सपोर्ट करने वाला भाषा-स्वतंत्र natural language processing toolkit

  • PyTorch आधारित

  • टेक्स्ट analysis के लिए पूर्ण neural network pipeline

    टोकनाइज़ेशन, multi-word token (MWT) expansion, lemmatization

    POS और morpheme tagging, dependency parsing, named entity recognition

  • Stanford NLP Group द्वारा विकसित और प्रकाशित

    → पहले जारी किए गए CoreNLP Java के साथ इंटरऑपरेट करने वाला interface भी शामिल

2 टिप्पणियां

 
sftblw 2020-03-25

NER (named entity recognition) में अफ़सोस की बात है कि समर्थित भाषाओं की संख्या काफ़ी कम लगती है.

इसमें कोरियन शामिल नहीं है, और बताया गया है कि यह Arabic, Chinese, German, English, French, Dutch और Spanish समेत कुल 8 भाषाओं को सपोर्ट करता है.

 
xguru 2020-03-25

कोरियाई मॉडल दो हैं।

लगता है कि Universal Dependencies (UD) https://universaldependencies.org/ में रजिस्टर किए गए मॉडलों में से टोकन ज़्यादा वाले Kaist और GSD को लिया गया है।

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html