Stanza - ओपन सोर्स Python NLP Library

xguru · 2020-03-25T16:05:16+09:00

कोरियाई सहित 66 भाषाओं को सपोर्ट करने वाला भाषा-स्वतंत्र natural language processing toolkit PyTorch आधारित टेक्स्ट analysis के लिए पूर्ण neural network pipeline टोकनाइज़ेशन, multi-word token (MWT) expansion, lemmatization POS और morpheme tagging, dependency parsing, named entity recognition Stanford NLP Group द्वारा विकसित और प्रकाशित → पहले जारी किए गए CoreNLP Java के साथ इंटरऑपरेट करने वाला interface भी शामिल

(stanfordnlp.github.io)

7 पॉइंट द्वारा xguru 2020-03-25 | 2 टिप्पणियां | WhatsApp पर शेयर करें

कोरियाई सहित 66 भाषाओं को सपोर्ट करने वाला भाषा-स्वतंत्र natural language processing toolkit
PyTorch आधारित
टेक्स्ट analysis के लिए पूर्ण neural network pipeline

टोकनाइज़ेशन, multi-word token (MWT) expansion, lemmatization

POS और morpheme tagging, dependency parsing, named entity recognition
Stanford NLP Group द्वारा विकसित और प्रकाशित

→ पहले जारी किए गए CoreNLP Java के साथ इंटरऑपरेट करने वाला interface भी शामिल

2 टिप्पणियां

sftblw 2020-03-25

NER (named entity recognition) में अफ़सोस की बात है कि समर्थित भाषाओं की संख्या काफ़ी कम लगती है.

इसमें कोरियन शामिल नहीं है, और बताया गया है कि यह Arabic, Chinese, German, English, French, Dutch और Spanish समेत कुल 8 भाषाओं को सपोर्ट करता है.

xguru 2020-03-25

कोरियाई मॉडल दो हैं।

लगता है कि Universal Dependencies (UD) https://universaldependencies.org/ में रजिस्टर किए गए मॉडलों में से टोकन ज़्यादा वाले Kaist और GSD को लिया गया है।

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - ओपन सोर्स Python NLP Library

संबंधित पढ़ाई

2 टिप्पणियां