Mozilla Common Voice
(voice.mozilla.org)एक ओपन सोर्स वॉइस डेटाबेस, जो ऐसी speech recognition तकनीक बनाने और उसे सभी के लिए उपयोगी बनाने के लिए विभिन्न भाषाओं का डेटा इकट्ठा और परिष्कृत करता है जिसे कोई भी इस्तेमाल कर सके।
कोरियाई के लिए अभी भी डेटा की काफी कमी है। इसमें भाग लें और मिलकर इसे बनाएं।
ज़्यादातर कंपनियों द्वारा बनाए गए speech datasets का बाहरी उपयोग करना मुश्किल होता है।
इसीलिए ओपन तरीके से बनाया गया डेटा महत्वपूर्ण है। खासकर कोरियाई के लिए तो और भी अधिक।
7 टिप्पणियां
Goal सेट करने वाले हिस्से में Korean नहीं है, इसलिए आगे बढ़ नहीं पा रहा हूँ..
तो Korean डेटासेट अभी इसलिए नहीं हो पाया था क्योंकि sentence साइट की localization या sentence set अभी पर्याप्त नहीं थे।
साइट का कोरियाई अनुवाद: https://pontoon.mozilla.org/projects/common-voice/
वाक्य संग्रह साइट: https://common-voice.github.io/sentence-collector
लगता है कि साइट का अनुवाद पूरा होने और 5000 से अधिक वाक्य एकत्र होने के बाद ही वॉइस संग्रह और सत्यापन संभव होगा। रुचि रखने वाले सभी लोगों से अधिक से अधिक भागीदारी का अनुरोध है।
मैंने भी बिल्कुल यही कमेंट किया था और फिर हटा दिया, हाहा
https://discourse.mozilla.org/t/…
यहाँ उसी तरह समझाया गया है।
अरे.. हाँ haha मैं भी delete करने की कोशिश कर रहा/रही था/थी, लेकिन delete बटन नहीं था, तो मैं भी घबरा गया/गई था/थी..
इससे जुड़ा कुछ Korean corpora भी हैं, लेकिन copyright समस्या की वजह से उन्हें अपलोड करना ठीक होगा या नहीं, यह पता नहीं है।
आह, कमेंट हटाने के लिए कमेंट के ऊपर ID के बगल में मौजूद time link पर क्लिक करें, फिर कमेंट पेज के अंदर से उसे हटाया जा सकता है.
पहले से सार्वजनिक किए गए कोरियाई speech recognition open source में Kaldi का उपयोग करने वाला Zeroth प्रोजेक्ट भी है.
( GitHub की सामग्री के मुताबिक, अंतिम मॉडल शायद July 2018 वर्ज़न लगता है )
https://github.com/goodatlas/zeroth