5 पॉइंट द्वारा xguru 2019-12-06 | 7 टिप्पणियां | WhatsApp पर शेयर करें

एक ओपन सोर्स वॉइस डेटाबेस, जो ऐसी speech recognition तकनीक बनाने और उसे सभी के लिए उपयोगी बनाने के लिए विभिन्न भाषाओं का डेटा इकट्ठा और परिष्कृत करता है जिसे कोई भी इस्तेमाल कर सके।

कोरियाई के लिए अभी भी डेटा की काफी कमी है। इसमें भाग लें और मिलकर इसे बनाएं।

ज़्यादातर कंपनियों द्वारा बनाए गए speech datasets का बाहरी उपयोग करना मुश्किल होता है।

इसीलिए ओपन तरीके से बनाया गया डेटा महत्वपूर्ण है। खासकर कोरियाई के लिए तो और भी अधिक।

7 टिप्पणियां

 
sduck4 2019-12-06

Goal सेट करने वाले हिस्से में Korean नहीं है, इसलिए आगे बढ़ नहीं पा रहा हूँ..

 
sduck4 2019-12-06

तो Korean डेटासेट अभी इसलिए नहीं हो पाया था क्योंकि sentence साइट की localization या sentence set अभी पर्याप्त नहीं थे।

 
sduck4 2019-12-06

साइट का कोरियाई अनुवाद: https://pontoon.mozilla.org/projects/common-voice/

वाक्य संग्रह साइट: https://common-voice.github.io/sentence-collector

लगता है कि साइट का अनुवाद पूरा होने और 5000 से अधिक वाक्य एकत्र होने के बाद ही वॉइस संग्रह और सत्यापन संभव होगा। रुचि रखने वाले सभी लोगों से अधिक से अधिक भागीदारी का अनुरोध है।

 
xguru 2019-12-06

मैंने भी बिल्कुल यही कमेंट किया था और फिर हटा दिया, हाहा

https://discourse.mozilla.org/t/…

यहाँ उसी तरह समझाया गया है।

 
sduck4 2019-12-06

अरे.. हाँ haha मैं भी delete करने की कोशिश कर रहा/रही था/थी, लेकिन delete बटन नहीं था, तो मैं भी घबरा गया/गई था/थी..

इससे जुड़ा कुछ Korean corpora भी हैं, लेकिन copyright समस्या की वजह से उन्हें अपलोड करना ठीक होगा या नहीं, यह पता नहीं है।

 
xguru 2019-12-06

आह, कमेंट हटाने के लिए कमेंट के ऊपर ID के बगल में मौजूद time link पर क्लिक करें, फिर कमेंट पेज के अंदर से उसे हटाया जा सकता है.

 
xguru 2019-12-06

पहले से सार्वजनिक किए गए कोरियाई speech recognition open source में Kaldi का उपयोग करने वाला Zeroth प्रोजेक्ट भी है.

( GitHub की सामग्री के मुताबिक, अंतिम मॉडल शायद July 2018 वर्ज़न लगता है )

https://github.com/goodatlas/zeroth