- Massively Multilingual Speech
- मौजूदा लगभग 100 भाषाओं को ही सपोर्ट करने वाले speech recognition models से आगे बढ़ते हुए, पृथ्वी पर उपयोग में आने वाली 7000+ भाषाओं की दिशा में हज़ारों भाषाओं को सपोर्ट करने वाला एक single speech model बनाने की परियोजना
- 1100+ बहुभाषी speech recognition (ASR) models और text-to-speech (TTS) models, 4000+ language identification (LID) models, और 1400+ language pretraining models उपलब्ध कराता है
- लक्ष्य यह है कि लोग अपने devices पर अपनी इच्छित भाषा में जानकारी तक पहुँच सकें और उसका उपयोग कर सकें
- परियोजना के हिस्से के रूप में 1100 भाषाओं के लिए प्रति भाषा औसतन 32 घंटे का New Testament reading dataset बनाया गया, और बिना लेबल वाले विभिन्न Christian document recordings का उपयोग करके उपलब्ध भाषाओं का दायरा 4000 तक बढ़ाया गया
डाउनलोड किए जा सकने वाले model files
- Pretraied models : MMS-300M (3.5GB) और MMS-1B (10GB)
- ASR speech recognition models और dictionary जारी: MMS-1B:FL102 (102 भाषाएँ, 4.5GB), MMS-1B:L1107 (1107 भाषाएँ, 13GB), MMS-1B-all(1162 भाषाएँ, 13.7GB)
- TTS speech synthesis models : 1107 भाषाओं के लिए generator और vocabulary files
- LID language identification models : 126, 256, 512, 1024, 2048, 4017 models और dictionary
3 टिप्पणियां
आजकल speech recognition या TTS models बहुत ज़्यादा आ रहे हैं.
लगता है कि जल्द ही इस क्षेत्र में performance भी काफ़ी बढ़ने वाला दिन दूर नहीं है.
लेकिन अगर कोई ईसाई आस्तिक हो, तो क्या speech recognition rate बढ़ जाएगा? 🤔
हाहाहा
......