Google Universal Speech Model - सभी भाषाओं की speech recognition के लिए मॉडल
(sites.research.google)- 2 अरब parameters वाला मॉडल, जिसे 1.2 करोड़ घंटे की speech, 2800 करोड़ वाक्यों और 300 भाषाओं पर train किया गया
- व्यापक रूप से जानी जाने वाली भाषाओं से लेकर कम लोगों द्वारा इस्तेमाल की जाने वाली भाषाओं तक, सभी में speech recognition करने में सक्षम
- यहाँ तक कि वे भाषाएँ भी, जिन्हें 2 करोड़ से कम लोग बोलते हैं और जिनके लिए training data ढूँढना मुश्किल है
- YouTube के वीडियो पर evaluation के नतीजों में, यह Whisper(OpenAI) की तुलना में कम word error rate दिखाता है
1 टिप्पणियां
Whisper - OpenAI द्वारा ओपन सोर्स के रूप में जारी किया गया बहुभाषी speech recognition system (ASR)
OpenAI, Whisper v2 मॉडल जारी
परफॉर्मेंस अच्छी बताई जाती है, लेकिन अभी सिर्फ पेपर और API ही जारी किए गए हैं। इसलिए ओपन सोर्स के रूप में जारी Whisper की उपयोगिता अभी भी ज़्यादा बेहतर लगती है.