wav2vec-U : Supervision के बिना उच्च-प्रदर्शन speech recognition
(ai.facebook.com)-
Facebook AI टीम द्वारा बनाया गया speech recognition framework
-
transcribed speech data के बिना विभिन्न भाषाओं की recognition को support करता है
→ लगभग 1000 घंटे के speech पर प्रशिक्षित supervised learning मॉडल के समान प्रदर्शन
→ Swahili और Tatar जैसी भाषाओं पर परीक्षण, जहाँ transcribed speech data बहुत अधिक नहीं है
- unlabelled audio की संरचना को सीखने का तरीका
→ speech recordings को उन speech units में विभाजित किया जाता है जो ढीले तौर पर अलग-अलग sounds से मेल खाते हैं
→ cat में “/K/”, “/AE/”, “/T/” ये तीन sounds शामिल हैं
→ generator और discriminator से बने GAN के रूप में प्रशिक्षण
- code और research paper सार्वजनिक किए गए
अभी कोई टिप्पणी नहीं है.