मुझे standalone edge device AI में रुचि है.

RK3576 chipset में 6 TOPS वाला NPU है, लेकिन जहाँ हल्के English TTS model कभी-कभी दिख जाते हैं, वहीं Korean TTS model लगभग नहीं मिलते.

MeloTTS-ko के मामले में direct RKNN conversion के जरिए Korean का उपयोग संभव था, लेकिन Encoder का RKNN conversion संभव नहीं था और इसकी speed भी खास तेज़ नहीं थी.

इसलिए edge devices पर भी इस्तेमाल किया जा सके, इसके लिए मैंने quality से ज़्यादा speed पर ध्यान देने वाला एक हल्का Korean TTS model बनाया.

यह भले ही कुछ unnatural machine-like speech देता है, लेकिन real-time स्तर की voice generation संभव है. (RK3576 ke aadhar par)

इसे Apache 2.0 के तहत public करने के बाद, अगर कोई edge devices पर quality से ज़्यादा speed वाली Korean TTS खोज रहा हो, तो शायद यह मददगार हो सकता है, इसलिए साझा कर रहा हूँ.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.