- Kokoro v0.19 हाल ही में घोषित किया गया text-to-speech मॉडल है, जिसमें 82M parameters हैं और यह बहुत उच्च गुणवत्ता का output देता है
- Apache license, 100 घंटे से कम audio पर train किया गया है
- यह US English, British English, French, Korean, Japanese और Chinese को support करता है, और कई उच्च-गुणवत्ता वाली voices प्रदान करता है
-
Kokoro का उपयोग
- उपयोगकर्ता Audiblez नाम के एक tool के जरिए Kokoro का उपयोग कर सकते हैं, जो ई-बुक को ऑडियोबुक में बदल सकता है.
- Audiblez
.epub फ़ाइलों को parse करके किताब के मुख्य पाठ को अच्छी तरह रिकॉर्ड की गई audio files में बदल देता है.
- उदाहरण के लिए, M2 MacBook Pro पर लगभग 100,000 शब्दों की किताब को बदलने में लगभग 2 घंटे लगते हैं.
-
इंस्टॉल और चलाने का तरीका
- Python 3 installed कंप्यूटर पर pip के जरिए Audiblez इंस्टॉल किया जा सकता है.
- यह Python 3.13 पर काम नहीं करता.
- लगभग 360MB की अतिरिक्त files डाउनलोड करनी पड़ती हैं.
.epub फ़ाइल को ऑडियोबुक में बदलने के लिए command चलानी होगी.
-
समर्थित भाषाएँ और voices
-l option का उपयोग करके भाषा चुनी जा सकती है, और supported language codes हैं en-us, en-gb, fr-fr, ja, ko, cmn.
-v option का उपयोग करके voice चुनी जा सकती है, और कई voices उपलब्ध हैं.
-
chapter detection
- Chapter detection थोड़ा अस्थिर है, लेकिन ज़्यादातर
.epub फ़ाइलों में मुख्य chapters ढूँढ सकता है.
- अगर आपकी रुचि वाला chapter शामिल नहीं है, तो code में
is_chapter function को समायोजित करके देख सकते हैं.
-
source code और सुधार
- Audiblez project को GitHub पर देखा जा सकता है.
- आगे के सुधारों में बेहतर chapter detection, chapter navigation जोड़ना, और images के लिए narration जोड़ना शामिल है.
3 टिप्पणियां
इससे बड़े और बेहतर models भी हैं, लेकिन मुझे लगता है कि उनके use case अलग हैं।
Kokoro का size छोटा है, इसलिए यह तेज़ है और quality भी खराब नहीं है—इसी वजह से इसे बहुत अच्छा response मिल रहा है।
कोरियाई वर्ज़न रूसी जैसा सुनाई देता है। यह सुनने लायक भी नहीं है।
Hacker News टिप्पणियाँ
कभी-कभी ऑडियोबुक का narrator टेक्स्ट को अच्छी तरह interpret करता है, इसलिए AI voice के इस्तेमाल को लेकर मिली-जुली भावनाएँ हैं
AI-generated voice को 1 मिनट से ज़्यादा सुनना मुश्किल लगता है, और YouTube पर AI voice आते ही तुरंत skip कर देते हैं
custom voice के साथ TTS generation के लिए open source विकल्पों की सिफारिश माँगी गई
ऐसा e-book reader चाहिए जिसमें एक बटन दबाकर टेक्स्ट और ऑडियो के बीच बदला जा सके
किसी खास ऑडियोबुक narrator की आवाज़ में e-book को ऑडियोबुक में बदलने का विचार है
कई TTS models आज़माए, लेकिन ज़्यादातर औसत थे, Mac पर नहीं चलते थे, या बहुत धीमे थे
2025 तक neural networks का इस्तेमाल करके background music, sound effects, और dramatic narration वाले ऑडियोबुक बनाए जा सकेंगे
"kokoro" का जापानी में अर्थ "दिल" है
उम्मीद है कि Calibre e-book management software में एक plugin जुड़ जाए, ताकि epub library के चुने गए titles को आसानी से audio version में बदला जा सके
variable speed argument जोड़ने पर बहुत संतुष्टि जताई