24 पॉइंट द्वारा GN⁺ 2025-01-16 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • Kokoro v0.19 हाल ही में घोषित किया गया text-to-speech मॉडल है, जिसमें 82M parameters हैं और यह बहुत उच्च गुणवत्ता का output देता है
    • Apache license, 100 घंटे से कम audio पर train किया गया है
    • यह US English, British English, French, Korean, Japanese और Chinese को support करता है, और कई उच्च-गुणवत्ता वाली voices प्रदान करता है
  • Kokoro का उपयोग

    • उपयोगकर्ता Audiblez नाम के एक tool के जरिए Kokoro का उपयोग कर सकते हैं, जो ई-बुक को ऑडियोबुक में बदल सकता है.
    • Audiblez .epub फ़ाइलों को parse करके किताब के मुख्य पाठ को अच्छी तरह रिकॉर्ड की गई audio files में बदल देता है.
    • उदाहरण के लिए, M2 MacBook Pro पर लगभग 100,000 शब्दों की किताब को बदलने में लगभग 2 घंटे लगते हैं.
  • इंस्टॉल और चलाने का तरीका

    • Python 3 installed कंप्यूटर पर pip के जरिए Audiblez इंस्टॉल किया जा सकता है.
    • यह Python 3.13 पर काम नहीं करता.
    • लगभग 360MB की अतिरिक्त files डाउनलोड करनी पड़ती हैं.
    • .epub फ़ाइल को ऑडियोबुक में बदलने के लिए command चलानी होगी.
  • समर्थित भाषाएँ और voices

    • -l option का उपयोग करके भाषा चुनी जा सकती है, और supported language codes हैं en-us, en-gb, fr-fr, ja, ko, cmn.
    • -v option का उपयोग करके voice चुनी जा सकती है, और कई voices उपलब्ध हैं.
  • chapter detection

    • Chapter detection थोड़ा अस्थिर है, लेकिन ज़्यादातर .epub फ़ाइलों में मुख्य chapters ढूँढ सकता है.
    • अगर आपकी रुचि वाला chapter शामिल नहीं है, तो code में is_chapter function को समायोजित करके देख सकते हैं.
  • source code और सुधार

    • Audiblez project को GitHub पर देखा जा सकता है.
    • आगे के सुधारों में बेहतर chapter detection, chapter navigation जोड़ना, और images के लिए narration जोड़ना शामिल है.

3 टिप्पणियां

 
crawler 2025-01-16

इससे बड़े और बेहतर models भी हैं, लेकिन मुझे लगता है कि उनके use case अलग हैं।
Kokoro का size छोटा है, इसलिए यह तेज़ है और quality भी खराब नहीं है—इसी वजह से इसे बहुत अच्छा response मिल रहा है।

 
munggo 2025-01-16

कोरियाई वर्ज़न रूसी जैसा सुनाई देता है। यह सुनने लायक भी नहीं है।

 
GN⁺ 2025-01-16
Hacker News टिप्पणियाँ
  • कभी-कभी ऑडियोबुक का narrator टेक्स्ट को अच्छी तरह interpret करता है, इसलिए AI voice के इस्तेमाल को लेकर मिली-जुली भावनाएँ हैं

    • कई narrators और हर character की अलग आवाज़ वाली ऑडियोबुक एक खास अनुभव देती हैं
    • कभी-कभी संवाद के दौरान कौन बोल रहा है, इसका एकमात्र संकेत आवाज़ के tone में बदलाव होता है
    • amateur e-book या Project Gutenberg जैसे public domain ऑडियोबुक की तुलना में AI voice को प्राथमिकता देते हैं
  • AI-generated voice को 1 मिनट से ज़्यादा सुनना मुश्किल लगता है, और YouTube पर AI voice आते ही तुरंत skip कर देते हैं

    • शायद इसलिए कि हमारा दिमाग speaker की भावनाएँ, ठहराव, और दिखाई न देने वाली मुस्कान जैसी चीज़ें महसूस करने की कोशिश करता है
    • model बेहतर होंगे और AI-generated voice को पहचानना मुश्किल हो जाएगा
  • custom voice के साथ TTS generation के लिए open source विकल्पों की सिफारिश माँगी गई

    • Coqui TTS आज़माने की योजना है
  • ऐसा e-book reader चाहिए जिसमें एक बटन दबाकर टेक्स्ट और ऑडियो के बीच बदला जा सके

    • सोफ़े पर किताब पढ़ते हुए फिर बर्तन धोते समय audio mode में स्विच करने जैसी सुविधा की कल्पना की गई
  • किसी खास ऑडियोबुक narrator की आवाज़ में e-book को ऑडियोबुक में बदलने का विचार है

    • Infinite Conversation project से प्रेरणा मिली, लेकिन अभी तक इसे लागू नहीं कर पाए
  • कई TTS models आज़माए, लेकिन ज़्यादातर औसत थे, Mac पर नहीं चलते थे, या बहुत धीमे थे

    • यह model तेज़ है, install करना आसान है, और ठीक-ठाक voice देता है
    • जिन किताबों का ऑडियोबुक version नहीं होता, उन्हें नहीं पढ़ते
    • पहले elevenlabs इस्तेमाल किया था, लेकिन personal use के लिए महँगा है
  • 2025 तक neural networks का इस्तेमाल करके background music, sound effects, और dramatic narration वाले ऑडियोबुक बनाए जा सकेंगे

  • "kokoro" का जापानी में अर्थ "दिल" है

  • उम्मीद है कि Calibre e-book management software में एक plugin जुड़ जाए, ताकि epub library के चुने गए titles को आसानी से audio version में बदला जा सके

  • variable speed argument जोड़ने पर बहुत संतुष्टि जताई