MimikaStudio - Mac के लिए voice cloning और TTS open source

xguru · 2026-03-19T09:31:02+09:00

voice cloning, text-to-speech conversion, document narration और audiobook creation features एकीकृत रूप में प्रदान करता है MLX-आधारित Metal acceleration का उपयोग कर macOS environment में native performance देता है (Windows support बाद में) 3-second sample से voice cloning संभव करने वाले Qwen3-TTS और Chatterbox engines को एकीकृत किया गया है हिंदी सहित बहुभाषी (23 भाषाएँ) voice cloning और emotion expression support Kokoro TTS, Supertonic-2, और CosyVoice3 ONNX जैसे नवीनतम speech synthesis models शामिल document narration reader feature: PDF, DOCX, EPUB, Markdown, TXT files को sentence-by-sentence पढ़ने का support audiobook generator: पूरे document को WAV/MP3/M4B format में convert करता है. chapter-level queue management, progress tracking, voice preset reuse Agentic Voice Cloning Server के रूप में काम करता है, और advanced task queue orchestration के माध्यम से parallel processing support करता है UI, API, CLI सभी प्रदान करता है, जिससे local automation और external integration संभव है, साथ ही MCP server भी built-in है shared voice library उपलब्ध है, इसलिए uploaded voices को सभी engines में reuse किया जा सकता है model manager built-in: HuggingFace models download और status check संभव Multi-LLM integration (Claude, OpenAI, Ollama आदि) support FastAPI backend और Flutter desktop UI से बना लगभग 18,600-line codebase Python backend लगभग 8,500 lines, Dart UI लगभग 10,100 lines macOS-only binary उपलब्ध, Windows/Linux के लिए केवल code compatibility support (build बाद में) Business Source License 1.1 (BSL-1.1) आधारित source release, binaries पर अलग distribution license लागू

(github.com/BoltzmannEntropy)

42 पॉइंट द्वारा xguru 2026-03-19 | 2 टिप्पणियां | WhatsApp पर शेयर करें

voice cloning, text-to-speech conversion, document narration और audiobook creation features एकीकृत रूप में प्रदान करता है
MLX-आधारित Metal acceleration का उपयोग कर macOS environment में native performance देता है (Windows support बाद में)
3-second sample से voice cloning संभव करने वाले Qwen3-TTS और Chatterbox engines को एकीकृत किया गया है
- हिंदी सहित बहुभाषी (23 भाषाएँ) voice cloning और emotion expression support
Kokoro TTS, Supertonic-2, और CosyVoice3 ONNX जैसे नवीनतम speech synthesis models शामिल
document narration reader feature: PDF, DOCX, EPUB, Markdown, TXT files को sentence-by-sentence पढ़ने का support
audiobook generator: पूरे document को WAV/MP3/M4B format में convert करता है. chapter-level queue management, progress tracking, voice preset reuse
Agentic Voice Cloning Server के रूप में काम करता है, और advanced task queue orchestration के माध्यम से parallel processing support करता है
UI, API, CLI सभी प्रदान करता है, जिससे local automation और external integration संभव है, साथ ही MCP server भी built-in है
shared voice library उपलब्ध है, इसलिए uploaded voices को सभी engines में reuse किया जा सकता है
model manager built-in: HuggingFace models download और status check संभव
Multi-LLM integration (Claude, OpenAI, Ollama आदि) support
FastAPI backend और Flutter desktop UI से बना लगभग 18,600-line codebase
- Python backend लगभग 8,500 lines, Dart UI लगभग 10,100 lines
macOS-only binary उपलब्ध, Windows/Linux के लिए केवल code compatibility support (build बाद में)
Business Source License 1.1 (BSL-1.1) आधारित source release, binaries पर अलग distribution license लागू

2 टिप्पणियां

neocode24 2026-03-19

क्या यह mlx-audio का GUI वर्ज़न है? क्वालिटी तो निश्चित रूप से अच्छी है।

jhk0530 2026-03-19

इसे इस्तेमाल किया, सच में कमाल है

MimikaStudio - Mac के लिए voice cloning और TTS open source

संबंधित पढ़ाई

2 टिप्पणियां