Dia - यथार्थवादी संवाद बनाने वाला open-weight TTS मॉडल
(github.com/nari-labs)- Dia टेक्स्ट संवाद के आधार पर उच्च-गुणवत्ता वाली संवाद आवाज़ें बनाने वाला 1.6B parameter TTS मॉडल है, और audio prompt के ज़रिए emotion और tone को नियंत्रित किया जा सकता है
- इसे Nari Labs ने विकसित किया है, और "Nari" का शुद्ध कोरियाई में अर्थ lily है
- [S1], [S2] से speaker तय किए जा सकते हैं, और
(laughs),(coughs)जैसी गैर-शाब्दिक अभिव्यक्तियाँ भी बनाई जा सकती हैं; साथ ही सरल voice cloning भी समर्थित है - इसे HuggingFace पर तुरंत चलाया जा सकता है, और बिना अलग installation के browser-based test तथा ZeroGPU support भी मिलता है
- अभी सिर्फ English support है, 10GB VRAM या उससे अधिक चाहिए, और आगे quantized मॉडल व multilingual support की योजना है
Dia: संवाद-केंद्रित speech synthesis मॉडल
- Dia Nari Labs द्वारा विकसित 1.6B parameter का open-weight TTS मॉडल है
- पारंपरिक TTS की तरह speaker के हिसाब से आवाज़ अलग-अलग बनाने के बजाय, यह पूरा संवाद एक बार में generate करता है
- डेमो: Hugging Face Space
- कोड: GitHub रिपॉज़िटरी
मुख्य फीचर
संवादात्मक voice generation
- टेक्स्ट में
[S1],[S2]से speaker निर्धारित किए जा सकते हैं (laughs),(coughs)जैसी गैर-शाब्दिक ध्वनियाँ भी टेक्स्ट के रूप में डाली जा सकती हैं- emotion, tone और voice style को audio prompt से निर्धारित किया जा सकता है
voice cloning
- अगर sample audio और उससे जुड़ा संवाद टेक्स्ट साथ दिया जाए, तो voice cloning फीचर सक्रिय हो जाता है
- Hugging Face Space में audio upload करके इसे आज़माया जा सकता है
- विस्तृत उदाहरण के लिए
example/voice_clone.pyदेखें
लाइब्रेरी के रूप में उपयोग
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
output = model.generate(text)
soundfileसे MP3 output किया जा सकता है- PyPI package और CLI tool भी जल्द उपलब्ध होंगे
installation और चलाने का तरीका
तेज़ी से चलाने का तरीका (Gradio आधारित)
git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py
या अगर uv नहीं है:
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
- चलाते समय Descript Audio Codec अपने-आप download हो जाता है
- हर बार चलाने पर आवाज़ random generate होती है, इसलिए consistency के लिए prompt या seed को fix करना होगा
performance और hardware requirements
- test environment: PyTorch 2.0+, CUDA 12.6 या उससे ऊपर
- recommended VRAM: 10GB या अधिक, जल्द quantized version आने वाला है
- A4000 GPU पर लगभग 40 token/second generation (86 token = लगभग 1 सेकंड की आवाज़)
torch.compileइस्तेमाल करने पर speed बेहतर हो सकती है
आगे की योजना और TODO
- Docker support
- inference speed optimization
- model quantization (memory efficiency)
- multilingual support, अधिक speakers को संभालने जैसी विस्तार योजनाएँ
license और उपयोग प्रतिबंध
- Apache 2.0 license लागू
- प्रतिबंधित उपयोग के उदाहरण:
- किसी दूसरे की आवाज़ बिना अनुमति generate करना (Identity Misuse)
- गलत जानकारी बनाना (Fake News आदि)
- अवैध या दुर्भावनापूर्ण उद्देश्य
community और contribution
- research team: 1 full-time + 1 part-time सदस्य वाला छोटा दल
- Discord सर्वर के ज़रिए feedback साझा किया जा सकता है और फीचर सुझाव दिए जा सकते हैं
- contributors के साथ बढ़ने वाला open source उन्मुख प्रोजेक्ट
संदर्भ और तकनीकी आधार
- sound model: SoundStorm, Parakeet, Descript Audio Codec से प्रेरित
- compute support: Google TPU Research Cloud, HuggingFace ZeroGPU program
- "Nari" का शुद्ध कोरियाई में अर्थ "lily" है
13 टिप्पणियां
वाह, यह तो बहुत बढ़िया है। आप दोनों के लिए training data तक जुटाना भी आसान नहीं रहा होगा, सच में कमाल कर दिया आपने।
बनाने वाले खुद भी आ गए~ मुझे भी इसे एक बार आज़माना पड़ेगा
कोरियन का इंतज़ार है!!
अरे, मैं भी इसे बनाकर पोस्ट करने वाला था, लेकिन आपने तो पहले ही फुर्ती से पोस्ट कर दिया। धन्यवाद।
ओह, तो यह एक कोरियाई व्यक्ति ने बनाया था! डेमो पेज पर तुलना करके सुना तो परफ़ॉर्मेंस वाकई बहुत अच्छी लगी। अगर audio prompt दिया जाए, तो क्या यह उसी आवाज़ को संदर्भ के तौर पर इस्तेमाल करता है? यह भी जानना चाहता/चाहती हूँ कि s1 और s2 से अलग किए गए उदाहरणों को क्या अलग-अलग देना पड़ता है?
धन्यवाद! ऑडियो प्रॉम्प्ट में [S1] और [S2] से अलग किए गए उदाहरण डालना ज़रूरी नहीं है। आप सिर्फ़ [S1] डाल सकते हैं, और [S1] व [S2] दोनों डालना भी ठीक है। बस यह सुनिश्चित करें कि [S1] हमेशा पहले आए।
Hacker News पर इसे बहुत upvote मिले, इसलिए GN+ ने अपने-आप इसका सारांश बना दिया। मैंने बस थोड़ा सा अतिरिक्त व्यवस्थित कर दिया है.
समर्थन करता हूँ!!
धन्यवाद :))
यह वह मॉडल है जो मैंने बनाया है हाहा...
कमाल हैं!! अच्छे से इस्तेमाल करूंगा T_T/
धन्यवाद :)) GitHub star ज़रूर दीजिए haha
पूरा कर दिया! उम्मीद है कि जल्द ही कोरियाई ख़बरें भी देखने को मिलेंगी!! धन्यवाद
Hacker News की राय
तकनीकी प्रशंसा और सराहना
वॉइस क्वालिटी और विशेषताओं पर राय
डेमो इस्तेमाल का अनुभव और सीधे परीक्षण
ऑडियोबुक और उपन्यास उपयोग पर चर्चा
स्पीच सिंथेसिस से जुड़े फीचर अनुरोध और सवाल
लाइसेंस और open source से जुड़ी बातें
ट्रेनिंग डेटा और प्रशिक्षण प्रक्रिया पर सवाल
नाम टकराव विवाद
उपयोगिता और सुधार संबंधी फीडबैक
venvउल्लेख आदि के कारण README सुधारने के सुझावविकास/अनुप्रयोग और इंटीग्रेशन के उदाहरण
अन्य