Dia - यथार्थवादी संवाद बनाने वाला open-weight TTS मॉडल

(github.com/nari-labs)

41 पॉइंट द्वारा GN⁺ 2025-04-22 | 13 टिप्पणियां | WhatsApp पर शेयर करें

Dia टेक्स्ट संवाद के आधार पर उच्च-गुणवत्ता वाली संवाद आवाज़ें बनाने वाला 1.6B parameter TTS मॉडल है, और audio prompt के ज़रिए emotion और tone को नियंत्रित किया जा सकता है
इसे Nari Labs ने विकसित किया है, और "Nari" का शुद्ध कोरियाई में अर्थ lily है
[S1], [S2] से speaker तय किए जा सकते हैं, और (laughs), (coughs) जैसी गैर-शाब्दिक अभिव्यक्तियाँ भी बनाई जा सकती हैं; साथ ही सरल voice cloning भी समर्थित है
इसे HuggingFace पर तुरंत चलाया जा सकता है, और बिना अलग installation के browser-based test तथा ZeroGPU support भी मिलता है
अभी सिर्फ English support है, 10GB VRAM या उससे अधिक चाहिए, और आगे quantized मॉडल व multilingual support की योजना है

Dia: संवाद-केंद्रित speech synthesis मॉडल

Dia Nari Labs द्वारा विकसित 1.6B parameter का open-weight TTS मॉडल है
पारंपरिक TTS की तरह speaker के हिसाब से आवाज़ अलग-अलग बनाने के बजाय, यह पूरा संवाद एक बार में generate करता है
डेमो: Hugging Face Space
कोड: GitHub रिपॉज़िटरी

मुख्य फीचर

संवादात्मक voice generation

टेक्स्ट में [S1], [S2] से speaker निर्धारित किए जा सकते हैं
(laughs), (coughs) जैसी गैर-शाब्दिक ध्वनियाँ भी टेक्स्ट के रूप में डाली जा सकती हैं
emotion, tone और voice style को audio prompt से निर्धारित किया जा सकता है

voice cloning

अगर sample audio और उससे जुड़ा संवाद टेक्स्ट साथ दिया जाए, तो voice cloning फीचर सक्रिय हो जाता है
Hugging Face Space में audio upload करके इसे आज़माया जा सकता है
विस्तृत उदाहरण के लिए example/voice_clone.py देखें

लाइब्रेरी के रूप में उपयोग

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)

soundfile से MP3 output किया जा सकता है
PyPI package और CLI tool भी जल्द उपलब्ध होंगे

installation और चलाने का तरीका

तेज़ी से चलाने का तरीका (Gradio आधारित)

git clone https://github.com/nari-labs/dia.git  
cd dia && uv run app.py

या अगर uv नहीं है:

cd dia  
python -m venv .venv  
source .venv/bin/activate  
pip install uv  
uv run app.py

चलाते समय Descript Audio Codec अपने-आप download हो जाता है
हर बार चलाने पर आवाज़ random generate होती है, इसलिए consistency के लिए prompt या seed को fix करना होगा

performance और hardware requirements

test environment: PyTorch 2.0+, CUDA 12.6 या उससे ऊपर
recommended VRAM: 10GB या अधिक, जल्द quantized version आने वाला है
A4000 GPU पर लगभग 40 token/second generation (86 token = लगभग 1 सेकंड की आवाज़)
torch.compile इस्तेमाल करने पर speed बेहतर हो सकती है

आगे की योजना और TODO

Docker support
inference speed optimization
model quantization (memory efficiency)
multilingual support, अधिक speakers को संभालने जैसी विस्तार योजनाएँ

license और उपयोग प्रतिबंध

Apache 2.0 license लागू
प्रतिबंधित उपयोग के उदाहरण:
- किसी दूसरे की आवाज़ बिना अनुमति generate करना (Identity Misuse)
- गलत जानकारी बनाना (Fake News आदि)
- अवैध या दुर्भावनापूर्ण उद्देश्य

community और contribution

research team: 1 full-time + 1 part-time सदस्य वाला छोटा दल
Discord सर्वर के ज़रिए feedback साझा किया जा सकता है और फीचर सुझाव दिए जा सकते हैं
contributors के साथ बढ़ने वाला open source उन्मुख प्रोजेक्ट

संदर्भ और तकनीकी आधार

sound model: SoundStorm, Parakeet, Descript Audio Codec से प्रेरित
compute support: Google TPU Research Cloud, HuggingFace ZeroGPU program
"Nari" का शुद्ध कोरियाई में अर्थ "lily" है

13 टिप्पणियां

reagea0 2025-04-24

वाह, यह तो बहुत बढ़िया है। आप दोनों के लिए training data तक जुटाना भी आसान नहीं रहा होगा, सच में कमाल कर दिया आपने।

princox 2025-04-24

बनाने वाले खुद भी आ गए~ मुझे भी इसे एक बार आज़माना पड़ेगा

kleinstein 2025-04-22

कोरियन का इंतज़ार है!!

toebee 2025-04-22

अरे, मैं भी इसे बनाकर पोस्ट करने वाला था, लेकिन आपने तो पहले ही फुर्ती से पोस्ट कर दिया। धन्यवाद।

winterjung 2025-04-22

ओह, तो यह एक कोरियाई व्यक्ति ने बनाया था! डेमो पेज पर तुलना करके सुना तो परफ़ॉर्मेंस वाकई बहुत अच्छी लगी। अगर audio prompt दिया जाए, तो क्या यह उसी आवाज़ को संदर्भ के तौर पर इस्तेमाल करता है? यह भी जानना चाहता/चाहती हूँ कि s1 और s2 से अलग किए गए उदाहरणों को क्या अलग-अलग देना पड़ता है?

toebee 2025-04-22

धन्यवाद! ऑडियो प्रॉम्प्ट में [S1] और [S2] से अलग किए गए उदाहरण डालना ज़रूरी नहीं है। आप सिर्फ़ [S1] डाल सकते हैं, और [S1] व [S2] दोनों डालना भी ठीक है। बस यह सुनिश्चित करें कि [S1] हमेशा पहले आए।

xguru 2025-04-22

Hacker News पर इसे बहुत upvote मिले, इसलिए GN+ ने अपने-आप इसका सारांश बना दिया। मैंने बस थोड़ा सा अतिरिक्त व्यवस्थित कर दिया है.

समर्थन करता हूँ!!

toebee 2025-04-22

धन्यवाद :))

toebee 2025-04-22

यह वह मॉडल है जो मैंने बनाया है हाहा...

kgh1379 2025-04-22

कमाल हैं!! अच्छे से इस्तेमाल करूंगा T_T/

toebee 2025-04-22

धन्यवाद :)) GitHub star ज़रूर दीजिए haha

kgh1379 2025-04-22

पूरा कर दिया! उम्मीद है कि जल्द ही कोरियाई ख़बरें भी देखने को मिलेंगी!! धन्यवाद

GN⁺ 2025-04-22

Hacker News की राय

तकनीकी प्रशंसा और सराहना

सिर्फ दो लोगों ने 3 महीनों में यह प्रोजेक्ट बनाया, फिर भी इसकी क्वालिटी बहुत उच्च है
यह बात प्रभावशाली लगी कि बड़ी कंपनियों की तुलना में एक छोटी टीम ने ऑडियो मॉडल क्षेत्र में प्रतिस्पर्धी नतीजे दिए
"यह सचमुच इंसानों जैसा सुनाई देता है", "ऐसा लगता है जैसे TTS का भविष्य देख रहे हों", "उदाहरण चौंकाने वाले हैं" जैसी प्रतिक्रियाएँ
कई उपयोगकर्ताओं ने The Office सीन पर आधारित ऑडियो उदाहरणों को खास तौर पर प्रभावशाली बताया

वॉइस क्वालिटी और विशेषताओं पर राय

ज़्यादातर प्रतिक्रियाएँ सकारात्मक रहीं: "इंसानों जैसी प्राकृतिक", "भावनाएँ अच्छी तरह व्यक्त करता है", "हँसी, खाँसी, चीख जैसी डिटेल जीवंत हैं"
कुछ लोगों ने अतिरंजित भावनाएँ, विज्ञापन जैसा एहसास, शुरुआती नॉइज़ जैसी कमियाँ भी बताईं
कुछ का कहना था कि यह किसी खास voice actor स्टाइल (जैसे NPR टोन) या पुराने YouTube Flash animation जैसा लगता है

डेमो इस्तेमाल का अनुभव और सीधे परीक्षण

M2 MacBook सहित विभिन्न हार्डवेयर पर सफलतापूर्वक चलाने के उदाहरण साझा किए गए
HuggingFace Spaces के जरिए इसे ऑनलाइन तुरंत आज़माया जा सकता है, इस बात की सराहना हुई
Docker और CUDA container के साथ भी इसे आसानी से चलाया जा सकता है, ऐसा फीडबैक साझा किया गया

ऑडियोबुक और उपन्यास उपयोग पर चर्चा

कई उपयोगकर्ताओं ने ऑडियोबुक निर्माण, किरदार-विशिष्ट voice actor अलग करने, और भावनापूर्ण संवाद तैयार करने जैसे उपयोगों में इसकी क्षमता तलाश की
हालांकि कुछ लोगों का मानना था कि "फिर भी मानव voice actor बेहतर हैं", और "अच्छे voice actor किसी रचना को उसका अनोखा टेक्सचर देते हैं"
इसके जवाब में यह तर्क भी आया कि अगर AI भावनाओं और किरदारों की सही व्याख्या करे, तो वह उल्टा बेहतर हो सकता है

स्पीच सिंथेसिस से जुड़े फीचर अनुरोध और सवाल

निम्नलिखित फीचर/सपोर्ट अनुरोध सामने आए:
- बहुभाषी समर्थन (चीनी, फ़िनिश आदि)
- 2 या उससे अधिक लोगों की बातचीत का समर्थन
- voice cloning (अपनी आवाज़)
- शब्द-स्तरीय timing जानकारी
- AMD GPU समर्थन
- streaming output समर्थन
इस पर डेवलपर पक्ष ने बताया कि फीचर के अनुसार कुछ पर काम चल रहा है और कुछ के लिए आगे समर्थन की योजना है

लाइसेंस और open source से जुड़ी बातें

इसे Apache 2.0 के तहत वितरित किया जा रहा है, और डेवलपर ने खुद समझाया कि मूल वाक्यांश (सिर्फ research purpose तक सीमित) का मतलब बस “shady stuff मत करो” था
कुछ उपयोगकर्ताओं ने कहा कि भ्रम से बचने के लिए इसे और स्पष्ट होना चाहिए

ट्रेनिंग डेटा और प्रशिक्षण प्रक्रिया पर सवाल

कई उपयोगकर्ताओं ने पूछा, "dataset कहाँ से आया", "इसे कैसे train किया गया"
डेवलपर पक्ष ने जवाब दिया कि technical report में उच्च-स्तरीय overview दिया जाएगा

नाम टकराव विवाद

GNOME के diagram tool (Dia), diabrowser.com आदि के साथ नाम टकराव की ओर ध्यान दिलाया गया
यह आलोचना भी हुई कि "AI प्रोजेक्ट जानबूझकर मौजूदा open source नाम उधार लेते हैं"
इस पर डेवलपर पक्ष ने जवाब दिया, "हमें पता नहीं था, आगे इसे स्पष्ट रूप से अलग दिखाएँगे"

उपयोगिता और सुधार संबंधी फीडबैक

डेमो साइट Notion पर आधारित होने के कारण धीमी है और लिंक साझा करना असुविधाजनक है → GitHub Pages जैसे हल्के पेज का सुझाव
"join waitlist" वाक्यांश से भ्रम, अनावश्यक venv उल्लेख आदि के कारण README सुधारने के सुझाव
server cache का उपयोग न होने से मॉडल हर बार डाउनलोड होने की समस्या जैसी सेटिंग-संबंधी फीडबैक

विकास/अनुप्रयोग और इंटीग्रेशन के उदाहरण

E5-F2, Sesame-TTS जैसे अन्य TTS मॉडलों से तुलना
कुछ उपयोगकर्ताओं ने खास डोमेन (जैसे चिकित्सा शब्दावली) में सटीकता के महत्व पर ज़ोर दिया
iOS पर चलाने के लिए codec जानकारी का अनुरोध और संभावित उपयोगों के सुझाव
वास्तविक सेवा में लागू करते समय streaming और शुरुआती response speed जैसे विचारणीय बिंदु साझा किए गए

अन्य

HuggingFace लिंक त्रुटि या access समस्या पर मार्गदर्शन और सुधार साझा किए गए
डेमो इंटरफ़ेस में bookmark फीचर जैसी छोटी अतिरिक्त सुविधाएँ भी देखी गईं
उपयोगकर्ताओं की हार्डवेयर सीमाएँ, और TTS उपयोग को लेकर सामान्य अपेक्षाएँ व चिंताएँ भी साथ में सामने आईं

Dia - यथार्थवादी संवाद बनाने वाला open-weight TTS मॉडल

Dia: संवाद-केंद्रित speech synthesis मॉडल

मुख्य फीचर

संवादात्मक voice generation

voice cloning

लाइब्रेरी के रूप में उपयोग

installation और चलाने का तरीका

तेज़ी से चलाने का तरीका (Gradio आधारित)

performance और hardware requirements

आगे की योजना और TODO

license और उपयोग प्रतिबंध

community और contribution

संदर्भ और तकनीकी आधार

संबंधित पढ़ाई

13 टिप्पणियां

Hacker News की राय

तकनीकी प्रशंसा और सराहना

वॉइस क्वालिटी और विशेषताओं पर राय

डेमो इस्तेमाल का अनुभव और सीधे परीक्षण

ऑडियोबुक और उपन्यास उपयोग पर चर्चा

स्पीच सिंथेसिस से जुड़े फीचर अनुरोध और सवाल

लाइसेंस और open source से जुड़ी बातें

ट्रेनिंग डेटा और प्रशिक्षण प्रक्रिया पर सवाल

नाम टकराव विवाद

उपयोगिता और सुधार संबंधी फीडबैक

विकास/अनुप्रयोग और इंटीग्रेशन के उदाहरण

अन्य