Mozilla Common Voice, समुदाय-आधारित वॉइस डेटासेट प्लेटफ़ॉर्म

(commonvoice.mozilla.org)

1 पॉइंट द्वारा GN⁺ 2023-12-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Mozilla Common Voice एक मुफ़्त open source प्लेटफ़ॉर्म है जहाँ समुदाय खुद टेक्स्ट और वॉइस डेटासेट बनाकर और साझा करके अधिक भाषाओं में speech technology का उपयोग संभव बनाता है
योगदानकर्ता वाक्य पढ़कर, पाठ सत्यापित करके, सवालों के जवाब देकर, वॉइस transcription करके और टेक्स्ट जोड़कर Scripted Speech, Spontaneous Speech, और Language Text डेटा में भाग ले सकते हैं
यह प्लेटफ़ॉर्म 290 से अधिक भाषाओं के समुदायों को समर्थन देता है, और सार्वजनिक वॉइस डेटासेट 130 से अधिक भाषाओं में उपलब्ध हैं
डेटासेट का उपयोग ASR, STT, TTS और अन्य NLP उपयोगों के लिए किया जा सकता है, और नए रिलीज़ Mozilla Data Collective से डाउनलोड किए जा सकते हैं
Mozilla Data Collective के सदस्य समुदाय द्वारा बनाए और उपयोग किए जाने वाले 500 से अधिक वैश्विक डेटासेट तक पहुँच सकते हैं, जिससे भाषा डेटा के संग्रह और साझाकरण का केंद्र वहाँ शिफ्ट हो रहा है

Common Voice क्या हल करना चाहता है

Mozilla Common Voice एक समुदाय-नेतृत्व वाला डेटा निर्माण प्लेटफ़ॉर्म है
कोई भी व्यक्ति अपनी भाषा को संरक्षित, पुनर्जीवित और विस्तारित करने के लिए टेक्स्ट और वॉइस डेटासेट साझा, निर्मित और क्यूरेट कर सकता है
इसका लक्ष्य यह है कि AI केवल कुछ भाषाओं तक सीमित न रहे, बल्कि लोग अपनी ज़रूरत के भाषा डेटासेट खुद बना सकें
Common Voice दुनिया भर के समुदायों द्वारा संचालित है और 290 से अधिक भाषाओं तक फैल रहा है

योगदान के तरीके और डेटासेट का उपयोग

Scripted Speech
- उपयोगकर्ता वाक्य पढ़कर अपनी भाषा की आवाज़ को सार्वजनिक भागीदारी वाले डेटासेट में योगदान करते हैं
- दूसरे उपयोगकर्ता Validate Readings में इन पाठों को सत्यापित कर सकते हैं
Spontaneous Speech
- उपयोगकर्ता प्रॉम्प्ट का उत्तर देकर स्वाभाविक और बोलचाल के संदर्भ वाले डेटासेट बनाते हैं
- इसे voice-first भाषाओं के लिए उपयुक्त तरीके से इस्तेमाल किया जा सकता है
- Transcribe answers और review फीचर के ज़रिए transcription कार्य में भाग लिया जा सकता है
Language Text
- public domain प्रॉम्प्ट, वाक्य और टेक्स्ट बनाए या साझा किए जा सकते हैं
- इनका उपयोग translation, छोटे language models और अन्य उद्देश्यों के लिए किया जा सकता है
- Mozilla Data Collective पर नए रिलीज़ उपलब्ध कराए जाते हैं, और सदस्यता लेने पर 500 से अधिक वैश्विक डेटासेट तक पहुँच मिलती है
- Explore datasets में ASR, STT, TTS और अन्य NLP संदर्भों में उपयोग होने वाले 130 से अधिक भाषाओं के सार्वजनिक वॉइस डेटासेट देखे जा सकते हैं
- पार्टनर समूहों में civil society, researchers, tech companies, और charitable organizations शामिल हैं
- civil society और researchers प्रभावशाली डेटासेट मुफ़्त में बना, होस्ट और साझा कर सकते हैं
- tech companies बहुभाषी AI ecosystem के लिए open datasets निर्माण में निवेश कर सकती हैं
- charitable organizations स्थानीय innovation और development के लिए डेटासेट निर्माण को प्रायोजित कर सकती हैं

1 टिप्पणियां

GN⁺ 2023-12-08

Hacker News की राय

Firefox का TTS उन लोगों के लिए एक अहम प्रोजेक्ट है जिन्हें आसानी से इस्तेमाल होने वाला text-to-speech सिस्टम चाहिए
यह ब्राउज़र में built-in है, इसलिए कंसोल में window.speechSynthesis और SpeechSynthesisUtterance चलाकर कई voice examples तुरंत सुने जा सकते हैं
ब्राउज़र के हिसाब से यह offline भी काम कर सकता है, या cloud-based TTS का इस्तेमाल कर सकता है
- macOS पर say "enter text here" से यह किया जा सकता है, और दूसरी voice चुनने के लिए say -v Fred "enter text here", voice list देखने के लिए say -v "?" इस्तेमाल किया जा सकता है
  ? को ZSH में glob के रूप में interpret होने से रोकने के लिए quotes ज़रूरी हैं
  Firefox का TTS महत्वपूर्ण है, यह बात सही है, लेकिन इस comment से पहले मुझे इसके अस्तित्व तक का पता नहीं था; ऐसे features ज्यादा discoverable होने चाहिए और इनके लिए ज्यादा accessible API होना चाहिए
- speechSynthesis सिर्फ Firefox ही नहीं, बल्कि बड़े browsers में broadly supported लगता है: https://developer.mozilla.org/en-US/docs/Web/API/Window/spee...
- कुछ दिन पहले Common Voice इस्तेमाल करके देखा, और जो लोग किसी खास भाषा की मदद करना चाहते हैं उनके लिए community page का example अच्छा लगा
  मुझे वैसे भी लग रहा था कि Firefox बहुत तेज़ हो गया है और उस पर वापस जाना worthwhile है; अगर आपको लगता है कि privacy, security और independence को महत्व देने वाला independent browser ज़रूरी है, तो जो लोग casually browser बदलते रहते हैं वे भी Firefox आज़मा सकते हैं
  Chrome-based browsers में वैसे काम नहीं करने वाले कुछ Firefox extensions दोबारा इस्तेमाल कर पाना संतोषजनक है
- debugging के दौरान जिन महत्वपूर्ण messages को miss नहीं करना चाहिए, उन्हें stderr के साथ-साथ Windows की free TTS voices को PowerShell से चलाकर या Chrome में WebSocket से call करके सुनवाने की कोशिश की थी, और यह काफी मज़ेदार था
  ज्यादा selectable voices होना अच्छी बात है
- सोच रहा हूं कि क्या इसे कभी independent library के रूप में अलग किया गया है
  open source TTS की हालत बहुत अच्छी नहीं लगती, और एक voice के लिए जरूरी data जुटाना Whisper जैसे speech recognition system को train करने से भी ज्यादा मुश्किल लगता है
Common Voice Android भी recommend करने लायक है: https://github.com/Sav22999/common-voice-android
यह project में contribute करना चाहने वालों के लिए सुविधाजनक app है, और इसमें आप अपनी बोल सकने वाली भाषा में voice record कर सकते हैं या दूसरे users के contributions validate कर सकते हैं
करीब 2 साल पहले मैं अक्सर contribute करता था, और इसका design official website से कहीं ज्यादा इस्तेमाल में आसान था
official Common Voice Matrix channel भी है: https://chat.mozilla.org/#/room/#common-voice:mozilla.org
हाल की AI और deepfake technology को देखते हुए, ऐसी जगहों पर “अपनी आवाज़ donate” करने से पहले कुछ हद तक guarantee चाहिए
यह project voice generation के बजाय speech recognition के लिए लगता है, लेकिन पहली नज़र में यह साफ नहीं है
- “guarantee” सही शब्द है या नहीं, पता नहीं, लेकिन machine learning और generative models के आसपास लोगों की संपत्ति का सम्मान करने का रवैया काफी ढीला दिखता है, इसलिए “अपनी आवाज़ donate करें” वाली बात अटक गई
  Mozilla शायद इसके लिए सही organization होगा, लेकिन उसका main product गिरावट में है, और अगर organization खत्म हो गया तो उस data का क्या होगा, पता नहीं
  मरते हुए organizations अक्सर टुकड़ों में बिकते हैं, और यह data कई ऐसी companies के लिए दिलचस्प intellectual property बन सकता है जिनके मकसद कहीं कम noble हों
- जानना चाहूंगा कि आप किस तरह की guarantee देखना चाहेंगे
ऐसे crowdsourced datasets और OpenAssistant project के बनाए datasets, अगर अदालतें OpenAI जैसी companies की गतिविधियों को fair use नहीं मानतीं, तो foundation models बनाने का लगभग इकलौता तरीका बन सकते हैं
मुझे ऐसा scenario खास तौर पर कम संभावना वाला भी नहीं लगता
यह dataset Whisper या Seamless जैसे recent speech models ने जिन data पर train किया है, उनसे कई orders of magnitude छोटा है, और यह ज्यादा rich data वाले self-supervised learning के बजाय supervised learning के लिए है, लेकिन फिर भी useful हो सकता है
existing models को किसी खास भाषा में बेहतर score दिलाने के लिए fine-tune करने में इसका इस्तेमाल हो सकता है
लगता है Mozilla के पास पहले related speech recognition software भी था, जिसे बंद कर दिया गया था या किसी दूसरी company में shift कर दिया गया था
- DeepSpeech की बात कर रहे हैं? https://github.com/mozilla/DeepSpeech
- यह model training के लिए voice samples का public dataset है, इसलिए सख्ती से कहें तो यह speech recognition या TTS software नहीं है
शानदार
OpenAI से मेरी उम्मीदों में से एक यह थी कि वह सच में open organization बनेगा
open datasets, open code, open models, open evaluation की उम्मीद थी, लेकिन अब वह corporate profit goals के हिसाब से चलने वाली Microsoft की कठपुतली बन गया है
ऐसे projects और HuggingFace अच्छे लगते हैं, और उम्मीद है HuggingFace को GitHub की तरह Microsoft acquire नहीं करेगा
तो फिर Linux Firefox के reading mode में मौजूद text2speech इतना खराब क्यों है, समझ नहीं आता
reading mode खुद शानदार है, लेकिन voice quality Stephen Hawking के text-to-speech से भी कहीं खराब है
संबंधित HN पोस्ट:
Mozilla Common Voice Adds 16 New Languages and 4,600 New Hours of Speech - https://news.ycombinator.com/item?id=28073016 - अगस्त 2021, 170 टिप्पणियां
Firefox Voice - https://news.ycombinator.com/item?id=24096082 - अगस्त 2020, 154 टिप्पणियां
Firefox Voice: Browse the web with your voice - https://news.ycombinator.com/item?id=23902560 - जुलाई 2020, 2 टिप्पणियां
Mozilla Common Voice Dataset: More data, more languages - https://news.ycombinator.com/item?id=23695377 - जून 2020, 41 टिप्पणियां
The Common Voice Project by Mozilla reached its first goal: 1k hours in englisch - https://news.ycombinator.com/item?id=23051756 - मई 2020, 1 टिप्पणी
Common Voice: A Massively-Multilingual Speech Corpus - https://news.ycombinator.com/item?id=21887693 - दिसंबर 2019, 9 टिप्पणियां
Common Voice – Mozilla's initiative to help teach machines how real people speak - https://news.ycombinator.com/item?id=21268579 - अक्टूबर 2019, 49 टिप्पणियां
Mozilla releases the largest to-date public domain transcribed voice dataset - https://news.ycombinator.com/item?id=19270646 - फरवरी 2019, 61 टिप्पणियां
Mozilla Overhauls Speech-To-Text Contribution Interface - https://news.ycombinator.com/item?id=17436958 - जुलाई 2018, 42 टिप्पणियां
Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Data - https://news.ycombinator.com/item?id=15808124 - नवंबर 2017, 88 टिप्पणियां
Project Common Voice - https://news.ycombinator.com/item?id=14794654 - जुलाई 2017, 57 टिप्पणियां
Mozilla: Project Common Voice - https://news.ycombinator.com/item?id=14786881 - जुलाई 2017, 1 टिप्पणी
सोचता हूं कि रोज़मर्रा की बातचीत में कितने लोगों की आवाज़ और पढ़ते समय की आवाज़ अलग होती है
अगर training data का बड़ा हिस्सा “script पढ़ने” की आवाज़ है, तो क्या conversational model भी ठीक से train हो पाएगा?
- जब Mozilla Common Voice टीम ने शुरुआत से पहले feedback मांगा था, तब मैंने यह मुद्दा उठाया था और बातचीत वाली voice data इकट्ठा करने का एक अलग तरीका सुझाया था, लेकिन उसे अपनाया नहीं गया
  यह धारणा काफी व्यापक है कि जिस समस्या को असल में हल करना है उसके लिए कम लेकिन सही data से बेहतर, ज्यादा लेकिन घटिया data होता है

Mozilla Common Voice, समुदाय-आधारित वॉइस डेटासेट प्लेटफ़ॉर्म

Common Voice क्या हल करना चाहता है

योगदान के तरीके और डेटासेट का उपयोग

Scripted Speech

Spontaneous Speech

Language Text

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय