Audiobox - ऑडियो जनरेशन के लिए Meta का नया foundation model

xguru · 2023-12-12T09:40:47+09:00

वॉइस इनपुट और प्राकृतिक भाषा टेक्स्ट प्रॉम्प्ट को मिलाकर speech और sound effects जनरेट करता है विभिन्न use cases के लिए कस्टम ऑडियो आसानी से बनाया जा सकता है इस साल की शुरुआत में पेश किए गए Voicebox को बेहतर बनाकर speech, sound effects (कुत्ते के भौंकने की आवाज़, कार हॉर्न, गरज जैसी छोटी और असतत ध्वनियाँ) और soundscape के generation व editing फीचर्स को एकीकृत किया गया है, और विभिन्न input mechanisms के ज़रिये हर use case के लिए controllability को अधिकतम किया गया है प्राकृतिक भाषा प्रॉम्प्ट का उपयोग करके उस आवाज़ या speech type का वर्णन किया जा सकता है जिसे आप जनरेट करना चाहते हैं "बहते नदी के पानी और चहचहाते पक्षियों की आवाज़" जैसे प्रॉम्प्ट से soundscape बनाया जा सकता है "एक युवा महिला ऊँची pitch और तेज़ गति से बोल रही है" दर्ज करके मनचाही आवाज़ बनाई जा सकती है ऑडियो वॉइस इनपुट और टेक्स्ट style prompt को मिलाकर उस आवाज़ को किसी भी environment (जैसे "गिरजाघर में") या किसी भी emotion (जैसे "दुखी होकर और धीरे बोलना") में synthesize किया जा सकता है free-form voice style transfer के लिए dual input (voice prompt और text description prompt) को support करने वाला यह पहला model है विभिन्न voice styles में style similarity के मामले में यह Voicebox से 30% से अधिक बेहतर प्रदर्शन दिखाता है Meta ने Audiobox को speech research में ट्रैक रिकॉर्ड रखने वाले चुनिंदा शोधकर्ताओं और शैक्षणिक संस्थानों के लिए उपलब्ध कराया है, ताकि इस शोध क्षेत्र में state-of-the-art को आगे बढ़ाया जा सके और इस काम के responsible AI पहलुओं को संबोधित करने वाले विविध भागीदारों को समर्थन मिल सके

(ai.meta.com)

8 पॉइंट द्वारा xguru 2023-12-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

वॉइस इनपुट और प्राकृतिक भाषा टेक्स्ट प्रॉम्प्ट को मिलाकर speech और sound effects जनरेट करता है
- विभिन्न use cases के लिए कस्टम ऑडियो आसानी से बनाया जा सकता है
इस साल की शुरुआत में पेश किए गए Voicebox को बेहतर बनाकर speech, sound effects (कुत्ते के भौंकने की आवाज़, कार हॉर्न, गरज जैसी छोटी और असतत ध्वनियाँ) और soundscape के generation व editing फीचर्स को एकीकृत किया गया है, और विभिन्न input mechanisms के ज़रिये हर use case के लिए controllability को अधिकतम किया गया है
प्राकृतिक भाषा प्रॉम्प्ट का उपयोग करके उस आवाज़ या speech type का वर्णन किया जा सकता है जिसे आप जनरेट करना चाहते हैं
- "बहते नदी के पानी और चहचहाते पक्षियों की आवाज़" जैसे प्रॉम्प्ट से soundscape बनाया जा सकता है
- "एक युवा महिला ऊँची pitch और तेज़ गति से बोल रही है" दर्ज करके मनचाही आवाज़ बनाई जा सकती है
ऑडियो वॉइस इनपुट और टेक्स्ट style prompt को मिलाकर उस आवाज़ को किसी भी environment (जैसे "गिरजाघर में") या किसी भी emotion (जैसे "दुखी होकर और धीरे बोलना") में synthesize किया जा सकता है
- free-form voice style transfer के लिए dual input (voice prompt और text description prompt) को support करने वाला यह पहला model है
विभिन्न voice styles में style similarity के मामले में यह Voicebox से 30% से अधिक बेहतर प्रदर्शन दिखाता है
Meta ने Audiobox को speech research में ट्रैक रिकॉर्ड रखने वाले चुनिंदा शोधकर्ताओं और शैक्षणिक संस्थानों के लिए उपलब्ध कराया है, ताकि इस शोध क्षेत्र में state-of-the-art को आगे बढ़ाया जा सके और इस काम के responsible AI पहलुओं को संबोधित करने वाले विविध भागीदारों को समर्थन मिल सके

1 टिप्पणियां

xguru 2023-12-12

Meta, वॉइस के लिए Generative AI मॉडल Voicebox का खुलासा

Audiobox - ऑडियो जनरेशन के लिए Meta का नया foundation model

संबंधित पढ़ाई

1 टिप्पणियां