Nvidia ने लचीला AI साउंड जेनरेशन मॉडल Fugatto पेश किया

xguru · 2024-11-27T11:20:01+09:00

टेक्स्ट का उपयोग करके ऑडियो आउटपुट को नियंत्रित करने वाला साउंड जेनरेशन AI मॉडल 'Fugatto' म्यूज़िक जेनरेशन, आवाज़ के इंटोनेशन या भावनाओं में बदलाव, मौजूदा संगीत में वाद्ययंत्र जोड़ना/हटाना जैसे कई तरह के काम संभव पहले कभी न सुनी गई पूरी तरह नई आवाज़ें भी जनरेट कर सकता है Fugatto संगीत, वॉइस और पर्यावरणीय ध्वनियों को टेक्स्ट या ऑडियो फ़ाइल के इनपुट के रूप में लेकर जनरेट या ट्रांसफ़ॉर्म कर सकता है इसे इंसानों की तरह ध्वनि को समझने और बनाने के लिए डिज़ाइन किया गया है "Unsupervised मल्टीटास्क लर्निंग संभव होने से डेटा और मॉडल स्केल पर नई संभावनाएँ खुलती हैं" विविध उपयोग के मामले संगीत निर्माण: गाने की स्टाइल, वॉइस और वाद्ययंत्रों पर तुरंत प्रयोग और संशोधन संभव विज्ञापन: क्षेत्र और स्थिति के अनुसार वॉइस को कस्टमाइज़ करके कैंपेन को ऑप्टिमाइज़ करना भाषा सीखना: उपयोगकर्ता द्वारा चुनी गई आवाज़ में व्यक्तिगत लर्निंग कंटेंट उपलब्ध कराना गेम डेवलपमेंट: गेम की स्थिति के अनुसार ऑडियो एसेट्स को बदलना या नया बनाना नई आवाज़ें बनाना: इमेज जेनरेशन AI के "avocado chair" की तरह उदाहरण के लिए, ट्रम्पेट की कुत्ते की तरह भौंकने वाली (bark) आवाज़ या सैक्सोफ़ोन की बिल्ली की तरह म्याऊँ (meow) करने वाली आवाज़ जनरेट की जा सकती है फ़ाइन-ट्यूनिंग और कम मात्रा के गाने के डेटा के ज़रिए टेक्स्ट प्रॉम्प्ट से हाई-क्वालिटी गायन-आवाज़ बनाना जैसे ऐसे काम भी कर सकता है जिन पर पहले से प्री-ट्रेनिंग नहीं हुई उपयोगकर्ताओं को Artistic Control (कलात्मक नियंत्रण) देना उपयोगकर्ता-उन्मुख कंट्रोल फीचर्स ComposableART तकनीक के ज़रिए कई निर्देशों को संयोजित करना टेक्स्ट निर्देशों को बारीकी से समायोजित करना संभव: उदाहरण के लिए, फ़्रेंच ऐक्सेंट के साथ उदासी की भावना जोड़ना समय-आधारित इंटरपोलेशन से ध्वनि के विकास को नियंत्रित करना: जैसे, धीरे-धीरे थमती हुई गरज के साथ बारिश का साउंडस्केप बनाना उपयोगकर्ताओं को अभूतपूर्व स्तर की ध्वनि-रचना की स्वतंत्रता देना तकनीकी विशेषताएँ NVIDIA DGX सिस्टम और H100 GPU का उपयोग करके 25 करोड़ पैरामीटर के साथ प्रशिक्षित जनरेटिव AI मॉडल बहुराष्ट्रीय शोध टीम के सहयोग से बहुभाषी और विभिन्न ऐक्सेंट के समर्थन को मजबूत किया गया लाखों ऑडियो सैंपल्स से ट्रेनिंग डेटासेट तैयार किया गया डेटा के बीच संबंधों का नए तरीके से विश्लेषण कर प्रदर्शन सुधारा गया ट्रेनिंग डेटा जुटाने और मॉडल को स्केल करने में 1 साल से अधिक समय लगा जब पहले टेक्स्ट प्रॉम्प्ट से संगीत जेनरेट करने में सफलता मिली तो टीम चकित रह गई, और इलेक्ट्रॉनिक म्यूज़िक व कुत्ते के भौंकने की आवाज़ को मिलाने वाले डेमो ने ठहाके लगवा दिए, जिससे आगे की संभावनाएँ स्पष्ट हुईं

(blogs.nvidia.com)

3 पॉइंट द्वारा xguru 2024-11-27 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

टेक्स्ट का उपयोग करके ऑडियो आउटपुट को नियंत्रित करने वाला साउंड जेनरेशन AI मॉडल 'Fugatto'
- म्यूज़िक जेनरेशन, आवाज़ के इंटोनेशन या भावनाओं में बदलाव, मौजूदा संगीत में वाद्ययंत्र जोड़ना/हटाना जैसे कई तरह के काम संभव
- पहले कभी न सुनी गई पूरी तरह नई आवाज़ें भी जनरेट कर सकता है
Fugatto संगीत, वॉइस और पर्यावरणीय ध्वनियों को टेक्स्ट या ऑडियो फ़ाइल के इनपुट के रूप में लेकर जनरेट या ट्रांसफ़ॉर्म कर सकता है
- इसे इंसानों की तरह ध्वनि को समझने और बनाने के लिए डिज़ाइन किया गया है
- "Unsupervised मल्टीटास्क लर्निंग संभव होने से डेटा और मॉडल स्केल पर नई संभावनाएँ खुलती हैं"

विविध उपयोग के मामले

संगीत निर्माण: गाने की स्टाइल, वॉइस और वाद्ययंत्रों पर तुरंत प्रयोग और संशोधन संभव
विज्ञापन: क्षेत्र और स्थिति के अनुसार वॉइस को कस्टमाइज़ करके कैंपेन को ऑप्टिमाइज़ करना
भाषा सीखना: उपयोगकर्ता द्वारा चुनी गई आवाज़ में व्यक्तिगत लर्निंग कंटेंट उपलब्ध कराना
गेम डेवलपमेंट: गेम की स्थिति के अनुसार ऑडियो एसेट्स को बदलना या नया बनाना
नई आवाज़ें बनाना: इमेज जेनरेशन AI के "avocado chair" की तरह
- उदाहरण के लिए, ट्रम्पेट की कुत्ते की तरह भौंकने वाली (bark) आवाज़ या सैक्सोफ़ोन की बिल्ली की तरह म्याऊँ (meow) करने वाली आवाज़ जनरेट की जा सकती है
- फ़ाइन-ट्यूनिंग और कम मात्रा के गाने के डेटा के ज़रिए टेक्स्ट प्रॉम्प्ट से हाई-क्वालिटी गायन-आवाज़ बनाना जैसे ऐसे काम भी कर सकता है जिन पर पहले से प्री-ट्रेनिंग नहीं हुई

उपयोगकर्ताओं को Artistic Control (कलात्मक नियंत्रण) देना

उपयोगकर्ता-उन्मुख कंट्रोल फीचर्स
- ComposableART तकनीक के ज़रिए कई निर्देशों को संयोजित करना
- टेक्स्ट निर्देशों को बारीकी से समायोजित करना संभव: उदाहरण के लिए, फ़्रेंच ऐक्सेंट के साथ उदासी की भावना जोड़ना
- समय-आधारित इंटरपोलेशन से ध्वनि के विकास को नियंत्रित करना: जैसे, धीरे-धीरे थमती हुई गरज के साथ बारिश का साउंडस्केप बनाना
उपयोगकर्ताओं को अभूतपूर्व स्तर की ध्वनि-रचना की स्वतंत्रता देना

तकनीकी विशेषताएँ

NVIDIA DGX सिस्टम और H100 GPU का उपयोग करके 25 करोड़ पैरामीटर के साथ प्रशिक्षित जनरेटिव AI मॉडल
बहुराष्ट्रीय शोध टीम के सहयोग से बहुभाषी और विभिन्न ऐक्सेंट के समर्थन को मजबूत किया गया
लाखों ऑडियो सैंपल्स से ट्रेनिंग डेटासेट तैयार किया गया
- डेटा के बीच संबंधों का नए तरीके से विश्लेषण कर प्रदर्शन सुधारा गया
ट्रेनिंग डेटा जुटाने और मॉडल को स्केल करने में 1 साल से अधिक समय लगा
जब पहले टेक्स्ट प्रॉम्प्ट से संगीत जेनरेट करने में सफलता मिली तो टीम चकित रह गई, और इलेक्ट्रॉनिक म्यूज़िक व कुत्ते के भौंकने की आवाज़ को मिलाने वाले डेमो ने ठहाके लगवा दिए, जिससे आगे की संभावनाएँ स्पष्ट हुईं

Nvidia ने लचीला AI साउंड जेनरेशन मॉडल Fugatto पेश किया

विविध उपयोग के मामले

उपयोगकर्ताओं को Artistic Control (कलात्मक नियंत्रण) देना

तकनीकी विशेषताएँ

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.