Nvidia ने लचीला AI साउंड जेनरेशन मॉडल Fugatto पेश किया
(blogs.nvidia.com)- टेक्स्ट का उपयोग करके ऑडियो आउटपुट को नियंत्रित करने वाला साउंड जेनरेशन AI मॉडल 'Fugatto'
- म्यूज़िक जेनरेशन, आवाज़ के इंटोनेशन या भावनाओं में बदलाव, मौजूदा संगीत में वाद्ययंत्र जोड़ना/हटाना जैसे कई तरह के काम संभव
- पहले कभी न सुनी गई पूरी तरह नई आवाज़ें भी जनरेट कर सकता है
- Fugatto संगीत, वॉइस और पर्यावरणीय ध्वनियों को टेक्स्ट या ऑडियो फ़ाइल के इनपुट के रूप में लेकर जनरेट या ट्रांसफ़ॉर्म कर सकता है
- इसे इंसानों की तरह ध्वनि को समझने और बनाने के लिए डिज़ाइन किया गया है
-
"Unsupervised मल्टीटास्क लर्निंग संभव होने से डेटा और मॉडल स्केल पर नई संभावनाएँ खुलती हैं"
विविध उपयोग के मामले
- संगीत निर्माण: गाने की स्टाइल, वॉइस और वाद्ययंत्रों पर तुरंत प्रयोग और संशोधन संभव
- विज्ञापन: क्षेत्र और स्थिति के अनुसार वॉइस को कस्टमाइज़ करके कैंपेन को ऑप्टिमाइज़ करना
- भाषा सीखना: उपयोगकर्ता द्वारा चुनी गई आवाज़ में व्यक्तिगत लर्निंग कंटेंट उपलब्ध कराना
- गेम डेवलपमेंट: गेम की स्थिति के अनुसार ऑडियो एसेट्स को बदलना या नया बनाना
- नई आवाज़ें बनाना: इमेज जेनरेशन AI के "avocado chair" की तरह
- उदाहरण के लिए, ट्रम्पेट की कुत्ते की तरह भौंकने वाली (bark) आवाज़ या सैक्सोफ़ोन की बिल्ली की तरह म्याऊँ (meow) करने वाली आवाज़ जनरेट की जा सकती है
- फ़ाइन-ट्यूनिंग और कम मात्रा के गाने के डेटा के ज़रिए टेक्स्ट प्रॉम्प्ट से हाई-क्वालिटी गायन-आवाज़ बनाना जैसे ऐसे काम भी कर सकता है जिन पर पहले से प्री-ट्रेनिंग नहीं हुई
उपयोगकर्ताओं को Artistic Control (कलात्मक नियंत्रण) देना
- उपयोगकर्ता-उन्मुख कंट्रोल फीचर्स
- ComposableART तकनीक के ज़रिए कई निर्देशों को संयोजित करना
- टेक्स्ट निर्देशों को बारीकी से समायोजित करना संभव: उदाहरण के लिए, फ़्रेंच ऐक्सेंट के साथ उदासी की भावना जोड़ना
- समय-आधारित इंटरपोलेशन से ध्वनि के विकास को नियंत्रित करना: जैसे, धीरे-धीरे थमती हुई गरज के साथ बारिश का साउंडस्केप बनाना
- उपयोगकर्ताओं को अभूतपूर्व स्तर की ध्वनि-रचना की स्वतंत्रता देना
तकनीकी विशेषताएँ
- NVIDIA DGX सिस्टम और H100 GPU का उपयोग करके 25 करोड़ पैरामीटर के साथ प्रशिक्षित जनरेटिव AI मॉडल
- बहुराष्ट्रीय शोध टीम के सहयोग से बहुभाषी और विभिन्न ऐक्सेंट के समर्थन को मजबूत किया गया
- लाखों ऑडियो सैंपल्स से ट्रेनिंग डेटासेट तैयार किया गया
- डेटा के बीच संबंधों का नए तरीके से विश्लेषण कर प्रदर्शन सुधारा गया
- ट्रेनिंग डेटा जुटाने और मॉडल को स्केल करने में 1 साल से अधिक समय लगा
- जब पहले टेक्स्ट प्रॉम्प्ट से संगीत जेनरेट करने में सफलता मिली तो टीम चकित रह गई, और इलेक्ट्रॉनिक म्यूज़िक व कुत्ते के भौंकने की आवाज़ को मिलाने वाले डेमो ने ठहाके लगवा दिए, जिससे आगे की संभावनाएँ स्पष्ट हुईं
अभी कोई टिप्पणी नहीं है.