Stable Audio डेमो
(stability-ai.github.io)सूचना
- यह वेबसाइट Safari में सही तरह से काम नहीं कर सकती, और बेहतर अनुभव के लिए Google Chrome का उपयोग करने की सिफारिश की जाती है.
स्थिर ऑडियो जनरेशन
- यह मॉडल 44.1kHz stereo music को विभिन्न लंबाइयों में जनरेट कर सकता है, जिनके उदाहरणों में Berlin techno, rave, drum machine, synthesizer, और डार्क माहौल वाला संगीत शामिल है.
- पिछले state-of-the-art मॉडल्स के विपरीत, यह मॉडल 44.1kHz stereo sound effects भी जनरेट कर सकता है, जैसे दरवाज़ा बंद होने की आवाज़, sports car या motorcycle के गुज़रने की आवाज़, fireworks, और गुफा के अंदर कदमों की आवाज़.
- इस वेबसाइट के सभी उदाहरण उसी एक मॉडल से बनाए गए हैं जो music और sound effects दोनों को 44.1kHz stereo में जनरेट कर सकता है.
stereo music की लंबी अवधि की जनरेशन: नवीनतम तकनीक से तुलना
- mandolin वादन, सीटी, guitar, flute आदि के मेल वाला संगीत जनरेट करने वाले इस मॉडल और अन्य मॉडल्स की तुलना के ज़रिए audio quality का मूल्यांकन किया जा सकता है.
- piano melody, snare roll, kick pattern, hi-hat, claps, और synthesizer lead melody के साथ commercial music generation भी तुलना का हिस्सा है.
sound effects: नवीनतम तकनीक से तुलना
- engine की click sound, high-speed rotation sound, और ज़ोर से चहचहाते पक्षियों की आवाज़ जैसी चीज़ें जनरेट करने वाले इस मॉडल और अन्य मॉडल्स की तुलना के ज़रिए audio quality का मूल्यांकन किया जा सकता है.
- चुने गए prompts में बड़े stereo movement की आवश्यकता नहीं है, इसलिए परिणाम अपेक्षाकृत non-spatial rendering दिखाते हैं.
autoencoder: reconstruction
- audio fidelity क्षमता का मूल्यांकन करने के लिए मूल recording और autoencoder से गुज़री recording की तुलना की जाती है.
- autoencoder reconstruction मूल के बहुत क़रीब है, लगभग transparent स्तर तक.
GN⁺ की राय
- यह तकनीक music और sound effects generation के क्षेत्र में एक महत्वपूर्ण प्रगति दिखाती है, खासकर उच्च-गुणवत्ता वाले stereo sound जनरेशन की क्षमता में.
- नवीनतम मॉडल्स के साथ तुलना के माध्यम से इस मॉडल की बेहतर audio quality का वस्तुनिष्ठ मूल्यांकन किया जा सकता है, इसलिए यह audio content creators के लिए एक उपयोगी टूल बनने की उम्मीद है.
- autoencoder reconstruction तुलना यह दिखाती है कि यह तकनीक मूल audio को बहुत सटीकता से पुनर्स्थापित कर सकती है, जिससे audio quality के प्रति संवेदनशील applications में इसके उपयोग की संभावना संकेतित होती है.
1 टिप्पणियां
Hacker News राय
Ed Newton-Rex ने copyright और training data को लेकर चिंताओं के कारण Stable Audio के रिलीज़ के तुरंत बाद इस्तीफ़ा दे दिया।
90 के दशक और Internet Explorer वाली स्थिति दोहराई जा रही है, लेकिन इस बार यह सकारात्मक है कि प्रभुत्वशाली browser open source है.
Stable Diffusion की तरह, text prompt उपयोगी output पाने का सबसे कम नियंत्रित किया जा सकने वाला तरीका होगा.
Stable Audio मौजूदा SOTA music models (MusicGen, MusicLM) की तुलना में बहुत बेहतर है.
अभी भी उस चरण की ज़रूरत है जहाँ AI उच्च-गुणवत्ता वाली sound library पर train करे, और MIDI के ज़रिए उस library की sounds को trigger करे.
एक drummer के तौर पर, 'drum solo' उबाऊ है, उसमें अजीब आवाज़ें मिली हुई हैं, और यह अभी तक असली जैसा sound effect नहीं है.
code और training instructions सार्वजनिक किए गए हैं, लेकिन model सार्वजनिक नहीं किया गया.
यह दिलचस्प है कि 'high quality, stereo' जैसा prompt जोड़ना आम तौर पर मददगार पाया गया.
sound effect generation का विचार थोड़ी देर के लिए दिलचस्प लगा, लेकिन 'footsteps' बहुत ही खराब हैं.
'ऊर्जावान संगीत, violin, vocal, orchestra, piano, minimalism, John Adams, Nixon in China' वाले prompt का उपयोग करके बहुत ही अनोखा और दिलचस्प संगीत बनाया जा सकता है.