1 पॉइंट द्वारा GN⁺ 2024-02-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

सूचना

  • यह वेबसाइट Safari में सही तरह से काम नहीं कर सकती, और बेहतर अनुभव के लिए Google Chrome का उपयोग करने की सिफारिश की जाती है.

स्थिर ऑडियो जनरेशन

  • यह मॉडल 44.1kHz stereo music को विभिन्न लंबाइयों में जनरेट कर सकता है, जिनके उदाहरणों में Berlin techno, rave, drum machine, synthesizer, और डार्क माहौल वाला संगीत शामिल है.
  • पिछले state-of-the-art मॉडल्स के विपरीत, यह मॉडल 44.1kHz stereo sound effects भी जनरेट कर सकता है, जैसे दरवाज़ा बंद होने की आवाज़, sports car या motorcycle के गुज़रने की आवाज़, fireworks, और गुफा के अंदर कदमों की आवाज़.
  • इस वेबसाइट के सभी उदाहरण उसी एक मॉडल से बनाए गए हैं जो music और sound effects दोनों को 44.1kHz stereo में जनरेट कर सकता है.

stereo music की लंबी अवधि की जनरेशन: नवीनतम तकनीक से तुलना

  • mandolin वादन, सीटी, guitar, flute आदि के मेल वाला संगीत जनरेट करने वाले इस मॉडल और अन्य मॉडल्स की तुलना के ज़रिए audio quality का मूल्यांकन किया जा सकता है.
  • piano melody, snare roll, kick pattern, hi-hat, claps, और synthesizer lead melody के साथ commercial music generation भी तुलना का हिस्सा है.

sound effects: नवीनतम तकनीक से तुलना

  • engine की click sound, high-speed rotation sound, और ज़ोर से चहचहाते पक्षियों की आवाज़ जैसी चीज़ें जनरेट करने वाले इस मॉडल और अन्य मॉडल्स की तुलना के ज़रिए audio quality का मूल्यांकन किया जा सकता है.
  • चुने गए prompts में बड़े stereo movement की आवश्यकता नहीं है, इसलिए परिणाम अपेक्षाकृत non-spatial rendering दिखाते हैं.

autoencoder: reconstruction

  • audio fidelity क्षमता का मूल्यांकन करने के लिए मूल recording और autoencoder से गुज़री recording की तुलना की जाती है.
  • autoencoder reconstruction मूल के बहुत क़रीब है, लगभग transparent स्तर तक.

GN⁺ की राय

  • यह तकनीक music और sound effects generation के क्षेत्र में एक महत्वपूर्ण प्रगति दिखाती है, खासकर उच्च-गुणवत्ता वाले stereo sound जनरेशन की क्षमता में.
  • नवीनतम मॉडल्स के साथ तुलना के माध्यम से इस मॉडल की बेहतर audio quality का वस्तुनिष्ठ मूल्यांकन किया जा सकता है, इसलिए यह audio content creators के लिए एक उपयोगी टूल बनने की उम्मीद है.
  • autoencoder reconstruction तुलना यह दिखाती है कि यह तकनीक मूल audio को बहुत सटीकता से पुनर्स्थापित कर सकती है, जिससे audio quality के प्रति संवेदनशील applications में इसके उपयोग की संभावना संकेतित होती है.

1 टिप्पणियां

 
GN⁺ 2024-02-14
Hacker News राय
  • Ed Newton-Rex ने copyright और training data को लेकर चिंताओं के कारण Stable Audio के रिलीज़ के तुरंत बाद इस्तीफ़ा दे दिया।

    Safari में वेबसाइट सही तरह से काम नहीं कर सकती। बेहतर अनुभव के लिए Google Chrome इस्तेमाल करने की सलाह दी जाती है.

  • 90 के दशक और Internet Explorer वाली स्थिति दोहराई जा रही है, लेकिन इस बार यह सकारात्मक है कि प्रभुत्वशाली browser open source है.

    • किसी से ऐसा animated GIF button बनाने का अनुरोध किया गया जो कहे कि इसे Chrome-only में देखना सबसे अच्छा है.
  • Stable Diffusion की तरह, text prompt उपयोगी output पाने का सबसे कम नियंत्रित किया जा सकने वाला तरीका होगा.

    • उम्मीद है कि MIDI को input के रूप में इस्तेमाल करके neural network synthesizer हासिल किया जा सकेगा.
  • Stable Audio मौजूदा SOTA music models (MusicGen, MusicLM) की तुलना में बहुत बेहतर है.

    • Stable Audio product page पर subscribe करके इसे इस्तेमाल किया जा सकता है, लेकिन ऐसा कोई API नहीं दिया गया है जिसे developers integrate या उपयोग कर सकें.
  • अभी भी उस चरण की ज़रूरत है जहाँ AI उच्च-गुणवत्ता वाली sound library पर train करे, और MIDI के ज़रिए उस library की sounds को trigger करे.

    • इससे sound quality बिल्कुल बेहतरीन रह सकती है और music AI की creativity भी बनी रह सकती है.
  • एक drummer के तौर पर, 'drum solo' उबाऊ है, उसमें अजीब आवाज़ें मिली हुई हैं, और यह अभी तक असली जैसा sound effect नहीं है.

    • फिर भी, जो प्रगति हुई है वह बहुत बड़ी और प्रभावशाली है.
  • code और training instructions सार्वजनिक किए गए हैं, लेकिन model सार्वजनिक नहीं किया गया.

    • यह व्यावहारिक रूप से ऐसा है जैसे anonymous users को अपने Apple Music account में data loader जोड़कर प्रयोग करने के लिए उकसाना.
  • यह दिलचस्प है कि 'high quality, stereo' जैसा prompt जोड़ना आम तौर पर मददगार पाया गया.

    • यह रोचक है कि LLM में बेहतर नतीजे सिर्फ़ सीधे माँगकर हासिल किए जा सकते हैं.
  • sound effect generation का विचार थोड़ी देर के लिए दिलचस्प लगा, लेकिन 'footsteps' बहुत ही खराब हैं.

  • 'ऊर्जावान संगीत, violin, vocal, orchestra, piano, minimalism, John Adams, Nixon in China' वाले prompt का उपयोग करके बहुत ही अनोखा और दिलचस्प संगीत बनाया जा सकता है.