Stable Audio डेमो
(stability-ai.github.io)- Stable Audio डेमो ऑडियो उदाहरणों के ज़रिए दिखाता है कि एक ही मॉडल 44.1kHz stereo में लंबी संगीत रचनाएँ और sound effects, दोनों जनरेट कर सकता है
- संगीत जनरेशन का फोकस Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo जैसे सिर्फ prompts से अलग-अलग genres और moods बनाने पर है
- sound effects में door slam, sports car, motorbike, fireworks, cave footsteps आदि शामिल हैं, और prompt में “high-quality, stereo” जैसे वाक्यांश भी साथ में उपयोग किए जाते हैं
- तुलना के उदाहरण MusicCaps और AudioCaps prompts के आधार पर MusicGen-large, MusicGen-stereo, AudioLDM2, Audiogen-medium के नतीजों को साथ-साथ सुनने के लिए व्यवस्थित किए गए हैं
- autoencoder reconstruction उदाहरण मूल रिकॉर्डिंग और प्रोसेस के बाद के परिणाम की तुलना करके audio fidelity की जाँच करने देते हैं
Stable Audio डेमो और जनरेशन उदाहरण
- डेमो साइट Safari में सही से काम न कर सकती है, इसलिए बेहतर अनुभव के लिए Google Chrome उपयोग करने की सिफारिश की जाती है
- संबंधित सामग्री के रूप में
arXiv,stable-audio-tools,stable-audio-metricsदिए गए हैंarXiv: Stable Audio पेपरstable-audio-tools: Stable Audio को reproduce करने का कोडstable-audio-metrics: Stable Audio के evaluation का कोड
- मॉडल variable-length long-form stereo music को 44.1kHz पर जनरेट कर सकता है
- उदाहरण prompts में Berlin techno, uplifting acoustic loop, disco, calm meditation music, drum solo शामिल हैं
- कुछ prompts में BPM, instruments, mood, regional style, और loop है या नहीं, यह भी साथ में निर्दिष्ट किया गया है
- वही मॉडल stereo sound effects भी 44.1kHz पर जनरेट करता है
- उदाहरण prompts में door slam, sports car passing by, motorbike passing by, fireworks, reverberant footsteps inside a large rocky cave शामिल हैं
- sound effect prompts में “high-quality, stereo” जोड़ा गया है, और बताया गया है कि यह तरीका आम तौर पर मददगार होता है
मॉडल तुलना और autoencoder reconstruction
- long-form music तुलना MusicCaps prompts के आधार पर बनाई गई है
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- तुलना में उपयोग किए गए prompts और audio पेपर में रिपोर्ट की गई qualitative study में इस्तेमाल हुए थे
- sound effect तुलना में AudioCaps prompts का उपयोग किया गया है
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- AudioCaps से random चुने गए prompts में बड़े stereo movement की ज़रूरत नहीं होती, इसलिए परिणाम अपेक्षाकृत non-spatial तरीके से render होते हैं
- autoencoder सेक्शन audio fidelity का मूल्यांकन करने के लिए reconstruction comparison देता है
- बाईं ओर ground truth रिकॉर्डिंग है, और दाईं ओर ground truth रिकॉर्डिंग को autoencoder से पास करने के बाद का परिणाम रखा गया है
- reconstruction परिणाम काफ़ी transparent हैं और ground truth के बहुत क़रीब स्तर पर हैं
1 टिप्पणियां
Hacker News की रायें
दिलचस्प है कि Stable Audio बनाने के लिए नियुक्त किए गए Ed Newton-Rex ने लॉन्च के तुरंत बाद copyright और training data से जुड़ी चिंताओं के कारण इस्तीफा दे दिया था
बाद में उन्होंने https://www.fairlytrained.org/ की स्थापना की
संदर्भ: https://x.com/ednewtonrex
images या audio snippets जैसे करोड़ों से लेकर सैकड़ों करोड़ library items रखने वाले rights holders के लिए भी, बड़े repository में मौजूद 1 अरब से कम text tokens भर से text-to-target-medium generation model के encoder की performance बहुत कम रहती है। Adobe का Firefly भी इसमें शामिल है
यह भी गलतफहमी है कि ऐसी libraries में समान data अधिक होना खास तौर पर उपयोगी है। मजबूत text encoder के बिना अधिकांश text-to-target-medium models बहुत औसत दिखने या सुनाई देने वाले results बनाते हैं
इस शक को दूर करने का सबसे आसान तरीका model architecture सार्वजनिक करना है
वैसे, अगर वह सब सच भी हो, तो diffusion models पर हमारी चर्चा और Fairly Trained जैसे काम पर ध्यान देने की वजह ही यह है कि किसी ने स्पष्ट license के बिना data पर training की थी
यह अहम पद जरूर है, लेकिन “बनाने के लिए नियुक्त व्यक्ति” सुनकर lead developer या researcher का खयाल आता है
यह देखते हुए कि उनका background music में founder का है, उनका इस्तीफा और समझ में आता है
या शायद यह उनकी certification business model के लिए जरूरी प्रक्रिया रही हो
मुझे यह किसी artist द्वारा जीवन भर सुने गए music के प्रभाव में music बनाने से अलग नहीं लगता। मूल रूप से यह बिल्कुल वही बात है, और music या art शून्य में नहीं बनाया जा सकता
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.ऐसा लगता है जैसे हम 90s के Internet Explorer दौर में पूरा चक्कर लगाकर लौट आए हैं। इस बार इतना फर्क है कि dominant browser open source है
अच्छा होगा अगर कोई Chrome के लिए “Best viewed with Google Chrome” लिखा हुआ animated GIF button बना दे
button देखें: https://indiscipline.github.io/post/best-viewed-in-google-ch...
Stable Diffusion की तरह, इस model में भी text prompt शायद उपयोगी output पाने के तरीकों में सबसे मुश्किल-to-control तरीका होगा
MIDI को ControlNet के साथ input की तरह इस्तेमाल करके इसे व्यावहारिक रूप से neural synthesizer जैसा बनते देखना आसान है
इसके बजाय music production के अलग-अलग stages में artist की प्रक्रिया को assist करने के लिए AI इस्तेमाल करने पर focus करना बेहतर है
नए music models MusicGen, MusicLM की तुलना में यह बेहद अच्छा है। Midjourney की तरह subscription लेकर इस्तेमाल करने वाला product page भी दिखता है: https://www.stableaudio.com/
अफसोस कि यह open weights model नहीं है और API भी नहीं दिखती। यह monthly subscription से UI में audio generate करने का तरीका है, ऐसा रूप नहीं जिसमें developers integrate या wrap कर सकें
समझ नहीं आता कि यह सीधे “commercial product with fewer than 100k monthly active users” clause में शामिल क्यों नहीं है और इसके लिए अलग clause क्यों है
models की progress बहुत तेज है, इसलिए music के लिए यह काफी बड़ा साल हो सकता है
मुझे लगता है कि अभी भी एक चरण ज़रूरी है जिसमें AI पहले यह सीखे कि high-quality sound library कैसी सुनाई देती है, और फिर सीखी हुई क्षमता को MIDI के ज़रिए उस library की sounds trigger करने में लागू करे
ऐसा करने पर music AI की creativity और बेहतरीन audio quality दोनों मिल सकते हैं
यह नहीं पता कि इसके लिए कौन-सा dataset या structure लागू किया जा सकता है, लेकिन यह सच में दिलचस्प होगा
यहाँ हुई प्रगति को कम करके नहीं आंकना चाहता, और यह प्रभावशाली तो है
एक drummer के नज़रिए से, ‘drum solo’ सबसे boring चीज़ों में आता है, और इसमें अजीब sounds मिली हुई हैं। आखिरकार यह intended audience पर निर्भर करेगा
वैसे, अभी के हिसाब से sound effects भी मेरे कानों को realistic नहीं लगते
फिर भी progress काफी बड़ी है, और अच्छा काम है
random जैसा है, लेकिन पूरी तरह random नहीं—इस वजह से काफी अनगढ़ rhythm patterns निकलते हैं। काश मैं भी improvised तरीके से ऐसी syncopation डाल पाता
इसे sheet music में लिखने को मत कहना
tempo consistency शानदार है। हालांकि गैरज़रूरी noise और random cymbal resonance model की सीमाएँ दिखाते हैं
पहले से ही लाखों library music tracks और sound effects मौजूद हैं जो इससे कहीं बेहतर सुनाई देते हैं। उनसे compete करने के लिए generative AI में भारी निवेश चाहिए होगा, लेकिन text या images के उलट मुझे इसमें economics बनती नहीं दिखती
यह कुछ ऐसा लगता है जैसे कोई व्यक्ति लगभग tempo के साथ बेढंगे ढंग से drums पीट रहा हो
हालांकि elevator music जैसी चीज़ें यह ठीक-ठाक कर लेता है, और यह उम्मीद से भी मेल खाता है
यह दिलचस्प है कि code और training के लिए friendly guidance तो release कर रहे हैं, लेकिन model नहीं
यह लगभग ऐसा है जैसे anonymous लोगों से data loader को अपने Apple Music account से connect करके मनमर्जी से चलाने की गुहार लगा रहे हों। जाहिर है, कोई भी ऐसा करने का सुझाव नहीं दे रहा
sound effect generation के idea से थोड़ी उम्मीद जगी थी, लेकिन वह “footsteps” अविश्वसनीय रूप से खराब है
क्या यह सही है कि public weights नहीं हैं? कौन-सी बात है, यह बताने वाली जानकारी ढूँढना मुश्किल है
edit: ओह, मुझे पता नहीं था कि यह comment विवादास्पद हो जाएगा। downvote करने से पहले सवाल का जवाब दे देते तो अच्छा होता, लेकिन ठीक है
संदर्भ: https://github.com/Stability-AI/stable-audio-tools
“sound effect prompts में आम तौर पर मदद मिलती है, इसलिए हम ‘high-quality, stereo’ जोड़ते हैं।”
यह मज़ेदार है कि उन्होंने पाया कि LLM को बस विनम्रता से बेहतर result बनाने को कहने पर output बेहतर हो जाता है
computer हमेशा की तरह वही करता है जो हमने मांगा है, न कि जो हमारा इरादा था