1 पॉइंट द्वारा GN⁺ 2024-02-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Stable Audio डेमो ऑडियो उदाहरणों के ज़रिए दिखाता है कि एक ही मॉडल 44.1kHz stereo में लंबी संगीत रचनाएँ और sound effects, दोनों जनरेट कर सकता है
  • संगीत जनरेशन का फोकस Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo जैसे सिर्फ prompts से अलग-अलग genres और moods बनाने पर है
  • sound effects में door slam, sports car, motorbike, fireworks, cave footsteps आदि शामिल हैं, और prompt में “high-quality, stereo” जैसे वाक्यांश भी साथ में उपयोग किए जाते हैं
  • तुलना के उदाहरण MusicCaps और AudioCaps prompts के आधार पर MusicGen-large, MusicGen-stereo, AudioLDM2, Audiogen-medium के नतीजों को साथ-साथ सुनने के लिए व्यवस्थित किए गए हैं
  • autoencoder reconstruction उदाहरण मूल रिकॉर्डिंग और प्रोसेस के बाद के परिणाम की तुलना करके audio fidelity की जाँच करने देते हैं

Stable Audio डेमो और जनरेशन उदाहरण

  • डेमो साइट Safari में सही से काम न कर सकती है, इसलिए बेहतर अनुभव के लिए Google Chrome उपयोग करने की सिफारिश की जाती है
  • संबंधित सामग्री के रूप में arXiv, stable-audio-tools, stable-audio-metrics दिए गए हैं
    • arXiv: Stable Audio पेपर
    • stable-audio-tools: Stable Audio को reproduce करने का कोड
    • stable-audio-metrics: Stable Audio के evaluation का कोड
  • मॉडल variable-length long-form stereo music को 44.1kHz पर जनरेट कर सकता है
    • उदाहरण prompts में Berlin techno, uplifting acoustic loop, disco, calm meditation music, drum solo शामिल हैं
    • कुछ prompts में BPM, instruments, mood, regional style, और loop है या नहीं, यह भी साथ में निर्दिष्ट किया गया है
  • वही मॉडल stereo sound effects भी 44.1kHz पर जनरेट करता है
    • उदाहरण prompts में door slam, sports car passing by, motorbike passing by, fireworks, reverberant footsteps inside a large rocky cave शामिल हैं
    • sound effect prompts में “high-quality, stereo” जोड़ा गया है, और बताया गया है कि यह तरीका आम तौर पर मददगार होता है

मॉडल तुलना और autoencoder reconstruction

  • long-form music तुलना MusicCaps prompts के आधार पर बनाई गई है
    • Stable Audio: stereo, 44.1kHz
    • MusicGen-large: mono, 32kHz
    • MusicGen-stereo: stereo, 32kHz
    • AudioLDM2: mono, 48kHz
    • तुलना में उपयोग किए गए prompts और audio पेपर में रिपोर्ट की गई qualitative study में इस्तेमाल हुए थे
  • sound effect तुलना में AudioCaps prompts का उपयोग किया गया है
    • Stable Audio: stereo, 44.1kHz
    • Audiogen-medium: mono, 32kHz
    • AudioLDM2: mono, 48kHz
    • AudioCaps से random चुने गए prompts में बड़े stereo movement की ज़रूरत नहीं होती, इसलिए परिणाम अपेक्षाकृत non-spatial तरीके से render होते हैं
  • autoencoder सेक्शन audio fidelity का मूल्यांकन करने के लिए reconstruction comparison देता है
    • बाईं ओर ground truth रिकॉर्डिंग है, और दाईं ओर ground truth रिकॉर्डिंग को autoencoder से पास करने के बाद का परिणाम रखा गया है
    • reconstruction परिणाम काफ़ी transparent हैं और ground truth के बहुत क़रीब स्तर पर हैं

1 टिप्पणियां

 
GN⁺ 2024-02-14
Hacker News की रायें
  • दिलचस्प है कि Stable Audio बनाने के लिए नियुक्त किए गए Ed Newton-Rex ने लॉन्च के तुरंत बाद copyright और training data से जुड़ी चिंताओं के कारण इस्तीफा दे दिया था
    बाद में उन्होंने https://www.fairlytrained.org/ की स्थापना की
    संदर्भ: https://x.com/ednewtonrex

    • generative model में अगर निर्माता model architecture सार्वजनिक नहीं करता, और वह ऐसा model है जो text को किसी दूसरे medium में बदलता है, तो यह मान लेना ठीक है कि उसने स्पष्ट license के बिना data पर trained text encoder या मिलती-जुलती functionality का कुछ हिस्सा delegate किया है
      images या audio snippets जैसे करोड़ों से लेकर सैकड़ों करोड़ library items रखने वाले rights holders के लिए भी, बड़े repository में मौजूद 1 अरब से कम text tokens भर से text-to-target-medium generation model के encoder की performance बहुत कम रहती है। Adobe का Firefly भी इसमें शामिल है
      यह भी गलतफहमी है कि ऐसी libraries में समान data अधिक होना खास तौर पर उपयोगी है। मजबूत text encoder के बिना अधिकांश text-to-target-medium models बहुत औसत दिखने या सुनाई देने वाले results बनाते हैं
      इस शक को दूर करने का सबसे आसान तरीका model architecture सार्वजनिक करना है
      वैसे, अगर वह सब सच भी हो, तो diffusion models पर हमारी चर्चा और Fairly Trained जैसे काम पर ध्यान देने की वजह ही यह है कि किसी ने स्पष्ट license के बिना data पर training की थी
    • उन्हें “Stable Audio बनाने के लिए नियुक्त व्यक्ति” कहना थोड़ा भ्रामक है। वे Stability के audio group में product VP के रूप में एक executive role में थे
      यह अहम पद जरूर है, लेकिन “बनाने के लिए नियुक्त व्यक्ति” सुनकर lead developer या researcher का खयाल आता है
      यह देखते हुए कि उनका background music में founder का है, उनका इस्तीफा और समझ में आता है
    • दिलचस्प व्याख्या है, लेकिन जब वे Stability में शामिल हुए थे, तब Stable Diffusion की training method पहले से ही अच्छी तरह ज्ञात थी, इसलिए यह काफी अजीब stance भी है
    • कंपनी तो वैसे भी जो करने वाली थी, उसे देखते हुए लगता है कि वहां काम करने से पहले इस पर सोचा जा सकता था
      या शायद यह उनकी certification business model के लिए जरूरी प्रक्रिया रही हो
    • companies को models train करते समय जिन copyright barriers का सामना करना पड़ता है, उनका कोई समाधान होना चाहिए
      मुझे यह किसी artist द्वारा जीवन भर सुने गए music के प्रभाव में music बनाने से अलग नहीं लगता। मूल रूप से यह बिल्कुल वही बात है, और music या art शून्य में नहीं बनाया जा सकता
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    ऐसा लगता है जैसे हम 90s के Internet Explorer दौर में पूरा चक्कर लगाकर लौट आए हैं। इस बार इतना फर्क है कि dominant browser open source है
    अच्छा होगा अगर कोई Chrome के लिए “Best viewed with Google Chrome” लिखा हुआ animated GIF button बना दे

    • यह रहा
      button देखें: https://indiscipline.github.io/post/best-viewed-in-google-ch...
    • Chrome open source नहीं है, Chromium open source है। दोनों को confuse न करना बेहतर है
    • Safari पर भी website ठीक से चल रही थी, मुझे कोई खास समस्या महसूस नहीं हुई
  • Stable Diffusion की तरह, इस model में भी text prompt शायद उपयोगी output पाने के तरीकों में सबसे मुश्किल-to-control तरीका होगा
    MIDI को ControlNet के साथ input की तरह इस्तेमाल करके इसे व्यावहारिक रूप से neural synthesizer जैसा बनते देखना आसान है

    • सही है। 2 साल पहले AI melody project (https://www.melodies.ai/) पर काम करते समय से ही मुझे लगता था कि सिर्फ text से high-quality पूरा गाना बनाना कुछ समय तक न तो feasible होगा, न desirable
      इसके बजाय music production के अलग-अलग stages में artist की प्रक्रिया को assist करने के लिए AI इस्तेमाल करने पर focus करना बेहतर है
    • music में ऐसा हो सकता है। लेकिन sound effects के लिए text prompt मुझे काफी अच्छा user interface लगता है
    • melody को गुनगुनाने या गाकर record की गई audio और text prompt को साथ में input देने पर, उससे मिलती-जुलती track output करना ideal लगेगा
    • जब बहुत ज्यादा control की जरूरत नहीं होती, तब यह ठीक काम करता है। जैसे “tenor saxophone player का free-jazz solo, कोई time signature नहीं” जैसा prompt
    • Stable Diffusion में text prompt के अलावा और कौन सा input है? क्या आप img2img, ControlNet जैसी चीजों की बात कर रहे हैं?
  • नए music models MusicGen, MusicLM की तुलना में यह बेहद अच्छा है। Midjourney की तरह subscription लेकर इस्तेमाल करने वाला product page भी दिखता है: https://www.stableaudio.com/
    अफसोस कि यह open weights model नहीं है और API भी नहीं दिखती। यह monthly subscription से UI में audio generate करने का तरीका है, ऐसा रूप नहीं जिसमें developers integrate या wrap कर सकें

    • मैं जिस game पर काम कर रहा हूं उसके लिए sound effects बनाना चाहता था, लेकिन लगता है कि enterprise license चाहिए(https://www.stableaudio.com/pricing)
      समझ नहीं आता कि यह सीधे “commercial product with fewer than 100k monthly active users” clause में शामिल क्यों नहीं है और इसके लिए अलग clause क्यों है
    • कहा जा रहा है कि जल्द ही CC license version और API आएंगे
      models की progress बहुत तेज है, इसलिए music के लिए यह काफी बड़ा साल हो सकता है
    • अच्छी बात यह है कि घर पर भी training संभव है। बड़ा सवाल data है
  • मुझे लगता है कि अभी भी एक चरण ज़रूरी है जिसमें AI पहले यह सीखे कि high-quality sound library कैसी सुनाई देती है, और फिर सीखी हुई क्षमता को MIDI के ज़रिए उस library की sounds trigger करने में लागू करे
    ऐसा करने पर music AI की creativity और बेहतरीन audio quality दोनों मिल सकते हैं

    • image generation AI में भी मैं हमेशा ऐसी ही चीज़ चाहता था। तैयार image पर जादू की तरह बार-बार सुधार होने के बजाय, AI को brush strokes से चित्र बनाते या रंग भरने की कोशिश करते देखना कहीं ज़्यादा शानदार और दिलचस्प लगेगा
      यह नहीं पता कि इसके लिए कौन-सा dataset या structure लागू किया जा सकता है, लेकिन यह सच में दिलचस्प होगा
    • MIDI से, उदाहरण के लिए, rough तरीके से बजाई गई guitar या bathroom recording में पैदा होने वाली subtle echo जैसी चीज़ कैसे मिल सकती है?
    • क्या यही काम suno.ai नहीं करता?
  • यहाँ हुई प्रगति को कम करके नहीं आंकना चाहता, और यह प्रभावशाली तो है
    एक drummer के नज़रिए से, ‘drum solo’ सबसे boring चीज़ों में आता है, और इसमें अजीब sounds मिली हुई हैं। आखिरकार यह intended audience पर निर्भर करेगा
    वैसे, अभी के हिसाब से sound effects भी मेरे कानों को realistic नहीं लगते
    फिर भी progress काफी बड़ी है, और अच्छा काम है

    • drummer के नज़रिए से, अगर इसे एक steady 4/4 beat के ऊपर हो रही चीज़ माना जाए तो वह ‘drum solo’ हैरानी की बात है कि सुनने में दिलचस्प लगा
      random जैसा है, लेकिन पूरी तरह random नहीं—इस वजह से काफी अनगढ़ rhythm patterns निकलते हैं। काश मैं भी improvised तरीके से ऐसी syncopation डाल पाता
      इसे sheet music में लिखने को मत कहना
      tempo consistency शानदार है। हालांकि गैरज़रूरी noise और random cymbal resonance model की सीमाएँ दिखाते हैं
    • कोशिश प्रभावशाली है, लेकिन अभी सच में इस्तेमाल लायक music या sounds generate करने से बहुत दूर है
      पहले से ही लाखों library music tracks और sound effects मौजूद हैं जो इससे कहीं बेहतर सुनाई देते हैं। उनसे compete करने के लिए generative AI में भारी निवेश चाहिए होगा, लेकिन text या images के उलट मुझे इसमें economics बनती नहीं दिखती
    • music samples में transitions न होने से और निराशा हुई। ज्यादातर songs में key change या percussion transition होता है
    • drum solo अच्छी तरह दिखाता है कि यह model drum solo की मूल बात को कितना miss करता है। मैं drummer नहीं हूँ, लेकिन सुनने में बिल्कुल enjoyable नहीं है
      यह कुछ ऐसा लगता है जैसे कोई व्यक्ति लगभग tempo के साथ बेढंगे ढंग से drums पीट रहा हो
      हालांकि elevator music जैसी चीज़ें यह ठीक-ठाक कर लेता है, और यह उम्मीद से भी मेल खाता है
  • यह दिलचस्प है कि code और training के लिए friendly guidance तो release कर रहे हैं, लेकिन model नहीं
    यह लगभग ऐसा है जैसे anonymous लोगों से data loader को अपने Apple Music account से connect करके मनमर्जी से चलाने की गुहार लगा रहे हों। जाहिर है, कोई भी ऐसा करने का सुझाव नहीं दे रहा

    • अनुमान लगाऊँ तो, शायद AudioSparx की licensed stock audio library को training के लिए उपलब्ध कराने की शर्तों में output model को redistribute न करने की कोई clause रही हो
  • sound effect generation के idea से थोड़ी उम्मीद जगी थी, लेकिन वह “footsteps” अविश्वसनीय रूप से खराब है

    • मैंने stableaudio.com पर music generation आज़माया, और हाँ, खराब है। फिर भी ऐसे models की development speed इतनी तेज़ है कि अगर 1–2 साल में यह हैरान करने लायक अच्छा हो जाए तो मुझे आश्चर्य नहीं होगा
  • क्या यह सही है कि public weights नहीं हैं? कौन-सी बात है, यह बताने वाली जानकारी ढूँढना मुश्किल है
    edit: ओह, मुझे पता नहीं था कि यह comment विवादास्पद हो जाएगा। downvote करने से पहले सवाल का जवाब दे देते तो अच्छा होता, लेकिन ठीक है

    • हाँ, नहीं हैं। training, inference और fine-tuning के लिए code release किया है, लेकिन dataset या weights release नहीं किए
      संदर्भ: https://github.com/Stability-AI/stable-audio-tools
  • “sound effect prompts में आम तौर पर मदद मिलती है, इसलिए हम ‘high-quality, stereo’ जोड़ते हैं।”
    यह मज़ेदार है कि उन्होंने पाया कि LLM को बस विनम्रता से बेहतर result बनाने को कहने पर output बेहतर हो जाता है

    • कभी-कभी आप पुराने cassette की sound, या उससे भी पुराने खरोंच लगे 78rpm record की sound चाह सकते हैं
      computer हमेशा की तरह वही करता है जो हमने मांगा है, न कि जो हमारा इरादा था