Stable Audio 2.0

(stability.ai)

7 पॉइंट द्वारा GN⁺ 2024-04-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Stable Audio 2.0 AI द्वारा जनरेट किए गए उच्च-गुणवत्ता वाले पूरे ट्रैक के लिए अधिकतम 3 मिनट लंबाई और 44.1kHz stereo में एक नया मानक प्रस्तुत करता है
audio-to-audio generation फीचर पेश किया गया है, जिससे उपयोगकर्ता sample अपलोड करके natural language prompt के ज़रिए उसे बदल सकते हैं
इसे विशेष रूप से AudioSparx music library से licensed dataset पर train किया गया है, और यह क्रिएटर्स के 'opt-out' अनुरोधों का सम्मान करते हुए उचित compensation सुनिश्चित करता है
Stable Audio वेबसाइट पर मॉडल को एक्सप्लोर किया जा सकता है और मुफ़्त में क्रिएशन शुरू की जा सकती है

नई सुविधाएँ

यह अधिकतम 3 मिनट लंबे गाने जनरेट कर सकता है, और intro, development, outro सहित structured composition तथा stereo sound effects प्रदान करता है
Audio-To-Audio generation : audio file upload का समर्थन करता है, जिससे आइडिया को पूरी तरह तैयार sample में बदला जा सकता है। सेवा की शर्तें केवल copyright-free सामग्री अपलोड करने की मांग करती हैं, और copyright infringement रोकने के लिए advanced content recognition का उपयोग किया जाता है
Variation और sound effect generation : keyboard typing की आवाज़ से लेकर भीड़ के शोर और शहर की सड़कों की भनभनाहट तक, विभिन्न sound और audio effects के निर्माण को बढ़ाता है
Style transfer : generation प्रक्रिया के भीतर नए बनाए गए या अपलोड किए गए audio को सहज रूप से संशोधित करके प्रोजेक्ट की खास style और tone के अनुसार ढाला जा सकता है

शोध

Stable Audio 2.0 की latent diffusion model architecture को structured full-track generation संभव बनाने के लिए डिज़ाइन किया गया है
इसके लिए सिस्टम के सभी components को लंबे समयावधि के performance improvement के लिए ट्यून किया गया है
नया highly compressed autoencoder raw audio waveform को बहुत छोटे representation में compress करता है
diffusion transformer (DiT) पहले के U-Net की जगह इस्तेमाल किया गया है, और यह लंबे sequence में data को manipulate करने में अधिक सक्षम है

सुरक्षा उपाय

1.0 मॉडल की तरह, 2.0 को AudioSparx के उस data पर train किया गया है जिसमें 800,000 से अधिक music, sound effects, single-instrument stem files और संबंधित text metadata शामिल हैं
AudioSparx के सभी artists के पास Stable Audio model training से 'opt-out' करने का विकल्प है
copyright holders के अधिकारों की रक्षा के लिए, audio upload के समय AudibleMagic के साथ साझेदारी की गई है और उनकी content recognition (ACR) तकनीक का उपयोग real-time content matching के माध्यम से copyright infringement रोकने के लिए किया जाता है

Stable Radio

Stable Radio एक 24/7 live stream है जिसमें केवल Stable Audio द्वारा जनरेट किए गए ट्रैक शामिल हैं, और यह Stable Audio YouTube चैनल पर स्ट्रीम हो रही है
Stable Audio वेबसाइट पर मॉडल को एक्सप्लोर किया जा सकता है और मुफ़्त में क्रिएशन शुरू की जा सकती है।

GN⁺ की राय

Stable Audio 2.0 में संगीत निर्माताओं को AI-आधारित क्रिएटिव टूल देकर music industry में बदलाव लाने की क्षमता है। natural language processing के ज़रिए उपयोगकर्ता की मंशा को समझकर उसे संगीत में बदलने की क्षमता क्रिएटिव प्रक्रिया को सरल बनाती है और अधिक लोगों को music creation में भाग लेने का अवसर देती है।
इस तकनीक से जुड़ी एक संभावित समस्या copyright का मुद्दा है। हालांकि कंपनी कहती है कि वह copyright infringement रोकने के लिए कदम उठा रही है, लेकिन AI-generated content के copyright ownership से जुड़े कानूनी सवाल अब भी जटिल हैं।
music production में AI को अपनाते समय एक महत्वपूर्ण विचार AI द्वारा बनाए गए संगीत की originality और artistry को लेकर धारणा है। क्या AI मानव रचनात्मकता की नकल कर सकता है या उसका स्थान ले सकता है, और इसका music industry पर क्या प्रभाव होगा—इस पर चर्चा ज़रूरी है।
AI music generation tools के फायदे में creation time कम होना, विभिन्न music styles और genres के साथ प्रयोग करना, और यह तथ्य शामिल है कि creators बिना music theory या instrument performance skills के गहरे ज्ञान के भी संगीत बना सकते हैं।
music education पर इसके सकारात्मक प्रभाव को देखें तो यह music theory सीखने वाले छात्रों को विभिन्न music styles और structures को खोजने और समझने में मदद कर सकता है।

1 टिप्पणियां

GN⁺ 2024-04-06

Hacker News की राय

AI म्यूज़िक प्रभावशाली है, लेकिन ऐसा लगता है कि इसमें इंसानों द्वारा बनाए गए संगीत की मंशा और भावना महसूस नहीं होती, इसलिए कुछ कमी लगती है।
AI द्वारा जनरेट किए गए ऑडियो के copyright का कोई ज़िक्र नहीं है, इसलिए output के ownership को लेकर एक अहम सवाल मौजूद है।
मैंने 10 साल पहले बनाया हुआ beat AI को दिया, तो वह ऐसा लगा जैसे stereo को washing machine में डाल दिया हो। लगता है कि बड़े dataset की ज़रूरत है, लेकिन फिर भी subscription लेने पर विचार कर रहा हूँ।
Stability AI का licensed dataset इस्तेमाल करके creators को उचित compensation सुनिश्चित करना अच्छी बात है।
तकनीकी रूप से यह प्रभावशाली है, लेकिन AI द्वारा बनाया गया संगीत साधारण है। कोई आधुनिक electronic musician इससे बेहतर काम कर सकता है।
यह अफ़सोस की बात है कि Stability AI open source नहीं है। उम्मीद है कि यह OpenAI जैसा रास्ता नहीं अपनाएगा।
AI ऑडियो sample को मिलते-जुलते रूप में दोबारा बनाने की कोशिश करता है, लेकिन यह असली drum और guitar performance जैसा नहीं है। फिर भी यह दिलचस्प है, और उम्मीद है कि आगे इसका बेहतर version आएगा।
coding करते समय सुनने लायक synthwave संगीत से ऊब चुका था और कुछ नया ढूंढ रहा था, तो लगता है कि AI अनंत "काफ़ी अच्छा" playlist जनरेट कर सकता है।
AI से कुछ दिलचस्प जनरेट करने में असफल रहा। साइट इस्तेमाल करना मुश्किल है।
सोच रहा हूँ कि क्या audio models के लिए ComfyUI-स्टाइल interface मौजूद है।

Stable Audio 2.0

नई सुविधाएँ

शोध

सुरक्षा उपाय

Stable Radio

GN⁺ की राय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय