Stable Audio - तेज़ टाइमिंग-नियंत्रित Latent Audio Diffusion

लेटेंट डिफ्यूज़न मॉडल (Latent Diffusion Model)
- पहले से प्रशिक्षित autoencoder के latent encoding space में काम करने वाला diffusion model
- diffusion model की training और inference गति को काफी बढ़ाता है
diffusion model का उपयोग करके ऑडियो जनरेट करते समय आने वाली मुख्य समस्याओं में से एक यह है कि diffusion model को आमतौर पर fixed-size output जनरेट करने के लिए train किया जाता है
- यदि 30 सेकंड के ऑडियो क्लिप पर train किया गया हो, तो केवल 30 सेकंड की इकाइयों में ही ऑडियो जनरेट किया जा सकता है
- यह तब समस्या बनता है जब बहुत अलग-अलग लंबाई वाले ऑडियो को train और generate करना हो, जैसे पूरी संगीत रचना बनाते समय
ऑडियो diffusion model लंबे ऑडियो फ़ाइलों से यादृच्छिक रूप से काटे गए audio chunks को diffusion model की training length के अनुरूप काटकर या pad करके train करने की प्रवृत्ति रखते हैं
संगीत के मामले में, इसके कारण मॉडल ऐसे मनमाने गीत खंड जनरेट करने की ओर झुकता है जो संगीत वाक्यांश के बीच में शुरू या समाप्त होते हैं
Stable Audio ऑडियो के लिए एक latent diffusion model है, जिसमें text metadata के साथ-साथ audio file की लंबाई और start time के आधार पर भी conditioning सेट की जाती है
- इस timing control क्षमता के माध्यम से training window size तक की निर्दिष्ट लंबाई का ऑडियो जनरेट किया जा सकता है
नवीनतम diffusion sampling तकनीकों का उपयोग करने वाला Stable Audio मॉडल 44.1kHz sample rate पर 95 सेकंड का stereo audio NVIDIA A100 GPU पर 1 सेकंड से कम समय में जनरेट कर सकता है
Stability AI की Generative Audio research lab Harmonai में विकसित
Moûsai में उपयोग किए गए 907M (90.7 करोड़) parameter U-Net मॉडल पर आधारित
Stable Audio मॉडल को 800,000 से अधिक ऑडियो फ़ाइलों वाले dataset पर train किया गया, जिसमें प्रमुख संगीत प्रदाता AudioSparx द्वारा उपलब्ध कराया गया संगीत, sound effects और single-instrument stems शामिल हैं
भविष्य के कार्य के रूप में, model architecture, dataset और training procedure में सुधार करके output quality, controllability, inference speed और output length को बेहतर बनाने की योजना है
Harmonai, Stable Audio पर आधारित open source models और ऑडियो generation models की training के लिए training code जारी करने की योजना बना रहा है

1 टिप्पणियां

GN⁺ 2023-09-14

Hacker News की राय

यह लेख तेज़ timing condition वाली latent audio diffusion तकनीक 'Stable Audio' पर चर्चा करता है.
कुछ उपयोगकर्ताओं ने generated solo piano music को साफ़-सुथरा और दिलचस्प बताया, और सुझाव दिया कि इसे अधिक लचीले उपयोग के लिए आसानी से sheet music में बदला जा सकता है.
audio और visual क्षेत्र में AI से image layers या brush strokes, और music के composition tracks जैसे अधिक structured या symbolic output जनरेट करने की मांग है.
खासकर संगीत पृष्ठभूमि वाले कुछ उपयोगकर्ता generated music pieces से प्रभावित नहीं हुए, और उन्होंने इन्हें दोहरावदार तथा कल्पनाशक्ति की कमी वाला बताया.
इस तकनीक में games या ऐसी अन्य applications के लिए background music जनरेट करने की क्षमता है जहाँ high-quality music प्राथमिकता नहीं है.
एक उपयोगकर्ता ने सुझाव दिया कि इस तकनीक का इस्तेमाल Spotify पर किसी व्यक्ति की पसंद के अनुसार संगीत जनरेट करने में किया जा सकता है.
इस बात में रुचि है कि क्या model spatial audio की अवधारणाओं को support करता है या "समझता" है, जैसे alarm sound का गोलाकार दिशा में घूमना.
कुछ उपयोगकर्ताओं ने ऐसी तकनीक की मांग जताई जो melody, chord progression, या performance data जैसे input ले सके, जो audio tools की नई पीढ़ी की संभावनाओं की ओर इशारा करता है.
कुछ उपयोगकर्ताओं ने audio examples में "uncanny valley" effect पर ध्यान दिया, यानी ध्वनियाँ आपस में घुली-मिली लगती हैं और उनमें साफ़ संगीतात्मक voice की कमी है.
इन आलोचनाओं के बावजूद, कुछ उपयोगकर्ताओं ने ऐसी तकनीक के अस्तित्व के लिए आभार व्यक्त किया और इसे Google और Meta जैसी कंपनियों की पिछली खिल्ली से अलग बताया.

Stable Audio - तेज़ टाइमिंग-नियंत्रित Latent Audio Diffusion

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय