- लेटेंट डिफ्यूज़न मॉडल (Latent Diffusion Model)
- पहले से प्रशिक्षित autoencoder के latent encoding space में काम करने वाला diffusion model
- diffusion model की training और inference गति को काफी बढ़ाता है
- diffusion model का उपयोग करके ऑडियो जनरेट करते समय आने वाली मुख्य समस्याओं में से एक यह है कि diffusion model को आमतौर पर fixed-size output जनरेट करने के लिए train किया जाता है
- यदि 30 सेकंड के ऑडियो क्लिप पर train किया गया हो, तो केवल 30 सेकंड की इकाइयों में ही ऑडियो जनरेट किया जा सकता है
- यह तब समस्या बनता है जब बहुत अलग-अलग लंबाई वाले ऑडियो को train और generate करना हो, जैसे पूरी संगीत रचना बनाते समय
- ऑडियो diffusion model लंबे ऑडियो फ़ाइलों से यादृच्छिक रूप से काटे गए audio chunks को diffusion model की training length के अनुरूप काटकर या pad करके train करने की प्रवृत्ति रखते हैं
- संगीत के मामले में, इसके कारण मॉडल ऐसे मनमाने गीत खंड जनरेट करने की ओर झुकता है जो संगीत वाक्यांश के बीच में शुरू या समाप्त होते हैं
- Stable Audio ऑडियो के लिए एक latent diffusion model है, जिसमें text metadata के साथ-साथ audio file की लंबाई और start time के आधार पर भी conditioning सेट की जाती है
- इस timing control क्षमता के माध्यम से training window size तक की निर्दिष्ट लंबाई का ऑडियो जनरेट किया जा सकता है
- नवीनतम diffusion sampling तकनीकों का उपयोग करने वाला Stable Audio मॉडल 44.1kHz sample rate पर 95 सेकंड का stereo audio NVIDIA A100 GPU पर 1 सेकंड से कम समय में जनरेट कर सकता है
- Stability AI की Generative Audio research lab Harmonai में विकसित
- Moûsai में उपयोग किए गए 907M (90.7 करोड़) parameter U-Net मॉडल पर आधारित
- Stable Audio मॉडल को 800,000 से अधिक ऑडियो फ़ाइलों वाले dataset पर train किया गया, जिसमें प्रमुख संगीत प्रदाता AudioSparx द्वारा उपलब्ध कराया गया संगीत, sound effects और single-instrument stems शामिल हैं
- भविष्य के कार्य के रूप में, model architecture, dataset और training procedure में सुधार करके output quality, controllability, inference speed और output length को बेहतर बनाने की योजना है
- Harmonai, Stable Audio पर आधारित open source models और ऑडियो generation models की training के लिए training code जारी करने की योजना बना रहा है
1 टिप्पणियां
Hacker News की राय