जनरेटिव मॉडलिंग
- जनरेटिव मॉडलिंग की मूल समस्या यह है कि अज्ञात वितरण x∼p(x) से मिले samples के एक सेट को देखते हुए, उसी वितरण से नए samples उत्पन्न किए जाएँ।
1.1 Denoising Diffusion Models
- डेटा पॉइंट्स को deterministically normal distribution पर मैप करने के बजाय, उनमें random noise मिलाकर उन्हें probabilistically मैप करने की विधि उपयोग की जाती है।
- यह तरीका शुरुआत में अजीब लग सकता है, लेकिन कई चरणों में साफ डेटा पॉइंट्स में थोड़ा-थोड़ा noise मिलाकर उन्हें pure noise जैसा बना दिया जाता है।
- हर चरण में noise-मिले डेटा पॉइंट को देखकर मोटे तौर पर यह समझा जा सकता है कि पिछले चरण में डेटा पॉइंट कहाँ था।
- इस प्रक्रिया को उल्टा सीखने पर p(x) वितरण से samples उत्पन्न किए जा सकते हैं।
- यह भौतिक diffusion प्रक्रिया के समान है।
DDP मॉडल
- DDP मॉडल का अर्थ Denoising Diffusion Probabilistic Models है।
- आगे के नए विकास इसी शोधपत्र की भाषा और गणित पर आधारित हैं।
2.1 Noise जोड़ना और हटाना
- इनपुट इमेज x0 को unit normal distribution के एक पॉइंट पर मैप करने के लिए t=1,2,…,T समय चरणों में धीरे-धीरे noise जोड़ने वाली forward diffusion प्रक्रिया का उपयोग किया जाता है।
- हर समय चरण पिछली इमेज में थोड़ा random noise मिलाकर नई इमेज बनाता है।
- इस प्रक्रिया की प्रकृति iterative है, और हर चरण केवल पिछले समय चरण पर निर्भर करता है, जबकि जोड़ा गया noise पिछले noise samples से स्वतंत्र होता है।
- reverse process को सीखकर noise-मिली इमेज xt से पिछले चरण के कम noise वाले version xt-1 के वितरण का अनुमान लगाया जाता है।
2.2 Denoising सीखना
- q(xt−1∣xt) बहुत कम मात्रा के noise के लिए लगभग Gaussian होता है।
- यह statistical physics का एक पुराना परिणाम है।
- इसके जरिए reverse distribution सीखा जा सकता है।
- KL divergence का उपयोग करके सभी training examples x0 के लिए q(xt−1∣xt,x0) और pθ(xt−1∣xt) के बीच का अंतर न्यूनतम किया जाता है।
- अंतिम loss function सरल होकर noise prediction समस्या बन जाता है।
2.3 Sampling
- noise estimation model ϵθ(xt,t) को सीखने के बाद, इसका उपयोग इमेज x0 को sample करने के लिए किया जा सकता है।
- pure noise इमेज xT∼N(0,I) को sample किया जाता है, फिर T से 1 तक के समय चरणों के लिए noise का अनुमान लगाया जाता है, और अनुमानित noise का उपयोग करके denoised इमेज sample की जाती है।
2.4 सारांश और उदाहरण
- इमेज dataset के आधारभूत वितरण को सीखा जाता है, और forward noise-adding प्रक्रिया परिभाषित करके इमेज x0 को धीरे-धीरे pure noise xT में बदला जाता है।
- reverse process को सीखकर xt से xt-1 के वितरण का अनुमान लगाया जाता है।
- KL divergence का उपयोग करके यह सुनिश्चित किया जाता है कि सीखा गया वितरण dataset के ज्ञात वितरण के जितना संभव हो उतना निकट हो।
- अंत में यह noise prediction समस्या में सरल हो जाता है।
प्रगति
3.1 तेज़ generation
- शुरुआती diffusion models की मुख्य कमी generation speed थी।
- बाद में generation speed बढ़ाने के लिए कई तकनीकें विकसित की गईं; कुछ को pre-trained models पर सीधे लागू किया जा सकता है, जबकि कुछ के लिए नया मॉडल train करना पड़ता है।
Score Matching और Fast Samplers
- diffusion models का differential equations से आश्चर्यजनक संबंध है, और इसी के आधार पर कई fast samplers विकसित किए गए हैं।
- noise की दिशा का अनुमान लगाना forward process की log-likelihood के gradient के बराबर होता है।
- यही score-based models की नींव बनता है, जो noise-मिले dataset के score को सीखते हैं और score field के साथ चलते हुए नए samples उत्पन्न करते हैं।
GN⁺ की राय
- डिफ्यूज़न मॉडल की समझ: diffusion models केवल image generation तक सीमित नहीं हैं; इन्हें animation, video generation, 3D modeling, protein structure prediction, और robot path planning जैसे कई क्षेत्रों में लागू किया जा सकता है।
- ट्रेनिंग प्रक्रिया की जटिलता: diffusion models की training प्रक्रिया जटिल होती है, लेकिन इसके जरिए बहुत परिष्कृत इमेज बनाई जा सकती हैं।
- तेज़ generation तकनीकें: fast generation तकनीकें diffusion models की व्यावहारिक उपयोगिता को काफी बढ़ाती हैं।
- Score-based models: score-based models diffusion models की तरह ही काम करते हैं और sampling speed बढ़ाने में योगदान देते हैं।
- तकनीक अपनाते समय विचार: diffusion models अपनाते समय training time, computational resources, और model complexity जैसी बातों पर ध्यान देना चाहिए।
1 टिप्पणियां
Hacker News की राय