4 पॉइंट द्वारा GN⁺ 2024-05-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें

जनरेटिव मॉडलिंग

  • जनरेटिव मॉडलिंग की मूल समस्या यह है कि अज्ञात वितरण x∼p(x) से मिले samples के एक सेट को देखते हुए, उसी वितरण से नए samples उत्पन्न किए जाएँ।

1.1 Denoising Diffusion Models

  • डेटा पॉइंट्स को deterministically normal distribution पर मैप करने के बजाय, उनमें random noise मिलाकर उन्हें probabilistically मैप करने की विधि उपयोग की जाती है।
  • यह तरीका शुरुआत में अजीब लग सकता है, लेकिन कई चरणों में साफ डेटा पॉइंट्स में थोड़ा-थोड़ा noise मिलाकर उन्हें pure noise जैसा बना दिया जाता है।
  • हर चरण में noise-मिले डेटा पॉइंट को देखकर मोटे तौर पर यह समझा जा सकता है कि पिछले चरण में डेटा पॉइंट कहाँ था।
  • इस प्रक्रिया को उल्टा सीखने पर p(x) वितरण से samples उत्पन्न किए जा सकते हैं।
  • यह भौतिक diffusion प्रक्रिया के समान है।

DDP मॉडल

  • DDP मॉडल का अर्थ Denoising Diffusion Probabilistic Models है।
  • आगे के नए विकास इसी शोधपत्र की भाषा और गणित पर आधारित हैं।

2.1 Noise जोड़ना और हटाना

  • इनपुट इमेज x0 को unit normal distribution के एक पॉइंट पर मैप करने के लिए t=1,2,…,T समय चरणों में धीरे-धीरे noise जोड़ने वाली forward diffusion प्रक्रिया का उपयोग किया जाता है।
  • हर समय चरण पिछली इमेज में थोड़ा random noise मिलाकर नई इमेज बनाता है।
  • इस प्रक्रिया की प्रकृति iterative है, और हर चरण केवल पिछले समय चरण पर निर्भर करता है, जबकि जोड़ा गया noise पिछले noise samples से स्वतंत्र होता है।
  • reverse process को सीखकर noise-मिली इमेज xt से पिछले चरण के कम noise वाले version xt-1 के वितरण का अनुमान लगाया जाता है।

2.2 Denoising सीखना

  • q(xt−1∣xt) बहुत कम मात्रा के noise के लिए लगभग Gaussian होता है।
  • यह statistical physics का एक पुराना परिणाम है।
  • इसके जरिए reverse distribution सीखा जा सकता है।
  • KL divergence का उपयोग करके सभी training examples x0 के लिए q(xt−1∣xt,x0) और pθ(xt−1∣xt) के बीच का अंतर न्यूनतम किया जाता है।
  • अंतिम loss function सरल होकर noise prediction समस्या बन जाता है।

2.3 Sampling

  • noise estimation model ϵθ(xt,t) को सीखने के बाद, इसका उपयोग इमेज x0 को sample करने के लिए किया जा सकता है।
  • pure noise इमेज xT∼N(0,I) को sample किया जाता है, फिर T से 1 तक के समय चरणों के लिए noise का अनुमान लगाया जाता है, और अनुमानित noise का उपयोग करके denoised इमेज sample की जाती है।

2.4 सारांश और उदाहरण

  • इमेज dataset के आधारभूत वितरण को सीखा जाता है, और forward noise-adding प्रक्रिया परिभाषित करके इमेज x0 को धीरे-धीरे pure noise xT में बदला जाता है।
  • reverse process को सीखकर xt से xt-1 के वितरण का अनुमान लगाया जाता है।
  • KL divergence का उपयोग करके यह सुनिश्चित किया जाता है कि सीखा गया वितरण dataset के ज्ञात वितरण के जितना संभव हो उतना निकट हो।
  • अंत में यह noise prediction समस्या में सरल हो जाता है।

प्रगति

3.1 तेज़ generation

  • शुरुआती diffusion models की मुख्य कमी generation speed थी।
  • बाद में generation speed बढ़ाने के लिए कई तकनीकें विकसित की गईं; कुछ को pre-trained models पर सीधे लागू किया जा सकता है, जबकि कुछ के लिए नया मॉडल train करना पड़ता है।

Score Matching और Fast Samplers

  • diffusion models का differential equations से आश्चर्यजनक संबंध है, और इसी के आधार पर कई fast samplers विकसित किए गए हैं।
  • noise की दिशा का अनुमान लगाना forward process की log-likelihood के gradient के बराबर होता है।
  • यही score-based models की नींव बनता है, जो noise-मिले dataset के score को सीखते हैं और score field के साथ चलते हुए नए samples उत्पन्न करते हैं।

GN⁺ की राय

  1. डिफ्यूज़न मॉडल की समझ: diffusion models केवल image generation तक सीमित नहीं हैं; इन्हें animation, video generation, 3D modeling, protein structure prediction, और robot path planning जैसे कई क्षेत्रों में लागू किया जा सकता है।
  2. ट्रेनिंग प्रक्रिया की जटिलता: diffusion models की training प्रक्रिया जटिल होती है, लेकिन इसके जरिए बहुत परिष्कृत इमेज बनाई जा सकती हैं।
  3. तेज़ generation तकनीकें: fast generation तकनीकें diffusion models की व्यावहारिक उपयोगिता को काफी बढ़ाती हैं।
  4. Score-based models: score-based models diffusion models की तरह ही काम करते हैं और sampling speed बढ़ाने में योगदान देते हैं।
  5. तकनीक अपनाते समय विचार: diffusion models अपनाते समय training time, computational resources, और model complexity जैसी बातों पर ध्यान देना चाहिए।

1 टिप्पणियां

 
GN⁺ 2024-05-27

Hacker News की राय

  • यह जानकर पता चला कि diffusion models, score matching theory से पहले आए थे। जब OpenAI ने 25 करोड़ images पर training की थी, तब सैद्धांतिक व्याख्या पर्याप्त न होने के बावजूद यह एक साहसी प्रयास था।
  • Training loop गलत लगता है। x0 और eps का उपयोग xt के representation में नहीं हो रहा, इसलिए यह random noise की prediction जैसा दिखता है।
  • diffusion transformers के लिए सबसे अच्छी Apache या MIT license वाली Python library की तलाश है।
  • इसे साझा करने के लिए धन्यवाद। इससे diffusion models कैसे काम करते हैं, इस पर insight मिली। randomness शक्तिशाली है। अब किसी अनुपयुक्त language में coding करने का समय है।
  • टिप्पणियाँ पढ़ने वालों के लिए संक्षेप में बताने लायक बहुत कुछ नहीं है। यह पोस्ट Stable Diffusion का सारांश है।
  • 2022 में चित्र बनाना सीखते समय, Stable Diffusion जैसे AI art models के आने से मैं चकित रह गया था। कंप्यूटर मुझसे बेहतर कलाकार बन गया था। AI जितना अधिक रचनात्मक काम में दखल देता है, उतना ही सब कुछ मिटा देने का मन करता है।