बहु-दृष्टिकोण दृश्य भ्रम का निर्माण: diffusion model का उपयोग करने वाला शोध
- University of Michigan के Daniel Geng, Inbum Park, और Andrew Owens ने diffusion model का उपयोग करके कई दृष्टिकोणों वाले दृश्य भ्रम बनाने की एक नई विधि प्रस्तुत की है.
- यह विधि ऐसी छवियां बनाती है जो image transform होने पर अलग रूप या पहचान में दिखाई देती हैं, और rotation, flip, color inversion, skew, jigsaw puzzle rearrangement, random permutation जैसी विभिन्न transformations को support करती है.
- यह शोध सैद्धांतिक स्तर पर ही नहीं, बल्कि वास्तविक उदाहरणों के माध्यम से भी इस विधि की प्रभावशीलता साबित करता है.
कार्यप्रणाली
- उपयोग की गई विधि अवधारणात्मक रूप से सरल है और बाजार में उपलब्ध diffusion model का उपयोग करके image के विभिन्न views या transformations में noise का अनुमान लगाती है.
- अनुमानित noise को inverse view लागू करके align और average किया जाता है, और फिर इसी averaged noise estimate का उपयोग diffusion step को आगे बढ़ाने के लिए किया जाता है.
views के लिए शर्तें
- सभी view functions ऊपर बताई गई विधि के साथ compatible नहीं हैं; view function का invertible होना अनिवार्य है.
- signal और noise के बीच weight को बनाए रखने के लिए view function में linearity होनी चाहिए, और यह linear transformation को दर्शाने वाले square matrix A के माध्यम से हासिल किया जा सकता है.
- diffusion model यह मानता है कि noise को standard normal distribution से independent और identically draw किया गया है, इसलिए transformed noise को भी इन्हीं statistics का पालन करना चाहिए.
- linear transformation के मामले में, यह शर्त A के orthogonal matrix होने के बराबर है.
orthogonal transformations
- अधिकांश orthogonal transformations दृश्य रूप से अर्थपूर्ण नहीं होते, लेकिन permutation matrix orthogonal matrix का एक subset है और इसे image के भीतर pixels की rearrangement के रूप में समझा जा सकता है.
- इस शोध में प्रस्तुत अधिकांश भ्रमों को pixels की विशिष्ट rearrangement के रूप में समझा जा सकता है, जैसे rotation, flip, skew, "internal rotation", jigsaw puzzle rearrangement, patch permutation आदि.
- color inversion permutation नहीं है, लेकिन pixel values के negation के रूप में यह एक orthogonal transformation है.
GN⁺ की राय
- यह शोध image transformation के माध्यम से विविध दृश्य भ्रम उत्पन्न करने की नई विधि प्रस्तुत करके artificial intelligence तकनीक और कला के बीच की सीमाओं का विस्तार करने में योगदान देता है.
- विशेष रूप से, image के pixels को rearrange करके विभिन्न visual effects बनाने की विधि रचनात्मक है, और इससे नए प्रकार की कलाकृतियां बनना संभव होने की उम्मीद है.
- यह लेख इसलिए रोचक है क्योंकि इसने मौजूदा diffusion model का उपयोग करके दृश्य भ्रम बनाने के एक मौलिक दृष्टिकोण की खोज की है, और यह शुरुआती software engineers को भी नई प्रेरणा दे सकने वाला शोध है.
1 टिप्पणियां
Hacker News राय