1 पॉइंट द्वारा GN⁺ 2023-12-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बहु-दृष्टिकोण दृश्य भ्रम का निर्माण: diffusion model का उपयोग करने वाला शोध

  • University of Michigan के Daniel Geng, Inbum Park, और Andrew Owens ने diffusion model का उपयोग करके कई दृष्टिकोणों वाले दृश्य भ्रम बनाने की एक नई विधि प्रस्तुत की है.
  • यह विधि ऐसी छवियां बनाती है जो image transform होने पर अलग रूप या पहचान में दिखाई देती हैं, और rotation, flip, color inversion, skew, jigsaw puzzle rearrangement, random permutation जैसी विभिन्न transformations को support करती है.
  • यह शोध सैद्धांतिक स्तर पर ही नहीं, बल्कि वास्तविक उदाहरणों के माध्यम से भी इस विधि की प्रभावशीलता साबित करता है.

कार्यप्रणाली

  • उपयोग की गई विधि अवधारणात्मक रूप से सरल है और बाजार में उपलब्ध diffusion model का उपयोग करके image के विभिन्न views या transformations में noise का अनुमान लगाती है.
  • अनुमानित noise को inverse view लागू करके align और average किया जाता है, और फिर इसी averaged noise estimate का उपयोग diffusion step को आगे बढ़ाने के लिए किया जाता है.

views के लिए शर्तें

  • सभी view functions ऊपर बताई गई विधि के साथ compatible नहीं हैं; view function का invertible होना अनिवार्य है.
  • signal और noise के बीच weight को बनाए रखने के लिए view function में linearity होनी चाहिए, और यह linear transformation को दर्शाने वाले square matrix A के माध्यम से हासिल किया जा सकता है.
  • diffusion model यह मानता है कि noise को standard normal distribution से independent और identically draw किया गया है, इसलिए transformed noise को भी इन्हीं statistics का पालन करना चाहिए.
  • linear transformation के मामले में, यह शर्त A के orthogonal matrix होने के बराबर है.

orthogonal transformations

  • अधिकांश orthogonal transformations दृश्य रूप से अर्थपूर्ण नहीं होते, लेकिन permutation matrix orthogonal matrix का एक subset है और इसे image के भीतर pixels की rearrangement के रूप में समझा जा सकता है.
  • इस शोध में प्रस्तुत अधिकांश भ्रमों को pixels की विशिष्ट rearrangement के रूप में समझा जा सकता है, जैसे rotation, flip, skew, "internal rotation", jigsaw puzzle rearrangement, patch permutation आदि.
  • color inversion permutation नहीं है, लेकिन pixel values के negation के रूप में यह एक orthogonal transformation है.

GN⁺ की राय

  • यह शोध image transformation के माध्यम से विविध दृश्य भ्रम उत्पन्न करने की नई विधि प्रस्तुत करके artificial intelligence तकनीक और कला के बीच की सीमाओं का विस्तार करने में योगदान देता है.
  • विशेष रूप से, image के pixels को rearrange करके विभिन्न visual effects बनाने की विधि रचनात्मक है, और इससे नए प्रकार की कलाकृतियां बनना संभव होने की उम्मीद है.
  • यह लेख इसलिए रोचक है क्योंकि इसने मौजूदा diffusion model का उपयोग करके दृश्य भ्रम बनाने के एक मौलिक दृष्टिकोण की खोज की है, और यह शुरुआती software engineers को भी नई प्रेरणा दे सकने वाला शोध है.

1 टिप्पणियां

 
GN⁺ 2023-12-01
Hacker News राय
  • एक उपयोगकर्ता ने बताया कि उसके पास पिछले साल की शुरुआत में इसी तरह का विचार था, और उसने checkerboard तरीके का उपयोग करके प्रयोग किया था। उसने 9 प्रसिद्ध चित्रकारों की शैलियों में बनाई गई बिल्ली की तस्वीरों से तैयार एक एकल बिल्ली इमेज का उदाहरण दिया। उसने यह भी उल्लेख किया कि यह तकनीक कुछ महीने पहले विवाद में रही "spiral" ControlNet इमेज से संबंधित नहीं है, बल्कि DeepFloyd-IF पर आधारित बनाई गई थी.
  • दूसरे उपयोगकर्ता ने पुरुष/महिला color inversion इमेज को प्रभावशाली बताया, और कहा कि वह मानसिक रूप से इमेज को घुमाकर अलग दृष्टिकोण देख सकता है, लेकिन color inversion उसके लिए कठिन लगता है.
  • एक अन्य उपयोगकर्ता ने पुरुष/महिला inversion इमेज को बहुत पसंद किया और जिज्ञासा जताई कि इसी तकनीक को बढ़ाकर एक ही इमेज से कितने permutations बनाए जा सकते हैं। उसे इस बात की गणितीय समझ नहीं है कि क्या दो orthogonal transformations को लगातार लागू करने पर भी परिणाम orthogonal transformation ही रहेगा.
  • एक उपयोगकर्ता ने कहा कि प्रस्तुत सभी उदाहरण "ठीक-ठाक" हैं, और penguin/giraffe इमेज शायद सबसे बेहतर लगी। उसे old man/dress इमेज दोनों में से किसी जैसी भी अच्छी तरह नहीं लगी.
  • एक उपयोगकर्ता का मानना था कि इस काम में neural network का उपयोग शायद जरूरत से ज्यादा हो सकता है, और यह optical illusions की सैद्धांतिक समझ का सबसे अच्छा विकल्प नहीं हो सकता, लेकिन परिणामों पर बहस की गुंजाइश नहीं है.
  • कुछ उपयोगकर्ताओं ने इन इमेजों का आनंद लिया और इसे शानदार पोस्ट बताया.
  • एक उपयोगकर्ता ने यह विचार रखा कि ऐसी इमेज बनाना अच्छा होगा जो लाल/नीली रोशनी में अलग-अलग चीज़ों जैसी दिखें.
  • एक उपयोगकर्ता ने कहा कि duck/rabbit इमेज का sliding puzzle में उपयोग होना, जहाँ दो वैध समाधान मिलें, वास्तव में बहुत शानदार होगा.
  • एक उपयोगकर्ता ने यह भी पूछा कि क्या वास्तव में खरीदने के लिए ऐसे jigsaw puzzles मौजूद हैं.