Visual Anagrams: diffusion model से बने multi-view optical illusions

(dangeng.github.io)

1 पॉइंट द्वारा GN⁺ 2023-12-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

एक ही image को rotation, flip, color inversion जैसे transformations के बाद किसी दूसरे object की तरह दिखने वाला multi-view optical illusion, pretrained diffusion model से zero-shot generate किया जाता है
कई transformation views में noise का अनुमान लगाने के बाद inverse view transformation से coordinate system को align किया जाता है, फिर averaged noise के साथ अगला diffusion step चलाया जाता है
समर्थित transformations में rotation, flip, color inversion, skew, jigsaw puzzle rearrangement, random patch permutation, और 3 या उससे अधिक views तक शामिल हैं
transformation function reversible होना चाहिए, और diffusion model की noise assumption से मेल के लिए linearity तथा standard Gaussian noise की statistical consistency ज़रूरी है
orthogonal matrix condition को पूरा करने वाली pixel permutations और color inversion सैद्धांतिक शर्तों से अच्छी तरह मेल खाते हैं, लेकिन views बढ़ने पर अच्छी illusion पाना कठिन हो जाता है

transform करने पर पहचान बदलने वाली image

Visual Anagrams एक ऐसी multi-view optical illusion बनाता है जिसमें एक ही image किसी खास transformation के बाद उसका रूप या पहचान बदली हुई लगती है
यह बिना अलग training के existing diffusion model का उपयोग करने वाला zero-shot तरीका है
उदाहरण transformations इस प्रकार हैं
- jigsaw puzzle rearrangement: puzzle pieces को बांटकर फिर rearrange करने पर वह किसी दूसरी चीज़ जैसा दिखता है, और कई answers वाले jigsaw puzzle की तरह काम करता है
- flip और 180-degree rotation: image को flip करने या 180 degree घुमाने पर उसका रूप बदल जाता है
- 90-degree rotation: image को 90 degree घुमाने पर वह किसी और रूप में पहचानी जाती है
- color inversion: रंग उलटने पर image बदल जाती है
- skew और “inner circle rotations”: अन्य transformation examples में शामिल हैं
- random patch permutation: patches को rearrange किया जाता है; (64 \times 64) patch count तक बढ़ाने पर quality घटती है, लेकिन परिणाम फिर भी पहचाने जा सकते हैं
सिर्फ दो views ही नहीं, तीन-view illusions भी बनाए जा सकते हैं, लेकिन अच्छे results पाना और मुश्किल हो जाता है
चार-view illusion को चलाना बहुत कठिन था, और लगभग आधा ठीक result सिर्फ एक ही मिला

generation process और theoretical conditions

मुख्य विचार कई transformation views में diffusion model द्वारा अनुमानित noise को एक में मिलाने की प्रक्रिया है
- हर view (v_i) में noise estimate किया जाता है
- estimate पर inverse view (v_i^{-1}) लागू करके उसे एक ही coordinate system में align किया जाता है
- aligned noise estimates का average लिया जाता है
- averaged noise estimate के साथ diffusion step किया जाता है
हर view function इस तरीके पर फिट नहीं बैठता, और (v_i) का पहले reversible होना ज़रूरी है
diffusion model noise-mixed data (\mathbf{x}_t) को pure signal (\mathbf{x}_0) और noise (\epsilon) के weighted sum के रूप में देखता है
- signal और noise के weighted relationship को बनाए रखने के लिए transformation (v) का linear transformation होना ज़रूरी है
- linear transformation को matrix (\mathbf{A}) से व्यक्त किया जाता है
diffusion model इस assumption के साथ trained होता है कि noise independent and identically distributed standard Gaussian distribution से आता है
- transformed noise को भी (\mathbf{A}\epsilon \sim \mathcal{N}(0, I)) पूरा करना चाहिए
- linear transformations में यह condition तब और केवल तब सही होती है जब (\mathbf{A}) एक orthogonal matrix हो
- इसलिए इस method में transformation के काम करने के लिए orthogonal transformation एक पर्याप्त शर्त है
मनमाने orthogonal transformations में से अधिकांश image में visually meaningful नहीं होते, लेकिन permutation matrices orthogonal matrices का subset हैं और उन्हें pixel rearrangement के रूप में समझा जा सकता है
- rotation, flip, skew, inner rotations, jigsaw rearrangement, और patch permutation को खास तरह के pixel rearrangement के रूप में देखा जा सकता है
- color inversion permutation नहीं है, लेकिन यह pixel values के sign को बदलने वाला transformation है, इसलिए यह भी orthogonal transformation में आता है

paper और execution resources

Paper: CVPR 2024 paper PDF
arXiv: arXiv page
Code: Visual Anagrams code
Colab: execution Colab
Diffusion Illusions: score distillation sampling से multi-view illusions और दूसरे visual effects generate करता है
Illusion-Diffusion Colab: समान विचार वाला Matthew Tancik का Colab, और Visual Anagrams illusion quality, transformation range, तथा theoretical analysis में बेहतर है
Factorized Diffusion: Visual Anagrams का follow-up work, जो कई प्रकार की hybrid illusions बनाता है
Images that Sound: समान तकनीक से image जैसे दिखने वाले spectrograms generate करता है

1 टिप्पणियां

GN⁺ 2023-12-01

Hacker News की राय

पुरुष/महिला inversion वाकई बहुत पसंद आया
सोच रहा हूँ कि अगर इसी तकनीक को बढ़ाया जाए तो एक ही इमेज में पढ़े जा सकने वाले permutation कितने बनाए जा सकते हैं। गणित अच्छी नहीं है, लेकिन क्या दो orthogonal transform को लगातार लागू करने पर भी वह orthogonal transform ही रहता है, इसलिए यह काम करेगा?
- पुरुष/महिला उदाहरण मेरी नज़र में भी आया, और शायद मैंने उसे लगभग दस बार देखा। लगता है वह कहीं उदास-सा दिखता था, इसलिए भी ऐसा हुआ
- बत्तख और खरगोश वाला mosaic सच में मज़ेदार था
- अगर यहाँ ‘orthogonal transform’ से सामान्य orthogonal linear transform/matrix की बात हो रही है, तो जवाब हाँ है
पिछले साल की शुरुआत में ऐसा ही एक आइडिया था, और मैंने checkerboard approach के साथ भी थोड़ा खेला था
यहाँ मशहूर चित्रकारों की शैली में बनी 9 बिल्ली-तस्वीरों से बनी एक बिल्ली है: https://twitter.com/marekgibney/status/1521500594577584141
इसे देखने के लिए शायद आपको आँखें थोड़ी सिकोड़नी पड़ें। कुछ बनाए थे, फिर न जाने क्यों रुचि कम हो गई
- सच कहूँ तो मेरी नज़र में यह बिल्ली से ज़्यादा cat-aclysm जैसा लगता है। शायद मॉडल एक-दूसरे से टकराती requirements के बोझ तले दब गया, इसलिए न अलग-अलग इमेज अच्छी बनीं, न composite इमेज। फिर भी, जैसा आपने कहा, कभी न कभी यह इसमें बेहतर हो सकता है
- वाकई शानदार। क्या 3x3x3 भी संभव होगा? यानी 9x9 में 1-सेल वाली 81 बिल्लियाँ, 9-सेल वाली 9 बिल्लियाँ, और 81-सेल वाली 1 बिल्ली जैसी व्यवस्था
पुरुष/महिला color inversion वाला उदाहरण सबसे प्रभावशाली लगा। rotation को तो दिमाग में घुमाकर दूसरा view देखा जा सकता है, लेकिन color inversion को दिमाग में करना बहुत मुश्किल है
- कमाल है। दिलचस्पी रखने वालों के लिए लिंक छोड़ रहा हूँ। पेज पर बहुत सारी इमेज हैं
  https://dangeng.github.io/visual_anagrams/static/videos/grid...
- मेरे लिए उल्टा है। color inversion मुझे 1990 के दशक की लोकप्रिय morph animation से बहुत ज़्यादा प्रभावशाली नहीं लगता। मैं समझता हूँ कि pixel data स्तर पर color inversion कितना सरल है, लेकिन वह सरलता आँखों से दिखती नहीं। यह किसी असंबंधित alpha blending से भी बहुत अलग नहीं लगता
  दूसरी तरफ rotation सचमुच चौंकाता है। यह बात पूरी तरह दिखती है कि pixels बदले नहीं जा रहे। स्क्रीन को physical रूप से घुमाओ तो इमेज ‘बदल’ जाती है। यह दिखाने के लिए इससे बेहतर उदाहरण सोचना मुश्किल है कि diffusion model की इमेज सिर्फ पुरानी इमेज की गूँज भर नहीं है। हाँ, उसमें वह पहलू भी है, लेकिन मूल रूप से यह “{prompt} के वर्णन से मेल खाने वाले pixels का सेट खोजो” समस्या का समाधान है। यहाँ बात ऐसे pixels खोजने की है जो “इस दिशा में {A} से मेल खाएँ, और उस दिशा में {B} से”
- जब पुरुष दिखता है तो ध्यान से देखने पर महिला भी दिख जाती है, लेकिन अजीब तरह से उल्टा नहीं होता
यह तकनीक और इसके नतीजे कुछ महीने पहले चर्चित हुई ‘spiral’ ControlNet इमेज से अलग हैं: https://arstechnica.com/information-technology/2023/09/dream...
कोड के हिसाब से यह DeepFloyd-IF पर आधारित है, इसलिए Stable Diffusion variants जितना चलाना आसान नहीं है
- मैंने अभी इसे गहराई से नहीं देखा, लेकिन क्या यह आइडिया दूसरे diffusion networks पर भी लागू नहीं होना चाहिए? हालाँकि दिए गए कोड में काफ़ी बड़े बदलावों की ज़रूरत पड़ सकती है। बेशक, अगर मैं गलत हूँ तो सुधारने में हिचकिचाइए मत
- मुझे हमेशा अजीब लगा कि यह आइडिया खास उसी ControlNet model के साथ क्यों उभरा। वही इमेज कई दूसरे ControlNet models के साथ मिलाकर भी शानदार और असरदार नतीजे देती हैं
  Stable Diffusion के आसपास का ecosystem कुल मिलाकर वाकई बहुत विशाल है
- मैंने यह नहीं देखा, इसमें बदनाम होने वाली बात क्या थी?
- शायद आप कहना चाह रहे थे कि यह संबंधित है? Ugleh की मूल ‘spiral’ इमेज को “Related Links” सेक्शन में साफ़ तौर पर credit दिया गया है
क्या यहाँ दिखाए गए जैसे भौतिक jigsaw puzzle खरीदे जा सकते हैं?
- आप इन्हें खुद भी बना सकते हैं। बस पता नहीं ऊपर वाला तरीका बड़े पैमाने पर कितना फिट बैठेगा https://www.createjigsawpuzzles.com/
- यह रिसर्च DeepFloyd IF का उपयोग करती है, और commercial use की अनुमति नहीं है। बेचने के लिए आपको कोई दूसरा उपयुक्त image generator ढूँढना या train करना होगा
हर उदाहरण कुल मिलाकर “हाँ... ठीक है... कुछ हद तक” जैसा एहसास देता है
penguin/giraffe शायद सबसे अच्छा है, और बुज़ुर्ग महिला/ड्रेस वाला तो दोनों में से किसी भी रूप में मुश्किल से दिखता है
- वे दोनों पहले से ज्ञात ambigram पर आधारित हैं
  penguin/giraffe इस वाले के बहुत क़रीब है: https://www.pinterest.com/pin/giraffepenguin--13398215764267...
  दूसरा या तो सीधे इससे प्रेरित है या इससे मिलता-जुलता है, लेकिन “young lady” prompt ने शायद model को dress चुनने पर मजबूर किया। और आँख/कान, मुँह/choker को फोटो-जैसी यथार्थता के साथ पूरी तरह एक जैसा बनाना असंभव है: https://www.reddit.com/r/RedditDayOf/comments/35cjn5/the_cla...
- hmm, penguin/giraffe को पहली बार देखकर मेरी प्रतिक्रिया थी, “यह तो उल्टा penguin लग रहा है, giraffe कहाँ है?” बाकी में तो इरादा तुरंत समझ आ गया
फिर से व्यवस्थित होने वाला duck/rabbit sliding puzzle में बहुत बढ़िया लगेगा। तब दो valid solutions होंगे
- जाँच की ज़रूरत है, लेकिन अगर एक जोड़ी ‘tabs and blanks’ को दूसरी जोड़ी से बदला जा सकता है, तो दोनों जोड़ियों का shape और color एक जैसा होना चाहिए। लेकिन अगर वे आपस में अदला-बदली करने के बजाय अलग होकर दूसरे किनारों से जुड़ें, तो अतिरिक्त connections बनते हैं
  अगर किनारों को tabs और blanks के connected directed graph के nodes की तरह सोचें, तो संभव जोड़ियाँ आपस में connect हो जाती हैं। सीधी अदला-बदली दो-जोड़ी का cluster है, और अतिरिक्त connection खुले सिरों वाली चार-तत्वीय chain है। अगर वह connection और जोड़ियों तक फैलता है, तो एक जैसे tabs और blanks का बड़ा cluster बन सकता है। graph properties के हिसाब से शायद ज़्यादातर मामलों में यही होगा। वजह के लिए prisoner paradox देख सकते हैं [0]
  तब ज़्यादातर tabs, ज़्यादातर blanks में फिट होने लगेंगे, और puzzle सुलझाना बहुत कठिन हो जाएगा।
  [0] बेहतरीन Matt Parker वीडियो https://www.youtube.com/watch?v=a1DUUnhk3uE अच्छा है, लेकिन उसके बाद Veritasium के Derek के साथ हुई चर्चा मैं और ज़्यादा recommend करूँगा
- अगर इतने सारे rearrangeable elements हों, तो फोटो के बिना अलग न किए जा सकने वाले ‘valid’ solutions बहुत बड़ी संख्या में बन सकते हैं, और वह puzzle से ज़्यादा art बन जाएगा
अगर ऐसी इमेज बनाई जाएँ जो लाल/नीली रोशनी में अलग-अलग चीज़ों जैसी दिखें, तो वह बढ़िया होगा
generative AI ने जो रचनात्मकता का विस्फोट लाया है, वह सचमुच अद्भुत है

Visual Anagrams: diffusion model से बने multi-view optical illusions

transform करने पर पहचान बदलने वाली image

generation process और theoretical conditions

paper और execution resources

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय