Generative Image Dynamics

(generative-dynamics.github.io)

2 पॉइंट द्वारा GN⁺ 2023-09-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें

किसी एक स्थिर इमेज पर दृश्य की गति का image-space prior लागू करके उसे लूप होने वाले वीडियो या इंटरैक्टिव dynamic scene में बदलने का एक तरीका
ट्रेनिंग में पेड़, फूल, मोमबत्ती, हवा में हिलते कपड़ों जैसी स्वाभाविक रूप से दोलन करने वाली गतियों वाले वास्तविक वीडियो सीक्वेंस की trajectories का उपयोग किया गया
मॉडल Fourier domain में दीर्घकालिक गति को संभालता है, और एकल इमेज इनपुट से frequency-tuned diffusion sampling के जरिए spectral volume की भविष्यवाणी करता है
अनुमानित spectral volume पूरे वीडियो के motion texture में बदला जाता है, और इसका उपयोग लूपिंग वीडियो निर्माण तथा वास्तविक फ़ोटो में ऑब्जेक्ट इंटरैक्शन के लिए होता है
डेमो के लिए WebGL2 समर्थित ब्राउज़र चाहिए, और गति के लिए पेपर के उच्च-गुणवत्ता rendering model की जगह mesh-warping का उपयोग किया गया है

स्थिर इमेज से dynamic scene बनाना

Generative Image Dynamics दृश्य की गति के लिए image-space prior को मॉडल करने की एक विधि है
इनपुट एक स्थिर इमेज है, और आउटपुट एक स्मूथ तरीके से लूप होने वाला वीडियो या ऐसा dynamic scene है जिसके साथ उपयोगकर्ता इंटरैक्ट कर सकता है
पेपर, arXiv, पूरक सामग्री देखी जा सकती है
इस काम को CVPR 2024 Best Paper Award मिला

गति prior और rendering का तरीका

ट्रेनिंग डेटा वास्तविक वीडियो सीक्वेंस से निकाली गई motion trajectories का संग्रह है
- पेड़, फूल, मोमबत्ती, हवा में हिलते कपड़े जैसी स्वाभाविक और दोलनकारी गतियों को उदाहरण के रूप में इस्तेमाल किया गया
मॉडल घनी और दीर्घकालिक motion prior को Fourier domain में मॉडल करता है
- एकल इमेज दिए जाने पर यह frequency-tuned diffusion sampling से spectral volume की भविष्यवाणी करता है
- spectral volume को पूरे वीडियो में फैले motion texture में बदला जा सकता है
image-based rendering module के साथ जोड़ने पर कई applications संभव हैं
- स्थिर इमेज को स्मूथ तरीके से लूप होने वाले वीडियो में बदला जा सकता है
- spectral volume को image-space modal basis के रूप में व्याख्यायित करके वास्तविक फ़ोटो के ऑब्जेक्ट्स को यथार्थवादी तरीके से इंटरैक्ट कराया जा सकता है
- उपयोगकर्ता stimulus पर ऑब्जेक्ट dynamics की प्रतिक्रिया Davis आदि के modal analysis का उपयोग करके simulate की जाती है

डेमो और अतिरिक्त उपयोग

डेमो में इमेज पर एक बिंदु को क्लिक करके ड्रैग करने और छोड़ने पर दिखाया जाता है कि दृश्य कैसे हिलता है
- ब्राउज़र को WebGL2 सपोर्ट करना चाहिए
- गति के लिए पेपर में दिए गए उच्च-गुणवत्ता rendering model की जगह mesh-warping का उपयोग किया गया है
motion texture की amplitude समायोजित करके animation की गति को कम या ज़्यादा किया जा सकता है
अनुमानित motion texture को interpolate करके slow-motion video बनाया जा सकता है
संबंधित पूर्ववर्ती कार्यों में Animating Pictures with Stochastic Motion Textures, Image-space Modal Bases for Plausible Manipulation of Objects in Video, Visual Vibration Analysis शामिल हैं

1 टिप्पणियां

GN⁺ 2023-09-18

Hacker News की राय

वाकई शानदार। मुझे cinemagraphs लंबे समय से पसंद रहे हैं, और marketing हो या shooting, काम करते समय मैं उसमें हल्की-सी ठहरी हुई अनुभूति डालने की कोशिश करता रहा हूं, इसलिए यह अक्सर इस्तेमाल होने वाला tool बन सकता है
10/10 cinemagraph का गुर यह है कि जितना subtle, उतना ज्यादा impact। बेहतर यह है कि देखने वाला पहले इसे still photo समझे, फिर दिमाग थोड़ी देर बाद कहे, “रुको, कुछ तो अजीब है, यह photo नहीं, video है”
पेड़ को किनारे से drag करने पर distortion काफी ज्यादा है। फिर भी idea दिलचस्प है
- शायद इसे segmentation और background layers के लिए generative fill के साथ जोड़ना पड़ेगा। अच्छी बात है कि उस तरफ भी काफी प्रगति हो चुकी है
पहली तस्वीर में लाल गुलाब में background के फूल भी हिलते हैं, लेकिन तीसरी तस्वीर के पेड़ में वही effect क्यों नहीं दिखता, यह जानने की उत्सुकता है
पहली और दूसरी तस्वीर में motion की मात्रा अलग होना भी प्रभावशाली है, और शायद यह pointer के आसपास की density को ध्यान में रखकर हो सकता है। Slow motion वाले examples देखने में सचमुच बहुत सुकून देते हैं
- वजह तो नहीं पता, लेकिन गुलाब वाला example थोड़ा डरावना लगा
Google के researchers लगातार public papers और demos साथ में जारी कर रहे हैं, यह देखना अच्छा है। Google AI research को product बनाने या open source के रूप में जारी करने में नाकाम रहता है—यह बात फिर से दोहराने की जरूरत नहीं
वाकई शानदार। यह दुनिया हिलाने वाला या productivity बढ़ाने वाला नहीं है, फिर भी बहुत cool है
यह desktop और phone wallpapers का default feature बन सकता है। अगर पानी या बादलों की smooth movement भी संभाल सके, तो history documentaries जैसी जगहों में photos पर selectively लागू करने के लिए भी अच्छा लगेगा
Demo में WebGL इस्तेमाल किया गया है। अच्छा है
- Video games में आ जाए तो जबरदस्त होगा। जैसे झाड़ियों के बीच से चलते हुए plants शरीर के साथ खिंचते हुए आएं
इसमें EbSynth की तरह ही low vector movement की जरूरत वाली limitation है
- यहां की उपलब्धि शायद मुख्य रूप से image dynamics generation में है। जैसे अगर image में बिल्ली है, तो model समझता है कि बिल्ली को सांस लेनी चाहिए, इसलिए lungs के सिकुड़ने की movement बनाता है, और paper शायद उस image dynamics और original image को smooth video में बदलने का तरीका बताता है। मैं गलत भी हो सकता हूं
Static photo के Harry Potter-style framed photo बनने से बस एक कदम दूर लग रहा है
वाह, surreal लग रहा है। Photoshop में integrate होने पर इसे जल्दी try करना चाहूंगा

Generative Image Dynamics

स्थिर इमेज से dynamic scene बनाना

गति prior और rendering का तरीका

डेमो और अतिरिक्त उपयोग

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय