कैरेक्टर एनीमेशन के लिए सुसंगत और नियंत्रित image-to-video synthesis तकनीक
- कैरेक्टर एनीमेशन का उद्देश्य स्थिर छवि से motion signal के माध्यम से कैरेक्टर वीडियो बनाना है.
- diffusion model अपनी मजबूत generation क्षमता के कारण visual generation research में मुख्यधारा में हैं, लेकिन image-to-video क्षेत्र, खासकर कैरेक्टर एनीमेशन में, विवरणों को समय के साथ सुसंगत बनाए रखना एक बड़ी चुनौती है.
- इस शोधपत्र में diffusion model के लाभों का उपयोग करके कैरेक्टर एनीमेशन के लिए एक नया framework प्रस्तावित किया गया है, और reference image की जटिल appearance विशेषताओं को बनाए रखने के लिए ReferenceNet डिज़ाइन किया गया है, जो spatial attention के माध्यम से detailed features को एकीकृत करता है.
कार्यप्रणाली
- प्रस्तावित विधि का अवलोकन यह है कि Pose Guider का उपयोग करके pose sequence को प्रारंभिक रूप से encode किया जाता है, फिर उसे multi-frame noise के साथ fuse किया जाता है, और उसके बाद वीडियो generation के लिए Denoising UNet denoising प्रक्रिया को पूरा करता है.
- Denoising UNet के computation block spatial attention, cross attention और temporal attention से बने हैं, और reference image का integration दो पहलुओं को शामिल करता है.
- पहला, ReferenceNet के माध्यम से निकाले गए detailed features का उपयोग spatial attention में किया जाता है, और दूसरा, CLIP image encoder के माध्यम से निकाले गए semantic features का उपयोग cross attention में किया जाता है.
- temporal attention समय आयाम में कार्य करता है, और अंत में VAE decoder परिणाम को video clip के रूप में decode करता है.
विविध कैरेक्टर एनीमेशन
- यह मनुष्यों, anime/कॉमिक और humanoid कैरेक्टर सहित विभिन्न प्रकार के कैरेक्टर को animate कर सकता है.
- fashion video synthesis का उद्देश्य fashion photo को यथार्थवादी animated video में बदलना है, और UBC fashion video dataset पर उसी training data का उपयोग करके प्रयोग किए गए हैं.
- human dance generation वास्तविक dance scenario में image को animate करने पर केंद्रित है, और TikTok dataset पर उसी training data का उपयोग करके प्रयोग किए गए हैं.
GN⁺ की राय
- यह शोध कैरेक्टर एनीमेशन क्षेत्र में एक महत्वपूर्ण प्रगति को दर्शाता है और diffusion model का उपयोग करके image से video generation की एक नई विधि प्रस्तुत करता है.
- reference image की सूक्ष्म विशेषताओं को बनाए रखते हुए कैरेक्टर की गति को बारीकी से नियंत्रित करने वाली यह तकनीक एनीमेशन और visual effects उद्योग पर बड़ा प्रभाव डाल सकती है.
- यह लेख कैरेक्टर एनीमेशन के लिए एक अभिनव दृष्टिकोण और इसे विभिन्न कैरेक्टर तथा scenarios पर कैसे लागू किया जा सकता है, इस बारे में रोचक जानकारी प्रदान करता है.
3 टिप्पणियां
शेड्यूल में देरी की वजह से जिन animations की art quality बिगड़ जाती है, उन्हें देखें तो हो सकता है कि नतीजा उल्टा इसी तरफ़ बेहतर निकले। हालांकि कुछ हद तक post-processing में इंसानी हाथ लगना तो ज़रूरी रहेगा।
और नतीजा वाकई कमाल का है। वीडियो वाला क्षेत्र भी बेहद तेजी से आगे बढ़ रहा है।
Hacker News राय
यह देखकर हैरानी कि AI पहली बार इतने विश्वसनीय इंसानी मूवमेंट जनरेट करता दिख रहा है
हैरानी कि कुछ ही सालों में यह तकनीक पारंपरिक रूप से आकर्षक युवा महिला characters से आगे बढ़कर और भी सामान्य रूप से लागू हो सकती है
शोध परिणाम Github पर पोस्ट करके भी code सार्वजनिक न करने की प्रथा पर सवाल
पसंदीदा manga को animation में बदलकर देखने वाले tool या toolchain को लेकर उम्मीद
कल्पना कि कुछ वर्षों में YouTube जैसी ऐसी sites होंगी जहाँ हर video real time में जनरेट होगा
test images के चयन को अनुपयुक्त बताने वाली आलोचना
संदेह कि samples चुने हुए लगते हैं और system dataset पर overfit है, इसलिए दूसरी चीज़ों पर generalize नहीं करेगा
इस तकनीक के 3D modeling और VR के साथ जुड़ने पर कल्पना
सवाल कि इस क्षेत्र की हर चीज़ में sexual झुकाव क्यों दिखता है