Animate Anyone: कैरेक्टर एनीमेशन के लिए image-to-video synthesis तकनीक

(humanaigc.github.io)

15 पॉइंट द्वारा GN⁺ 2023-12-02 | 3 टिप्पणियां | WhatsApp पर शेयर करें

कैरेक्टर एनीमेशन के लिए सुसंगत और नियंत्रित image-to-video synthesis तकनीक

कैरेक्टर एनीमेशन का उद्देश्य स्थिर छवि से motion signal के माध्यम से कैरेक्टर वीडियो बनाना है.
diffusion model अपनी मजबूत generation क्षमता के कारण visual generation research में मुख्यधारा में हैं, लेकिन image-to-video क्षेत्र, खासकर कैरेक्टर एनीमेशन में, विवरणों को समय के साथ सुसंगत बनाए रखना एक बड़ी चुनौती है.
इस शोधपत्र में diffusion model के लाभों का उपयोग करके कैरेक्टर एनीमेशन के लिए एक नया framework प्रस्तावित किया गया है, और reference image की जटिल appearance विशेषताओं को बनाए रखने के लिए ReferenceNet डिज़ाइन किया गया है, जो spatial attention के माध्यम से detailed features को एकीकृत करता है.

कार्यप्रणाली

प्रस्तावित विधि का अवलोकन यह है कि Pose Guider का उपयोग करके pose sequence को प्रारंभिक रूप से encode किया जाता है, फिर उसे multi-frame noise के साथ fuse किया जाता है, और उसके बाद वीडियो generation के लिए Denoising UNet denoising प्रक्रिया को पूरा करता है.
Denoising UNet के computation block spatial attention, cross attention और temporal attention से बने हैं, और reference image का integration दो पहलुओं को शामिल करता है.
पहला, ReferenceNet के माध्यम से निकाले गए detailed features का उपयोग spatial attention में किया जाता है, और दूसरा, CLIP image encoder के माध्यम से निकाले गए semantic features का उपयोग cross attention में किया जाता है.
temporal attention समय आयाम में कार्य करता है, और अंत में VAE decoder परिणाम को video clip के रूप में decode करता है.

विविध कैरेक्टर एनीमेशन

यह मनुष्यों, anime/कॉमिक और humanoid कैरेक्टर सहित विभिन्न प्रकार के कैरेक्टर को animate कर सकता है.
fashion video synthesis का उद्देश्य fashion photo को यथार्थवादी animated video में बदलना है, और UBC fashion video dataset पर उसी training data का उपयोग करके प्रयोग किए गए हैं.
human dance generation वास्तविक dance scenario में image को animate करने पर केंद्रित है, और TikTok dataset पर उसी training data का उपयोग करके प्रयोग किए गए हैं.

GN⁺ की राय

यह शोध कैरेक्टर एनीमेशन क्षेत्र में एक महत्वपूर्ण प्रगति को दर्शाता है और diffusion model का उपयोग करके image से video generation की एक नई विधि प्रस्तुत करता है.
reference image की सूक्ष्म विशेषताओं को बनाए रखते हुए कैरेक्टर की गति को बारीकी से नियंत्रित करने वाली यह तकनीक एनीमेशन और visual effects उद्योग पर बड़ा प्रभाव डाल सकती है.
यह लेख कैरेक्टर एनीमेशन के लिए एक अभिनव दृष्टिकोण और इसे विभिन्न कैरेक्टर तथा scenarios पर कैसे लागू किया जा सकता है, इस बारे में रोचक जानकारी प्रदान करता है.

3 टिप्पणियां

laeyoung 2023-12-04

शेड्यूल में देरी की वजह से जिन animations की art quality बिगड़ जाती है, उन्हें देखें तो हो सकता है कि नतीजा उल्टा इसी तरफ़ बेहतर निकले। हालांकि कुछ हद तक post-processing में इंसानी हाथ लगना तो ज़रूरी रहेगा।

xguru 2023-12-02

और नतीजा वाकई कमाल का है। वीडियो वाला क्षेत्र भी बेहद तेजी से आगे बढ़ रहा है।

GN⁺ 2023-12-02

Hacker News राय

यह देखकर हैरानी कि AI पहली बार इतने विश्वसनीय इंसानी मूवमेंट जनरेट करता दिख रहा है
- संभव है कि असली मूवमेंट का skeleton motion capture से आया हो
- वीडियो गेम्स के लिए महत्वपूर्ण movement skeleton जनरेट करने में मौजूदा तकनीक का स्तर क्या है, इस पर जिज्ञासा
- AI character animation के पिछले सर्वोच्च स्तर के रूप में Corridor Crew के Rock, Paper, Scissors का उल्लेख
- अनुमान कि animation production में entry barrier बहुत कम हो जाएगा
- AI girlfriend से जुड़ा डरावना पहलू और बढ़ रहा है
हैरानी कि कुछ ही सालों में यह तकनीक पारंपरिक रूप से आकर्षक युवा महिला characters से आगे बढ़कर और भी सामान्य रूप से लागू हो सकती है
शोध परिणाम Github पर पोस्ट करके भी code सार्वजनिक न करने की प्रथा पर सवाल
- यह रुझान अजीब लगता है
पसंदीदा manga को animation में बदलकर देखने वाले tool या toolchain को लेकर उम्मीद
- आधिकारिक रिलीज़ का इंतज़ार किए बिना season 1 या OVA खपाकर season 2 देख पाने की आशा
कल्पना कि कुछ वर्षों में YouTube जैसी ऐसी sites होंगी जहाँ हर video real time में जनरेट होगा
- consumer electronics repair से लेकर science learning तक सब कुछ उपयोगकर्ता के learning level और interests के हिसाब से ढला होगा
test images के चयन को अनुपयुक्त बताने वाली आलोचना
- तर्क कि विविध और standardized dataset का इस्तेमाल होना चाहिए
- image processing lectures में sexual images के इस्तेमाल पर की गई आलोचना का हवाला
संदेह कि samples चुने हुए लगते हैं और system dataset पर overfit है, इसलिए दूसरी चीज़ों पर generalize नहीं करेगा
- failure cases का न होना सावधान हो जाने का संकेत है
- मौजूदा रूप में भी यह उपयोगी हो सकता है, और अधिक general system बनाने के लिए मुख्यतः उचित training data इकट्ठा करना ज़रूरी है
इस तकनीक के 3D modeling और VR के साथ जुड़ने पर कल्पना
- VR porn, dynamic AI characters वाले वीडियो गेम्स, और फिल्मों व शिक्षा में फिर से जीवित किए गए दिवंगत actors और ऐतिहासिक व्यक्तित्व
- भविष्य के nursing homes को लेकर डर कुछ कम होता है
सवाल कि इस क्षेत्र की हर चीज़ में sexual झुकाव क्यों दिखता है
- यह समस्या बन सकता है, लेकिन जब लोग अपनी मंशा ईमानदारी से दिखाते हैं तो उसका स्वागत करने वाला रवैया भी है