- ByteDance के शोधकर्ताओं ने एक AI सिस्टम विकसित किया है जो "एकल फोटो का उपयोग करके स्वाभाविक रूप से बोलते, गाते और चलते हुए व्यक्ति का वीडियो बनाता है"
- यह मौजूदा AI मॉडलों की उस सीमा से आगे जाता है जो केवल चेहरा या ऊपरी शरीर को animate कर सकते थे, और "पूरे शरीर की गतिविधि को दर्शाने वाला वीडियो" बना सकता है
- यह पहला एकीकृत मॉडल है जो "ऑडियो, वीडियो, या दोनों के संयोजन वाले इनपुट का उपयोग" करके व्यक्ति की गतिविधि को यथार्थवादी ढंग से animate करता है
- प्रमुख विशेषताएँ
- एकल इमेज आधारित वीडियो जनरेशन
- व्यक्ति की केवल एक फोटो से पूरे शरीर की गतिविधि को दर्शाने वाला स्वाभाविक वीडियो बनाया जा सकता है
- मल्टीमॉडल इनपुट सपोर्ट
- ऑडियो, वीडियो, या दोनों को मिलाकर इनपुट देने का सपोर्ट
- मौजूदा मॉडलों की तुलना में gesture अभिव्यक्ति में बड़ा सुधार
- किसी भी अनुपात की इमेज प्रोसेस करने में सक्षम
- वर्टिकल पोर्ट्रेट, हाफ-बॉडी फोटो, फुल-बॉडी फोटो जैसी विविध इमेज अनुपातों का सपोर्ट
- विभिन्न स्टाइल और इनपुट डेटा के साथ संगत
- कार्टून, कृत्रिम कैरेक्टर, जानवर, जटिल pose जैसी विविध शैलियों को दर्शा सकता है
- संगीत शैली के अनुसार स्वाभाविक बॉडी लैंग्वेज अभिव्यक्ति
- उच्च स्वर, निम्न स्वर, और विभिन्न संगीत शैलियों के अनुरूप गतिविधि उत्पन्न कर सकता है
- वीडियो आधारित मूवमेंट मिमिक्री संभव
- किसी विशिष्ट व्यक्ति की गतिविधि को उसी तरह पुन:निर्मित करने के लिए video driving सपोर्ट
2 टिप्पणियां
वाह, अब अगर चीन युद्ध करे तो छेड़छाड़ किए गए प्रोपेगैंडा वीडियो एक-दो नहीं होंगे।
वाह... यह तो कमाल है, है ना?