OmniHuman - एक फोटो से वास्तविक जैसा वीडियो बनाने वाला मॉडल

xguru · 2025-02-13T10:28:01+09:00

ByteDance के शोधकर्ताओं ने एक AI सिस्टम विकसित किया है जो "एकल फोटो का उपयोग करके स्वाभाविक रूप से बोलते, गाते और चलते हुए व्यक्ति का वीडियो बनाता है" यह मौजूदा AI मॉडलों की उस सीमा से आगे जाता है जो केवल चेहरा या ऊपरी शरीर को animate कर सकते थे, और "पूरे शरीर की गतिविधि को दर्शाने वाला वीडियो" बना सकता है यह पहला एकीकृत मॉडल है जो "ऑडियो, वीडियो, या दोनों के संयोजन वाले इनपुट का उपयोग" करके व्यक्ति की गतिविधि को यथार्थवादी ढंग से animate करता है प्रमुख विशेषताएँ एकल इमेज आधारित वीडियो जनरेशन व्यक्ति की केवल एक फोटो से पूरे शरीर की गतिविधि को दर्शाने वाला स्वाभाविक वीडियो बनाया जा सकता है मल्टीमॉडल इनपुट सपोर्ट ऑडियो, वीडियो, या दोनों को मिलाकर इनपुट देने का सपोर्ट मौजूदा मॉडलों की तुलना में gesture अभिव्यक्ति में बड़ा सुधार किसी भी अनुपात की इमेज प्रोसेस करने में सक्षम वर्टिकल पोर्ट्रेट, हाफ-बॉडी फोटो, फुल-बॉडी फोटो जैसी विविध इमेज अनुपातों का सपोर्ट विभिन्न स्टाइल और इनपुट डेटा के साथ संगत कार्टून, कृत्रिम कैरेक्टर, जानवर, जटिल pose जैसी विविध शैलियों को दर्शा सकता है संगीत शैली के अनुसार स्वाभाविक बॉडी लैंग्वेज अभिव्यक्ति उच्च स्वर, निम्न स्वर, और विभिन्न संगीत शैलियों के अनुरूप गतिविधि उत्पन्न कर सकता है वीडियो आधारित मूवमेंट मिमिक्री संभव किसी विशिष्ट व्यक्ति की गतिविधि को उसी तरह पुन:निर्मित करने के लिए video driving सपोर्ट

(omnihuman-lab.github.io)

20 पॉइंट द्वारा xguru 2025-02-13 | 2 टिप्पणियां | WhatsApp पर शेयर करें

ByteDance के शोधकर्ताओं ने एक AI सिस्टम विकसित किया है जो "एकल फोटो का उपयोग करके स्वाभाविक रूप से बोलते, गाते और चलते हुए व्यक्ति का वीडियो बनाता है"
यह मौजूदा AI मॉडलों की उस सीमा से आगे जाता है जो केवल चेहरा या ऊपरी शरीर को animate कर सकते थे, और "पूरे शरीर की गतिविधि को दर्शाने वाला वीडियो" बना सकता है
यह पहला एकीकृत मॉडल है जो "ऑडियो, वीडियो, या दोनों के संयोजन वाले इनपुट का उपयोग" करके व्यक्ति की गतिविधि को यथार्थवादी ढंग से animate करता है
प्रमुख विशेषताएँ
- एकल इमेज आधारित वीडियो जनरेशन
  - व्यक्ति की केवल एक फोटो से पूरे शरीर की गतिविधि को दर्शाने वाला स्वाभाविक वीडियो बनाया जा सकता है
- मल्टीमॉडल इनपुट सपोर्ट
  - ऑडियो, वीडियो, या दोनों को मिलाकर इनपुट देने का सपोर्ट
  - मौजूदा मॉडलों की तुलना में gesture अभिव्यक्ति में बड़ा सुधार
- किसी भी अनुपात की इमेज प्रोसेस करने में सक्षम
  - वर्टिकल पोर्ट्रेट, हाफ-बॉडी फोटो, फुल-बॉडी फोटो जैसी विविध इमेज अनुपातों का सपोर्ट
- विभिन्न स्टाइल और इनपुट डेटा के साथ संगत
  - कार्टून, कृत्रिम कैरेक्टर, जानवर, जटिल pose जैसी विविध शैलियों को दर्शा सकता है
- संगीत शैली के अनुसार स्वाभाविक बॉडी लैंग्वेज अभिव्यक्ति
  - उच्च स्वर, निम्न स्वर, और विभिन्न संगीत शैलियों के अनुरूप गतिविधि उत्पन्न कर सकता है
- वीडियो आधारित मूवमेंट मिमिक्री संभव
  - किसी विशिष्ट व्यक्ति की गतिविधि को उसी तरह पुन:निर्मित करने के लिए video driving सपोर्ट

2 टिप्पणियां

dhy0613 2025-02-13

वाह, अब अगर चीन युद्ध करे तो छेड़छाड़ किए गए प्रोपेगैंडा वीडियो एक-दो नहीं होंगे।

colus001 2025-02-13

वाह... यह तो कमाल है, है ना?

OmniHuman - एक फोटो से वास्तविक जैसा वीडियो बनाने वाला मॉडल

संबंधित पढ़ाई

2 टिप्पणियां