VideoPoet - Google का Zero-Shot वीडियो जनरेशन के लिए विशेष LLM

xguru · 2023-12-22T10:15:01+09:00

हाल के वीडियो जनरेशन मॉडल सामने आए हैं और उन्होंने शानदार इमेज क्वालिटी दिखाई है, लेकिन मौजूदा सीमा बड़े पैमाने पर सुसंगत मूवमेंट जनरेट करने की क्षमता की कमी है VideoPoet एक LLM है जो टेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो, वीडियो स्टाइलिंग, वीडियो इनपेंटिंग और आउटपेंटिंग, तथा वीडियो-ऑडियो जनरेशन जैसे विभिन्न वीडियो जनरेशन कार्य कर सकता है अन्य मॉडलों के विपरीत, यह हर कार्य के लिए अलग-अलग अच्छे कॉम्पोनेंट्स पर निर्भर नहीं करता, बल्कि एक ही LLM के भीतर सभी क्षमताओं को एकीकृत करता है यह इमेज को मूवमेंट में बदल सकता है, और वीडियो को एडिट करके इनपेंटिंग या आउटपेंटिंग कर सकता है VideoPoet वीडियो, इमेज, ऑडियो और टेक्स्ट modalities को सीखने के लिए कई tokenizers का उपयोग करके एक autoregressive language model को train करता है टेक्स्ट-to-वीडियो के मामले में, वीडियो आउटपुट की लंबाई परिवर्तनीय होती है और टेक्स्ट सामग्री के अनुसार विभिन्न मूवमेंट और स्टाइल लागू किए जा सकते हैं इमेज-to-वीडियो के मामले में, इनपुट इमेज को प्रॉम्प्ट के साथ मूवमेंट देकर animate किया जाता है वीडियो स्टाइलिंग में, Optical Flow और Depth जानकारी का अनुमान लगाने के बाद उसे अतिरिक्त इनपुट टेक्स्ट के साथ VideoPoet में दिया जाता है VideoPoet ऑडियो भी जनरेट कर सकता है, जिससे एक ही मॉडल में वीडियो और ऑडियो दोनों बनाए जा सकते हैं जनरेशन इवैल्यूएशन के परिणामों में औसतन लोगों ने आंका कि VideoPoet प्रॉम्प्ट का बेहतर पालन करता है और अधिक रोचक मूवमेंट जनरेट करता है VideoPoet वीडियो के भीतर रोचक और उच्च-गुणवत्ता वाले मूवमेंट जनरेट करने में LLM की प्रतिस्पर्धात्मकता साबित करता है

(blog.research.google)

5 पॉइंट द्वारा xguru 2023-12-22 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

हाल के वीडियो जनरेशन मॉडल सामने आए हैं और उन्होंने शानदार इमेज क्वालिटी दिखाई है, लेकिन मौजूदा सीमा बड़े पैमाने पर सुसंगत मूवमेंट जनरेट करने की क्षमता की कमी है
VideoPoet एक LLM है जो टेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो, वीडियो स्टाइलिंग, वीडियो इनपेंटिंग और आउटपेंटिंग, तथा वीडियो-ऑडियो जनरेशन जैसे विभिन्न वीडियो जनरेशन कार्य कर सकता है
- अन्य मॉडलों के विपरीत, यह हर कार्य के लिए अलग-अलग अच्छे कॉम्पोनेंट्स पर निर्भर नहीं करता, बल्कि एक ही LLM के भीतर सभी क्षमताओं को एकीकृत करता है
- यह इमेज को मूवमेंट में बदल सकता है, और वीडियो को एडिट करके इनपेंटिंग या आउटपेंटिंग कर सकता है
VideoPoet वीडियो, इमेज, ऑडियो और टेक्स्ट modalities को सीखने के लिए कई tokenizers का उपयोग करके एक autoregressive language model को train करता है
टेक्स्ट-to-वीडियो के मामले में, वीडियो आउटपुट की लंबाई परिवर्तनीय होती है और टेक्स्ट सामग्री के अनुसार विभिन्न मूवमेंट और स्टाइल लागू किए जा सकते हैं
इमेज-to-वीडियो के मामले में, इनपुट इमेज को प्रॉम्प्ट के साथ मूवमेंट देकर animate किया जाता है
वीडियो स्टाइलिंग में, Optical Flow और Depth जानकारी का अनुमान लगाने के बाद उसे अतिरिक्त इनपुट टेक्स्ट के साथ VideoPoet में दिया जाता है
VideoPoet ऑडियो भी जनरेट कर सकता है, जिससे एक ही मॉडल में वीडियो और ऑडियो दोनों बनाए जा सकते हैं
जनरेशन इवैल्यूएशन के परिणामों में औसतन लोगों ने आंका कि VideoPoet प्रॉम्प्ट का बेहतर पालन करता है और अधिक रोचक मूवमेंट जनरेट करता है
VideoPoet वीडियो के भीतर रोचक और उच्च-गुणवत्ता वाले मूवमेंट जनरेट करने में LLM की प्रतिस्पर्धात्मकता साबित करता है

VideoPoet - Google का Zero-Shot वीडियो जनरेशन के लिए विशेष LLM

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.