• हाल के वीडियो जनरेशन मॉडल सामने आए हैं और उन्होंने शानदार इमेज क्वालिटी दिखाई है, लेकिन मौजूदा सीमा बड़े पैमाने पर सुसंगत मूवमेंट जनरेट करने की क्षमता की कमी है
  • VideoPoet एक LLM है जो टेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो, वीडियो स्टाइलिंग, वीडियो इनपेंटिंग और आउटपेंटिंग, तथा वीडियो-ऑडियो जनरेशन जैसे विभिन्न वीडियो जनरेशन कार्य कर सकता है
    • अन्य मॉडलों के विपरीत, यह हर कार्य के लिए अलग-अलग अच्छे कॉम्पोनेंट्स पर निर्भर नहीं करता, बल्कि एक ही LLM के भीतर सभी क्षमताओं को एकीकृत करता है
    • यह इमेज को मूवमेंट में बदल सकता है, और वीडियो को एडिट करके इनपेंटिंग या आउटपेंटिंग कर सकता है
  • VideoPoet वीडियो, इमेज, ऑडियो और टेक्स्ट modalities को सीखने के लिए कई tokenizers का उपयोग करके एक autoregressive language model को train करता है
  • टेक्स्ट-to-वीडियो के मामले में, वीडियो आउटपुट की लंबाई परिवर्तनीय होती है और टेक्स्ट सामग्री के अनुसार विभिन्न मूवमेंट और स्टाइल लागू किए जा सकते हैं
  • इमेज-to-वीडियो के मामले में, इनपुट इमेज को प्रॉम्प्ट के साथ मूवमेंट देकर animate किया जाता है
  • वीडियो स्टाइलिंग में, Optical Flow और Depth जानकारी का अनुमान लगाने के बाद उसे अतिरिक्त इनपुट टेक्स्ट के साथ VideoPoet में दिया जाता है
  • VideoPoet ऑडियो भी जनरेट कर सकता है, जिससे एक ही मॉडल में वीडियो और ऑडियो दोनों बनाए जा सकते हैं
  • जनरेशन इवैल्यूएशन के परिणामों में औसतन लोगों ने आंका कि VideoPoet प्रॉम्प्ट का बेहतर पालन करता है और अधिक रोचक मूवमेंट जनरेट करता है
  • VideoPoet वीडियो के भीतर रोचक और उच्च-गुणवत्ता वाले मूवमेंट जनरेट करने में LLM की प्रतिस्पर्धात्मकता साबित करता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.