- Goku, "Rectified Flow Transformer" पर आधारित इमेज और वीडियो जनरेशन मॉडलों का एक नया परिवार है, जिसका लक्ष्य इंडस्ट्री-स्तरीय शीर्ष प्रदर्शन हासिल करना है
- उच्च-गुणवत्ता वाले विज़ुअल जनरेशन के लिए "डेटा क्यूरेशन, मॉडल डिज़ाइन, फ्लो फॉर्म्युलेशन" जैसी कई ऑप्टिमाइज़ेशन तकनीकें लागू की गई हैं
- मुख्य विशेषताएँ
- उच्च-गुणवत्ता डेटा क्यूरेशन के माध्यम से सटीक इमेज और वीडियो जनरेशन
- Rectified Flow तकनीक का उपयोग करके इमेज और वीडियो टोकनों के बीच इंटरैक्शन को मजबूत करना
- इमेज और वीडियो जनरेशन में उत्कृष्ट प्रदर्शन प्रदान करना
- समर्थित जनरेशन कार्य
- टेक्स्ट → वीडियो जनरेशन
- इमेज → वीडियो जनरेशन
- टेक्स्ट → इमेज जनरेशन
- प्रदर्शन बेंचमार्क: प्रमुख बेंचमार्क में उच्च स्कोर दर्ज
- 0.76 (GenEval - टेक्स्ट → इमेज जनरेशन)
- 83.65 (DPG-Bench - टेक्स्ट → इमेज जनरेशन)
- 84.85 (VBench - टेक्स्ट → वीडियो जनरेशन)
- Goku-T2V ने VBench प्रदर्शन तुलना में 84.85 स्कोर दर्ज किया और 7 अक्टूबर 2024 तक दूसरे स्थान पर रहा
- कई कमर्शियल टेक्स्ट-टू-वीडियो मॉडलों से बेहतर प्रदर्शन (AnimateDiff-V2, OpenSora, Gen-3, Kling आदि)
2 टिप्पणियां
लगता है ByteDance हाल में इस तरह के टेक्निकल पेपर बहुत ज़्यादा जारी कर रहा है.. शायद जल्द ही यह TikTok में भी लागू हो जाए।
Goku+: Video Ads Foundation Models
यहाँ नीचे वास्तविक उपयोग के उदाहरण और भी दिलचस्प हैं।
यह marketing avatars बना सकता है, या product images से video clips जनरेट कर सकता है।
फिर उसी के जरिए इंसानों और products को एक में composit करके सीधे product introduction videos भी बना देता है।
इस तरह खाने, कपड़े पहनकर चलने, makeup करने, और shampoo करने तक के वीडियो आसानी से बना लेता है।
लगता है कि ये चीन के social commerce के लिए खास तौर पर तैयार किए गए examples हैं।