6 पॉइंट द्वारा xguru 2025-02-14 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Goku, "Rectified Flow Transformer" पर आधारित इमेज और वीडियो जनरेशन मॉडलों का एक नया परिवार है, जिसका लक्ष्य इंडस्ट्री-स्तरीय शीर्ष प्रदर्शन हासिल करना है
  • उच्च-गुणवत्ता वाले विज़ुअल जनरेशन के लिए "डेटा क्यूरेशन, मॉडल डिज़ाइन, फ्लो फॉर्म्युलेशन" जैसी कई ऑप्टिमाइज़ेशन तकनीकें लागू की गई हैं
  • मुख्य विशेषताएँ
    • उच्च-गुणवत्ता डेटा क्यूरेशन के माध्यम से सटीक इमेज और वीडियो जनरेशन
    • Rectified Flow तकनीक का उपयोग करके इमेज और वीडियो टोकनों के बीच इंटरैक्शन को मजबूत करना
    • इमेज और वीडियो जनरेशन में उत्कृष्ट प्रदर्शन प्रदान करना
  • समर्थित जनरेशन कार्य
    • टेक्स्ट → वीडियो जनरेशन
    • इमेज → वीडियो जनरेशन
    • टेक्स्ट → इमेज जनरेशन
  • प्रदर्शन बेंचमार्क: प्रमुख बेंचमार्क में उच्च स्कोर दर्ज
    • 0.76 (GenEval - टेक्स्ट → इमेज जनरेशन)
    • 83.65 (DPG-Bench - टेक्स्ट → इमेज जनरेशन)
    • 84.85 (VBench - टेक्स्ट → वीडियो जनरेशन)
  • Goku-T2V ने VBench प्रदर्शन तुलना में 84.85 स्कोर दर्ज किया और 7 अक्टूबर 2024 तक दूसरे स्थान पर रहा
    • कई कमर्शियल टेक्स्ट-टू-वीडियो मॉडलों से बेहतर प्रदर्शन (AnimateDiff-V2, OpenSora, Gen-3, Kling आदि)

2 टिप्पणियां

 
kimhj 2025-02-14

लगता है ByteDance हाल में इस तरह के टेक्निकल पेपर बहुत ज़्यादा जारी कर रहा है.. शायद जल्द ही यह TikTok में भी लागू हो जाए।

 
xguru 2025-02-14

Goku+: Video Ads Foundation Models

यहाँ नीचे वास्तविक उपयोग के उदाहरण और भी दिलचस्प हैं।

यह marketing avatars बना सकता है, या product images से video clips जनरेट कर सकता है।
फिर उसी के जरिए इंसानों और products को एक में composit करके सीधे product introduction videos भी बना देता है।
इस तरह खाने, कपड़े पहनकर चलने, makeup करने, और shampoo करने तक के वीडियो आसानी से बना लेता है।
लगता है कि ये चीन के social commerce के लिए खास तौर पर तैयार किए गए examples हैं।