Emu Video: एकल Diffusion Model के आधार पर टेक्स्ट से उच्च-गुणवत्ता वाला वीडियो जनरेशन
- प्रक्रिया को दो चरणों में विभाजित किया गया
- पहले टेक्स्ट प्रॉम्प्ट के अनुसार condition की गई इमेज बनाई जाती है
- फिर टेक्स्ट और जनरेट की गई इमेज, दोनों पर condition किया गया वीडियो बनाया जाता है
- इस तरह के 'Factorized' या विभाजित approach से वीडियो जनरेशन मॉडल को कुशलता से train किया जा सकता है
- पहले के कामों में कई मॉडल्स को stack करने की जरूरत थी, जैसे Make-A-Video में 5 मॉडल, लेकिन इसके विपरीत इसका implementation सरल है और सिर्फ दो diffusion models से 16 फ्रेम प्रति सेकंड की दर से 512x512 रिज़ॉल्यूशन और 4 सेकंड लंबा वीडियो बनाया जा सकता है
- वास्तविक परीक्षणों में 96% उत्तरदाताओं ने गुणवत्ता के लिहाज़ से और 85% ने टेक्स्ट प्रॉम्प्ट के प्रति fidelity के लिहाज़ से इसे Make-A-Video से बेहतर माना
- इसके अलावा, यह मॉडल टेक्स्ट प्रॉम्प्ट के आधार पर उपयोगकर्ता द्वारा दी गई इमेज पर 'animation' लागू कर सकता है, और इस मामले में भी पिछले कामों को बड़े अंतर से पीछे छोड़ता है
Emu Edit: perception और generation कार्यों के ज़रिये सटीक इमेज editing
- मनचाही इमेज बनाने के लिए प्रॉम्प्ट को बार-बार समायोजित करना पड़ता है, और इसी वजह से prompt engineering सामने आई
- लेकिन सटीक control के मामले में अभी भी सीमाएँ हैं
- Emu Edit विभिन्न इमेज manipulation कार्यों को सरल बनाता है और इमेज editing में बेहतर capability और precision देता है
- local और global edits, background removal और addition, color और geometry transformation, detection और segmentation जैसे कार्यों को कवर करने वाले commands के माध्यम से free-form editing संभव है
- मौजूदा तरीके अक्सर कई editing tasks में जरूरत से ज़्यादा बदलाव कर देते हैं या उनका प्रदर्शन कमजोर होता है
- आज के कई generative AI models के विपरीत, Emu Edit निर्देशों का सटीक पालन करता है, इसलिए निर्देशों से असंबंधित input image के pixels को वैसे ही बनाए रखता है
- उदाहरण के लिए, बेसबॉल कैप पर "Aloha!" टेक्स्ट जोड़ते समय कैप खुद नहीं बदलनी चाहिए
- मॉडल को train करने के लिए 1 करोड़ synthetic samples वाला एक dataset विकसित किया गया, जिसमें input image, किए जाने वाले कार्य का विवरण, और target output image शामिल हैं
- यह अब तक का सबसे बड़ा dataset है
- इसके परिणामस्वरूप, Emu Edit मॉडल ने instruction fidelity और image quality दोनों में अभूतपूर्व editing results दिखाए
- विभिन्न इमेज editing tasks पर गुणात्मक और मात्रात्मक, दोनों तरह के मूल्यांकन में इसने नए state-of-the-art नतीजे दिए और मौजूदा तरीकों से बेहतर प्रदर्शन साबित किया
1 टिप्पणियां
Emu Edit काफ़ी दिलचस्प लग रहा है। DALLE में अगर कोई edit command दें, तो seed को fix करने पर भी वह पूरी तरह नई generation कर देता है, इसलिए छोटे बदलाव करना मुश्किल होता है, लेकिन अगर इस तरह edit हो सके तो इस्तेमाल करना ज़्यादा आसान लगेगा।