- वीडियो जनरेशन के लिए next-frame prediction model में input frame context को पैक करने के तरीके पर यह एक शोध है
- FramePack GPU memory layout को ऑप्टिमाइज़ करके frame prediction को कुशलतापूर्वक करने की एक विधि है
- frame importance के अनुसार GPU resources आवंटित करके computing complexity को O(1) तक घटाया जाता है
- drifting समस्या को हल करने के लिए bidirectional sampling प्रस्तावित की गई है
- image-to-video conversion में पहले frame को महत्वपूर्ण रूप से संभालने वाली reversed anti-drifting sampling विधि पर ज़ोर दिया गया है
वीडियो जनरेशन में input frame packing
- next-frame prediction model कई input frames का उपयोग करके नया frame जनरेट करता है
- FramePack input frames को GPU memory layout के अनुरूप encode करता है, जिससे कुशल frame generation संभव होती है
- प्रत्येक frame को patchification kernel का उपयोग करके encode किया जाता है, और importance के अनुसार context length समायोजित की जाती है
- उदाहरण के लिए, HunyuanVideo में 480p frame, (1, 2, 2) patchification kernel उपयोग करने पर 1536 tokens बनता है, और (2, 4, 4) patchification kernel उपयोग करने पर 192 tokens बनता है
frame importance और scheduling
- महत्वपूर्ण frames को अधिक GPU resources आवंटित किए जाते हैं
- विभिन्न compression patterns के माध्यम से शुरुआती frames को समान रूप से महत्वपूर्ण बनाया जा सकता है
- सभी scheduling में O(1) complexity होती है
- पेपर में कई scheduling विधियों का विस्तृत evaluation दिया गया है
drifting समस्या और समाधान
- drifting वह समस्या है जिसमें वीडियो लंबा होने पर quality degradation होता है
- इसे error accumulation या exposure bias भी कहा जाता है
- इसे हल करने के लिए causality को तोड़कर bidirectional sampling लागू की जाती है
- reversed anti-drifting sampling हर inference में पहले frame को approximation target के रूप में इस्तेमाल करती है
image-to-video conversion प्रदर्शन
- RTX 3060 6GB लैपटॉप पर 13B HY variant का उपयोग करके image-5-second और image-60-second वीडियो जनरेट किए गए
- परिणामों को h264crf18 में compress करके GitHub repository के अनुरूप रखा गया है
1 टिप्पणियां
Hacker News की राय