Stable Video 3D: एकल इमेज से उच्च-गुणवत्ता वाला novel view synthesis और 3D generation
- Stable Video Diffusion पर आधारित generative model Stable Video 3D (SV3D) जारी किया गया। यह वीडियो गुणवत्ता और view consistency को काफी बेहतर बनाता है
- इसमें दो variants शामिल हैं: SV3D_u और SV3D_p
- SV3D_u, camera conditioning के बिना, एक single image input के आधार पर orbital video बनाता है
- SV3D_p, single image और orbital views दोनों को स्वीकार करता है, और निर्धारित camera path के अनुसार 3D video generate करने की क्षमता को बढ़ाता है
- Stable Video 3D का उपयोग commercial purposes के लिए Stability AI membership के माध्यम से किया जा सकता है, जबकि non-commercial use के लिए Hugging Face से model weights डाउनलोड किए जा सकते हैं और research paper देखा जा सकता है
Video Diffusion के फायदे
- Stable Video Diffusion image-to-video diffusion model में camera path conditioning जोड़कर, Stable Video 3D किसी object के multi-view videos generate कर सकता है
- Video Diffusion model का उपयोग, Stable Zero123 में इस्तेमाल किए गए image diffusion model की तुलना में, generated outputs की generalization और view consistency के मामले में महत्वपूर्ण लाभ देता है
- साथ ही, Stable Video 3D की मजबूत क्षमताओं का उपयोग करके object के आसपास arbitrary orbits generate करने के लिए बेहतर 3D optimization का प्रस्ताव दिया गया है
novel view generation
- SV3D, खासकर novel view synthesis (NVS) में महत्वपूर्ण प्रगति लाता है
- जहां मौजूदा approaches अक्सर सीमित viewpoints और outputs में inconsistency की समस्या से जूझते हैं, वहीं SV3D किसी भी दिए गए angle पर consistent views प्रदान करता है
- यह क्षमता न सिर्फ pose controllability को बेहतर बनाती है, बल्कि multi-view में object appearance की consistency भी सुनिश्चित करती है, जिससे यथार्थवादी और सटीक 3D generation का एक महत्वपूर्ण पहलू और मजबूत होता है
3D generation
- SV3D, multi-view consistency का उपयोग करके 3D neural radiance fields (NeRF) और mesh representations को optimize करता है, जिससे novel views से सीधे generated 3D mesh की गुणवत्ता बेहतर होती है
- इसके लिए, predicted views में दिखाई न देने वाले क्षेत्रों की 3D गुणवत्ता को और बेहतर बनाने हेतु mask score distillation sampling loss डिज़ाइन किया गया है
- इसके अलावा, SV3D baked lighting की समस्या को कम करने के लिए एक disentangled lighting model का उपयोग करता है, जिसे 3D shape और texture के साथ optimize किया जाता है
1 टिप्पणियां
Hacker News की राय