2 पॉइंट द्वारा GN⁺ 2024-03-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Stable Video 3D: एकल इमेज से उच्च-गुणवत्ता वाला novel view synthesis और 3D generation

  • Stable Video Diffusion पर आधारित generative model Stable Video 3D (SV3D) जारी किया गया। यह वीडियो गुणवत्ता और view consistency को काफी बेहतर बनाता है
  • इसमें दो variants शामिल हैं: SV3D_u और SV3D_p
    • SV3D_u, camera conditioning के बिना, एक single image input के आधार पर orbital video बनाता है
    • SV3D_p, single image और orbital views दोनों को स्वीकार करता है, और निर्धारित camera path के अनुसार 3D video generate करने की क्षमता को बढ़ाता है
  • Stable Video 3D का उपयोग commercial purposes के लिए Stability AI membership के माध्यम से किया जा सकता है, जबकि non-commercial use के लिए Hugging Face से model weights डाउनलोड किए जा सकते हैं और research paper देखा जा सकता है

Video Diffusion के फायदे

  • Stable Video Diffusion image-to-video diffusion model में camera path conditioning जोड़कर, Stable Video 3D किसी object के multi-view videos generate कर सकता है
  • Video Diffusion model का उपयोग, Stable Zero123 में इस्तेमाल किए गए image diffusion model की तुलना में, generated outputs की generalization और view consistency के मामले में महत्वपूर्ण लाभ देता है
  • साथ ही, Stable Video 3D की मजबूत क्षमताओं का उपयोग करके object के आसपास arbitrary orbits generate करने के लिए बेहतर 3D optimization का प्रस्ताव दिया गया है

novel view generation

  • SV3D, खासकर novel view synthesis (NVS) में महत्वपूर्ण प्रगति लाता है
  • जहां मौजूदा approaches अक्सर सीमित viewpoints और outputs में inconsistency की समस्या से जूझते हैं, वहीं SV3D किसी भी दिए गए angle पर consistent views प्रदान करता है
  • यह क्षमता न सिर्फ pose controllability को बेहतर बनाती है, बल्कि multi-view में object appearance की consistency भी सुनिश्चित करती है, जिससे यथार्थवादी और सटीक 3D generation का एक महत्वपूर्ण पहलू और मजबूत होता है

3D generation

  • SV3D, multi-view consistency का उपयोग करके 3D neural radiance fields (NeRF) और mesh representations को optimize करता है, जिससे novel views से सीधे generated 3D mesh की गुणवत्ता बेहतर होती है
  • इसके लिए, predicted views में दिखाई न देने वाले क्षेत्रों की 3D गुणवत्ता को और बेहतर बनाने हेतु mask score distillation sampling loss डिज़ाइन किया गया है
  • इसके अलावा, SV3D baked lighting की समस्या को कम करने के लिए एक disentangled lighting model का उपयोग करता है, जिसे 3D shape और texture के साथ optimize किया जाता है

1 टिप्पणियां

 
GN⁺ 2024-03-19
Hacker News की राय
  • पहले उपयोगकर्ता ने 4090 graphics card (24GB VRAM) का उपयोग करके Stable Video 3D(SV3D) मॉडल चलाने की कोशिश की, लेकिन memory की कमी के कारण 1 मिनट से अधिक चलने के बाद यह crash हो गया। script को समायोजित करके एक साथ generate होने वाले frames की संख्या कम करने पर यह सफलतापूर्वक generate हुआ; VRAM उपयोग अधिकतम 19.5GB था, और 225 watt पर 1 मिनट 25 सेकंड लगे.

    Stable Video 3D(SV3D): एक generative model जो स्थिर image को input के रूप में लेकर उस object का orbital video बनाता है, और यह Stable Video Diffusion पर आधारित है.

  • दूसरे उपयोगकर्ता ने पूछा कि क्या SV3D वास्तव में 3D model output कर सकता है, या यह सिर्फ़ अलग-अलग angles से object कैसा दिखेगा उसकी images generate करता है.
  • तीसरे उपयोगकर्ता का मानना है कि अगर दिखाया गया animation प्रतिनिधिक है, तो generated mesh शायद 3D printer में उपयोग के लिए काफ़ी अच्छा हो सकता है, और वे प्रयोगों की प्रतीक्षा कर रहे हैं.
  • चौथे उपयोगकर्ता ने पूछा कि SV3D चलाने के लिए hardware या memory requirements क्या हैं.
  • पाँचवें उपयोगकर्ता ने पूछा कि क्या input में एक से अधिक images चाहिए, और क्या कोई demo URL है जिसे आज़माया जा सके; साथ ही उन्होंने यह भी पूछा कि "single image input" का मतलब क्या कई images है.
  • छठे उपयोगकर्ता ने कहा कि सभी examples प्लास्टिक बच्चों के खिलौनों जैसे दिखते हैं, और वे जानना चाहते हैं कि यह दूसरे objects (लोग, कपड़ा, इमारतें, पौधे, पहाड़, मशीन के parts आदि) को कैसे संभालेगा.
  • सातवें उपयोगकर्ता ने demo animation को बहुत चतुर और संतोषजनक बताया.
  • आठवें उपयोगकर्ता ने उम्मीद जताई कि ऐसी तकनीक का उपयोग architectural design में किया जा सकेगा.
  • नौवीं और दसवीं टिप्पणियाँ क्रमशः "[dead]" और "[flagged]" के रूप में चिह्नित हैं, इसलिए उनकी सामग्री ज्ञात नहीं है.