1 पॉइंट द्वारा GN⁺ 2023-12-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

रियल-टाइम बड़े दृश्यों की खोज के लिए स्ट्रीम किया जा सकने वाला मेमोरी-कुशल रेडियंस फ़ील्ड (SMERF)

  • रियल-टाइम view synthesis तकनीक की प्रगति से अब लगभग फ़ोटो-जैसे दृश्यों को रियल-टाइम में render करना संभव हो गया है.
  • rasterization-सक्षम explicit scene representations और ray marching-आधारित neural fields के बीच एक अंतर्निहित तनाव मौजूद है.
  • SMERF बड़े दृश्यों में रियल-टाइम तरीके से सर्वोच्च सटीकता हासिल करने वाला एक view synthesis approach प्रस्तुत करता है.

बड़े दृश्यों को संभालने के लिए अभिव्यक्तिकता बढ़ाने की विधि

  • बड़े multi-room scenes को कई स्वतंत्र submodels के रूप में मॉडल किया जाता है, और rendering के समय camera origin के आधार पर submodel चुना जाता है.
  • जटिल view-dependent effects को मॉडल करने के लिए, प्रत्येक submodel के भीतर grid-aligned deferred MLP parameters को अतिरिक्त रूप से instantiate किया जाता है.
  • प्रत्येक submodel पूरे दृश्य का प्रतिनिधित्व करता है, लेकिन उच्च resolution में केवल वे grid cells मॉडल किए जाते हैं जो उस submodel को आवंटित किए गए हैं.

अभिव्यक्तिकता को अधिकतम करने के लिए distillation के उपयोग की विधि

  • यह दिखाया गया है कि distillation के माध्यम से image quality को काफ़ी बेहतर बनाया जा सकता है.
  • पहले एक state-of-the-art offline radiance field (Zip-NeRF) को train किया जाता है, और इस मॉडल की RGB color predictions को अपने मॉडल की supervision के रूप में इस्तेमाल किया जाता है.
  • teacher model के volumetric density values को minimize करके teacher और student के बीच volume rendering weights के अंतर को कम किया जाता है.

GN⁺ की राय

  • SMERF एक अभिनव तकनीक है जो बड़े दृश्यों में रियल-टाइम high-quality view synthesis को संभव बनाती है.
  • यह तकनीक web browser के भीतर 6DOF navigation को सक्षम करती है और विभिन्न सामान्य उपभोक्ता devices पर रियल-टाइम performance प्रदान करती है.
  • SMERF का approach रियल-टाइम view synthesis क्षेत्र में मौजूदा तकनीकों से बेहतर प्रदर्शन दिखाता है, और यह virtual reality, game development, online real-estate tours जैसे कई क्षेत्रों में लागू किया जा सकने वाला एक रोमांचक विकास है.

1 टिप्पणियां

 
GN⁺ 2023-12-14
Hacker News राय
  • बर्लिन में स्थित बाथरूम की दीवार पर लगा आईना बगल के कमरे की रसोई के आर-पार दिखा सकता है। अनुमान है कि यह गहराई मापने वाले algorithm के parallax का उपयोग करने और आईने के खिड़की जैसी भ्रमित करने वाली भूमिका के कारण होता है। आईने का पिछला हिस्सा रसोई में एक धुंधला क्षेत्र बनाता है, लेकिन उसी धुंधलेपन के माध्यम से दोनों कमरे देखे जा सकते हैं। यह प्रभाव थोड़ा डरावना लगता है। दीवार के आर-पार किसी भूत जैसी अनुभूति होती है। 2 साल पुराने s21fe पर भी यह प्रभावशाली रूप से अच्छी तरह काम करता है.
  • बर्लिन डेमो में स्पेस को explore करते समय और ज़्यादा images का stream होना बेहद प्रभावशाली है। TV reflection effect भी बहुत प्रभावशाली है। लेकिन जब तक सभी images load नहीं हो जातीं, तब तक scene render नहीं होता, इसलिए शुरुआती लगभग 40 images पूरी तरह load होने में काफी समय लगता है। क्या images आते ही partial rendering शुरू करना संभव है, या पहले बड़े rendering से पहले सभी images का इंतज़ार करना पड़ता है, यह जानना दिलचस्प होगा.
  • fulllivingroom डेमो के बारे में कुछ सवाल हैं। (FPS mode पसंद है)
    1. input images कितनी हैं?
    2. इस model को compute करने में कितना समय लगता है?
    3. browser में इस model को सभी levels आदि के साथ तैयार करने में कितना समय लगता है?
    4. क्या इसे कभी VR में आज़माया गया है?
  • यह जानना रोचक होगा कि इस rendering technique और Cyberpunk 2077 में बनाए गए BD scenes के बीच कोई संबंध है या नहीं। volume और "voxel" का व्यवहार बहुत समान लगता है.
  • मैं Two Minutes Paper के ज़रिए इस तकनीक को follow कर रहा हूँ और इसे इस्तेमाल करने की उम्मीद कर रहा हूँ। मेरे दादाजी 2 साल पहले गुजर गए थे, और मैंने डेमो में इस्तेमाल किए गए तरीके की तरह उनकी तस्वीरें खींचकर रखी थीं। धन्यवाद.
  • क्या ऐसा कोई open source toolchain है जो capture, processing और navigable 3D walkthrough को host कर सके (जैसे open source Matterport)?
  • 3D Gaussian Splatting की तुलना में performance, quality या data size के लिहाज़ से यह तकनीक कैसी है, इस बारे में जानकारी बहुत प्रभावशाली है.
  • इन तकनीकों से जो देखा जा सकता है, वह एक बहुत सटीक, अकेली navigable 3D image है। लेकिन feature और object detection, occlusion और extraction के बारे में अभी तक कुछ नहीं देखा। उम्मीद है कि ज़्यादा efficient और streamable codec के लिए ऐसी structure की ज़रूरत होगी जिसे analysis पर अधिक आसानी से लागू किया जा सके.
  • यह तकनीक consumer VR में कब दिखेगी, यह जानने की उत्सुकता है। लगा था कि यह अब तक आ जानी चाहिए थी, लेकिन शायद computation constraints की वजह से अभी नहीं है। क्या यह Quest 2/3 पर चलाने लायक computation constraints को काफी हद तक हल करती है, या binocular use में रुकावट डालने वाले कुछ और कारण हैं?
  • लेखक से सवाल: क्या scene model को reconstruct करने के लिए optimization या tuning methods का उपयोग न करने का कोई अवसर है? आप scene views को render करने के efficient तरीकों में सुधार कर रहे हैं, लेकिन scene अभी भी static है। scene reconstruction में भी समय लगता है। क्या बिना महंगे reconstruction cost के भी RF और GS जैसी शानदार appearance और detail हासिल करने का कोई तरीका है? अब जब rendering तेज़ हो रही है, तो क्या इस नए representation के साथ traditional CG methods का उपयोग करके scene को greedily reconstruct करने का कोई तरीका है? अगर मेरी समझ में कोई गलती हो तो पहले से माफ़ी चाहता हूँ, और आप जो काम कर रहे हैं उसके लिए सच में आभारी हूँ.