SMERF: स्ट्रीम किया जा सकने वाला मेमोरी-कुशल रेडिएंस फील्ड

(smerf-3d.github.io)

1 पॉइंट द्वारा GN⁺ 2023-12-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

SMERF बड़े 3D दृश्यों को वेब ब्राउज़र में रियल-टाइम एक्सप्लोर करने के लिए एक view synthesis तरीका है, जो अधिकतम 300m² स्केल और 3.5mm³ volumetric resolution को लक्ष्य बनाता है
दृश्य को कई स्वतंत्र submodels में बाँटकर और कैमरा origin के आधार पर केवल ज़रूरी मॉडल चुनकर, rendering के दौरान computation और memory usage कम किया जाता है
पहले Zip-NeRF offline radiance field को train किया जाता है, फिर RGB prediction और volume rendering weight के अंतर का उपयोग करके उसे SMERF में distill किया जाता है ताकि quality बेहतर हो
रियल-टाइम novel view synthesis में इसने standard benchmark पर 0.78dB और बड़े दृश्यों में 1.78dB का सुधार दिखाया, और नवीनतम radiance field मॉडलों की तुलना में frame rendering सैकड़ों गुना तेज़ है
ब्राउज़र-आधारित 6DOF navigation को support करता है, जिससे सामान्य smartphone और laptop जैसे consumer devices पर भी बड़े दृश्यों को रियल-टाइम में देखा जा सकता है

बड़े दृश्यों की रियल-टाइम एक्सप्लोरेशन का bottleneck

रियल-टाइम view synthesis तकनीकें तेज़ी से आगे बढ़ी हैं, और अब interactive frame rate पर भी फोटो-जैसी scene rendering संभव हो गई है
लेकिन rasterization के लिए उपयुक्त explicit scene representations और ray marching-आधारित neural fields के बीच अब भी एक स्पष्ट trade-off बना हुआ है
- नवीनतम neural field तरीके quality में explicit representations से आगे हैं, लेकिन रियल-टाइम applications के लिए उनका computation cost अधिक है
SMERF बड़े दृश्यों में रियल-टाइम तरीकों के बीच सर्वोच्च स्तर की accuracy को लक्ष्य बनाने वाला एक view synthesis approach है
- अधिकतम 300m² space
- 3.5mm³ volumetric resolution
- वेब ब्राउज़र के भीतर 6DOF exploration
- सामान्य smartphone और laptop पर रियल-टाइम rendering

submodel-आधारित representation और distillation training

बड़े multi-room दृश्यों को कई स्वतंत्र submodels में बाँटकर representation capacity सुनिश्चित की जाती है
- हर submodel को दृश्य के अलग-अलग क्षेत्र सौंपे जाते हैं
- rendering के दौरान कैमरा origin के आधार पर इस्तेमाल होने वाले submodel चुने जाते हैं
जटिल view-dependent effects को संभालने के लिए हर submodel में grid-aligned deferred MLP parameters की अतिरिक्त copies रखी जाती हैं
- इन parameters को कैमरा origin के आधार पर trilinear interpolation किया जाता है
हर submodel पूरे दृश्य को represent करता है, लेकिन केवल अपने से जुड़े grid cells को high resolution में model करता है
- इसे submodel-विशिष्ट local coordinates को contract करने के तरीके से लागू किया जाता है
image fidelity को distillation से बढ़ाया जाता है
- पहले state-of-the-art offline radiance field Zip-NeRF को train किया जाता है
- teacher model की RGB color predictions को SMERF के supervision signal के रूप में उपयोग किया जाता है
- pre-trained teacher की volumetric density values का उपयोग teacher और student के volume rendering weights के अंतर को न्यूनतम करने में किया जाता है

प्रदर्शन परिणाम और सार्वजनिक सामग्री

SMERF ने रियल-टाइम novel view synthesis में पहले के state-of-the-art को पार किया
- standard benchmark पर 0.78dB सुधार
- बड़े दृश्यों में 1.78dB सुधार
- नवीनतम radiance field मॉडलों की तुलना में frame rendering सैकड़ों गुना तेज़
रियल-टाइम interactive viewer demo में Berlin, NYC, Alameda, London, Gardenvase, Bicycle, Kitchen Lego, Stump, Office Bonsai, Full Living Room, Kitchen Counter, Treehill & Flower दृश्य शामिल हैं
सार्वजनिक सामग्री के रूप में Paper, Video, Code उपलब्ध हैं
SMERF मॉडल Mip-NeRF 360 और Zip-NeRF दृश्यों पर train किए गए Zip-NeRF checkpoints से distill किए गए हैं
- दोनों datasets और checkpoints CC-BY 4.0 लाइसेंस के तहत सार्वजनिक हैं
- Mip-NeRF 360 checkpoints का उपयोग quantitative और qualitative परिणामों के लिए किया जाता है, जबकि Zip-NeRF checkpoints को 50,000 steps तक train किया गया है
- Zip-NeRF fisheye सामग्री में Alameda, Berlin, London, NYC शामिल हैं, इन्हें qualitative परिणामों के लिए उपयोग किया जाता है और 100,000 steps तक train किया गया है
- Zip-NeRF undistorted सामग्री quantitative परिणामों के लिए उपयोग की जाती है और 100,000 steps तक train की गई है

1 टिप्पणियां

GN⁺ 2023-12-14

Hacker News की राय

Berlin डेमो में बाथरूम की दीवार का शीशा ऐसा लगता है जैसे वह बगल वाले कमरे की kitchen में खुलता हो
लगता है depth estimation algorithm parallax का इस्तेमाल कर रहा है, और शीशे को खिड़की समझ लेने से यह घटना हो रही है
kitchen की तरफ, शीशे के पीछे वाला हिस्सा kitchen के अंदर धंसता हुआ एक धुंधला-सा गुच्छा बन जाता है, लेकिन उस धुंधलके के पार दोनों कमरे दिखते हैं
यह काफी डरावना था, जैसे मैं दीवारों के आर-पार जाने वाला भूत बन गया हूं
- NYC सीन में fridge पर specular lighting effect देखने के angle के हिसाब से बहुत smoothly बदलता है, और fridge के “अंदर” जाकर देखें तो असल में वह grey और white रंगों का पूरा धुंधला 3D सीन generate कर रहा है
  वह खिड़की की रोशनी के metal से reflect होने के effect की बिल्कुल सही नकल करता है, और fridge के अंदर से आप पूरे कमरे को “बाहर” भी देख सकते हैं
  उसी सीन में bedroom का full-length mirror भी ऐसा ही है: mirror के पीछे एक virtual mirror room बना हुआ है, जिससे अंदर झांकने पर depth का एहसास आता है
  इस technique से निकला यह बेहद शानदार और अनोखा result है
- bookshelf के अंदर जाएं तो ultimate Matthew McConaughey experience भी मिल सकता है
- Berlin living room के TV को noclip करके पार करें तो सुखद तरीके से डरावना महसूस होता है
- बहुत reflective surfaces पर इसकी weakness बिल्कुल photogrammetry जैसी ही है
वाह, सच में कमाल है
Matterport इसे उठाकर आगे बढ़ा सकता है, या फिर real estate market को हिला देने वाला कोई startup आ सकता है
भरोसा नहीं होता कि यह smartphone पर इतना smooth चल रहा है
feedback के तौर पर, अगर फोन के compass और gyro से move करने वाला mode हो तो ज्यादा natural लगेगा
उंगली से control करते हुए xyz dimensions में कैसे move करना है, यह समझना थोड़ा awkward था
जैसा दूसरे लोग कह रहे हैं, अगर VR mode हो तो जबरदस्त होगा
- मुझे नहीं पता कि यह सच में real estate market की चाही हुई feature है या नहीं
  carefully staged और चुनी हुई photos इस्तेमाल करने की वजह यह है कि लोग सच में property देखने आएं
  मुझे लगता है virtual reality में देखकर किसी घर से प्यार हो जाना मुश्किल है
- feedback के लिए धन्यवाद
  movement user experience को और बेहतर किया जा सकता है, ऐसा लगता है
  यह किसी और दिन हल करने वाला task है
2 साल पुराने S21 FE पर भी impressively अच्छी तरह चलता है
space में इधर-उधर देखने पर जिस तरह यह और images stream करके लाता है, वह सच में impressive था, और Berlin डेमो में TV reflection भी बहुत शानदार था
हालांकि सारी images load होने में काफी समय लगा, और शुरुआती करीब 40 images पूरी तरह load होने तक scene render नहीं हुआ
सोच रहा हूं कि क्या images आते ही partial rendering शुरू की जा सकती है, या पहले बड़े render से पहले सबका इंतजार करना पड़ता है
- अभी जो चीजें load हो रही हैं उन्हें “images” कहना सही नहीं है
  इस approach के पिछले version, MERF, ने feature vectors को PNG images में store किया था, लेकिन यहां हमने उन्हें binary arrays से replace किया है
  दुर्भाग्य से first frame render करने के लिए वे सभी arrays load करना जरूरी है
  हालांकि, जैसा आपने pointed out किया, SMERF का बड़ा payload size एक weakness है
  अगर 10x compression का तरीका मिल जाए तो experience पूरी तरह बदल जाएगा
सच में कमाल है। fulllivingroom डेमो के आधार पर कुछ सवाल हैं
personally मुझे FPS mode ज्यादा अच्छा लगा
1. input images कितनी हैं?
2. ऐसा model compute करने में कितना समय लगता है?
3. कई stages आदि मिलाकर browser के लिए model तैयार करने में कितना समय लगता है?
4. क्या VR में भी try किया है?
- अच्छा लगा कि आपको पसंद आया
  1. अगर मुझे सही याद है तो करीब 100–150 images हैं
    यह scene mip-NeRF 360 benchmark का हिस्सा है, और उस project site से download किया जा सकता है: https://jonbarron.info/mipnerf360/
  2. scene के हिसाब से लगभग 12–48 घंटे लगते हैं
    training के लिए 8x V100 या 16x A100 इस्तेमाल करते हैं
  3. asset preparation time 2) में शामिल है
    detailed breakdown नहीं है, लेकिन मोटे तौर पर 50/50 जैसा है
  4. अभी तक नहीं
    कोई motivated hacker JavaScript code में बदलाव करके खुद try कर सकता है
    browser DevTools खोलें तो पूरा code मौजूद है
- यह आपके सवाल जैसा exactly तो नहीं है, लेकिन हाल में Gaussian Splatting इस्तेमाल करने वाला एक VR example देखा था
  दिलचस्प समय है
  https://twitter.com/gracia_vr/status/1731731549886787634
  https://www.gracia.ai
“Researchers create open-source platform for Neural Radiance Field development” (2023)
https://news.ycombinator.com/item?id=36966076
NeRF Studio के Included Methods, Third-party Methods:
https://docs.nerf.studio/#supported-methods
Neural Radiance Field:
https://en.wikipedia.org/wiki/Neural_radiance_field
Two Minute Papers के जरिए मैं इस technology को follow कर रहा हूं, और उस दिन का इंतजार कर रहा हूं जब इसे खुद इस्तेमाल कर पाऊंगा
मेरे दादाजी 2 साल पहले गुजर गए; पीछे मुड़कर देखूं तो लगता है जैसे मैंने इस demo की तरह इस्तेमाल करने के लिए photos खींच रखी थीं
शानदार काम है
- सपना है कि smartphone से 2D photos लेने की तरह 3D memories capture करना आसान और natural हो जाए
  एक दिन यह संभव होगा
सचमुच कमाल का काम है, और यह बहुत बड़ी बात है कि मैं इसे मोबाइल फोन के वेब ब्राउज़र में देख पा रहा हूँ
डेस्कटॉप पर NYC scene को highest quality में देखने पर, उदाहरण के लिए काउंटर और शेल्फ़ पर रखी चीज़ों की quality काफ़ी कम लगी, जो चौंकाने वाला था
इसलिए Lego model खोला तो वह बहुत बारीक था, इसलिए यह method की अपनी सीमा जैसा नहीं लगता
सोच रहा हूँ कि क्या वजह input photos की quality है, या कुछ और
- spatial resolution का असर ज़्यादा बड़ा है
  space जितना बड़ा होता है, fixed resolution, जैसे 1 mm^3, बनाए रखने के लिए उतने ही ज़्यादा voxel चाहिए होते हैं
  एक point के बाद, बड़े scene को represent करने के लिए spatial resolution छोड़ना पड़ता है
  दूसरी सीमा distillation में इस्तेमाल होने वाला teacher model है
  Zip-NeRF(https://jonbarron.info/zipnerf/) अच्छा है, लेकिन perfect नहीं है
  SMERF reconstruction quality की upper limit उसके teacher Zip-NeRF से तय होती है
ऐसा बाज़ार दिखता है जहाँ real estate agent photos upload करके listing वाले घर का walkthrough बनाते हैं
- https://matterport.com/
- Luma ने भी कुछ ऐसा ही बनाया है: https://apps.apple.com/app/luma-flythroughs/id6450376609?l=e...
सोच रहा हूँ कि ऐसे navigable 3D walkthroughs को capture, process और host करने के लिए कोई open-source toolchain है क्या
जैसे open-source Matterport जैसा कुछ
- मेरी जानकारी में अभी नहीं है
  मौजूदा flow कुछ ऐसा है: DSLR से capture करना, COLMAP से camera parameters estimate करना, एक codebase से teacher model train करना, हमारे codebase से SMERF train करना, और web viewer से model render करना
  opportunity जैसा लगता है
- capture के लिए toolchain ज़रूरी नहीं है, बस data होना चाहिए
  अभी data इकट्ठा कर लें, और जब बेहतर tools आएँ तो तब process कर लें
  photogrammetry और NeRF shooting guides आम तौर पर जिस काम की ज़रूरत है, उस पर सीधे लागू हो जाते हैं
ऐसी चीज़ों में जो दिखता है वह बहुत सटीक, एक navigable 3D image के क़रीब है
जो अभी नहीं दिखा वह है features और object detection, blocking, extraction
जब ज़्यादा efficient और streamable codec की ज़रूरत पड़ेगी, तो उम्मीद है कि आसानी से analyze की जा सकने वाली structure की माँग भी स्वाभाविक रूप से होगी
- 3D understanding का क्षेत्र अभी बहुत शुरुआती stage में है
  इस area में अच्छी research चल रही है, लेकिन रास्ता लंबा है
  SMERF realistic images render करने वाली “view synthesis” के बारे में है, semantic understanding या segmentation की कोशिश नहीं करता
- क्या आप ऐसी चीज़ की बात कर रहे हैं? https://jumpat.github.io/SA3D/
  मैंने DuckDuckGo में “nerf sam segment 3d” डालकर इसे पाया
- UC Berkeley की NerfStudio team का LERF काम देखें
  SMERF अलग problem को handle करता है, लेकिन semantic information और detection को integrate करने का तरीका निश्चित रूप से है

SMERF: स्ट्रीम किया जा सकने वाला मेमोरी-कुशल रेडिएंस फील्ड

बड़े दृश्यों की रियल-टाइम एक्सप्लोरेशन का bottleneck

submodel-आधारित representation और distillation training

प्रदर्शन परिणाम और सार्वजनिक सामग्री

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय