- इंसान 3D consistency के बिना वाली images में भी 3D दुनिया को पहचान सकता है
- Toon3D piecewise-rigid deformable optimization के ज़रिए camera pose और high-density geometry को recover कर सकता है
- हाथ से बनाए गए scenes में 3D consistency नहीं होती, लेकिन Toon3D की मदद से उन्हें recover किया जा सकता है और पहले कभी न देखे गए नए views को interpolate किया जा सकता है
Abstract
- Toon3D का प्रस्ताव
- ज्यामितीय रूप से असंगत scenes की मूल 3D संरचना को recover करता है
- कॉमिक्स और animation की hand-drawn images पर फोकस करता है
- कई कॉमिक्स 3D rendering engine के बिना कलाकारों द्वारा सीधे बनाई जाती हैं
- hand-drawn images दुनिया को गुणात्मक रूप से वफादारी के साथ दिखाती हैं, लेकिन कई viewpoints को 3D consistency के साथ बनाना कठिन होता है
- लोग असंगत input से भी 3D scenes को आसानी से पहचान सकते हैं
- 2D drawings की असंगतियों को ठीक करके नई deform की गई drawings को एक-दूसरे के साथ consistent बनाया जाता है
- user-friendly annotation tools, camera pose estimation और image deformation के माध्यम से dense structure को recover करता है
- images को perspective camera model के अनुसार deform करके नए view generation reconstruction methods में plugin की तरह इस्तेमाल किया जा सकता है
कॉमिक पुनर्निर्माण
- पहले camera pose और aligned point cloud को recover किया जाता है
- dense point cloud से Gaussian को initialize किया जाता है और recovered camera के साथ Gaussian splatting को optimize किया जाता है
- इसमें depth regularization है और यह Nerfstudio पर आधारित है
- scene का fly-through rendering दिखाया जाता है
तरीका
- हर image की depth को Marigold से predict किया जाता है और SAM से candidate transient masks प्राप्त किए जाते हैं
- Toon3D labeler से images को label करके correspondences प्राप्त किए जाते हैं और transient regions को चिह्नित किया जाता है
- camera pose को optimize किया जाता है और images को warp करके corrected perspective camera प्राप्त किया जाता है
- aligned dense point cloud से Gaussian को initialize करके refinement चलाया जाता है
Toon3D labeler
- method के दो मुख्य चरण दिखाए जाते हैं
- sparse alignment video: लगभग camera parameters का estimation
- dense alignment video: अलग-अलग layers (camera, sparse correspondences, distortion mesh आदि) का उपयोग करके 3D में align करने का तरीका दिखाया जाता है
Rick and Morty के घर के अंदर की खोज
- दीवारों और छत को label करके कमरों को जोड़ते हुए Rick and Morty के घर के अंदरूनी हिस्से का reconstruction किया जाता है
- पहला video: point cloud, cameras और custom labeling interface को दिखाता है
- दूसरा video: slider को scrub करके घर के अंदर घूमकर देखा जा सकता है
Point cloud और cameras
- Toon3D dataset के 12 comic scenes के point cloud और recovered cameras को दिखाया गया है
- icon पर click करके scenes को explore किया जा सकता है
Sparse view reconstruction
- कम images और बड़े viewpoint बदलाव के साथ भी scene का reconstruction किया जा सकता है
- जहाँ COLMAP fail हो सकता है, वहाँ Toon3D labeler से इंसानों द्वारा label की गई correspondences लेकर हस्तक्षेप किया जा सकता है
- Airbnb listing के दो कमरों ("living room" और "bedroom 2") के fly-through rendering दिखाए गए हैं
असंगति visualization
- चूँकि कॉमिक्स हाथ से बनाई जाती हैं, इसलिए images को 3D consistency के अनुरूप warp करना पड़ता है
- पहला item: alignment optimization के दौरान distortion होने का video
- अगले दो items: original और distorted drawings तथा दोनों drawings के overlap को दिखाने वाली images
- धुंधले क्षेत्र बताते हैं कि कहाँ बहुत अधिक distortion हुआ है
Drawing reconstruction
- Toon3D का उपयोग करके hand-drawn drawings का भी reconstruction किया जा सकता है
- पहले हर image की depth predict की जाती है, फिर point cloud को align और warp किया जाता है
- अंत में Gaussian refinement का उपयोग करके video बनाया जाता है
GN⁺ की राय
- Toon3D कॉमिक्स और animation की hand-drawn images को 3D में reconstruct करने का एक अभिनव तरीका है
- यह तकनीक नया visual experience देती है और खासकर animation production तथा game development में बहुत मददगार हो सकती है
- हालांकि, हाथ से labeling करने की प्रक्रिया कुछ झंझटभरी हो सकती है, और automated methods का और विकास होना बेहतर होगा
- समान functionality देने वाले अन्य projects में COLMAP और Nerfstudio शामिल हैं
- इस तकनीक को अपनाते समय सटीक labeling और depth prediction महत्वपूर्ण हैं, जिनकी मदद से अधिक consistent 3D reconstruction प्राप्त किया जा सकता है
1 टिप्पणियां
Hacker News राय
Hacker News टिप्पणियों का संक्षिप्त सार
Futurama के Planet Express बिल्डिंग का उदाहरण
3D space बनाने का मज़ा
भविष्य में 3D model generation की संभावना
2D artwork को 3D में बदलने की समस्या
Photogrammetry और VR
Algorithm में सुधार की ज़रूरत
साइट पर video autoplay की समस्या
Miyazaki की प्रतिक्रिया
उम्मीद से कमज़ोर नतीजे