1 पॉइंट द्वारा GN⁺ 2024-05-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • इंसान 3D consistency के बिना वाली images में भी 3D दुनिया को पहचान सकता है
  • Toon3D piecewise-rigid deformable optimization के ज़रिए camera pose और high-density geometry को recover कर सकता है
  • हाथ से बनाए गए scenes में 3D consistency नहीं होती, लेकिन Toon3D की मदद से उन्हें recover किया जा सकता है और पहले कभी न देखे गए नए views को interpolate किया जा सकता है

Abstract

  • Toon3D का प्रस्ताव
    • ज्यामितीय रूप से असंगत scenes की मूल 3D संरचना को recover करता है
    • कॉमिक्स और animation की hand-drawn images पर फोकस करता है
    • कई कॉमिक्स 3D rendering engine के बिना कलाकारों द्वारा सीधे बनाई जाती हैं
    • hand-drawn images दुनिया को गुणात्मक रूप से वफादारी के साथ दिखाती हैं, लेकिन कई viewpoints को 3D consistency के साथ बनाना कठिन होता है
    • लोग असंगत input से भी 3D scenes को आसानी से पहचान सकते हैं
    • 2D drawings की असंगतियों को ठीक करके नई deform की गई drawings को एक-दूसरे के साथ consistent बनाया जाता है
    • user-friendly annotation tools, camera pose estimation और image deformation के माध्यम से dense structure को recover करता है
    • images को perspective camera model के अनुसार deform करके नए view generation reconstruction methods में plugin की तरह इस्तेमाल किया जा सकता है

कॉमिक पुनर्निर्माण

  • पहले camera pose और aligned point cloud को recover किया जाता है
  • dense point cloud से Gaussian को initialize किया जाता है और recovered camera के साथ Gaussian splatting को optimize किया जाता है
  • इसमें depth regularization है और यह Nerfstudio पर आधारित है
  • scene का fly-through rendering दिखाया जाता है

तरीका

  • हर image की depth को Marigold से predict किया जाता है और SAM से candidate transient masks प्राप्त किए जाते हैं
  • Toon3D labeler से images को label करके correspondences प्राप्त किए जाते हैं और transient regions को चिह्नित किया जाता है
  • camera pose को optimize किया जाता है और images को warp करके corrected perspective camera प्राप्त किया जाता है
  • aligned dense point cloud से Gaussian को initialize करके refinement चलाया जाता है

Toon3D labeler

  • method के दो मुख्य चरण दिखाए जाते हैं
    • sparse alignment video: लगभग camera parameters का estimation
    • dense alignment video: अलग-अलग layers (camera, sparse correspondences, distortion mesh आदि) का उपयोग करके 3D में align करने का तरीका दिखाया जाता है

Rick and Morty के घर के अंदर की खोज

  • दीवारों और छत को label करके कमरों को जोड़ते हुए Rick and Morty के घर के अंदरूनी हिस्से का reconstruction किया जाता है
  • पहला video: point cloud, cameras और custom labeling interface को दिखाता है
  • दूसरा video: slider को scrub करके घर के अंदर घूमकर देखा जा सकता है

Point cloud और cameras

  • Toon3D dataset के 12 comic scenes के point cloud और recovered cameras को दिखाया गया है
  • icon पर click करके scenes को explore किया जा सकता है

Sparse view reconstruction

  • कम images और बड़े viewpoint बदलाव के साथ भी scene का reconstruction किया जा सकता है
  • जहाँ COLMAP fail हो सकता है, वहाँ Toon3D labeler से इंसानों द्वारा label की गई correspondences लेकर हस्तक्षेप किया जा सकता है
  • Airbnb listing के दो कमरों ("living room" और "bedroom 2") के fly-through rendering दिखाए गए हैं

असंगति visualization

  • चूँकि कॉमिक्स हाथ से बनाई जाती हैं, इसलिए images को 3D consistency के अनुरूप warp करना पड़ता है
  • पहला item: alignment optimization के दौरान distortion होने का video
  • अगले दो items: original और distorted drawings तथा दोनों drawings के overlap को दिखाने वाली images
  • धुंधले क्षेत्र बताते हैं कि कहाँ बहुत अधिक distortion हुआ है

Drawing reconstruction

  • Toon3D का उपयोग करके hand-drawn drawings का भी reconstruction किया जा सकता है
  • पहले हर image की depth predict की जाती है, फिर point cloud को align और warp किया जाता है
  • अंत में Gaussian refinement का उपयोग करके video बनाया जाता है

GN⁺ की राय

  • Toon3D कॉमिक्स और animation की hand-drawn images को 3D में reconstruct करने का एक अभिनव तरीका है
  • यह तकनीक नया visual experience देती है और खासकर animation production तथा game development में बहुत मददगार हो सकती है
  • हालांकि, हाथ से labeling करने की प्रक्रिया कुछ झंझटभरी हो सकती है, और automated methods का और विकास होना बेहतर होगा
  • समान functionality देने वाले अन्य projects में COLMAP और Nerfstudio शामिल हैं
  • इस तकनीक को अपनाते समय सटीक labeling और depth prediction महत्वपूर्ण हैं, जिनकी मदद से अधिक consistent 3D reconstruction प्राप्त किया जा सकता है

1 टिप्पणियां

 
GN⁺ 2024-05-18
Hacker News राय

Hacker News टिप्पणियों का संक्षिप्त सार

  • Futurama के Planet Express बिल्डिंग का उदाहरण

    • Futurama की Planet Express बिल्डिंग को 3D असंगति के उदाहरण के रूप में इस्तेमाल किया गया, जो दिलचस्प है। वास्तव में यह शायद 3D मॉडल से बनाई गई लगती है।
    • मैं ग्राफ़िक आर्टिस्ट नहीं हूँ, लेकिन इस बात की सराहना करता हूँ कि illustrator की कला जटिल अर्थ व्यक्त करने के लिए रचनात्मक अभिव्यक्ति तकनीकों का उपयोग करती है।
    • यह हाल के LLMs (large language models) हाइप की तरह ही कुछ 'भ्रमित करने वाले' 3D space reconstruction की याद दिलाता है।
  • 3D space बनाने का मज़ा

    • असंगत source images से 3D space बनाना बहुत मज़ेदार विचार है।
    • कुछ साल पहले मैंने abstract, non-spatial images को virtual reality spaces में बदलने की कोशिश की थी। उदाहरण के लिए, Kandinsky या Pollock की abstract paintings को explore किए जा सकने वाले virtual reality spaces में बदलना।
    • workflow यह था कि abstract image से शुरू करके SinGan का उपयोग कर 'scene' के वैकल्पिक 'viewpoints' बनाए जाएँ, फिर 3D photo inpainting के ज़रिए depth mapping की जाए, और उसके बाद frames को photogrammetry app में डाला जाए।
  • भविष्य में 3D model generation की संभावना

    • यह चौंकाने वाला है कि कल्पना किए गए दृश्य की एक ड्रॉइंग के आधार पर भी (कम गुणवत्ता वाला) 3D model बनाया जा सकता है।
    • भविष्य में शायद artists कुछ ही images से सटीक 3D models हासिल कर सकें।
    • AI जैसे tools का artists पर क्या असर होगा, इसे लेकर चिंता है। लेकिन ऐसा भविष्य भी सोचा जा सकता है जहाँ machine learning आधारित systems artists के साथ अधिक सीधे सहयोग करें।
    • जब हम इस मूल्य के बारे में सोचते हैं कि कलाकार कला रचते हैं, तो AI द्वारा कलाकारों को replace करना पूरी सभ्यता के लिए बुरा परिणाम ला सकता है।
  • 2D artwork को 3D में बदलने की समस्या

    • 2D artwork में एक सुसंगत 3D space नहीं होता। लगता नहीं कि इस समस्या को उपयोगी ढंग से हल किया गया है।
    • मूल camera position से हटते ही scene लगभग असंगत हो जाता है।
  • Photogrammetry और VR

    • Quest 2 का उपयोग करके photogrammetry पर शोध करने का अनुभव रहा है। अलग-अलग angles से ली गई photos का उपयोग कर 3D models बनाने वाली pipeline को explore किया था।
    • VR में port करते समय सबसे महत्वपूर्ण बात clean mesh बनाना है। मौजूदा tools अभी 3D mesh generate नहीं करते।
    • Matterport जैसे models बनाकर उन्हें real estate companies को बेचने की प्रेरणा थी। लेकिन clean mesh को अपने-आप generate करने वाला चरण सबसे अधिक मेहनत वाला है।
  • Algorithm में सुधार की ज़रूरत

    • किसी खास image के viewpoint से appearance को reproduce करने में इसका प्रदर्शन अच्छा नहीं है। उदाहरण के लिए, Magic School Bus वाला उदाहरण।
    • algorithm को images पर और अधिक भरोसा करने के लिए tune करने की ज़रूरत है।
  • साइट पर video autoplay की समस्या

    • ऐसी साइट जहाँ सभी videos अपने-आप चलें और loop हों, असुविधाजनक लगती है। दूसरे screen पर video देखते समय साइट पर जाने से रुकावट होती है।
  • Miyazaki की प्रतिक्रिया

    • अगर Spirited Away वाला उदाहरण Miyazaki को दिखाया जाए, तो वे शायद कहें कि यह जीवन के प्रति ही अपमान है।
  • उम्मीद से कमज़ोर नतीजे

    • सभी उदाहरण बहुत खराब दिखते हैं। बीच के frames में noise और blur इतना है कि उन्हें मूल के साथ इस्तेमाल नहीं किया जा सकता।
    • हर element का start और end point लगभग जुड़ता ही नहीं। दीवारें, दरवाज़े वगैरह destination की ओर उड़ते हैं, लेकिन अंतिम स्थिति से कुछ फीट पहले ही गायब हो जाते हैं।
    • विचार शानदार है, लेकिन इसका वास्तव में काम करने वाला version देखना चाहूँगा।