1 पॉइंट द्वारा GN⁺ 2023-11-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

MeshGPT: triangle mesh generation के लिए decoder-only transformer

  • MeshGPT सीखे गए geometric vocabulary से tokens को autoregressively sample करने वाले transformer model के माध्यम से triangle mesh generate करता है.
  • इन tokens को triangle mesh के faces में decode किया जा सकता है, और generated meshes साफ, सुसंगत होते हैं, जिनकी विशेषताएँ sharp edges और high fidelity हैं.

सारांश

  • MeshGPT triangle mesh generation का एक नया तरीका है, जो artist द्वारा बनाए गए meshes की compactness को दर्शाता है, और यह neural fields से निकाले गए dense triangle meshes के विपरीत है.
  • शक्तिशाली large language models में हालिया प्रगति से प्रेरित होकर, यह triangle meshes को triangles की sequence के रूप में autoregressively generate करने वाला sequence-based approach अपनाता है.
  • पहले graph convolution का उपयोग करके potentially quantized embeddings की vocabulary सीखी जाती है, और इन embeddings को decoder द्वारा sequence में बदला जाता है तथा triangles में decode किया जाता है ताकि mesh को प्रभावी ढंग से reconstruct किया जा सके.

वीडियो तुलना और अन्य अनुप्रयोग

  • MeshGPT का approach sharp geometric details वाले compact meshes generate करता है, जबकि मौजूदा तरीके अक्सर इन details को खो देते हैं, अत्यधिक triangulated meshes बनाते हैं, या बहुत सरल आकार output करते हैं.
  • जब partial mesh दिया जाता है, तो यह विधि shape completion के कई संभावित रूपों का अनुमान लगा सकती है.
  • इस विधि का उपयोग scenes के लिए 3D assets generate करने में किया जा सकता है, और यहाँ इस तरीके से generate किए गए assets से भरा एक कमरा दिखाया गया है.

विधि का अवलोकन

  • पहले triangle meshes के लिए एक vocabulary सीखी जाती है, और फिर उसी का उपयोग mesh की autoregressive generation के लिए किया जाता है.
  • विभिन्न shapes के collection से geometric embeddings की vocabulary सीखी जाती है, जिसमें vector quantization वाला encoder-decoder network शामिल है.
  • पूरी तरह train हो जाने के बाद, यह transformer सीखी गई vocabulary से tokens की sequence के रूप में सीधे mesh sample कर सकता है.

GN⁺ की राय

MeshGPT मौजूदा mesh generation तरीकों से आगे निकलने वाला एक अभिनव approach प्रस्तुत करता है, जो shape coverage और FID score में उल्लेखनीय सुधार दिखाता है. यह तकनीक 3D modeling और computer graphics के क्षेत्र में एक बड़ा कदम है, खासकर इसलिए कि यह सीधे ऐसे meshes generate कर सकती है जिनमें compactness और sharp edges हों, और जो मानव-निर्मित meshes के efficient triangulation patterns की बेहतर नकल करते हैं. यह प्रगति 3D content creators को नए tools दे सकती है और बेहतर गुणवत्ता वाले 3D assets को अधिक तेज़ी और दक्षता से generate करने की संभावना खोलती है.

1 टिप्पणियां

 
GN⁺ 2023-11-29
Hacker News की राय
  • यह शोध एक क्रांतिकारी विचार की झलक दिखाता है, और पेपर में बहुत सारी विस्तृत जानकारी शामिल है। यह जाना जाता है कि transformer models को scale किया जा सकता है, और उम्मीद है कि कई कंपनियाँ इस विचार का उपयोग सामान्य 3D asset generation pipeline को train करने में करेंगी.

    "हम पहले graph convolution का उपयोग करके latent quantized embeddings की एक vocabulary सीखते हैं, जिसमें local mesh geometry और topology की जानकारी शामिल होती है। इन embeddings को sequence में बदला जाता है और decoder द्वारा triangles में decode किया जाता है, जिससे mesh को प्रभावी ढंग से reconstruct किया जा सकता है।"

  • एक machine learning engineer के रूप में, जिसे Blender और hobby game development में रुचि है, यह शोध प्रभावशाली है, लेकिन सीमित furniture examples के लिए यह व्यावहारिक रूप से बहुत उपयोगी नहीं है। एक skilled modeler ऐसे mesh को 5 मिनट के भीतर बना सकता है, और generation के लिए अब भी polygons की ज़रूरत होती है। अगला कदम शायद LLM का उपयोग करके seed generation control जोड़ना और architecture के autoregressive हिस्से में image model शामिल करना होगा। तब शायद हम सच में mobile games के लिए उपयुक्त assets देख पाएँगे।

  • 3D/film production में काम करने वाले व्यक्ति के रूप में, मौजूदा स्थिति बहुत दिलचस्प भी लगती है और डरावनी भी।

  • यह जानने की जिज्ञासा है कि input क्या है। क्या यह "chair" जैसे text query को mesh में बदलता है? संशोधन: ऐसा लगता है कि mesh completion मुख्य input-output तरीका है, केवल एक साधारण feature नहीं।

  • ऐसा लगता है कि 90 के दशक के बाद से जिन कठिन समस्याओं में बड़ा progress नहीं हुआ था, वे transformer के ज़रिए किसी न किसी तरह हल हो सकती हैं। जिस दौर में हम जी रहे हैं, वह रोमांचक है।

  • अगला innovation शायद ऐसा UX होगा जो VR के सामने इन models जैसे 3D scenes generate कर सके। इससे हम किसी भी ऐसे environment के लिए, जिसके लिए हमारे पास training data है, स्थायी और मनचाहे 3D environments generate कर सकेंगे। texture generation के लिए diffusion models का उपयोग किया जा सकता है।

  • भले ही यह "सिर्फ" mesh autocomplete हो, फिर भी यह 3D artists के लिए बहुत उपयोगी है। अभी character को sculpt करने और उसे animate करने के तरीकों के बीच एक gap है। model को retopology करने में बहुत समय लगता है। अगर कोई transformer-based retopology rough mesh लेकर clean topology दे सके, तो यह बहुत बड़ा time saver होगा।

  • मुझे यह field बहुत पसंद है। पेपर में शानदार website, examples और videos शामिल हैं। abstract, introduction और results पर आधारित dense paper style की तुलना में यह कहीं अधिक ताज़गीभरा लगता है।

  • यह technology बहुत बेहतर होती जा रही है! अभी भी कुछ अजीब edges हैं, लेकिन अब यह algorithmic या complex problem से ज़्यादा 'repetitive details' जैसी लगती है। अगर हम सभी meshes को एक folder में डालकर network को train कर सकें, और फिर उससे उसी style में कुछ और माँग सकें, तो जो बनाया गया है उसे retopology करने या कोई दूसरा creative influence देने की ज़रूरत नहीं होगी। बेशक, जब तक हम पूरी तरह उस स्तर तक नहीं पहुँचते, तब तक procgen अभी भी बेहतर सेवा देगा, लेकिन यह technology कितनी तेजी से आगे बढ़ रही है, इसे लेकर मैं बहुत उत्साहित हूँ! उम्मीद है कि अगले साल के Unreal showcase में किसी नई "Asset Generator" feature की बात हो।

  • यह technology सच में बहुत शानदार दिखती है! लगता है कि indie game developers के लिए बहुत सारे assets generate करने में यह बेहद मददगार होगी।