TRELLIS - 3D mesh generation model

(trellis3d.github.io)

1 पॉइंट द्वारा GN⁺ 2024-12-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें

TRELLIS एक generative model है जो text या image को condition बनाकर 3D assets बनाता है; यह unified latent representation SLAT और Rectified Flow Transformers को मिलाकर quality और output flexibility बढ़ाता है
SLAT sparse 3D grid और multi-view visual features को साथ रखकर geometry और texture को represent करता है, और इसे Radiance Fields, 3D Gaussians, meshes में decode किया जा सकता है
अधिकतम 2 billion parameters वाले model को 5 लाख 3D assets के dataset पर train किया गया है, और दावा है कि यह समान scale की latest methods सहित मौजूदा तरीकों से बेहतर quality देता है
text-to-3D और image-to-3D generation के अलावा, यह मौजूदा 3D assets की variant generation और local region editing को support करता है, जैसे arm हटाना, weapon जोड़ना, leg बदलना
प्रकाशित materials केवल academic और research purposes तक सीमित हैं; internet-based dataset के potential biases और realistic real-world objects generate करने की सीमाएँ अभी भी मौजूद हैं

TRELLIS का लक्ष्य और scope

TRELLIS scalable और diverse 3D generation के लिए बनाया गया native 3D generative model है
project page TRELLIS का एकमात्र official webpage है, और काम को CVPR 2025 Highlight के रूप में दिखाया गया है
text या image conditions से high-quality 3D assets बनाना, और अलग-अलग output formats व editing capabilities देना इसका core goal है
code, model और data publicly release किए जाने की योजना है

Structured LATent(SLAT) representation

SLAT high-quality और multipurpose 3D generation के लिए unified 3D latent representation है
object surface को intersect करने वाले active voxels में local latent vectors define किए जाते हैं
local latent vectors को 3D asset को कई views में densely render करने के बाद, image features को fuse और process करके encode किया जाता है
ये features pretrained vision encoder से आते हैं, और active voxels द्वारा दिए गए coarse structure को complement करके detailed geometry और visual characteristics capture करते हैं
अलग-अलग decoders apply करके SLAT को कई 3D representations में बदला जा सकता है
- Radiance Fields
- 3D Gaussians
- meshes

Generative model structure और training

TRELLIS, SLAT पर बना एक बड़ा 3D generative model family है, जो text prompts या images को condition के रूप में use करता है
generation pipeline 2 stages में बंटी है
- पहले SLAT की sparse structure generate की जाती है
- उसके बाद non-empty cells के latent vectors generate किए जाते हैं
backbone model Rectified Flow Transformers है, जिसे SLAT की sparsity handle करने के लिए adapt किया गया है
training scale अधिकतम 2 billion parameters है, और इसमें 5 लाख diverse 3D objects से बने बड़े dataset का उपयोग किया गया है
outputs detailed geometry और vivid textures वाले 3D assets हैं, और दावा है कि ये previous methods से काफी आगे हैं

Generation/editing examples और output formats

text-to-3D examples में GPT-4 द्वारा बनाए गए text prompts का उपयोग किया गया है
- vintage copper rotary telephone
- लाल roof और fence वाला दो-मंजिला brick house
- stone pedestal पर चमकता sphere
- gold और silver design वाला spherical robot
image-to-3D examples में DALL-E 3 द्वारा बनाए गए image prompts का उपयोग किया गया है
page पर appearance और geometry को क्रमशः 3D Gaussians और meshes से render किया गया है
GLB files 3D Gaussians के appearance को mesh में bake करके extract की गई हैं
दिए गए 3D asset के लिए text prompt के साथ consistent variants generate किए जा सकते हैं
- metallic texture और orange-white paint finish
- green-purple knitted fabric जैसी texture
- leather straps और blue accents के साथ medieval weapon-style metallic texture
- transparent glass जैसी high-tech structure
local manipulation में specific regions को text या image prompt के अनुसार edit किया जाता है
- humanoid combat mecha से arm हटाना
- विशाल beam weapon जोड़ना
- legs को tracked chassis से बदलना
generated 3D assets को combine करके complex और lively 3D art designs बनाए जा सकते हैं

Research purpose और limitations

TRELLIS एक pure research project है
इस्तेमाल किया गया dataset public dataset है, जिसे personally identifiable information या harmful content न हो, इसके लिए review किया गया है
dataset internet से collect किया गया है, इसलिए potential biases रह सकते हैं
current model artistic-style 3D assets generate करने में मजबूत है
realistic real-world objects generate करने की ability limited है
page की materials text-to-3D और image-to-3D generation technologies explore करने के लिए केवल academic और research purposes हेतु provided हैं
commercial deployment या use intended नहीं है
related paper arXiv preprint Structured 3D Latents for Scalable and Versatile 3D Generation है

1 टिप्पणियां

GN⁺ 2024-12-10

Hacker News टिप्पणियाँ

वाह, यह सच में कमाल है, लेकिन AI-जनरेटेड कंटेंट को देखकर मुझे पहली बार घिन-सी महसूस हुई
यह इतना अच्छी तरह बना हुआ है कि बिना आत्मा वाली, बेहद उच्च-गुणवत्ता वाली mass-produced asset जैसा लगता है, और इसी बात से उदासी होती है
मैं इसकी उपलब्धि को कम करके नहीं आंक रहा, बल्कि मुझे यह हाथ से बने asset के अंत की घोषणा जैसा लग रहा है
मुझे कलाकारों पर दया नहीं आ रही, बल्कि इस बात का दुख है कि मैं खुद किसी चीज़ के इंसानी हाथों से बने होने के गुण को चाहता हूँ
procedural generation वाले गेम मुझे ज़्यादा पसंद नहीं हैं, वजह भी यही है। मैं किसी के दिमाग से निकली दुनिया में चलना चाहता हूँ; अगर मुझे बिना किसी खास वजह के मौजूद procedural दुनिया चाहिए होती, तो मैं बस बाहर जाकर टहल लेता
मुझे कंटेंट या खंगालने लायक सामान के ढेर नहीं चाहिए, बल्कि कला-कृतियाँ चाहिए जो मेरे समकालीन लोगों ने अपनी दृष्टि, विचार, मूल्य, अंतर्दृष्टि और व्यक्तित्व को लेकर किसी उद्देश्य के साथ बनाई हों। उनका इस तरह अच्छा दिखना ज़रूरी नहीं, बस उद्देश्य के साथ बनी हों
- इसे ऐसे भी देखा जा सकता है। अब AAA गेम सिर्फ “ग्राफ़िक्स बहुत शानदार हैं” कहकर खुद को अलग नहीं दिखा पाएँगे
  सच कहूँ तो आजकल आने वाले ज़्यादातर नए गेम लगभग वही gameplay लेकर सिर्फ ग्राफ़िक्स अपडेट करके आ रहे हैं
  लेकिन अगर जल्द ही मैं भी ऐसा कर सकूँ, तो सोचता हूँ बड़े स्टूडियो हमें वापस खींचने के लिए क्या तैयारी करेंगे
- “अगर मुझे बिना किसी वजह के मौजूद procedural दुनिया चाहिए होती, तो मैं बाहर चला जाता” वाली बात ने मुझे कुछ साल पहले आउटडोर exercise शुरू करने की याद दिला दी
  उससे पहले मैं लगभग कभी बाहर नहीं जाता था और एक काफ़ी अँधेरे कमरे में रहता था, लेकिन एक दिन मैंने आसमान की ओर देखा और सोचा, “वाह, ये बादल Horizon या Assassin's Creed जैसे गेमों के बादलों जैसे लग रहे हैं”
  इन asset को देखते हुए भी मुझे थोड़ी उदासी हुई। “लाल छत और बाड़ वाली दो-मंज़िला ईंट की इमारत” को देखकर मुझे three.js का animation/keyframe example याद आ गया
  three.js का example किसी इंसान ने हाथ से बनाया था और हर चुनाव के पीछे असली इरादा था, लेकिन Trellis बस “पुफ, लो ये रहा” जैसा लगता है, मानो इंटरनेट और गेमों में मिली चीज़ों का मिला-जुला मिश्रण हो
  AI की वजह से कुछ मूल्य ज़रूर गायब होंगे, लेकिन इसी कारण हाथ से बना कंटेंट और अधिक मूल्यवान भी हो सकता है। बस सवाल यह है कि क्या हम उस मूल्य को इतना मान देंगे कि कलाकार टिकाऊ तरीके से काम जारी रख सकें
  https://threejs.org/examples/#webgl_animation_keyframes
- गेम डेवलपर्स में से काफ़ी लोग level design को पसंद नहीं करते, और procedural generation न करने की वजह यह नहीं कि हाथ से बनी दुनिया बेहतर है, बल्कि यह कि वे मुश्किल होने के कारण उसे ज़बरदस्ती बनाते हैं
  मैं भी कुछ ऐसा ही हूँ, इसलिए अगर कोई मेरे गेम को खेलते हुए यह सोचे कि level मेरे दिमाग से “उभर कर आए” हैं, तो यह मुझे काफ़ी मज़ेदार लगेगा। जैसे मैं कोई गहरा कलाकार हूँ
  गेम डेवलपमेंट के दूसरे हिस्सों पर मुझे काफ़ी गर्व है, लेकिन मेरा level design उनमें से एक नहीं है
- मुझे नहीं लगता कि इस तकनीक से मानव प्रतिस्पर्धा का क्षेत्र बुनियादी रूप से बदल जाएगा
  जब इसका इस्तेमाल व्यापक होने लगेगा, तो कम-गुणवत्ता वाला mass-produced सामान ज़रूर भर जाएगा, लेकिन जो असली कलाकार किसी उद्देश्य के साथ कुछ बनाना चाहते हैं, वे सीख लेंगे कि इस तकनीक को किसी और बड़े काम की सीढ़ी की तरह कैसे इस्तेमाल करना है
  Martin Nebelong जैसे लोगों को देखें, तो वे इंसान को loop के भीतर रखते हुए AI का उपयोग करने के तरीके सीख रहे हैं
  https://x.com/martinnebelong?s=21&t=cTpE-rRbCiocUlN0VaSheQ
- जो लोग 3D asset बनाना नहीं जानते, उनके लिए यह वाकई एक बढ़िया prototyping tool है
  यह कुछ वैसा ही है जैसे Unreal Blueprints जैसी visual scripting ने उन लोगों के लिए game development और modding के दरवाज़े खोले जो programming में सहज नहीं थे
  इसलिए अगर Blender या Maya जैसी चीज़ें सीखे बिना prototype में डालने के लिए model मिल जाए, तो यह ठीक है। वे थोड़े अनियमित और अजीब दिखें, तब भी कम से कम कंटेंट तो मिलेगा
वाह, नतीजे शानदार हैं। मैं एक्सपर्ट नहीं हूँ, लेकिन जब पहला NeRF demo आया था तभी से शायद हर कोई इसी के बारे में सोच रहा था।
खोजते-खोजते मुझे 5 साल पहले इस उम्मीद में लिखा अपना कमेंट भी मिल गया: https://news.ycombinator.com/item?id=22642628
अगला कदम यह है कि 3D इमेज में अपने-आप ऐसे “nodes” जोड़ दिए जाएँ जिन पर मॉडल pivot या rotate कर सके। तब on-demand animation और interactive content तुरंत संभव हो जाएगा।
बचपन की तस्वीरें डालकर यादों को फिर से बनाया जा सकता है, और किसी प्रियजन की voice sample जोड़कर उसे आपसे बात भी करवाई जा सकती है। immersion बढ़ानी हो तो noise-cancelling headphones लगाकर VR में घुस जाइए।
जल्द आ रहा है! “Surrender Reality” waitlist में शामिल होने के लिए यहाँ क्लिक करें
- अगला कदम ऐसे models बनाना है जिनकी mesh topology की quality और बेहतर हो, ताकि animation और editing करने पर mesh टूटे नहीं।
  मैंने बहुत retopology की है, और अगर इन models को ऐसे ही rig किया जाए तो shading और deformation की समस्याएँ हर तरह से सामने आएँगी। animation न भी करें, तब भी पास से देखने पर triangulation काफी साफ दिखती है।
  फिर भी लगता है कि high-quality 3D asset generation अब बिल्कुल करीब है। यहाँ दिख रहे approach को estimated direction fields और feature-detection आधारित AI quad remeshing के साथ जोड़ दें, तो काम हो सकता है, और वह क्षेत्र भी डरावनी तेजी से बेहतर हो रहा है।
- सहज रूप से लगता है कि 3D engine और इस तकनीक का मेल, latent space में सीधे rasterized video render करने वाले मौजूदा तरीके से बेहतर समाधान हो सकता है। संयोग से Sora भी आज रिलीज़ हुआ है।
  mesh को rig और animate करना, और network को पूरे मनचाहे video scenes को “digital twins” की तरह सेट करना सिखाना शायद व्यावहारिक न हो।
  फिर भी अगर ऐसी व्यवस्था संभव हो जाए, तो बाकी सब वैसा ही रखते हुए generated video पर कहीं ज्यादा बारीक नियंत्रण मिल सकता है।
- यहाँ “nodes” से ठीक-ठीक क्या मतलब है, यह मुझे समझ नहीं आ रहा। मनचाहा rotation या scaling सिद्धांत में तभी अच्छा लगता है जब आपको lazy susan या Exorcist की तरह घूमता सिर चाहिए।
  अगला कदम शायद अधिक सामान्य symmetric topology, बेहतर UV maps, और आसान animation के लिए automatic rigging (FK/IK) की दिशा में होगा।
- सोच रहा हूँ कि इसका असर game development studios के 3D artists पर क्या पड़ेगा।
  क्या studios ऐसे tools अपनाकर artists को बनाए रखेंगे और ज्यादा content जल्दी व आसानी से बनाएँगे, या फिर कुछ लोगों को छोड़कर बाकी 80% घटा देंगे और उनकी जगह यह tool ले लेगा?
- सिर्फ on-demand animation और interactive content ही नहीं, यह still image rendering के लिए भी उपयोगी है।
  अभी तक AI-generated 2D images में lighting भी गलत होती है और errors भी बहुत होते हैं। लेकिन एक बार scene 3D बन जाए और उसे Blender जैसे free tool में render किया जाए, तो lighting सही और configurable हो जाती है, और गलत details भी आसानी से ठीक की जा सकती हैं।
  पहले से ही अविश्वसनीय रूप से शक्तिशाली tools मौजूद हैं, और अब यहाँ से चीज़ें शायद और भी तेजी से ताकतवर होंगी।
यह परफेक्ट नहीं है, लेकिन अब तक मैंने जितने 3D model generators आज़माए हैं, उनमें से ज़्यादातर से यह बहुत बेहतर है।
पहले results इतने खराब होते थे कि उन पर यकीन करना मुश्किल था, लेकिन इस बार output कम-से-कम औसत से ऊपर था।
अब बस ऐसा file format दे दे जिसे सीधे Orca Slicer में डाल सकूँ।
प्रभावशाली है। layer diffusion से मैंने ऐसा low-poly airship बनाया: https://image.non.io/b3f843be-b1b4-468a-a0ec-9d58b191beee.we...
और result यह रहा: https://video.non.io/video-2732101706.mp4
सच कहूँ तो यह बिल्कुल भी बुरा नहीं है, और game assets के तौर पर इस्तेमाल होने लायक स्तर के काफी करीब पहुँच रहा है।
मैंने Wikipedia की F-117 stealth aircraft वाली image डालकर देखी, लेकिन output पूरी तरह फेल था।
project page के examples कैसे generate किए गए, यह समझना भी मुश्किल था, और basic silhouette तक पूरी तरह गलत थी।
उम्मीद थी कि कई angles से ली गई images अपलोड करके उसे सुधार सकूँगा, लेकिन ऐसी कोई सुविधा दिखी नहीं।
- F-117 का shape काफ़ी असामान्य है। अगर पहले से पता न हो कि वह कैसा दिखता है, तो किसी एक angle की single view से उसे extrapolate करना इंसान के लिए भी काफी मुश्किल है।
  अगर वह dataset में नहीं था, तो इतना तो माफ़ किया जा सकता है। खासकर उसकी angular shape की वजह से उसे aircraft न समझने की गलती भी आसानी से हो सकती है।
  मैं कुल model quality पर टिप्पणी नहीं कर रहा, बस इतना कि F-117 लगभग निश्चित रूप से एक unfair test होगा।
इसे कुछ दिन पहले भी पोस्ट होते देखा था, लेकिन demo इतना प्रभावशाली है कि इस पर यहाँ चर्चा होनी चाहिए।
https://news.ycombinator.com/item?id=42342557
क्षमता तो दिखती है, लेकिन मैंने जो images डालीं वे शायद training distribution से काफी बाहर थीं, इसलिए बस अजीब-सी flat plates ही बनकर आईं।
- character या object को ऊपर से देखने वाली, isometric game जैसी images के साथ मैं इसे ठीक से काम करा पाया।
  लेकिन front-facing images देने पर हर बार flat result ही मिला।
- एक और चमत्कारी tool है। कम-से-कम जब तक आप खुद इसे test न कर लें।
image पर बहुत निर्भर करता है, लेकिन जानवरों के fur को polygon mesh और transparent textures के सही संयोजन से दोहराना वाकई चौंकाने वाला था।
page examples में भी यह क्षमता दिखाई नहीं गई थी।
https://imgur.com/a/qJp4HNX
AlphaFold एक ऐसा model है जो 1D protein sequence से 3D बनाता है, और उसका internal data representation काफी भव्य और जटिल है।
इसके उलट, इस paper में यह दिलचस्प है कि वह मूल रूप से input data को voxelize करता है और कई angles से बहुत सारी तस्वीरें लेकर training set बनाता है।
इसका इस्तेमाल करके AI-generated image से 3D print तक पहुँचना संभव हुआ। steps यहाँ संक्षेप में दिए हैं: https://x.com/ryanlanciaux/status/1866163343788007619
- सच में भविष्य जैसा लगता है। आप शब्दों से image बना सकते हैं, फिर उसे घर पर physical object में बदल सकते हैं, लेकिन उस प्रक्रिया को समझाने वाला plain text और images टूटी हुई website की वजह से पढ़े नहीं जा सकते।

TRELLIS - 3D mesh generation model

TRELLIS का लक्ष्य और scope

Structured LATent(SLAT) representation

Generative model structure और training

Generation/editing examples और output formats

Research purpose और limitations

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ