Trellis – 3D mesh जनरेशन मॉडल
(trellis3d.github.io)नई 3D जनरेशन विधि का परिचय
-
Structured LATent (SLAT) representation: एकीकृत संरचित latent representation पेश करता है जिसे विभिन्न output formats में decode किया जा सकता है। यह शक्तिशाली vision-based models से निकाले गए dense multi-view visual features और sparsely populated 3D grids को एकीकृत करके structural (geometric) और textural (appearance) जानकारी को व्यापक रूप से capture करता है.
-
Rectified Flow Transformers: SLAT के लिए डिज़ाइन किया गया 3D जनरेशन मॉडल, जिसे 5 लाख विविध ऑब्जेक्ट्स से बने बड़े पैमाने के 3D asset dataset पर अधिकतम 2 billion parameters के साथ train किया गया है। यह text या image condition पर high-quality results उत्पन्न करता है और मौजूदा तरीकों से काफी बेहतर प्रदर्शन करता है.
3D asset जनरेशन और एडिटिंग
-
Text और image आधारित 3D asset जनरेशन: TRELLIS text या image prompts का उपयोग करके विविध 3D assets बना सकता है। उदाहरणों में तांबे का rotary telephone, दो-मंज़िला ईंट का घर, और spherical robot शामिल हैं.
-
Asset variation और local editing: दिए गए 3D asset के variations को text prompt के अनुसार generate किया जा सकता है, और किसी specific region को manipulate करके नया design बनाया जा सकता है। उदाहरण के लिए, battle robot की बांह हटाना या हथियार जोड़ना जैसे काम संभव हैं.
TRELLIS के अनुप्रयोग और मेथडोलॉजी
-
3D art design: TRELLIS द्वारा जनरेट किए गए high-quality 3D assets को संयोजित करके जटिल और जीवंत 3D art designs आसानी से बनाए जा सकते हैं.
-
Structured latent representation: SLAT sparse structure और शक्तिशाली visual representation को जोड़ता है, और object surface को intersect करने वाले active voxels पर local latent को परिभाषित करता है। ये features शक्तिशाली pre-trained vision encoder से प्राप्त होते हैं और विस्तृत geometric तथा visual characteristics को capture करते हैं.
-
TRELLIS model: text prompts या images को condition के रूप में लेकर बड़े पैमाने का 3D generation model train करता है। यह two-stage pipeline लागू करता है, जो पहले SLAT की sparse structure generate करती है और फिर non-empty cells के लिए latent vectors generate करती है। इससे विभिन्न output formats में 3D assets आसानी से बनाए जा सकते हैं.
1 टिप्पणियां
Hacker News राय
AI-जनित कंटेंट को देखकर पहली बार मन खराब होने जैसा लगा। ऐसा कंटेंट बहुत शानदार है, लेकिन यह सोचकर दुख होता है कि इंसानी हाथों से बनी कृतियाँ गायब होती जा रही हैं। प्रक्रियात्मक रूप से जनरेट किए गए गेम्स की बजाय इंसानी सोच से निकली दुनिया चाहिए।
NeRF डेमो के बाद से लगता है कि सब यही सोच रहे थे। 5 साल पहले की अपनी टिप्पणी मिली। अगला कदम 3D इमेज में "nodes" जोड़ना है ताकि animation और interaction संभव कंटेंट बनाया जा सके।
यह परफेक्ट नहीं है, लेकिन अब तक आज़माए गए विकल्पों में सबसे अच्छा 3D model generator है। ऐसा file format चाहिए जिसे सीधे Orca Slicer में डाला जा सके.
Wikipedia की F-117 stealth bomber इमेज आज़माई, लेकिन नतीजा पूरी तरह विफल रहा। कई एंगल की इमेज अपलोड करने की सुविधा चाहिए।
जानना है कि "Text to 3D Asset" फीचर का कोई डेमो है या नहीं.
कुछ दिन पहले यह सबमिट किया गया था, लेकिन डेमो बहुत प्रभावशाली है। उम्मीद है यहाँ इस पर चर्चा होगी.
इसकी क्षमता दिखती है, लेकिन जो इमेज मैंने दी वह शायद training range से बाहर थी, इसलिए सिर्फ अजीब समतल सतहें ही बनीं.
layer diffusion का उपयोग करके low-poly airship बनाया। अब यह उस स्तर तक पहुँच गया है कि game asset के रूप में इस्तेमाल किया जा सकता है.
केबल और प्लग की फोटो अपलोड करके अलग-अलग wires और सही holes वाला plug mesh बनाया.
Nix snowflake modeling बहुत खराब थी। लगता है इसे प्राकृतिक और जैविक संरचनाओं तथा textures पर ज्यादा train किया गया है.