- Hunyuan3D 2.0 हाई-रेज़ोल्यूशन टेक्सचर वाले 3D asset बनाने के लिए एक बड़े पैमाने का 3D synthesis सिस्टम है
- दो मुख्य घटक:
- Hunyuan3D-DiT: बड़े पैमाने का shape generation मॉडल, जो एक scalable flow-based diffusion transformer पर बनाया गया है और विशेष condition images के अनुरूप geometry बनाकर एक स्थिर आधार प्रदान करता है
- Hunyuan3D-Paint: मजबूत geometry और diffusion prior knowledge का उपयोग करके generated mesh या handcrafted mesh के लिए हाई-रेज़ोल्यूशन और जीवंत texture maps बनाता है
- Hunyuan3D-Studio एक ऐसा प्लेटफ़ॉर्म है जो 3D assets की recreation प्रक्रिया को आसान बनाता है, जिससे experts और amateurs दोनों mesh को कुशलतापूर्वक manipulate या animate कर सकते हैं
- Hunyuan3D 2.0 मौजूदा open source और proprietary models की तुलना में बेहतर प्रदर्शन दिखाता है: geometry detail, condition alignment, texture quality आदि में
Hunyuan3D 2.0
आर्किटेक्चर
- दो-चरणीय generation pipeline: mesh generation के बाद texture map synthesis
- shape और texture generation की कठिनाइयों को अलग करता है, और generated mesh या handcrafted mesh पर लचीला texturing प्रदान करता है
प्रदर्शन
- Hunyuan3D 2.0 अन्य open source और proprietary 3D generation methods की तुलना में बेहतर प्रदर्शन दिखाता है
- CMMD, FID_CLIP, FID, CLIP-score में सभी benchmarks को पार करता है
प्री-ट्रेंड मॉडल
- Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B parameters
- Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B parameters
- Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B parameters
API उपयोग
- Hunyuan3D-DiT और Hunyuan3D-Paint models के उपयोग के लिए diffusers-जैसी API design
- Hunyuan3D-DiT के माध्यम से mesh generation संभव
- Hunyuan3D-Paint के माध्यम से texture synthesis संभव
Gradio app
- Gradio app के माध्यम से personal computer पर host किया जा सकता है
📑 ओपन सोर्स योजना
- inference code, model checkpoints, technical report, ComfyUI, TensorRT version शामिल
1 टिप्पणियां
Hacker News की राय
3D mesh model से जुड़े सवालों में इस बात पर चर्चा है कि क्या photogrammetry के लिए उपयुक्त कोई model है। उच्च-गुणवत्ता वाली तस्वीरें, consistent lighting, और एकरंगी background इस्तेमाल करने के बावजूद, सामान्य applications कम polygon वाले या बहुत-से छेद वाले mesh बनाते हैं.
एक राय यह है कि generative AI 3D interactive content बनाने की सीमांत लागत को 0 तक ला देगा। इससे metaverse को सक्रिय करने की क्षमता हो सकती है.
Tencent Hunyuan 3D 2.0 का license European Union, UK, और South Korea में लागू नहीं होता.
एक diagram में दिखाया गया है कि mesh marching cubes algorithm से बनता है, लेकिन राय यह है कि वास्तव में यह किसी और तरीके से बनाया गया लगता है.
यह सवाल भी है कि क्या AI model को घर पर चलाया जा सकता है। उदाहरण के लिए, क्या यह 4090 graphics card पर चल सकता है, इस पर चर्चा है.
एक राय है कि जिस चीज़ में "advanced" शब्द शामिल हो, वह अच्छी होती है.
user-generated content systems को "penis problem" जैसी समस्या का सामना करना पड़ सकता है.
एक राय यह है कि generative models पर भरोसा करें, लेकिन verify भी करें। खुद आज़माना महत्वपूर्ण है.
Huggingface page पर लिंक किए गए model को आज़माया गया, लेकिन overuse error की वजह से test नहीं किया जा सका। परिणाम काफ़ी अच्छे लगते हैं.
लंबे prompts की ज़रूरत पड़ती है, जो संदेह पैदा कर सकती है। वास्तविक इस्तेमाल कितना कठिन है, यह जानने के लिए इसे सरल prompts के साथ आज़माया गया.
"guitar" prompt का नतीजा थोड़ी मोटी guitar के रूप में आया, और "monstera leaf" prompt का नतीजा कुछ अजीब आकार में दिखा.
"Super Mario" character prompt का नतीजा संदिग्ध है। Luigi को Mario से अलग दिखना चाहिए, लेकिन ऐसा नहीं है.
"Peach" prompt का नतीजा हँसी पैदा करता है। यह प्यारे चेहरे वाले एक peach के रूप में दिखता है.
"Toad" prompt का नतीजा एक विकृत Squirtle जैसा दिखता है.
paper arXiv पर उपलब्ध है। generative models बहुत-से data पर train होते हैं, और इन्हें database जैसी interface की ज़रूरत पड़ सकती है.
3D printing के functional objects के लिए अनुकूलित model की कल्पना की जा सकती है.