4 पॉइंट द्वारा GN⁺ 2024-07-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • टेक्स्ट से 3D एसेट बनाने के लिए एक नई अत्याधुनिक तेज़ पाइपलाइन
  • 3DGen उच्च prompt fidelity और बेहतरीन गुणवत्ता वाले 3D shape और texture को 1 मिनट के भीतर जनरेट कर सकता है
  • यह real-world applications में 3D एसेट की relighting के लिए आवश्यक PBR(physics-based rendering) को सपोर्ट करता है
  • पहले से जनरेट किए गए (या कलाकार द्वारा बनाए गए) 3D shape की material appearance को उपयोगकर्ता द्वारा अतिरिक्त रूप से दिए गए टेक्स्ट इनपुट के माध्यम से generatively बदला जा सकता है
  • 3DGen, टेक्स्ट-से-3D और टेक्स्ट-से-texture generation के लिए विकसित Meta 3D AssetGen और Meta 3D TextureGen नामक मुख्य तकनीकी घटकों को एकीकृत करता है
  • इन दो तकनीकों को मिलाकर, 3DGen 3D objects को view space, volume space, और UV (या texture) space में एक साथ 3 तरीकों से प्रस्तुत करता है
  • इसने single-stage model की तुलना में 68% win rate हासिल की
  • 3DGen prompt fidelity और जटिल टेक्स्ट prompts के लिए visual quality के मामले में industry benchmarks से बेहतर है, और साथ ही कहीं अधिक तेज़ भी है
संबंधित शोधपत्र
Meta 3D AssetGen: उच्च-गुणवत्ता geometry, texture और PBR materials के साथ text-to-mesh generation
  • AssetGen, texture और material control के साथ faithful और उच्च-गुणवत्ता mesh जनरेशन के जरिए text-to-3D generation में एक महत्वपूर्ण प्रगति है
  • 3D objects की appearance में shading को bake करने वाले कामों की तुलना में, AssetGen ऐसे PBR materials आउटपुट करता है जो वास्तविक relighting को सपोर्ट करते हैं
  • AssetGen पहले factored shading और albedo appearance channels के साथ object के कई views जनरेट करता है, फिर efficient supervision के लिए deferred shading loss का उपयोग करके 3D में color, metallicity और roughness का पुनर्निर्माण करता है
  • यह signed distance function का उपयोग करके 3D shape को अधिक स्थिर रूप से प्रस्तुत करता है और direct shape supervision के लिए संबंधित loss भी पेश करता है
  • mesh extraction के बाद UV space में काम करने वाला texture refinement transformer sharpness और details को काफी बेहतर बनाता है
  • AssetGen ने few-view reconstruction के लिए सर्वोत्तम concurrent work की तुलना में Chamfer distance में 17% और LPIPS में 40% सुधार हासिल किया, और PBR को सपोर्ट करने वाले समान गति के सर्वश्रेष्ठ औद्योगिक प्रतिस्पर्धी की तुलना में 72% human preference प्राप्त की
Meta 3D TextureGen: 3D objects के लिए तेज़ और सुसंगत texture generation
  • text-image models की हालिया उपलब्धता और अनुकूलन क्षमता ने texture generation जैसे कई संबंधित क्षेत्रों में एक नए युग की शुरुआत की है
  • हालिया texture generation methods, text-image networks का उपयोग करके प्रभावशाली परिणाम हासिल करते हैं, लेकिन global consistency, quality और speed का संयोजन texture generation को वास्तविक अनुप्रयोगों तक ले जाने के लिए महत्वपूर्ण है
  • मनमानी geometry के लिए 20 सेकंड से कम समय में उच्च-गुणवत्ता वाले और globally consistent textures जनरेट करने हेतु दो sequential networks से बना एक नया feed-forward method, Meta 3D TextureGen, प्रस्तुत किया गया है
  • 3DGen, 2D space में 3D semantics पर text-image model को condition करके और उसे पूर्ण, high-resolution UV texture maps में fuse करके quality और speed दोनों में state-of-the-art परिणाम हासिल करता है
  • साथ ही, एक texture superresolution network भी पेश किया गया है, जो textures को मनचाहे अनुपात तक upscale करके 4k pixel resolution textures बना सकता है
GN+ की राय
  • 3DGen, 3D एसेट generation के क्षेत्र में एक क्रांतिकारी प्रगति प्रतीत होता है। टेक्स्ट prompts के आधार पर उच्च-गुणवत्ता वाले 3D models को तेज़ी से जनरेट करने वाली यह तकनीक गेम, फ़िल्म, डिज़ाइन जैसे कई क्षेत्रों में उपयोगी हो सकती है
  • खास तौर पर PBR materials का सपोर्ट और पहले से बने 3D models की textures को बदलने की क्षमता, इसके वास्तविक उपयोग को बढ़ा सकती है
  • हालांकि, टेक्स्ट prompt के अर्थ को सटीक रूप से समझकर इच्छित 3D model जनरेट करना अब भी एक कठिन चुनौती रहेगा। इसके साथ prompt engineering तकनीकों के विकास की भी आवश्यकता लगती है
  • यह देखना दिलचस्प होगा कि 3D modeling क्षेत्र के विशेषज्ञ इस तकनीक का उपयोग कैसे करेंगे और इसका रचनात्मक अभिव्यक्ति पर क्या प्रभाव पड़ेगा। मौजूदा 3D modeling tools के साथ इसकी भिन्नता, फायदे और सीमाओं की तुलना भी आवश्यक लगती है
  • Nvidia के GET3D, Luma Lab के Imagine 3D जैसे समान सुविधाएँ देने वाले अन्य समाधान भी मौजूद हैं। performance और usability के लिहाज़ से इनके बीच क्या फायदे-नुकसान हैं, इसका तुलनात्मक विश्लेषण आवश्यक है
  • 3D model generation तकनीक के विकास से जब कोई भी आसानी से अपनी पसंद का 3D model बना सकेगा, तब 3D models के copyright, दुरुपयोग की संभावना जैसे नए मुद्दे उभर सकते हैं। इस पर सामाजिक चर्चा और सहमति बनाना आवश्यक लगता है

1 टिप्पणियां

 
GN⁺ 2024-07-03
Hacker News की राय
  • एक उपयोगकर्ता generative AI के एक प्रमुख पहलू के रूप में 3D modeling की प्रगति को सकारात्मक रूप से देखता है, और खास तौर पर VR assets बनाने की कठिनाई का उल्लेख करता है

    • वह इस संभावना में रुचि रखता है कि AI text, photo, LIDAR जैसे inputs के माध्यम से ऐसे models बना सके जिन्हें real-world items को 3D print करने के लिए इस्तेमाल किया जा सके
  • एक अन्य उपयोगकर्ता का कहना है कि VR content बनाना बहुत अधिक श्रम-साध्य है, और उसे उम्मीद है कि 3D model generation tools metaverse के प्रमुख उत्प्रेरक बनेंगे

  • एक और उपयोगकर्ता का आकलन है कि हाल की text/image-to-3D model services ने सभी ने बेकार नतीजे दिए हैं

  • एक उपयोगकर्ता कहता है कि PBR texturing pipeline का उपयोग करके पूरे system को चलाना बेहद प्रभावशाली है

    • वह सोचता है कि SDFs (signed distance fields) का उपयोग क्या खराब topology का कारण बन सकता है
    • वह एक ऐसे paper का उल्लेख करता है जो game-ready topology बनाता है, और मानता है कि animation के लिए rigging संभव होगी
  • एक अन्य उपयोगकर्ता कहता है कि wireframe की कमी से ही पता चलता है कि topology अच्छी नहीं है

  • एक उपयोगकर्ता इसे digital रूप में reality को पुनर्निर्मित करने की दिशा में एक और अग्रणी कदम मानता है

    • उसका मानना है कि अगर यह किसी व्यक्ति की स्थिति पर प्रतिक्रिया दे सके, तो सुरक्षित environment में ऐसे scenarios सीखे जा सकते हैं जिन्हें वास्तविक दुनिया में संभालना मुश्किल है
    • वह कहता है कि virtual world में सीखे गए सबक के आधार पर कोई नए जन्म की तरह real world में बाहर आ सकता है
  • एक और उपयोगकर्ता को उम्मीद है कि सरल 3D-to-3D conversion जल्द संभव होगा

    • वह इसके जरिए पुराने games के mesh और textures को upscale करना चाहता है
  • एक उपयोगकर्ता कल्पना करता है कि अगर किसी artist का input हो, तो generated models को बाद में edit किया जा सकता है या शुरुआती बिंदु के रूप में इस्तेमाल किया जा सकता है

    • या फिर PS1 filter लागू करके retro games बनाए जा सकते हैं
  • उसका आकलन है कि Meta 3D Gen, VR applications के लिए 3D content generation में एक महत्वपूर्ण प्रगति को दर्शाता है

    • उसका मानना है कि text input से detailed 3D models बनाने की क्षमता content creation process को काफी छोटा कर सकती है
    • लेकिन वह यह भी कहता है कि मौजूदा तकनीक के लिए high-quality detailed geometry बनाना अब भी एक चुनौती है
    • PBR texturing का integration आशाजनक है, लेकिन असली सवाल यह है कि models को वास्तविक applications में कितना अच्छी तरह refine और उपयोग किया जा सकता है
  • अंत में, एक उपयोगकर्ता कहता है कि वह neural networks का उपयोग करने वाली Screened Poisson surface reconstruction के किसी वैकल्पिक तकनीक को देखना चाहता है

    • वह कहता है कि उसने MeshAnything देखा है, लेकिन वह अंतिम लक्ष्य नहीं है