3 पॉइंट द्वारा GN⁺ 2024-08-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • एक single image से सिर्फ 0.5 सेकंड में high-quality 3D assets जनरेट करता है
  • TripoSR पर आधारित है। इसमें बड़े architectural improvements और enhanced features हैं
  • यह सिर्फ game और virtual reality developers के लिए ही नहीं, बल्कि retail, architecture, design और अन्य graphics-intensive professions के professionals के लिए भी उपयोगी है
  • मॉडल Hugging Face पर उपलब्ध है और Stability AI Community License के तहत जारी किया गया है
  • Stability AI API और Stable Assistant chatbot में मॉडल को आसानी से access किया जा सकता है, और 3D viewer के जरिए 3D creations को share करके augmented reality में इस्तेमाल करके देखा जा सकता है
  • free trial के साथ इसे आज़माया जा सकता है

यह कैसे काम करता है

  • उपयोगकर्ता किसी object की एक single image upload करके शुरुआत करता है
  • Stable Fast 3D, UV unwrapped mesh, material parameters, कम की गई lighting वाला albedo color आदि सहित एक पूरा 3D asset तेज़ी से जनरेट करता है
  • विकल्प के तौर पर quad या triangle reconstruction किया जा सकता है, जिससे processing time में केवल 100-200ms अतिरिक्त जुड़ता है

उपयोग के मामले

  • pre-production के दौरान, जहाँ experimentation महत्वपूर्ण होता है, वहाँ fast inference time का लाभ
  • games के लिए static assets (background objects, clutter, furniture)
  • e-commerce के लिए 3D models
  • AR/VR के लिए तेज़ model generation

जब speed और quality मिलते हैं

  • कई प्रमुख क्षेत्रों में प्रतिस्पर्धियों की तुलना में बेहतर performance
  • 7GB VRAM वाले GPU पर प्रति 3D asset generation केवल 0.5 सेकंड की तेज़ गति
  • high-quality UV unwrapped mesh और material parameters
  • texture में lighting entanglement कम
  • अतिरिक्त material parameters और normal map generation संभव

अनुसंधान और विकास

  • TripoSR पर आधारित है, लेकिन इसमें पूरी तरह retrained model और महत्वपूर्ण architectural changes शामिल हैं
  • सुधारों में explicit mesh generation और fast textured mesh generation के लिए नई techniques शामिल हैं
  • technical report में बताया गया है कि कम baked lighting और material parameters के साथ तेज़ inference speed कैसे हासिल की गई

उपलब्धता

  • Stable Fast 3D मॉडल code Github और Hugging Face पर उपलब्ध है
  • Stability AI Community License के तहत non-commercial use और सालाना अधिकतम $1M revenue तक commercial use की अनुमति है
  • API और Stable Assistant के जरिए मॉडल को access किया जा सकता है

GN⁺ की राय

  • यह 3D model generation technology एक दिलचस्प तकनीक है, क्योंकि इसका उपयोग game, virtual/augmented reality, design, architecture आदि कई क्षेत्रों में किया जा सकता है। खासकर एक single image से high-quality 3D assets को तेज़ी से जनरेट करना productivity बढ़ाने में मददगार हो सकता है।
  • हालांकि, ऐसे AI-based models के सक्रिय होने से graphic designers या modelers जैसे skilled professionals की नौकरियों पर असर पड़ सकता है। इसकी वजह यह है कि पहले हाथ से बनाए जाने वाले 3D assets अब automated हो सकते हैं। AI के लिए इंसानों को पूरी तरह replace करना मुश्किल है, लेकिन कुछ भूमिकाओं का दायरा कम होना लगभग तय लगता है।
  • इसके अलावा, जनरेट किए गए 3D models के copyright मुद्दों पर भी विचार होना चाहिए। training में इस्तेमाल की गई images के लिए उचित compensation या credit दिया जाना चाहिए। AI-generated content के लिए कानूनी regulation और guidelines की ज़रूरत दिखती है।
  • इसी तरह की technologies में Nvidia Instant Nerf और Epic Games की RealityScan शामिल हैं। ये photo या scan के जरिए 3D models जनरेट करने की सुविधा देते हैं। game engines के साथ उच्च compatibility इनकी ताकत है। हालांकि Stable Fast 3D की तरह एक single image से high-quality परिणाम देने की speed अभी इनके पास कम लगती है।
  • कुल मिलाकर, Stable Fast 3D अपनी तेज़ speed और quality के बल पर game, XR और 3D graphics क्षेत्रों में productivity बढ़ाने में योगदान देता दिखता है। हालांकि, ethical और legal issues पर सामाजिक सहमति बनाने की प्रक्रिया साथ-साथ चलनी चाहिए।

1 टिप्पणियां

 
GN⁺ 2024-08-02
Hacker News की राय
  • LLMs को लेकर बहुत उम्मीदों के बावजूद, image generation और graphic assets फिलहाल AI के दीर्घकालिक विजेता बनने की सबसे अधिक संभावना रखते हैं

    • "hallucination" bug नहीं बल्कि feature है
    • जटिल statistical tests के बिना भी अवास्तविक और पक्षपाती output आसानी से देखा जा सकता है
    • human intuition मूल्यांकन में उपयोगी है, और text generation models के विपरीत इसका ज़रूरत से ज़्यादा आकलन नहीं किया जाता
    • lossy या noisy methods भी कई तरह के creative कामों में उपयोगी हो सकते हैं
    • पूर्णता ज़रूरी नहीं है, और विकृत विशेषताओं को आसानी से देखकर सुधारा जा सकता है
    • consistency ज़रूरी नहीं है, लेकिन अगर consistency आ जाए तो video जैसे applications में बहुत बड़ा मूल्य दे सकती है
    • LoRA जैसी techniques से गैर-विशेषज्ञ users भी आसानी से specific character, style या concept models को train कर सकते हैं
    • image/visual generation models पिछले 1 साल में काफ़ी बेहतर हुए हैं, और इनकी प्रगति text models की तुलना में धीमी नहीं हुई है
    • भविष्य photographers, film directors आदि के पूर्ण प्रतिस्थापन का नहीं, बल्कि AI-आधारित शक्तिशाली tools की एक पीढ़ी का होगा
    • कुछ text prompts से image में concepts जोड़ने या हटाने वाले tools बहुत उपयोगी हैं
    • 90 के दशक के Photoshop की तरह एक नई शक्तिशाली user generation उभर रही है
  • तीसरी test image में, सभी 3D AI ऐसे लगे जैसे वे 3D model की 2D rendering हों

    • cell-shading image से test किया गया, और model output बहुत सपाट था तथा topology खराब थी
    • सही shadows न होने पर normal vectors को फिर से calculate नहीं किया जा सकता, इसलिए लगता है कि यह संरचना को समझ नहीं पाता
    • यह स्पष्ट करना अच्छा होगा कि किस input set पर उचित परिणाम मिलने की उम्मीद की जा सकती है
  • अभी पूरी तरह perfect नहीं है, लेकिन काफ़ी शानदार है

    • इसे मुख्य asset के बजाय, मुख्य scene में जटिलता जोड़ने वाले low-effort decoration के रूप में इस्तेमाल किया जा सकता है
    • ऐसी स्थितियों में इस्तेमाल किया जा सकता है जहाँ 2D billboard imposters उपयुक्त न हों
    • Midjourney, Bing, Dalle3 से image बनाकर drag-and-drop करने पर आश्चर्यजनक रूप से अच्छा 3D presentation मिल सकता है
    • ऐसे 3D scene decoration के रूप में इस्तेमाल किया जा सकता है जहाँ camera पीछे का हिस्सा नहीं देखता
  • इस तकनीक के बेहतर होने का इंतज़ार नहीं हो रहा

    • test results उपयोगी नहीं हैं
    • image output से खराब models को ठीक करने में और ज़्यादा काम करना पड़ता है
    • ऐसा लगता है कि बेहतर होगा कि धीरे-धीरे उच्च गुणवत्ता वाला final product पाने के लिए कई steps से गुज़रा जाए
    • हो सकता है मैं इसका use case समझ नहीं पा रहा हूँ
  • 7GB VRAM के साथ GPU पर 3D assets बनाने में 0.5 सेकंड लगते हैं

    • लगा था कि यह सिर्फ data center के लिए बना model होगा, लेकिन 7GB VRAM से संकेत मिलता है कि यह ऐसे hardware पर चल सकता है जो कई 3D artists के पास पहले से है
  • उम्मीद है कि यह क्षेत्र सचमुच अच्छे परिणाम देगा

    • HuggingFace demo में image drag करके आज़मा सकते हैं
    • cat image पर यह अच्छा काम नहीं कर पाया, लेकिन iPhone image पर काफ़ी अच्छा था
    • pancake image पर प्रभावशाली था, और rocket image पर बहुत खराब
    • billiard ball image पर फिर से प्रभावशाली था
  • मैं इस तकनीक से बहुत सी मज़ेदार चीज़ें 3D print करने की योजना बना रहा हूँ

  • लगता है कि तुलना वाले image को desaturate करके उसे बेहतर दिखाने वाली classic infomercial tactic का इस्तेमाल किया गया है

  • project page पर model के साथ interact किया जा सकता है

  • यह miniature painting के लिए मेरे उत्साह को जगा देता है