INTRINSIC LoRA (I-LoRA) की छिपी हुई क्षमता की खोज
- INTRINSIC LoRA (I-LoRA) VQGAN, StyleGAN-XL, StyleGAN-v2, Stable Diffusion जैसे जेनरेटिव मॉडलों की छिपी हुई क्षमताओं को उजागर करता है.
- यह तरीका बिना किसी अतिरिक्त layer के, मॉडल के मौजूदा decoder का उपयोग करके सतह के मूल गुण जैसे normal, depth, albedo और shading निकालता है.
जेनरेटिव मॉडलों की अंतर्निहित समझ
- जेनरेटिव मॉडल बेहद विस्तृत और यथार्थवादी इमेज synthesize करने में सक्षम हैं.
- माना जाता है कि ये मॉडल surface normal, depth या shadow जैसी इमेज की intrinsic विशेषताओं को अप्रत्यक्ष रूप से सीखते हैं.
- इस पेपर में मजबूत प्रमाण दिए गए हैं कि जेनरेटिव मॉडल वास्तव में अंदरूनी तौर पर उच्च-गुणवत्ता वाले scene intrinsic maps बनाते हैं.
INTRINSIC LoRA (I-LoRA) का परिचय
- INTRINSIC LoRA (I-LoRA) एक सार्वभौमिक और plug-and-play तरीका प्रस्तुत करता है, जो किसी भी जेनरेटिव मॉडल को scene intrinsic predictor में बदल सकता है.
- अतिरिक्त decoder या पूरे network की fine-tuning के बिना, मूल generator network से सीधे scene intrinsic maps निकाले जा सकते हैं.
- यह तरीका core feature maps के low-rank adaptation (LoRA) का उपयोग करता है, जिसमें नए parameters पूरे जेनरेटिव मॉडल के कुल parameters के 0.6% से भी कम होते हैं.
- इसे कम मात्रा में labeled images के साथ optimize किया जाता है, और यह Diffusion models, GANs और Autoregressive models सहित विभिन्न जेनरेटिव आर्किटेक्चर पर लागू किया जा सकता है.
विभिन्न जेनरेटिव मॉडलों में scene intrinsic extraction क्षमता का सारांश
- इसमें यह संक्षेप में दिखाया गया है कि generator head बदले बिना भी विभिन्न जेनरेटिव मॉडलों से उच्च-गुणवत्ता वाली intrinsic विशेषताएँ निकाली जा सकती हैं.
- ✓: intrinsic विशेषताएँ उच्च गुणवत्ता में निकाली जा सकती हैं.
- ~: intrinsic विशेषताएँ मध्यम गुणवत्ता में निकाली जा सकती हैं.
- ✗: intrinsic विशेषताएँ निकाली नहीं जा सकतीं.
I-LoRA का उपयोग करके intrinsic map generation की तुलना
- augmented Stable Diffusion 2.1 का उपयोग करते हुए, इस विधि से बनाए गए intrinsic maps और समान ground truth के बीच तुलना को चित्र में दिखाया गया है.
GN⁺ की राय
- INTRINSIC LoRA (I-LoRA) मौजूदा जेनरेटिव मॉडलों की संभावित क्षमताओं को एक नए स्तर तक विस्तारित करने वाला एक अभिनव दृष्टिकोण है.
- यह शोध दिखाता है कि जेनरेटिव मॉडल केवल इमेज बनाना ही नहीं, बल्कि वास्तविक scenes की intrinsic विशेषताओं को भी समझते हैं, जिससे AI की visual understanding क्षमता पर नई अंतर्दृष्टि मिलती है.
- यह तकनीक computer vision, graphics, AR/VR जैसे विभिन्न क्षेत्रों में उपयोग की क्षमता रखती है, इसलिए इस क्षेत्र के शोधकर्ताओं और developers के लिए यह बेहद दिलचस्प प्रगति है.
1 टिप्पणियां
Hacker News टिप्पणियाँ
Sora को लेकर उत्साही प्रतिक्रियाओं में से एक यह थी कि ऐसा लगता है मानो उसके भीतर भौतिक दुनिया का कोई simulation मौजूद हो। यह दिखाता है कि पर्दे के पीछे सिर्फ अलग-अलग वीडियो जोड़ने से कहीं अधिक काम हो रहा है।
नाम एक काल्पनिक game show से लिया गया है, जो 'Bojack Horseman' नाम के शो में आता है: 'Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!'
यह Unity High Definition Rendering Pipeline test project में G-buffer निकालने की कोशिश के अनुभव की याद दिलाता है।
image generation AI से परिचित न होने के कारण, paper को सरसरी तौर पर पढ़ा लेकिन समझना मुश्किल था।
यह काफ़ी उल्लेखनीय है। मॉडल वास्तव में ऐसे representations सीख रहे हैं जिन्हें इंसान समझ सकता है; वे सिर्फ अरबों dimensions वाले किसी hyperplane में ऐसा जादू नहीं कर रहे जिसे हम decode ही न कर सकें।
यह research VR (या spatial computing) के लिए अच्छी खबर है। अगर model भौतिक दुनिया को अच्छी तरह समझता है, तो किसी scene के दो projections बनाना बहुत कठिन नहीं लगना चाहिए। आगे क्या आता है, इसे लेकर बहुत उत्साह है।
यह तकनीक वास्तविक images लेकर albedo और lighting का अनुमान लगा सकती है। किसी ने अनुरोध किया कि इसका उपयोग करके relightable Gaussian splatting scenes बनाए जाएँ। dynamic lighting, तस्वीरों से बने 3D scans की उपयोगिता को बहुत बढ़ा देगी, और अभी तक ऐसा कोई नतीजा नहीं देखा गया जिसे वास्तव में "अच्छा" कहा जा सके।
क्या यह images के लिए GPT है? एक generative model लिया जाता है, फिर LoRA के ज़रिए surface normals जैसे sub-tasks के लिए fine-tuning की जाती है, और निष्कर्ष निकाला जाता है कि ये models मूल रूप से ऐसी representations सीखते हैं। यह supervised approaches से बेहतर परिणाम दिखाता है।
शक नहीं है, लेकिन हमें कैसे पता कि normals maps वगैरह image generation कंपनियों द्वारा datasets में पहले से बड़ी मात्रा में शामिल नहीं किए गए थे?
उदाहरण के लिए, normal maps कैसे प्राप्त किए जाते हैं? क्या AI image बनाने से पहले उन्हें generate करता है, और फिर उनकी internal state से उन्हें पढ़ लिया जाता है?