1 पॉइंट द्वारा GN⁺ 2024-02-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें

INTRINSIC LoRA (I-LoRA) की छिपी हुई क्षमता की खोज

  • INTRINSIC LoRA (I-LoRA) VQGAN, StyleGAN-XL, StyleGAN-v2, Stable Diffusion जैसे जेनरेटिव मॉडलों की छिपी हुई क्षमताओं को उजागर करता है.
  • यह तरीका बिना किसी अतिरिक्त layer के, मॉडल के मौजूदा decoder का उपयोग करके सतह के मूल गुण जैसे normal, depth, albedo और shading निकालता है.

जेनरेटिव मॉडलों की अंतर्निहित समझ

  • जेनरेटिव मॉडल बेहद विस्तृत और यथार्थवादी इमेज synthesize करने में सक्षम हैं.
  • माना जाता है कि ये मॉडल surface normal, depth या shadow जैसी इमेज की intrinsic विशेषताओं को अप्रत्यक्ष रूप से सीखते हैं.
  • इस पेपर में मजबूत प्रमाण दिए गए हैं कि जेनरेटिव मॉडल वास्तव में अंदरूनी तौर पर उच्च-गुणवत्ता वाले scene intrinsic maps बनाते हैं.

INTRINSIC LoRA (I-LoRA) का परिचय

  • INTRINSIC LoRA (I-LoRA) एक सार्वभौमिक और plug-and-play तरीका प्रस्तुत करता है, जो किसी भी जेनरेटिव मॉडल को scene intrinsic predictor में बदल सकता है.
  • अतिरिक्त decoder या पूरे network की fine-tuning के बिना, मूल generator network से सीधे scene intrinsic maps निकाले जा सकते हैं.
  • यह तरीका core feature maps के low-rank adaptation (LoRA) का उपयोग करता है, जिसमें नए parameters पूरे जेनरेटिव मॉडल के कुल parameters के 0.6% से भी कम होते हैं.
  • इसे कम मात्रा में labeled images के साथ optimize किया जाता है, और यह Diffusion models, GANs और Autoregressive models सहित विभिन्न जेनरेटिव आर्किटेक्चर पर लागू किया जा सकता है.

विभिन्न जेनरेटिव मॉडलों में scene intrinsic extraction क्षमता का सारांश

  • इसमें यह संक्षेप में दिखाया गया है कि generator head बदले बिना भी विभिन्न जेनरेटिव मॉडलों से उच्च-गुणवत्ता वाली intrinsic विशेषताएँ निकाली जा सकती हैं.
  • ✓: intrinsic विशेषताएँ उच्च गुणवत्ता में निकाली जा सकती हैं.
  • ~: intrinsic विशेषताएँ मध्यम गुणवत्ता में निकाली जा सकती हैं.
  • ✗: intrinsic विशेषताएँ निकाली नहीं जा सकतीं.

I-LoRA का उपयोग करके intrinsic map generation की तुलना

  • augmented Stable Diffusion 2.1 का उपयोग करते हुए, इस विधि से बनाए गए intrinsic maps और समान ground truth के बीच तुलना को चित्र में दिखाया गया है.

GN⁺ की राय

  • INTRINSIC LoRA (I-LoRA) मौजूदा जेनरेटिव मॉडलों की संभावित क्षमताओं को एक नए स्तर तक विस्तारित करने वाला एक अभिनव दृष्टिकोण है.
  • यह शोध दिखाता है कि जेनरेटिव मॉडल केवल इमेज बनाना ही नहीं, बल्कि वास्तविक scenes की intrinsic विशेषताओं को भी समझते हैं, जिससे AI की visual understanding क्षमता पर नई अंतर्दृष्टि मिलती है.
  • यह तकनीक computer vision, graphics, AR/VR जैसे विभिन्न क्षेत्रों में उपयोग की क्षमता रखती है, इसलिए इस क्षेत्र के शोधकर्ताओं और developers के लिए यह बेहद दिलचस्प प्रगति है.

1 टिप्पणियां

 
GN⁺ 2024-02-25
Hacker News टिप्पणियाँ
  • Sora को लेकर उत्साही प्रतिक्रियाओं में से एक यह थी कि ऐसा लगता है मानो उसके भीतर भौतिक दुनिया का कोई simulation मौजूद हो। यह दिखाता है कि पर्दे के पीछे सिर्फ अलग-अलग वीडियो जोड़ने से कहीं अधिक काम हो रहा है।

    • मॉडल 3D scene render करना और उसकी तस्वीर लेना सीखते हैं। हैरानी की बात यह है कि हमने जानबूझकर 3D engine बनाने की कोशिश नहीं की, बल्कि images को linear algebra में डालकर optimize किया, और नतीजे में एक world simulator जैसा कुछ उभर आया।
  • नाम एक काल्पनिक game show से लिया गया है, जो 'Bojack Horseman' नाम के शो में आता है: 'Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!'

  • यह Unity High Definition Rendering Pipeline test project में G-buffer निकालने की कोशिश के अनुभव की याद दिलाता है।

    • यकीन नहीं है कि यह paper वास्तव में कुछ साबित कर रहा है या नहीं। एक विशाल UNET Lora model को train किया जा रहा है, इसलिए यह साफ नहीं है कि क्या मौजूदा model से कुछ "निकाला" जा रहा है, या बस एक नया model बनाया जा रहा है जो वे channels generate कर सके जो किसी deferred rendering pipeline से आने की उम्मीद हो।
  • image generation AI से परिचित न होने के कारण, paper को सरसरी तौर पर पढ़ा लेकिन समझना मुश्किल था।

    • इसमें कहा गया है कि I-LoRA बिना किसी अतिरिक्त layer के, model के मौजूदा decoder का इस्तेमाल करके normals, depth, albedo और shading जैसी scene की intrinsic properties निकालता है; इसका ठीक-ठीक मतलब क्या है, इसकी व्याख्या मांगी गई।
  • यह काफ़ी उल्लेखनीय है। मॉडल वास्तव में ऐसे representations सीख रहे हैं जिन्हें इंसान समझ सकता है; वे सिर्फ अरबों dimensions वाले किसी hyperplane में ऐसा जादू नहीं कर रहे जिसे हम decode ही न कर सकें।

  • यह research VR (या spatial computing) के लिए अच्छी खबर है। अगर model भौतिक दुनिया को अच्छी तरह समझता है, तो किसी scene के दो projections बनाना बहुत कठिन नहीं लगना चाहिए। आगे क्या आता है, इसे लेकर बहुत उत्साह है।

  • यह तकनीक वास्तविक images लेकर albedo और lighting का अनुमान लगा सकती है। किसी ने अनुरोध किया कि इसका उपयोग करके relightable Gaussian splatting scenes बनाए जाएँ। dynamic lighting, तस्वीरों से बने 3D scans की उपयोगिता को बहुत बढ़ा देगी, और अभी तक ऐसा कोई नतीजा नहीं देखा गया जिसे वास्तव में "अच्छा" कहा जा सके।

  • क्या यह images के लिए GPT है? एक generative model लिया जाता है, फिर LoRA के ज़रिए surface normals जैसे sub-tasks के लिए fine-tuning की जाती है, और निष्कर्ष निकाला जाता है कि ये models मूल रूप से ऐसी representations सीखते हैं। यह supervised approaches से बेहतर परिणाम दिखाता है।

  • शक नहीं है, लेकिन हमें कैसे पता कि normals maps वगैरह image generation कंपनियों द्वारा datasets में पहले से बड़ी मात्रा में शामिल नहीं किए गए थे?

    • यह paper ऐसे open source models के लिंक देता है जिनसे इसे verify किया जा सकता है, लेकिन यह भी संभव है कि अधिक उन्नत models में यही कोई गुप्त ingredient हो।
  • उदाहरण के लिए, normal maps कैसे प्राप्त किए जाते हैं? क्या AI image बनाने से पहले उन्हें generate करता है, और फिर उनकी internal state से उन्हें पढ़ लिया जाता है?