1 पॉइंट द्वारा GN⁺ 2024-01-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

टेक्स्ट-वीडियो

  • Google Research टीम ने Lumiere नाम का एक टेक्स्ट-वीडियो diffusion model पेश किया है.
  • यह मॉडल यथार्थवादी, विविध और सुसंगत motion को व्यक्त करने वाले वीडियो synthesize करने पर केंद्रित है.
  • यह spatial-temporal U-Net architecture का उपयोग करके वीडियो के पूरे समयक्रम को एक साथ जनरेट करता है.

इमेज-वीडियो

  • Lumiere का उपयोग करके एक single reference image से target style का वीडियो बनाया जा सकता है.
  • यह fine-tuned text-image model weights का उपयोग करता है.

वीडियो stylization

  • Lumiere के जरिए मौजूदा text-based image editing methods को सुसंगत वीडियो editing में इस्तेमाल किया जा सकता है.

सिनेमाग्राफ

  • Lumiere model उपयोगकर्ता द्वारा दिए गए किसी विशेष क्षेत्र के भीतर image content को animate कर सकता है.

वीडियो inpainting

  • Lumiere model masked video की content को restore करके एक पूरा वीडियो बना सकता है.

लेखक और आभार

  • शोध टीम Google Research और कई विश्वविद्यालयों के सह-लेखकों से मिलकर बनी है.
  • टीम ने इंटर्नशिप के दौरान शोध में योगदान देने वाले लेखकों और सहयोग व समर्थन देने वाले विभिन्न लोगों के प्रति आभार व्यक्त किया है.

GN⁺ की राय:

  • Lumiere model वीडियो synthesis के क्षेत्र में एक महत्वपूर्ण प्रगति दिखाता है. यथार्थवादी और विविध motion वाले वीडियो जनरेट कर पाना content creators और वीडियो editors के लिए बहुत मददगार होगा.
  • यह तकनीक खासकर फिल्म और विज्ञापन उद्योग में visual storytelling को मजबूत करने और रचनात्मक अभिव्यक्ति का दायरा बढ़ाने में योगदान दे सकती है.
  • Lumiere का विकास इस बात का एक उदाहरण है कि AI-आधारित creative tools किस तरह रचनात्मक काम को बदल रहे हैं.

1 टिप्पणियां

 
GN⁺ 2024-01-26
Hacker News की राय
    • वैज्ञानिक शोध के नाम पर पेश किए गए इस काम से मुझे बहुत असहजता होती है। इसे सिर्फ शेख़ी, विज्ञापन और मार्केटिंग के रूप में ही समझाया जा सकता है। कोई पुनरुत्पादित किया जा सकने वाला प्रोसेस नहीं बताया गया है, और आर्किटेक्चर डायग्राम प्रेरणादायक हो सकते हैं, लेकिन वे वैज्ञानिक प्रयास के सबसे महत्वपूर्ण पहलू, यानी खंडन की संभावना, की अनुमति नहीं देते। यह जाँचने का कोई तरीका नहीं है कि Google झूठ बोल रहा है या नहीं, इसलिए मान लेना चाहिए कि सारे उदाहरण चुनकर लिए गए हैं और उन पर post-processing की गई है। यह भी मान लेना चाहिए कि मॉडल को train करने में इस्तेमाल किया गया डेटा अवैध रूप से हासिल किया गया था। अब Google नियमित रूप से ऐसे दावे करता है जिन्हें साबित नहीं किया जा सकता, इसलिए शुरुआत ही चरम संदेहवाद से करनी चाहिए। उदाहरण के लिए, Bard में Gemini का प्रदर्शन GPT-4 की तुलना में काफ़ी कमज़ोर है। जब उन्होंने मॉडल के साथ interaction दिखाने वाला वीडियो जारी किया था, तब वास्तव में ऐसा कुछ हुआ ही नहीं था।
    • उदाहरण पहले देखी गई तकनीकों की तुलना में काफ़ी ज़्यादा सुसंगत और लंबे लगते हैं। दूसरे models की तुलना में पैरों का फ़र्श पर फिसलना बहुत कम दिखता है। दूसरी तरफ, इंसानी चेहरे अच्छे नहीं लगते। उदाहरण के लिए, मुस्कुराती हुई Mona Lisa। यह पहला सचमुच अच्छा video generation model लगता है। संशोधन: अभी पता चला कि यह Google ने बनाया है, इसलिए शायद यह कभी जारी नहीं होगा।
    • उनके GitHub पर अभी लिंक किए गए पेज के अलावा कुछ भी नहीं है। उन्होंने कभी यह दावा भी नहीं किया कि वे इसे जारी करेंगे। फिर भी मुझे देखना पड़ा, और GitHub profile की ओर जाता कोई लिंक नहीं दिखा। जो लोग hosted website URL को हाथ से टाइप नहीं करना चाहते, उनके लिए मैं यहाँ लिंक साझा कर रहा हूँ।
    • video inpainting दिलचस्प है। हाल ही में बच्चे पुराने SpongeBob episodes देख रहे थे, और 4:3 aspect ratio चौंकाने वाला लगा। 16:9 aspect ratio में वापस लाने के लिए किनारों की बॉर्डर को inpaint करना एक दिलचस्प use case हो सकता है। लेकिन ऐसा लगता है कि साइड से आने वाली वस्तुओं के लिए किसी तरह की foresight चाहिए होगी।
    • इन छोटे AI video generation samples की अजीब और स्वप्न-जैसी प्रकृति की वजह से, मुझे हमेशा निराशा होती है कि ऐसे papers में easter egg के तौर पर 'electric sheep का सपना देखते हुए' जैसा prompt शामिल नहीं होता।
    • अगर यह घोषणा सिर्फ 2-3 साल पहले आई होती, तो यह सचमुच चौंका देती। हम सब इस बात के आदी हो गए हैं कि ऐसे नए products बहुत तेज़ी और बार-बार आते हैं, लेकिन फिर भी यह मुझे हैरान करता है। मैं उस दिन का इंतज़ार नहीं कर सकता जब हमारे पास ऐसी क्षमता वाला software होगा। संशोधन: क्योंकि यह Google ने बनाया है, मैं open source रिलीज़ होने तक इंतज़ार करूँगा।
    • लगता है कि वे अक्सर पुरानी images को आधुनिक datasets के साथ मिलाते हैं। अगर आप George Washington के portrait के साथ "मुस्कुराता हुआ आदमी" माँगें, तो क्या उसके दाँतों में dentures दिखेंगे, या सफ़ेद दाँत दिखाई देंगे?
    • कुछ टिप्पणियाँ: क्योंकि यह Google का है, हम इसे खुद इस्तेमाल नहीं कर पाएँगे। फिर भी विचार बहुत दिलचस्प है -- मॉडल को train किया जाए कि वह वीडियो का एक छोटा global time representation बनाए, और फिर समय और pixels दोनों के लिए उसे upscale करे। मैंने ऐसे models देखे हैं जो depth maps जोड़ते हैं, लेकिन यह model 'time map' को एक अतिरिक्त dimension के रूप में जोड़ता है। consistency काफ़ी अच्छी लगती है। ज़्यादा अटपटापन इस बात में दिखता है कि मॉडल समय के साथ क्या 'करना' है, यह कैसे तय करता है। Google के लोगों की बड़ी insight यह है कि consistency को अपने-आप में एक ऐसी चीज़ माना जा सकता है जिसे condition किया जाए, train किया जाए और generate किया जाए। ऐसा लगता है कि Stability जैसे दूसरे model providers इसे दोहरा सकते हैं; इसमें कुछ भी ऐसा नहीं दिखता जिसे लागू न किया जा सके।
    • pixel theme वाली पोस्ट के लिए pixel theme वाला paper। काफ़ी प्रभावशाली है, और शायद जल्द ही "एक पैराग्राफ़ से फ़िल्म बनाओ" प्रोग्रामों की भारी भीड़ शुरू कर देगा। क्योंकि यह Google का है, शायद इसे डिब्बे में बंद करके रख दिया जाएगा और यह Rick and Morty के किसी ऐसे gadget जैसा बन जाएगा जिसे हम कभी देख ही नहीं पाएँगे। लेखकों की सूची का फ़ॉर्मैट शानदार है। मुख्य लेखक, संस्थागत संबद्धता, और प्रमुख योगदानकर्ताओं के लिए 1,2,3,4,*,+ वाला notation अच्छा लगा। मैंने 10 से ज़्यादा लेखकों वाले बहुत से astronomy और physics papers पढ़े हैं, लेकिन कभी पता नहीं चलता कि किसने क्या किया। उदाहरण के लिए, arXiv लिंक ऐसा मिलता-जुलता फ़ॉर्मैट नहीं दिखाता। संभव है कि इसका तुरंत दुरुपयोग अश्लील porn में हो। चलती हुई महिला का उदाहरण: (5वाँ variant) "बिना कपड़ों के"
    • इस साल हम पहली feature-length AI-generated फ़िल्म देखेंगे। अगर आपको लगता है कि मैं पागल हूँ, तो यह भी सोचिए कि सिनेमा के शुरुआती दौर में औसत shot length 12 सेकंड थी और आज यह सिर्फ 2.5 सेकंड है। कुछ महत्वपूर्ण तकनीकों को और परिष्कृत करना होगा, जैसे पीढ़ियों के बीच एक सुसंगत theme बनाए रखना, लेकिन कई असंगतियों की भरपाई मौजूदा तरीकों से की जा सकती है, जैसे depth के हिसाब से layers को अलग करके ज़्यादा स्थिर images का इस्तेमाल करना, या जहाँ अधिक depth चाहिए वहाँ textured simple 3D models बनाना। पर्याप्त मेहनत और कौशल वाला कोई व्यक्ति मौजूदा तकनीक से भी यह कर सकता है।