Lumiere: वास्तविक वीडियो जनरेशन के लिए स्पेस-टाइम डिफ्यूजन मॉडल

(lumiere-video.github.io)

1 पॉइंट द्वारा GN⁺ 2024-01-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

वीडियो जनरेशन में मुश्किल motion consistency को बेहतर बनाने के लिए, Google Research का Lumiere एक text-to-video diffusion model है जिसका लक्ष्य वास्तविक और विविध वीडियो synthesis करना है
इसका मुख्य हिस्सा Space-Time U-Net है, जो पहले दूर-दूर के keyframes बनाकर फिर interpolation करने के बजाय पूरे time interval को model के एक ही pass में generate करता है
यह spatial और temporal directions में downsampling और upsampling दोनों का उपयोग करता है, और pre-trained text-to-image diffusion model का लाभ उठाकर low-resolution full-frame-rate video सीधे बनाता है
डेमो text-to-video, image-to-video, stylized generation, video stylization, cinemagraph, और video inpainting तक, generation और editing tasks की व्यापक range को शामिल करता है
शुरुआती users भी visual content को flexible तरीके से बना सकते हैं, लेकिन fake/हानिकारक content के misuse की संभावना के कारण bias और malicious use detection भी साथ में जरूरी है

Lumiere का लक्ष्य और उपलब्ध सामग्री

Lumiere एक text-to-video diffusion model है, जो video synthesis में realism, diversity और motion की temporal consistency बढ़ाने पर केंद्रित है
project page पर paper और कई demo videos देखे जा सकते हैं
यह सिर्फ generation tasks ही नहीं, बल्कि video editing applications भी साथ में दिखाता है

पूरे time interval को एक बार में generate करने वाला structure

Lumiere Space-Time U-Net architecture पेश करता है, जो video की पूरी temporal length को model के एक ही pass में generate करता है
मौजूदा video models पहले दूर-दूर के keyframes synthesize करते हैं और फिर temporal super-resolution लागू करते हैं, इसलिए global temporal consistency बनाए रखना मुश्किल होता है
यह model spatial direction के साथ-साथ temporal direction में भी downsampling और upsampling लागू करता है
pre-trained text-to-image diffusion model का उपयोग करके यह कई spatio-temporal scales पर full-frame-rate low-resolution video सीधे generate करता है

टेक्स्ट और इमेज से वीडियो जनरेशन

Text-to-Video demo सिर्फ text prompt से video generate करता है
- उदाहरणों में पहाड़ की चोटी पर hiker, Mars base के आसपास astronaut, sunglasses पहने dog के driving scene, vanilla ice cream पर chocolate syrup डाले जाने का scene, fireworks, beach sunset timelapse आदि शामिल हैं
Image-to-Video demo input image और prompt के आधार पर video बनाता है
- उदाहरणों में striped shirt पहनी उदास बिल्ली, बर्फ में dance करता teddy bear, समुद्र में तैरता turtle, laptop इस्तेमाल करते हुए coffee पीता monkey, piano बजाती cat आदि शामिल हैं

Stylized generation और video editing

Stylized Generation एक single reference image का उपयोग करके target style का video generate करता है
इस प्रक्रिया में fine-tuned text-to-image model weights का उपयोग होता है
style reference के उदाहरणों में Sticker, 3D Melting Gold, Flat cartoon, 3D Rendering, Line drawing, Glowing, Watercolor painting आदि शामिल हैं
Video Stylization में text-based image editing method से consistent video editing की जा सकती है
- उदाहरण style prompts में “Made of wooden blocks”, “Origami folded paper art”, “Made of colorful toy bricks”, “Made of flowers” आदि शामिल हैं

Region-based animation और inpainting

Cinemagraphs feature image content में user द्वारा specify किए गए खास regions को ही animate कर सकता है
Video Inpainting demo masked original video को input के रूप में लेकर output video generate करता है
inpainting examples में outfit या accessories बदलने वाले prompts शामिल हैं
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

सामाजिक प्रभाव और सुरक्षा

Lumiere का मुख्य लक्ष्य novice users को visual content creative और flexible तरीके से generate करने में सक्षम बनाना है
यही technology fake या हानिकारक content बनाने में misuse होने का जोखिम भी रखती है
सुरक्षित और fair use के लिए bias और malicious use cases detect करने वाले tools develop और apply किए जाने चाहिए

1 टिप्पणियां

GN⁺ 2024-01-26

Hacker News राय

मुझे यह बहुत खलता है कि यह काम वैज्ञानिक शोध का खोल पहनाकर पेश किया जा रहा है
यह डींग, विज्ञापन और मार्केटिंग से ज़्यादा कुछ नहीं लगता, और इसमें कोई reproducible प्रक्रिया समझाई नहीं गई है
architecture diagram दूसरों को प्रेरित कर सकता है, लेकिन विज्ञान में सबसे अहम falsifiability नहीं देता
Google झूठ बोल रहा है या नहीं, यह जाँचने का कोई तरीका नहीं है, इसलिए मानकर चलना चाहिए कि सभी उदाहरण चुने हुए और post-processed हैं
model training data भी अवैध रूप से हासिल किया गया मानना चाहिए, और चूँकि Google अब बार-बार ऐसे दावे करता है जिन्हें सिद्ध नहीं किया जा सकता, इसलिए हमें extreme skepticism से शुरुआत करनी चाहिए
Bard की Gemini performance को GPT-4 से compare करें तो वह काफी पीछे है, और जिस video को model के साथ interaction बताया गया था, वह असल में वैसा नहीं था
किसी भी संगठन को ऐसे operate नहीं करना चाहिए, लेकिन Google खास तौर पर बहुत बड़ा repeat offender बन गया है
- ऐसा रवैया विज्ञान के लिए productive नहीं लगता
  अगर आप results पर भरोसा नहीं करते, तो claimed outputs को ignore करें और बस core ideas ले लें
  उनके तथाकथित विज्ञापन को invalidate करने के लिए बुरी नीयत assume करने की ज़रूरत नहीं है
  ऐसा रवैया मन को थोड़ा अच्छा महसूस करा सकता है, लेकिन दावों को राजनीतिक बना देता है, और अगर वे सच निकले तो असल में प्रगति धीमी कर देता है
  इतिहास में Google के कई papers में reproducible outputs बहुत कम थे, फिर भी वे अंततः उपयोगी technologies की बुनियाद बने
- जानकारी के लिए, data का उपयोग करके model train करना अपने-आप में अवैध नहीं है
  commercial gain के लिए model से वही ठीक वही data output करवाना अवैध है
  इस फर्क को जानबूझकर धुंधला किया जाता है, लेकिन इसे समझना ज़रूरी है
- उत्सुकता है कि उन्होंने Gemini Ultra तक access कैसे पाया
  या फिर वे Gemini Pro की बात कर रहे हैं, जिसकी तुलना GPT-3.5 से होती है?
- यह video लगभग निश्चित रूप से Google investors के लिए लगता है: “हम मरे नहीं हैं, और search भी नहीं मरा! नाचता हुआ भालू है!”
  फिर भी, अगर technology वैसी ही है जैसी advertise की गई है, तो यह बहुत impressive है
- चूँकि Google पहले ही AI demo manipulation में पकड़ा जा चुका है, इसलिए यह मानना उचित है कि उन्होंने झूठ बोला होगा या अच्छे दिखने वाले examples cherry-pick किए होंगे
  असली research दुनिया में, ऐसा करते पकड़े जाने पर आगे के काम ही नहीं, पिछले काम भी कड़ी जाँच के दायरे में आ जाते हैं
examples पहले देखी गई दूसरी techniques की तुलना में कहीं ज़्यादा consistent और लंबी continuity वाले हैं
दूसरे models के मुकाबले पैर ज़मीन पर कम फिसलते हैं
दूसरी तरफ, इंसानी चेहरे अच्छे नहीं लगे; जैसे Mona Lisa smile वाला scene
निजी तौर पर यह पहला ठीक-ठाक video generation model लगता है
edit: अभी देखा कि यह Google का काम है। तो फिर public release नहीं होगी
- अगर public release हुआ, तो एक हफ्ते के भीतर उस पर आधारित NSFW model Civitai पर आ जाएगा
- नहीं, researchers हमेशा की तरह इस research पर और काम जोड़ेंगे, और आखिरकार कोई company इस research सहित कई research results के आधार पर सफल product बनाएगी
  तब हम शिकायत कर रहे होंगे कि Google पीछे रह गया
  Google का बहुत सारी cutting-edge research को sponsor करना और publicly share करना काफी अच्छी बात है
  पता नहीं यह कितने समय तक चलेगा
- सोच रहा हूँ कि इस demo video के samples में से कितने सच में genuine हैं
  https://arstechnica.com/information-technology/2023/12/googl...
- आपने “Mona Lisa smile” कहा, लेकिन वह Leonardo da Vinci की "Mona Lisa"[1] नहीं, बल्कि Johannes Vermeer की "Girl with a Pearl Earring"[2] है
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
अभी उनके GitHub पर linked page के अलावा कुछ नहीं है
https://github.com/lumiere-video
उन्होंने शुरू में यह दावा नहीं किया था कि वहाँ कुछ होगा, लेकिन फिर भी मैंने check किया, और GitHub profile का link भी नहीं दिखा
hosted website URL देखकर खुद profile address type नहीं करना चाहने वालों के लिए link छोड़ रहा हूँ
- AI/machine learning में अक्सर दिखने वाला तरीका है: जो चीज़ release नहीं हुई, उसकी जानकारी GitHub पर डालकर कहना कि “GitHub पर है”
- बड़े language models ने अफसोस की बात है कि एक नया trend बना दिया
video inpainting दिलचस्प है
बच्चे हाल ही में SpongeBob के पुराने episodes देख रहे थे, और 4:3 aspect ratio काफी खटक रहा था
मैंने सोचा कि दोनों किनारों को inpaint करके 16:9 में वापस लाना एक दिलचस्प use case हो सकता है, लेकिन side से frame में आने वाली objects को handle करने के लिए शायद किसी तरह की preview-based fine-tuning की ज़रूरत होगी
- असल में यह TV और film industry में किसी के खरीदने लायक product जैसा लगता है
  fixed aspect-ratio video को बिना stretch किए या noticeable distortion के non-original size में dynamically adjust करना
  बस added edges का अनुमान इतना accurate होना चाहिए कि audience को पता न चले
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35mm) <-> 16:10 (tablet/desktop)
  नई film को classic black-and-white silent film जैसा दिखाकर उसे suitable frame देना भी संभव है
  किसी भी film को IMAX screen पर naturally काम करने के लिए fit किया जा सकता है
- क्या video को बस reverse में process नहीं कर सकते?
इन छोटे AI video generation samples की अजीब, डरावनी, सपने जैसी quality देखकर हमेशा अफसोस होता है कि papers Easter egg के तौर पर "dreaming of electric sheep" prompt कभी नहीं डालते
धत्, यह announcement 2–3 साल पहले होती तो shocking होती
सभी लोग ऐसी नई releases की बहुत तेज़ बौछार के आदी हो गए हैं, फिर भी यह कमाल है
ऐसी capability वाला software जल्द इस्तेमाल करना चाहता हूँ
edit: नहीं, यह तो Google का है। open source आने तक इंतज़ार करूँगा
पुराने images को modern datasets के साथ अक्सर मिलाया गया लगता है
अगर George Washington का portrait देकर “smiling man” prompt डालें, तो क्या [dentures][1] दिखेंगे, या एकदम सफेद दांत दिखेंगे?
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- ऐसे out-of-distribution data को तो स्वाभाविक रूप से prompt में देना पड़ेगा
  यह साफ नहीं है कि ऐसे models ने बड़े large language models की तरह facts का कोई विशाल world model बनाया है या नहीं; वे मुख्यतः यह समझ रहे हैं कि चीजें कैसे move करती हैं
  dataset में ज्यादातर लोग एकदम सफेद दांत दिखाते हैं, और Washington के मुंह का कोई video नहीं है, इसलिए जब तक आप चाही गई dentures को विस्तार से describe नहीं करते, वही default होगा, ऐसा लगता है
कुछ विचार: Google है, इसलिए शायद हमें इसे खुद इस्तेमाल करने का मौका नहीं मिलेगा
फिर भी idea बहुत दिलचस्प है. model को पहले video का एक छोटा, पूरे समय का representation generate करना सिखाया जाता है, फिर उसे time और pixels दोनों में upscale किया जाता है
मूल रूप से, अगर आपने पुराने models में depth map जोड़ते देखा है, तो यह एक और dimension में time map जोड़ने जैसा है
देखने में consistency काफी अच्छी है
awkwardness frame-by-frame consistency बनाए रखने में होने वाली आम failures से ज्यादा, इस बात में दिखती है कि model समय के साथ किसी object को “क्या करना चाहिए” यह कैसे decide करता है
Google researchers की बड़ी insight यह है कि consistency को ही condition, learn और generate किया जा सकता है, और फिर frames भरे जा सकते हैं
Stability जैसे कई model providers इसे पर्याप्त रूप से replicate कर पाएंगे, और इसमें कोई हिस्सा खास तौर पर impossible to implement नहीं दिखता
pixel-themed paper पर pixel-themed post है
काफी impressive है, और लगता है कि जल्द ही “एक paragraph से movie बनाओ” programs की बाढ़ आ जाएगी
Google का काम है, इसलिए बहुत संभावना है कि यह किसी box के अंदर बंद होकर ऐसा Rick and Morty tool बन जाए जिसे हम कभी न देख पाएं
authorship notation format पसंद आया
1,2,3,4,*,+ जैसी notation lead authors, संस्थागत affiliations और key contributors को अलग करने के लिए अच्छी है
astronomy और physics papers बहुत पढ़ने पर अक्सर 10 से ज्यादा authors होते हैं और बिल्कुल पता नहीं चलता कि किसने क्या किया
उदाहरण के लिए arXiv link में वैसा format नहीं दिखता
और यह सीधे abusive pornography में इस्तेमाल होने की बहुत संभावना रखता है
Walking Woman example का 5वां variant: “Wearing no clothing”
- सोचा नहीं था, लेकिन सही है. ऐसी technology से abusive pornography जल्द ही बहुत widespread हो जाएगी
  दुनिया के हर व्यक्ति के पास जल्द ही अपने चेहरे के साथ realistic explicit porn हो सकता है
इस साल पहली feature-length AI-generated film देखने को मिलेगी
अगर यह पागलपन लगता है, तो याद रखें कि cinema के शुरुआती दौर में भी average shot length 12 seconds थी, और आज यह सिर्फ 2.5 seconds है
generations के बीच subject consistency बनाए रखने जैसी कुछ अहम techniques को और polish करना होगा
लेकिन depth के हिसाब से layers अलग करके अधिक static images इस्तेमाल करने, या जहां ज्यादा depth चाहिए वहां textured simple 3D models बनाने जैसे मौजूदा तरीकों से कई inconsistencies भरी जा सकती हैं, ऐसा लगता है
पर्याप्त effort और skill हो तो current technology से भी यह संभव लगता है
- जैसे filmmakers अभी storyboard इस्तेमाल करते हैं, वैसे ही script और cinematography को refine करने के लिए movie के कई draft versions बनाते देखना आसानी से कल्पना किया जा सकता है
- “movie” क्यों बनानी है? एक storyline क्यों न बनाई जाए जिसमें viewer costumes अपनी मर्जी से बदल सके?
- लोग इससे जो बाकी सारे media उगलेंगे, उनकी तरह यह भी शायद पूरी तरह खराब ही होगा

Lumiere: वास्तविक वीडियो जनरेशन के लिए स्पेस-टाइम डिफ्यूजन मॉडल

Lumiere का लक्ष्य और उपलब्ध सामग्री

पूरे time interval को एक बार में generate करने वाला structure

टेक्स्ट और इमेज से वीडियो जनरेशन

Stylized generation और video editing

Region-based animation और inpainting

सामाजिक प्रभाव और सुरक्षा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय