Google DeepMind Veo - सबसे शक्तिशाली जनरेटिव वीडियो मॉडल

(deepmind.google)

11 पॉइंट द्वारा GN⁺ 2024-05-15 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Veo अब तक का सबसे शक्तिशाली वीडियो जनरेशन मॉडल है।
यह उच्च-गुणवत्ता वाले 1080p resolution के वीडियो 1 मिनट से अधिक समय तक बना सकता है।
यह विभिन्न cinematic और visual styles को सपोर्ट करता है।
यह prompt की nuance और tone को सटीक रूप से समझता है, और creative control प्रदान करता है।
यह time-lapse या landscape के aerial shot जैसे cinematic effects को समझता है।
यह वीडियो प्रोडक्शन को सभी के लिए अधिक सुलभ बनाने में मदद करता है।
यह अनुभवी फिल्ममेकर, creator, educator आदि के लिए नई संभावनाएँ खोलता है।
इसकी कुछ क्षमताएँ VideoFX नामक एक नए experimental tool के माध्यम से उपलब्ध कराई जाएँगी।
भविष्य में YouTube Shorts और अन्य उत्पादों में भी Veo की क्षमताएँ लागू करने की योजना है।

भाषा और विज़न की गहरी समझ

इसे text prompts की सटीक व्याख्या करनी होती है और उन्हें संबंधित visual references के साथ जोड़ना होता है।
यह natural language और visual semantics को उन्नत स्तर पर समझकर ऐसे वीडियो बनाता है जो prompt का पूरी निष्ठा से पालन करते हैं।
यह जटिल दृश्यों में सूक्ष्म विवरणों को परिष्कृत ढंग से render करता है।

फिल्म निर्माण के लिए control features

यदि input video और editing commands दिए जाएँ, तो Veo उन्हें लागू करके नया edited video बनाता है।
यह mask editing को सपोर्ट करता है, जिससे वीडियो के विशिष्ट क्षेत्रों को बदला जा सकता है।
यदि image और text prompt साथ दिए जाएँ, तो यह उसी style और निर्देशों का पालन करने वाला वीडियो बनाता है।
यह एकल prompt या prompts की श्रृंखला के माध्यम से 60 सेकंड से अधिक लंबे video clips बना और बढ़ा सकता है।

वीडियो फ्रेम्स के बीच consistency बनाए रखना

वीडियो जनरेशन मॉडल में visual consistency बनाए रखना एक चुनौती है।
Veo का नवीन latent diffusion transformer ऐसी असंगतियों की घटनाओं को कम करता है।
यह characters, objects और style को वास्तविकता के करीब बनाए रखता है।

वर्षों के वीडियो जनरेशन शोध पर आधारित

Veo, Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere आदि जैसे शोधों पर आधारित है।
यह Transformer architecture और Gemini का उपयोग करता है।
prompts को अधिक सटीकता से समझने और पालन करने के लिए, यह प्रत्येक वीडियो के caption में अधिक विवरण जोड़ता है।
यह उच्च-गुणवत्ता वाले compressed video representations का उपयोग करके प्रदर्शन बेहतर बनाता है।

ज़िम्मेदार डिज़ाइन

Veo को ज़िम्मेदारी के साथ दुनिया के सामने लाना महत्वपूर्ण है।
Veo द्वारा बनाए गए वीडियो में SynthID का उपयोग करके watermark जोड़ा जाता है।
safety filters और memory check प्रक्रियाओं के माध्यम से privacy, copyright और bias के जोखिम को कम किया जाता है।
प्रमुख creators और filmmakers के साथ सहयोग के जरिए Veo के भविष्य को आकार दिया जा रहा है।
उनके feedback के आधार पर जनरेटिव वीडियो तकनीक को बेहतर बनाया जाता है और व्यापक creator community को लाभ पहुँचाया जाता है।

GN⁺ की राय

Veo की नवोन्मेष क्षमता: Veo एक उच्च-गुणवत्ता वाला वीडियो जनरेशन मॉडल है, जो creators के लिए नई संभावनाएँ खोलता है।
शैक्षिक उपयोग: educators के लिए वीडियो के माध्यम से ज्ञान साझा करने में यह बहुत मददगार हो सकता है।
ज़िम्मेदार तकनीकी उपयोग: watermark और safety filters के माध्यम से Veo का उपयोग अधिक ज़िम्मेदारी से किया जा सकता है।
प्रतिस्पर्धी उत्पाद: समान क्षमताएँ देने वाले अन्य वीडियो जनरेशन मॉडलों के साथ इसकी तुलना आवश्यक है।
तकनीकी अपनाने से पहले विचार: Veo को अपनाते समय privacy और copyright से जुड़े मुद्दों पर पर्याप्त ध्यान देना चाहिए।

2 टिप्पणियां

xguru 2024-05-15

वाकई, अगर Sora नहीं होता तो यह बहुत शानदार लगता.. लेकिन तुलना तो हो ही जाती है। Google आखिर ऐसा कैसे हो गया T_T

GN⁺ 2024-05-15

Hacker News राय

Hacker News टिप्पणियों के सार का संक्षेप

फ़िल्म निर्माण के नज़रिए से सीमाएँ
- राय: मौजूदा तकनीक से फ़िल्म निर्माण पर बड़ा असर नहीं पड़ता। ऐसी क्षमता चाहिए जिसमें निर्देशक बहुत विशिष्ट निर्देश दे सके। अभी यह ज़्यादातर B-roll कंटेंट के स्तर पर है।
Google की SynthID तकनीक
- राय: Google, AI-जनरेटेड वीडियो में watermark जोड़ने के लिए SynthID तकनीक का इस्तेमाल करता है। यह तकनीक सिर्फ वीडियो ही नहीं, image, text और audio पर भी लागू होती है।
Sora से तुलना
- राय: Sora ज़्यादा प्रभावशाली लगता है। Sora लंबे clips और तेज़ movement को अच्छी तरह संभालता है। इसके विपरीत, मौजूदा demo में सिर्फ छोटे clips और धीमी movement दिखती है। तुलना लायक एकमात्र चीज़ cyberpunk वीडियो है, लेकिन उसमें consistency की कमी है।
60-सेकंड का example वीडियो
- राय: 60-सेकंड के example वीडियो का लिंक दिया गया है। YouTube लिंक
इंसानी वीडियो की अनुपस्थिति
- राय: इंसानों वाले वीडियो का न होना यह दिखा सकता है कि तकनीक को इंसानों को जनरेट करने में कठिनाई हो रही है।
फ़िल्म शॉट की अवधि में बदलाव
- राय: 2014 के Wired लेख के अनुसार, अंग्रेज़ी फ़िल्मों में औसत shot duration 1930 के दशक के 12 सेकंड से घटकर आज 2.5 सेकंड रह गई है। यह तकनीक वास्तविक दुनिया पर कहीं बड़ा असर डाल सकती है। Wired लेख लिंक
डेमो वीडियो का प्रभाव
- राय: डेमो वीडियो दिलचस्प है। लेकिन Sora demo से तुलना करें तो यह उतना प्रभावशाली नहीं लगता। Google की घोषणा के हिसाब से यह उम्मीद से कम है। Sora अभी सार्वजनिक नहीं है, और संभव है कि Veo आगे और ज़्यादा दिखाए।
consistency बनाए रखने का तरीका
- राय: जिज्ञासा है कि Veo की नवीनतम तकनीक consistency कैसे बनाए रखती है। क्या frames के बीच temporal memory होती है?
Westworld से समानता
- राय: पहले example prompt का thumbnail 1973 की Westworld फ़िल्म के Gunslinger android जैसा लगता है। वह उस समय computer graphics के शुरुआती उपयोग के मामलों में से एक था। YouTube लिंक
Donald Glover सेगमेंट को लेकर उलझन
- राय: Donald Glover वाला segment उलझाने वाला था। सिर्फ कुछ छोटे clips दिखाए गए, इसलिए एक short film जैसी उम्मीद बनी थी, लेकिन अंत में निराशा हुई।