Google DeepMind ने वीडियो जनरेशन मॉडल Veo 2 पेश किया

(deepmind.google)

7 पॉइंट द्वारा GN⁺ 2024-12-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Veo 2 एक अत्याधुनिक वीडियो जनरेशन मॉडल है, जो यथार्थपूर्ण मूवमेंट और अधिकतम 4K की उच्च-गुणवत्ता आउटपुट प्रदान करता है
विभिन्न स्टाइल एक्सप्लोर किए जा सकते हैं और व्यापक कैमरा कंट्रोल के जरिए अपनी खुद की शैली खोजी जा सकती है
गुणवत्ता और नियंत्रण की पुनर्परिभाषा
- Veo 2 सरल और जटिल निर्देशों का विश्वसनीय रूप से पालन करता है, और वास्तविक दुनिया की physics तथा विभिन्न visual styles का प्रभावशाली simulation करता है
- बेहतर यथार्थता और fidelity: detail, realism और artifact reduction के मामले में यह अन्य AI वीडियो मॉडलों की तुलना में काफी बेहतर है
- उन्नत motion capabilities: physics की समझ और विस्तृत निर्देशों का पालन करने की क्षमता के कारण यह उच्च सटीकता के साथ मूवमेंट को व्यक्त करता है
- अधिक camera control options: विभिन्न shot styles, angles और movements को सटीक रूप से समझकर जनरेट करता है
बेंचमार्क
- Veo ने अन्य शीर्ष वीडियो जनरेशन मॉडलों के साथ तुलना में मानव मूल्यांकनकर्ताओं के बीच state-of-the-art परिणाम हासिल किए
- 1003 prompts और उनसे संबंधित वीडियो को MovieGenBench पर मूल्यांकित किया गया, और Veo 2 ने समग्र preference तथा prompts को सटीक रूप से फॉलो करने की क्षमता में सर्वोच्च प्रदर्शन दिखाया
सीमाएँ
- Veo 2 ने यथार्थपूर्ण, dynamic और जटिल वीडियो जनरेट करने में उल्लेखनीय प्रगति दिखाई है, लेकिन जटिल दृश्यों या जटिल मूवमेंट वाले दृश्यों में पूरी consistency बनाए रखना अभी भी एक चुनौती है
- इन क्षेत्रों में प्रदर्शन को आगे भी विकसित और बेहतर बनाने की योजना है

1 टिप्पणियां

GN⁺ 2024-12-17

Hacker News राय

एक उपयोगकर्ता ने "A pelican riding a bicycle along a coastal path overlooking a harbor" प्रॉम्प्ट से जनरेट किए गए वीडियो पर फीडबैक साझा किया। चार वर्ज़न में से दो में साइकिल चलाता पेलिकन था, एक में सड़क पर दौड़ता पेलिकन, एक में साइकिल पर बैठा पेलिकन, और आख़िरी में अजीब हेलमेट पहने पेलिकन था। नतीजे Sora से बेहतर थे
उपयोगकर्ता वरीयता में Sora Turbo को 2:1 से हराना प्रभावशाली है। इसमें Sora जैसी सीमाएँ हैं, लेकिन यह प्राकृतिक मूवमेंट और physics की नकल थोड़ी बेहतर करता दिखता है। ब्लॉग पोस्ट में बताया गया है कि यह 4K resolution तक scale हो सकता है और इसकी लंबाई कुछ मिनटों तक बढ़ सकती है
घोषणा में दिए गए उदाहरणों और training data की समानता को लेकर जिज्ञासा जताई गई। यह सवाल उठाया गया कि प्रॉम्प्ट की बारीकियाँ नतीजों में कितनी दिखती हैं। उदाहरण के लिए, DJ की आकर्षक मौजूदगी और संगीत की ताकत का वर्णन वीडियो को कैसे प्रभावित करता है, इस पर सवाल है
स्केटबोर्ड वीडियो अवास्तविक लगता है, लेकिन कुछ वीडियो काफ़ी विश्वसनीय दिखते हैं
यह उल्लेख किया गया कि पेज iPad के Chrome में crash हो गया
Google की बड़ी घोषणा के बाद OpenAI ने Sora preview जारी करके Google को पीछे छोड़ दिया था, लेकिन Veo 2, Sora से अधिक उन्नत लगता है
TV broadcasting station में काम करने वाला एक दोस्त पहले से ही public advertising program के लिए ऐसे टूल्स का उपयोग कर रहा है
यह राय दी गई कि Youtube तक पहुंच होने के कारण Google text/image-to-video क्षेत्र पर प्रभुत्व जमा सकता है
Veo 2 के sample की लंबाई 8 सेकंड, VideoGen के sample की लंबाई 10 सेकंड, और दूसरे models के sample की लंबाई 5 सेकंड होने पर उलझन जताई गई। यह भी पूछा गया कि Veo 2 के सकारात्मक नतीजे क्या इसलिए हैं क्योंकि evaluators लंबे वीडियो को पसंद करते हैं
Google के AI डिवीज़न की तुलना OpenAI की चमकदार yacht के मुकाबले एक विशाल nuclear submarine से की गई। यह संभावना भी उठाई गई कि Google शायद AGI के और करीब पहुंच गया हो, और Microsoft व Amazon की स्थिति का भी ज़िक्र किया गया

Google DeepMind ने वीडियो जनरेशन मॉडल Veo 2 पेश किया

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय