Show HN: Infinity – बोल सकने वाले यथार्थवादी AI कैरेक्टर

(news.ycombinator.com)

1 पॉइंट द्वारा GN⁺ 2024-09-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Infinity AI मानव-केंद्रित foundation video model को train कर रहा है, ताकि केवल audio input से बोलते हुए कैरेक्टर के वीडियो बनाए जा सकें
क्रिएटर कैरेक्टर के बोलने के लिए script डालकर वीडियो बना सकते हैं, और आगे चलकर व्यवहार तक निर्दिष्ट करने का लक्ष्य है
V2 एक end-to-end model है जो single image, audio, और condition signals लेकर वीडियो बनाता है; इसका उद्देश्य मौजूदा lip-sync तरीकों में दिखने वाले expression और gesture mismatch को कम करना है
अब तक लगभग 11 GPU-वर्ष और लगभग 500,000 डॉलर लगाए जा चुके हैं, लेकिन rectified flow और 3D VAE embedding layer के इस्तेमाल के बावजूद generation speed अभी भी धीमी है
multilingual, physical motion, painting या sculpture images, और singing में इसकी ताकत दिखती है, लेकिन animals, cartoons, hand insertion, और famous identities distortion जैसे failure modes अभी भी मौजूद हैं

Infinity V2 द्वारा बनाए गए बोलते कैरेक्टर वीडियो

Infinity AI इंसानों पर फोकस करने वाला अपना foundation video model train कर रहा है
टीम की जानकारी के अनुसार, यह audio input से चलने वाला video diffusion transformer train करने के शुरुआती उदाहरणों में से एक है
इस approach का फोकस ऐसे वीडियो बनाना है जिनमें अभिव्यंजक और यथार्थवादी दिखने वाले कैरेक्टर वास्तव में बोलते हों
उदाहरण वीडियो V2 launch blog पर देखे जा सकते हैं
मॉडल को Infinity Studio में सीधे आज़माया जा सकता है
HN टिप्पणियों में कैरेक्टर विवरण छोड़ने पर टीम वीडियो बनाकर लिंक के साथ जवाब देने की बात कहती है
- “Mona Lisa saying ‘what the heck are you smiling at?’”
- “A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence”
- “Elon Musk singing Fly Me To The Moon by Sinatra”

lip-sync तरीके से end-to-end generation की ओर बदलाव

Runway और Luma जैसे generative AI video models कैरेक्टर को बोलते दिखाने के लिए उपयुक्त नहीं हैं
HeyGen और Synthesia जैसी talking avatar सेवाएं पहले से रिकॉर्ड किए गए वीडियो पर lip-sync लागू करती हैं
- audio और facial expression/gesture आपस में मेल नहीं खा सकते
- यह mismatch कारण समझना मुश्किल होने वाली uncanny feeling पैदा कर सकता है
Infinity V1 ने भी lip-sync approach का उपयोग किया था
- gesture mismatch बना रहता था
- मौजूदा वीडियो सामग्री के आधार पर हर actor के लिए model को fine-tune करना पड़ता था, इसलिए actor library सीमित थी
- कल्पनात्मक कैरेक्टर को animate करना कठिन था
V2 अब एक end-to-end video diffusion transformer है जो single image, audio, और अन्य condition signals लेकर video output देता है
- उनका मानना है कि इंसानी movement और emotion की जटिलता और nuance को पकड़ने के लिए यह approach सबसे उपयुक्त है
- इसकी कमी यह है कि generation speed धीमी है
- rectified flow से 2~4x और 3D VAE embedding layer से 2~5x speedup मिला, फिर भी यह धीमा है
अब तक training में लगभग 11 GPU-वर्ष और लगभग 500,000 डॉलर लगाए गए हैं, और model training अभी जारी है

जहां यह अच्छा काम करता है और बाकी बचे failure modes

strengths
- कई भाषाओं को संभाल सकता है
- earrings का स्वाभाविक रूप से हिलना और दूसरी ओर के जोड़े का अनुमान लगाना जैसी कुछ physics सीख ली है
- ऐसी image types, जैसे paintings और sculptures, जिन्हें इसने train नहीं किया, उन्हें भी animate कर सकता है
- singing संभाल सकता है
limitations
- animals को संभाल नहीं सकता और केवल humanoid images पर काम करता है
- अक्सर frame के भीतर हाथ insert कर देता है, जो बाधा बन सकता है
- cartoons पर robust नहीं है
- लोगों की identity distort कर सकता है, और यह खासकर famous people के मामले में अधिक दिखता है

1 टिप्पणियां

GN⁺ 2024-09-07

Hacker News टिप्पणियाँ

यह Hedra की घटिया नकल लगती है, और अभी के लिए काफी पीछे है
मैंने text-to-image का इस्तेमाल करके एक space marine बनाया, और बिना किसी अतिरिक्त एडिट के भी हैरान करने वाला परिणाम मिला
"Gnome" face option देखते ही मुझे पता चल गया कि क्या करना है
लगता है मॉडल को Duke Nukem पसंद नहीं है
उसकी पिस्तौल काट देने पर स्थिति और खराब हो गई
दूसरी इमेज में थोड़ा बेहतर परिणाम दिखा
यह इमेज मुझे सबसे ज़्यादा पसंद आई
किसी न किसी को यह करना ही था
Alibaba के शोध Emo जैसे पूर्ववर्ती काम मौजूद हैं, लेकिन यह डेमो इसलिए प्रभावशाली है क्योंकि लोग इसे वास्तव में आज़मा सकते हैं
मैंने meme को हकीकत बनाने की कोशिश की, लेकिन मूल इमेज मुश्किल थी
- ऑडियो में थोड़ी भाषाई समस्या है
मैंने इसे uncanny valley की ओर धकेलने की कोशिश की, लेकिन यह काफी मुश्किल था
यह कभी-कभी frame में हाथ डाल देता है
- लगता है इसे बहुत ज़्यादा Italian data पर train किया गया है
यह टूल बेहद चौंकाने वाला है
- छोटे ऑडियो (3~5 सेकंड) में एक छोटी समस्या है कि इमेज पूरी तरह स्थिर बनी रहती है

Show HN: Infinity – बोल सकने वाले यथार्थवादी AI कैरेक्टर

Infinity V2 द्वारा बनाए गए बोलते कैरेक्टर वीडियो

lip-sync तरीके से end-to-end generation की ओर बदलाव

जहां यह अच्छा काम करता है और बाकी बचे failure modes

strengths

limitations

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ