VASA-1: एक फोटो और ऑडियो से real-time में बोलता हुआ चेहरा बनाना

(microsoft.com)

4 पॉइंट द्वारा GN⁺ 2024-04-20 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Microsoft Research ने VASA-1 नाम का एक नया प्रोजेक्ट पेश किया
यह ऐसी तकनीक है जो सिर्फ एक व्यक्ति की फोटो और real-time ऑडियो input लेकर वास्तविक जैसा बोलता हुआ चेहरे का वीडियो बनाती है
आवाज़ के अनुसार होंठ और चेहरे के भाव स्वाभाविक रूप से चलते हैं, और यह इतना वास्तविक है कि असली इंसान के बोलते हुए रूप से लगभग अलग करना मुश्किल है
यह एक diffusion model का उपयोग करता है जो वैकल्पिक signals (मुख्य gaze direction, head distance, emotion offset आदि) को condition के रूप में लेता है, और मुख्य gaze direction (सामने, बाएँ, दाएँ, ऊपर), head distance scale, emotion offset (neutral, happy, angry, surprised) के अनुसार generation परिणाम दिखाता है
offline batch processing mode में 512x512 आकार के वीडियो फ्रेम 45fps की गति से बना सकता है
online streaming mode में अधिकतम 40fps तक सपोर्ट करता है और केवल 170ms की look-ahead latency चाहिए (एक desktop PC जिसमें 1 NVIDIA RTX 4090 GPU हो)

GN⁺ की राय

अगर ऐसी तकनीक व्यावहारिक हो जाती है, तो virtual human, AI avatar, metaverse जैसे कई क्षेत्रों में इसका उपयोग हो सकता है। खासकर game, film, animation जैसे entertainment उद्योग में इसकी मांग अधिक हो सकती है
दूसरी ओर, इसका दुरुपयोग करके fake news बनाना या मशहूर लोगों के चेहरे से deepfake वीडियो बनाना जैसी नकारात्मक संभावनाएँ भी चिंता का कारण हैं। दुर्भावनापूर्ण उपयोग को रोकने के लिए तकनीकी और संस्थागत उपायों की आवश्यकता होगी
मिलती-जुलती तकनीकों में NVIDIA का Audio2Face आदि शामिल हैं। वे मुख्य रूप से पहले से प्रशिक्षित किसी खास व्यक्ति का चेहरा ही बना सकते हैं, जबकि VASA-1 इस मायने में अलग है कि यह नए चेहरे भी real-time में बना सकता है
विकास टीम के अनुसार VASA-1 अभी शुरुआती चरण में है, और आगे image quality और stability को और बेहतर करने की योजना है। commercial deployment तक पहुँचने में अभी समय लग सकता है, लेकिन अनुमान है कि किसी दिन हम अपने रोज़मर्रा के जीवन में ऐसे artificial humans से रूबरू हो सकते हैं

2 टिप्पणियां

tomriddle7 2024-04-22

그것이 알고싶다 के 1394वें एपिसोड में फोटो और ऑडियो से किसी मशहूर व्यक्ति की नकल करके पैसे ठगने का एक मामला दिखाया गया था, इसलिए चिंता है कि इसका ऐसे कामों में दुरुपयोग हो सकता है।

GN⁺ 2024-04-20

Hacker News राय

सारांश:

Microsoft का VASA-1 सिर्फ एक फोटो और एक ऑडियो ट्रैक से deepfake बना सकता है। लगता है कि deepfake तकनीक लगातार तेज, बेहतर, आसान और सस्ती होती जाएगी।
दूसरी ओर, credit card कंपनियों ने voice authentication अपनाया है, लेकिन वे यह नहीं समझ रही हैं कि कोई भी social network से एक छोटा audio clip लेकर आवाज़ की नकल कर सकता है। कंपनियां समय से पीछे हैं।
VASA-1, EMO जितना अच्छा नहीं है। इसमें body movement नकली लगती है, और कई जगह lip-sync सही नहीं बैठता। आंखों की movement और overall head और body movement भी प्राकृतिक नहीं लगती।
लगता है इस तकनीक का एकमात्र उद्देश्य जासूसों द्वारा दूसरों का दुरुपयोग करना है। क्या आगे चलकर हर फोन कॉल और video conference में authentication करना पड़ेगा?
इस paper में Diffusion Transformers के उपयोग का उल्लेख है। open source implementation Facebook Research का PyTorch implementation है, लेकिन यह non-commercial license के तहत है। यह जानने की जिज्ञासा है कि क्या इसके बराबर कोई MIT या Apache license वाला विकल्प है।
जो हम देखते हैं उसकी प्रामाणिकता सुनिश्चित करने के लिए किसी तरह की governance system की जरूरत है। लेकिन यह आसान समस्या नहीं है, क्योंकि फोटो/वीडियो में बदलाव करते ही signature टूट जाता है।
यह बिल्कुल पागलपन की हद तक पहुंची तकनीक है, और आगे और बेहतर होगी। मुझे लगा था कि deepfake अभी दूर की चीज़ है, लेकिन अब लगता है कि online और ज्यादा सावधान रहना होगा।
चुनावी हस्तक्षेप के लिए एक शानदार तकनीकी प्रगति!

VASA-1: एक फोटो और ऑडियो से real-time में बोलता हुआ चेहरा बनाना

GN⁺ की राय

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News राय