- Microsoft Research ने VASA-1 नाम का एक नया प्रोजेक्ट पेश किया
- यह ऐसी तकनीक है जो सिर्फ एक व्यक्ति की फोटो और real-time ऑडियो input लेकर वास्तविक जैसा बोलता हुआ चेहरे का वीडियो बनाती है
- आवाज़ के अनुसार होंठ और चेहरे के भाव स्वाभाविक रूप से चलते हैं, और यह इतना वास्तविक है कि असली इंसान के बोलते हुए रूप से लगभग अलग करना मुश्किल है
- यह एक diffusion model का उपयोग करता है जो वैकल्पिक signals (मुख्य gaze direction, head distance, emotion offset आदि) को condition के रूप में लेता है, और मुख्य gaze direction (सामने, बाएँ, दाएँ, ऊपर), head distance scale, emotion offset (neutral, happy, angry, surprised) के अनुसार generation परिणाम दिखाता है
- offline batch processing mode में 512x512 आकार के वीडियो फ्रेम 45fps की गति से बना सकता है
- online streaming mode में अधिकतम 40fps तक सपोर्ट करता है और केवल 170ms की look-ahead latency चाहिए (एक desktop PC जिसमें 1 NVIDIA RTX 4090 GPU हो)
GN⁺ की राय
- अगर ऐसी तकनीक व्यावहारिक हो जाती है, तो virtual human, AI avatar, metaverse जैसे कई क्षेत्रों में इसका उपयोग हो सकता है। खासकर game, film, animation जैसे entertainment उद्योग में इसकी मांग अधिक हो सकती है
- दूसरी ओर, इसका दुरुपयोग करके fake news बनाना या मशहूर लोगों के चेहरे से deepfake वीडियो बनाना जैसी नकारात्मक संभावनाएँ भी चिंता का कारण हैं। दुर्भावनापूर्ण उपयोग को रोकने के लिए तकनीकी और संस्थागत उपायों की आवश्यकता होगी
- मिलती-जुलती तकनीकों में NVIDIA का Audio2Face आदि शामिल हैं। वे मुख्य रूप से पहले से प्रशिक्षित किसी खास व्यक्ति का चेहरा ही बना सकते हैं, जबकि VASA-1 इस मायने में अलग है कि यह नए चेहरे भी real-time में बना सकता है
- विकास टीम के अनुसार VASA-1 अभी शुरुआती चरण में है, और आगे image quality और stability को और बेहतर करने की योजना है। commercial deployment तक पहुँचने में अभी समय लग सकता है, लेकिन अनुमान है कि किसी दिन हम अपने रोज़मर्रा के जीवन में ऐसे artificial humans से रूबरू हो सकते हैं
2 टिप्पणियां
그것이 알고싶다के 1394वें एपिसोड में फोटो और ऑडियो से किसी मशहूर व्यक्ति की नकल करके पैसे ठगने का एक मामला दिखाया गया था, इसलिए चिंता है कि इसका ऐसे कामों में दुरुपयोग हो सकता है।Hacker News राय
सारांश: