Infinity AI का परिचय
- Infinity AI एक ऐसी कंपनी है जिसने मानव-केंद्रित वीडियो मॉडल को train किया है
- यह ऑडियो इनपुट से संचालित वीडियो diffusion transformer को train करने का पहला उदाहरण है
- यह मॉडल वास्तव में बोलने वाले अभिव्यक्तिपूर्ण और यथार्थवादी कैरेक्टर बना सकता है
उपयोग कैसे करें
- Infinity AI के टूल का उपयोग करके स्क्रिप्ट इनपुट करने पर कैरेक्टर के बोलने वाला वीडियो बनाया जा सकता है
- उदाहरण:
- "मोनालिसा का वीडियो जो कहती है, 'तुम क्या देखकर मुस्कुरा रहे हो?'"
- "लाल टोपी पहने 3D Pixar-स्टाइल gnome का वीडियो जो Declaration of Independence पढ़ रहा हो"
- "Elon Musk का वीडियो जो Frank Sinatra का 'Fly Me To The Moon' गा रहा हो"
मौजूदा AI टूल्स की समस्याएँ
- मौजूदा generative AI वीडियो मॉडल कैरेक्टर को बोलने में सक्षम नहीं थे
- मौजूदा talking avatar कंपनियाँ मौजूदा वीडियो पर lip-sync जोड़ने के तरीके का उपयोग करती थीं
- इससे ऑडियो से मेल न खाने वाले चेहरे के भाव और gestures पैदा होते थे, जिससे "uncanny valley" प्रभाव दिखता था
V1 मॉडल की सीमाएँ
- lip-sync approach में gesture mismatch के अलावा भी कई सीमाएँ थीं
- सीमित actor library और काल्पनिक कैरेक्टर को animate न कर पाने की समस्या
V2 मॉडल में सुधार
- single image, audio और अन्य conditional signals को इनपुट लेकर वीडियो आउटपुट देने वाला end-to-end video diffusion transformer मॉडल train किया गया
- उनका मानना है कि यह मानव की गति और भावनाओं की जटिलता और सूक्ष्मता को capture करने का सबसे अच्छा तरीका है
- मॉडल के धीमे होने की कमी है
मॉडल के फायदे
- कई भाषाओं को handle कर सकता है
- कुछ हद तक physics सीखता है (उदाहरण: earrings सही तरह से हिलती हैं)
- अलग-अलग तरह की images को animate कर सकता है (painting, sculpture आदि)
- singing को handle कर सकता है
मॉडल की कमियाँ
- animal images को process नहीं कर सकता (केवल humanoid images संभव)
- अक्सर हाथों को frame में डाल देता है (बहुत परेशान करने वाला और distract करने वाला)
- cartoons के लिए robust नहीं है
- लोगों की identity को distort कर सकता है (खासकर प्रसिद्ध व्यक्तियों में)
मॉडल आज़माएँ
GN⁺ का सार
- Infinity AI का वीडियो मॉडल ऑडियो इनपुट के ज़रिए यथार्थवादी कैरेक्टर बनाने का पहला उदाहरण है जो बोल सकते हैं
- यह मौजूदा AI टूल्स की सीमाओं को पार करता है और end-to-end video diffusion transformer मॉडल के ज़रिए मानव की गति और भावनाओं को बेहतर ढंग से capture करता है
- इसमें कई भाषाओं और विभिन्न image types को handle करने की क्षमता है, लेकिन यह animal images को process नहीं कर पाता और हाथों को frame में डाल देने जैसी कमियाँ भी हैं
- समान फीचर वाले अन्य प्रोजेक्ट्स में Runway और Luma शामिल हैं
1 टिप्पणियां
Hacker News टिप्पणियाँ