विश्व सिम्युलेटर के रूप में वीडियो जनरेशन मॉडल
(openai.com)वीडियो जनरेशन मॉडल को विश्व सिम्युलेटर के रूप में उपयोग करना
- बड़े पैमाने के वीडियो डेटा पर जनरेशन मॉडल के प्रशिक्षण का अध्ययन किया गया है.
- टेक्स्ट-शर्तित diffusion मॉडल को अलग-अलग अवधि, resolution और aspect ratio वाले वीडियो और इमेज पर संयुक्त रूप से प्रशिक्षित किया गया है.
- वीडियो और इमेज के latent code के spatiotemporal patches पर काम करने वाली transformer architecture का उपयोग किया गया है.
- सबसे बड़ा मॉडल, Sora, उच्च-गुणवत्ता वाले 1 मिनट लंबे वीडियो जनरेट कर सकता है.
विज़ुअल डेटा को patches में बदलना
- बड़े पैमाने के इंटरनेट डेटा पर प्रशिक्षण के माध्यम से सामान्य क्षमताएँ हासिल करने वाले बड़े language models से प्रेरणा ली गई है.
- विभिन्न प्रकार के टेक्स्ट को एकीकृत करने वाले token उपयोग की सफलता को विज़ुअल डेटा जनरेशन मॉडल पर लागू किया गया है.
- वीडियो को patches में बदलकर, विभिन्न प्रकार के वीडियो और इमेज पर जनरेशन मॉडल के प्रशिक्षण के लिए एक प्रभावी representation method खोजी गई है.
वीडियो compression network
- विज़ुअल डेटा के dimensions को कम करने वाला network प्रशिक्षित किया गया है.
- यह raw video को input के रूप में लेकर temporally और spatially compressed latent representation output करता है.
- Sora इसी compressed latent space में प्रशिक्षित होता है और वीडियो जनरेट करता है.
spatiotemporal latent patches
- compressed input video से spatiotemporal patch sequence निकाली जाती है.
- इस patch-आधारित representation के माध्यम से अलग-अलग resolution, अवधि और aspect ratio वाले वीडियो और इमेज पर प्रशिक्षण संभव है.
transformer का उपयोग करके वीडियो जनरेशन का scale बढ़ाना
- Sora एक diffusion model है, जिसे noisy patches को input के रूप में लेकर मूल 'clean' patches की भविष्यवाणी करने के लिए प्रशिक्षित किया गया है.
- transformer ने language modeling, computer vision और image generation सहित कई क्षेत्रों में उत्कृष्ट scalability दिखाई है.
विभिन्न अवधि, resolution और aspect ratio
- मौजूदा इमेज और वीडियो जनरेशन approaches वीडियो को एक मानक आकार में समायोजित करती हैं.
- डेटा को उसके मूल आकार में प्रशिक्षित करने से कई फायदे मिलते हैं.
भाषा की समझ
- टेक्स्ट-टू-वीडियो जनरेशन सिस्टम को प्रशिक्षित करने के लिए बड़ी मात्रा में टेक्स्ट captions के साथ वीडियो की आवश्यकता होती है.
- उच्च वर्णनात्मक क्षमता वाला caption model प्रशिक्षित किया गया और उसका उपयोग प्रशिक्षण सेट के सभी वीडियो के लिए टेक्स्ट captions बनाने में किया गया.
इमेज और वीडियो के साथ prompting
- Sora को केवल टेक्स्ट ही नहीं, बल्कि मौजूदा इमेज या वीडियो जैसे अन्य input से भी prompt दिया जा सकता है.
- इस क्षमता के माध्यम से विभिन्न इमेज और वीडियो editing tasks किए जा सकते हैं.
simulation क्षमताओं का उभरना
- बड़े पैमाने के प्रशिक्षण के दौरान कुछ रोचक simulation क्षमताएँ सामने आईं.
- इन क्षमताओं के जरिए Sora भौतिक दुनिया में लोगों, जानवरों और परिवेश के कुछ पहलुओं का simulation कर सकता है.
चर्चा
- सिम्युलेटर के रूप में Sora कई सीमाएँ दिखाता है.
- यह बुनियादी interactions की physics को सटीक रूप से model नहीं कर पाता, और अन्य interactions हमेशा सही object state change नहीं लाते.
GN⁺ की राय:
- Sora, वीडियो और इमेज जनरेशन से आगे बढ़कर भौतिक और डिजिटल दुनिया के simulation की दिशा में एक महत्वपूर्ण कदम को दर्शाता है.
- यह तकनीक अलग-अलग resolution और aspect ratio वाले वीडियो बनाने की क्षमता रखती है, इसलिए customized content creation में इसकी बड़ी संभावनाएँ हैं.
- Sora की simulation क्षमताएँ इस बात पर रोचक अंतर्दृष्टि देती हैं कि artificial intelligence भौतिक दुनिया को कैसे समझ और पुनर्निर्मित कर सकता है.
1 टिप्पणियां
Hacker News की राय
पहले कमेंट का सारांश:
दूसरे कमेंट का सारांश:
तीसरे कमेंट का सारांश:
चौथे कमेंट का सारांश:
पाँचवें कमेंट का सारांश:
छठे कमेंट का सारांश:
सातवें कमेंट का सारांश:
आठवें कमेंट का सारांश:
नौवें कमेंट का सारांश:
दसवें कमेंट का सारांश: