1 पॉइंट द्वारा GN⁺ 2024-02-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

वीडियो जनरेशन मॉडल को विश्व सिम्युलेटर के रूप में उपयोग करना

  • बड़े पैमाने के वीडियो डेटा पर जनरेशन मॉडल के प्रशिक्षण का अध्ययन किया गया है.
  • टेक्स्ट-शर्तित diffusion मॉडल को अलग-अलग अवधि, resolution और aspect ratio वाले वीडियो और इमेज पर संयुक्त रूप से प्रशिक्षित किया गया है.
  • वीडियो और इमेज के latent code के spatiotemporal patches पर काम करने वाली transformer architecture का उपयोग किया गया है.
  • सबसे बड़ा मॉडल, Sora, उच्च-गुणवत्ता वाले 1 मिनट लंबे वीडियो जनरेट कर सकता है.

विज़ुअल डेटा को patches में बदलना

  • बड़े पैमाने के इंटरनेट डेटा पर प्रशिक्षण के माध्यम से सामान्य क्षमताएँ हासिल करने वाले बड़े language models से प्रेरणा ली गई है.
  • विभिन्न प्रकार के टेक्स्ट को एकीकृत करने वाले token उपयोग की सफलता को विज़ुअल डेटा जनरेशन मॉडल पर लागू किया गया है.
  • वीडियो को patches में बदलकर, विभिन्न प्रकार के वीडियो और इमेज पर जनरेशन मॉडल के प्रशिक्षण के लिए एक प्रभावी representation method खोजी गई है.

वीडियो compression network

  • विज़ुअल डेटा के dimensions को कम करने वाला network प्रशिक्षित किया गया है.
  • यह raw video को input के रूप में लेकर temporally और spatially compressed latent representation output करता है.
  • Sora इसी compressed latent space में प्रशिक्षित होता है और वीडियो जनरेट करता है.

spatiotemporal latent patches

  • compressed input video से spatiotemporal patch sequence निकाली जाती है.
  • इस patch-आधारित representation के माध्यम से अलग-अलग resolution, अवधि और aspect ratio वाले वीडियो और इमेज पर प्रशिक्षण संभव है.

transformer का उपयोग करके वीडियो जनरेशन का scale बढ़ाना

  • Sora एक diffusion model है, जिसे noisy patches को input के रूप में लेकर मूल 'clean' patches की भविष्यवाणी करने के लिए प्रशिक्षित किया गया है.
  • transformer ने language modeling, computer vision और image generation सहित कई क्षेत्रों में उत्कृष्ट scalability दिखाई है.

विभिन्न अवधि, resolution और aspect ratio

  • मौजूदा इमेज और वीडियो जनरेशन approaches वीडियो को एक मानक आकार में समायोजित करती हैं.
  • डेटा को उसके मूल आकार में प्रशिक्षित करने से कई फायदे मिलते हैं.

भाषा की समझ

  • टेक्स्ट-टू-वीडियो जनरेशन सिस्टम को प्रशिक्षित करने के लिए बड़ी मात्रा में टेक्स्ट captions के साथ वीडियो की आवश्यकता होती है.
  • उच्च वर्णनात्मक क्षमता वाला caption model प्रशिक्षित किया गया और उसका उपयोग प्रशिक्षण सेट के सभी वीडियो के लिए टेक्स्ट captions बनाने में किया गया.

इमेज और वीडियो के साथ prompting

  • Sora को केवल टेक्स्ट ही नहीं, बल्कि मौजूदा इमेज या वीडियो जैसे अन्य input से भी prompt दिया जा सकता है.
  • इस क्षमता के माध्यम से विभिन्न इमेज और वीडियो editing tasks किए जा सकते हैं.

simulation क्षमताओं का उभरना

  • बड़े पैमाने के प्रशिक्षण के दौरान कुछ रोचक simulation क्षमताएँ सामने आईं.
  • इन क्षमताओं के जरिए Sora भौतिक दुनिया में लोगों, जानवरों और परिवेश के कुछ पहलुओं का simulation कर सकता है.

चर्चा

  • सिम्युलेटर के रूप में Sora कई सीमाएँ दिखाता है.
  • यह बुनियादी interactions की physics को सटीक रूप से model नहीं कर पाता, और अन्य interactions हमेशा सही object state change नहीं लाते.

GN⁺ की राय:

  • Sora, वीडियो और इमेज जनरेशन से आगे बढ़कर भौतिक और डिजिटल दुनिया के simulation की दिशा में एक महत्वपूर्ण कदम को दर्शाता है.
  • यह तकनीक अलग-अलग resolution और aspect ratio वाले वीडियो बनाने की क्षमता रखती है, इसलिए customized content creation में इसकी बड़ी संभावनाएँ हैं.
  • Sora की simulation क्षमताएँ इस बात पर रोचक अंतर्दृष्टि देती हैं कि artificial intelligence भौतिक दुनिया को कैसे समझ और पुनर्निर्मित कर सकता है.

1 टिप्पणियां

 
GN⁺ 2024-02-17
Hacker News की राय
  • पहले कमेंट का सारांश:

    • वीडियो continuity generation की क्षमता: यह तकनीक वास्तविक भौतिक नियमों को लागू करते हुए वीडियो की continuity बना सकती है। अगर यह real-time में काम करे तो इसकी संभावनाओं पर चर्चा।
    • रोबोट के साथ एकीकरण: इसे real-time camera feed वाले रोबोट से जोड़कर आसपास के वातावरण का मॉडल real-time में बनाया जा सकता है और भविष्य का अनुमान लगाया जा सकता है।
    • स्वायत्त रोबोट का भविष्य: prediction वास्तविक परिणामों से कितना मेल खाती है, इसके आधार पर error correction के जरिए यह लगभग AGI (Artificial General Intelligence) के करीब पहुँच सकता है।
    • घरेलू रोबोट का उदाहरण: लिविंग रूम साफ करने वाला रोबोट सफाई के बाद के कमरे की छवि बनाता है, उस प्रक्रिया की कल्पना करता है और फिर सफाई करता है।
  • दूसरे कमेंट का सारांश:

    • 3D scene reconstruction की संभावना: यह मॉडल 3D space के छिपे हुए कोनों या विवरणों को बेहद यथार्थवादी तरीके से फिर से बना सकता है।
    • कम तस्वीरों का प्रभाव: सैकड़ों से हज़ारों तस्वीरों के बिना भी, सिर्फ कुछ तस्वीरों से पूरा और यथार्थवादी 3D scene बनाया जा सकता है।
  • तीसरे कमेंट का सारांश:

    • विफल उदाहरणों का महत्व: पूरी तरह परफ़ेक्ट न होने वाले परिणाम दिखाने के मूल्य का उल्लेख।
    • वीडियो generation की सीमाएँ: surfing करने वाले व्यक्ति, न टूटने वाला काँच, और अजीब तरह से चलते लोगों जैसे अवास्तविक परिणामों के उदाहरण।
  • चौथे कमेंट का सारांश:

    • AlphaGo और AlphaZero की सफलता: एक परफ़ेक्ट simulator के ज़रिए अतिमानवीय प्रदर्शन हासिल किया गया।
    • वास्तविक दुनिया के simulator का महत्व: Sora वास्तविक दुनिया का simulation करने के लिए deep learning आधारित प्रयास है।
    • अतिमानवीय क्षमताओं की संभावना: पर्याप्त रूप से अच्छा simulator विकसित हो जाए तो software के स्तर पर यह संभव है।
  • पाँचवें कमेंट का सारांश:

    • वीडियो generation में प्रगति: वीडियो में images की तुलना में information density ज़्यादा होती है, इसलिए यह बड़े models को train करने के लिए उपयुक्त है।
    • मॉडल की समझ: high-quality वीडियो generation से पता चलता है कि मॉडल वास्तविक दुनिया, object interaction, और 3D composition को कितना अच्छी तरह समझता है।
  • छठे कमेंट का सारांश:

    • वीडियो generation में प्रगति: पूरी तरह generated वीडियो में किसी व्यक्ति को चित्र बनाते देखना हैरान कर देने वाला अनुभव है।
    • लागत और अपेक्षाएँ: इस तकनीक के महंगे होने की उम्मीद और इसकी तेज़ प्रगति पर आश्चर्य।
  • सातवें कमेंट का सारांश:

    • मॉडल के परिणामों पर प्रतिक्रिया: रोबोट वाला उदाहरण बहुत प्रभावशाली नहीं है, लेकिन यह लोगों और background में मौजूद लोगों को अच्छी तरह generate करता है।
    • वस्तुओं के साथ interaction: वस्तुओं के साथ interact करते लोगों को generate करने की मॉडल की क्षमता पर आश्चर्य।
  • आठवें कमेंट का सारांश:

    • 3D consistency: बिना किसी explicit 3D prior knowledge के भी 3D consistency वाला वीडियो generate करने की मॉडल की क्षमता।
    • 3D representation learning: generated वीडियो से सीधे 3D representation (जैसे NeRF) सीखा जा सकता है।
  • नौवें कमेंट का सारांश:

    • adult industry पर प्रभाव: इस तकनीक का adult industry, खासकर sex workers, पर क्या असर हो सकता है, इस पर चर्चा।
    • नैतिक विचार: लोगों की विशेष इच्छाओं को visualize करके बिना मानवीय पीड़ा के content generate करने की संभावना।
  • दसवें कमेंट का सारांश:

    • वीडियो prediction models का प्रशिक्षण: जैसे text prediction models भाषा और world model सीखते हैं, वैसे ही वीडियो prediction models को भी एक consistent world model सीखना होगा।
    • मॉडल का विकास: उपयोगी स्तर तक पहुँचने के लिए मॉडल को अभी कितना और आगे बढ़ना होगा, इस पर विचार।