OpenAI Sora: टेक्स्ट से वीडियो बनाने वाला AI मॉडल पेश

(openai.com)

12 पॉइंट द्वारा GN⁺ 2024-02-16 | 6 टिप्पणियां | WhatsApp पर शेयर करें

Sora एक AI मॉडल है जो टेक्स्ट निर्देशों के आधार पर यथार्थवादी और कल्पनाशील दृश्य बना सकता है
यह उपयोगकर्ता के prompt के प्रति वफादार रहते हुए visual quality बनाए रखता है और अधिकतम 1 मिनट लंबा वीडियो बना सकता है
विभिन्न prompts के आधार पर बनाए गए वीडियो उदाहरण प्रस्तुत किए गए हैं, जो विस्तृत scenarios देते हैं
- इस पेज के सभी वीडियो सीधे Sora द्वारा बनाए गए हैं और इनमें कोई संपादन नहीं किया गया है
फिलहाल Sora को जोखिम मूल्यांकन के लिए 'red team' को दिया गया है, और visual artists, designers, तथा filmmakers से feedback लिया जा रहा है
OpenAI अपने research progress को साझा करके बाहरी लोगों से feedback लेना चाहता है और AI capabilities के भविष्य को जनता के सामने दिखाना चाहता है

Sora की क्षमताएँ

यह जटिल दृश्य, कई characters, विशिष्ट movements, और विषय व background की सटीक details बना सकता है
यह केवल उपयोगकर्ता के prompt ही नहीं, बल्कि भौतिक दुनिया में चीजें कैसे मौजूद होती हैं, इसे भी समझता है

Sora की सुरक्षा

OpenAI, Sora को अपने products में integrate करने से पहले कई safety measures अपनाने वाला है
इनमें भ्रामक content का पता लगाने वाले tools का विकास, और यह पहचानने के लिए classifier बनाना शामिल है कि कोई वीडियो Sora द्वारा बनाया गया है या नहीं

शोध तकनीक

Sora एक diffusion model है जो शोर से भरे वीडियो से शुरू होकर धीरे-धीरे noise हटाते हुए वीडियो बनाता है
यह GPT models जैसी transformer architecture का उपयोग करता है, जो बेहतरीन scaling performance प्रदान करती है

GN⁺ की राय

Sora टेक्स्ट-आधारित निर्देशों से वीडियो बनाने वाली एक अभिनव AI तकनीक है, जो creative professionals के लिए नई संभावनाएँ खोलती है
safety measures और feedback के जरिए यह वास्तविक दुनिया में उपयोग से सीखने और AI systems को क्रमिक रूप से सुरक्षित बनाने में महत्वपूर्ण भूमिका निभाता है
यह तकनीक भविष्य में AGI (Artificial General Intelligence) हासिल करने की दिशा में एक महत्वपूर्ण milestone साबित हो सकती है

6 टिप्पणियां

draupnir 2024-02-17

सच में बस हैरानी ही निकल रही है।
7 ट्रिलियन मिलेंगे क्या...?

laeyoung 2024-02-16

ऊपरी तौर पर देखने पर यह समझना मुश्किल है कि यह असली वीडियो है या AI द्वारा बनाया गया वीडियो।

edunga1 2024-02-16

वाह... मैं इसे जल्दी आज़माना चाहता/चाहती हूँ.
डिफ्यूज़न मॉडल का मतलब क्या stable diffusion जैसी ही विधि है?

dothx 2024-02-16

लगता है stock photo या stock video मार्केट के लिए मुश्किल समय आने वाला है..

xguru 2024-02-16

जनरेशन क्वालिटी वाकई कमाल की है। क्या यह इतनी तेजी से आगे बढ़ रहा है?

GN⁺ 2024-02-16

Hacker News राय

एक उपयोगकर्ता ने तकनीकी उपलब्धि के बावजूद भविष्य को लेकर चिंता जताई। उनका मानना है कि सामाजिक सुरक्षा जाल पर्याप्त नहीं है और हम universal basic income (UBI) के करीब नहीं बढ़ रहे हैं। उन्होंने यह डर भी व्यक्त किया कि एक ही कंपनी के हाथ में बहुत अधिक शक्ति केंद्रित हो रही है।
एक अन्य उपयोगकर्ता computer-generated motion की गुणवत्ता से गहराई से प्रभावित हुआ। खासकर motion capture के विपरीत, computer animation में वास्तविक जैसी गति को लागू करना कठिन होता है, लेकिन इस बार यह बहुत यथार्थवादी लगा।
एक और उपयोगकर्ता ने image/video पहलू से आगे बढ़कर physics और objects के बीच संबंधों की समझ दिखाने वाले मॉडल के महत्व पर ज़ोर दिया। जिन उदाहरणों को विफल मामलों के रूप में बताया गया था, उन्हें उन्होंने वास्तव में मॉडल की दुनिया के प्रति मजबूत समझ दिखाने वाले महत्वपूर्ण उदाहरण माना।
Hollywood Reporter के अनुसार, उद्योग में कई लोग AI tools की प्रगति के कारण अपनी नौकरियों को लेकर डर महसूस कर रहे हैं। कुछ लोग उद्योग छोड़ने पर विचार कर रहे हैं, और उम्मीद है कि AI tools खासकर advertising production के क्षेत्र में नौकरियों को प्रभावित करेंगे।
एक उपयोगकर्ता ने कहा कि यह उपलब्धि अभी तक सार्वजनिक किए गए मॉडलों से कहीं आगे है।
एक अन्य उपयोगकर्ता ने Tokyo वीडियो में दिखी एक छोटी गलती पर ध्यान दिया और सवाल उठाया कि क्या generated content में हमेशा ऐसी त्रुटियाँ मौजूद रहेंगी, और क्या बचपन से generated content के संपर्क में आने वाले बच्चे इन त्रुटियों के प्रति असंवेदनशील हो जाएंगे।
एक उपयोगकर्ता ने कहा कि Gemini 1.5 अब पुराना लगने लगा है, और Google के इसे सिर्फ एक ब्लॉग पोस्ट के ज़रिए घोषित करने पर आश्चर्य जताया।
एक प्रोग्रामर ने AI की प्रगति से पैदा हुई एक अशुभ आशंका व्यक्त की और कहा कि यह सिर्फ नौकरी खोने के डर से भी आगे की बात है। वहीं वीडियो की गुणवत्ता को उन्होंने अविश्वसनीय रूप से प्रभावशाली बताया।
एक उपयोगकर्ता ने वीडियो generation के तरीके को लेकर तकनीकी सवाल उठाया और यह जानना चाहा कि मॉडल scene की geometric structure और camera को किस तरह अलग करता है।
अंत में, एक उपयोगकर्ता ने कहा कि तकनीक की प्रगति सांस्कृतिक बदलाव लाएगी, और लोग थिएटर में मानव द्वारा किए गए नाटक, व्याख्यान और concerts अधिक देखना चाहेंगे। जैसे Vinyl फिर से लोकप्रिय हुआ, वैसे ही थिएटर भी फिर से लोकप्रिय हो सकता है।