6 पॉइंट द्वारा ninebow 2024-03-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Road to Sora: OpenAI के Sora को समझने के लिए शोध / "Road to Sora" Paper Reading List

by Greg Schoeninger, Mar 5, 2024

यह लेख हमारे Friday paper club ArXiv Dives के लिए एक reading list तैयार करने के प्रयास का हिस्सा है। चूँकि अभी तक Sora पर कोई आधिकारिक paper जारी नहीं किया गया है, इसलिए लक्ष्य OpenAI की Sora technical report में दिए गए संकेतों का अनुसरण करना है। आने वाले हफ्तों में हम Friday paper club के दौरान कुछ बुनियादी papers की समीक्षा करने की योजना बना रहे हैं, ताकि Sora के परदे के पीछे क्या हो रहा है, इसकी बेहतर तस्वीर समझी जा सके।

This post is an effort to put together a reading list for our Friday paper club called ArXiv Dives. Since there has not been an official paper released yet for Sora, the goal is follow the bread crumbs from OpenAI's technical report on Sora. We plan on going over a few of the fundamental papers in the coming weeks during our Friday paper club, to help paint a better picture of what is going on behind the curtain of Sora.

Sora क्या है? / What is Sora?

Sora generative AI क्षेत्र में बड़ी चर्चा का विषय बना हुआ मॉडल है, जो natural language prompts से high-fidelity videos बना सकता है। अगर आपने अभी तक Sora का कोई उदाहरण नहीं देखा है, तो नीचे coral reef में तैरते एक कछुए का वीडियो देखें।

Sora has taken the Generative AI space by storm with it's ability to generate high fidelity videos from natural language prompts. If you haven't seen an example yet, here's a generated video of a turtle swimming in a coral reef for your enjoyment.

हालाँकि OpenAI की टीम ने स्वयं मॉडल के technical details पर कोई आधिकारिक research paper जारी नहीं किया है, उन्होंने एक technical report ज़रूर जारी की है जिसमें इस्तेमाल की गई techniques के कुछ high-level details और कुछ qualitative results शामिल हैं।

While the team at OpenAI has not released an official research paper on the technical details of the model itself, they did release a technical report that covers some high level details of the techniques they used and some qualitative results.

https://openai.com/research/video-generation-models-as-world-simulators

Sora आर्किटेक्चर का अवलोकन / Sora Architecture Overview

नीचे दिए गए papers पढ़ने के बाद Sora का architecture समझ में आने लगेगा। technical report बहुत ऊँचे स्तर का अवलोकन देती है, और उम्मीद है कि हर paper अलग-अलग पहलुओं पर zoom in करके पूरी तस्वीर सामने लाएगा। सबसे पहले, शानदार review paper "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models" reverse-engineered architecture का एक high-level diagram देता है।

After reading the papers below, the architecture here should start to make sense. The technical report is a 10,000 foot view and my hope is that each paper will zoom into different aspects and paint the full picture. There is a nice literature review called "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models" that gives a high level diagram of a reverse engineered architecture.

OpenAI की टीम बताती है कि Sora एक "Diffusion Transformer" है, जो ऊपर सूचीबद्ध papers में बताए गए कई concepts को जोड़ता है, लेकिन इन्हें video से उत्पन्न latent spacetime patches पर लागू करता है।

The team at OpenAI states that Sora is a "Diffusion Transformer" which combines many of the concepts listed in the papers above, but applied applied to latent spacetime patches generated from video.

यह Vision Transformer (ViT) paper में इस्तेमाल किए गए patches की शैली और Latent Diffusion paper जैसे latent space का संयोजन है, लेकिन इसे Diffusion Transformer की शैली में जोड़ा गया है। इसमें केवल image की width और height के patches ही नहीं हैं, बल्कि इसे video के time dimension तक भी बढ़ाया गया है।

This is a combination of the style of patches used in the Vision Transformer (ViT) paper, with latent spaces similar to the Latent Diffusion Paper, but combined in the style of the Diffusion Transformer. They not only have patches in width and height of the image but extend it to the time dimension of video.

यह ठीक-ठीक कहना मुश्किल है कि उन्होंने इस सबके लिए training data कैसे इकट्ठा किया, लेकिन ऐसा लगता है कि उन्होंने सिर्फ Dall-E 3 पेपर में बताई गई तकनीकों को मिलाया ही नहीं, बल्कि GPT-4 का इस्तेमाल करके हर image के लिए विस्तृत text description भी तैयार की, और फिर उसे video में बदला। संभव है कि training data यहां सबसे महत्वपूर्ण secret sauce हो, इसलिए technical report में इसी के बारे में सबसे कम विस्तार से बताया गया है।
> It's hard to say how exactly they collected the training data for all of this, but it seems like a combination of the techniques in the Dalle-3 paper as well as using GPT-4 to elaborate on textual descriptions of images, that they then turn into videos. Training data is likely the main secret sauce here, hence has the least level of detail in the technical report.

उपयोग के मामले / Use Cases

Sora जैसी video generation तकनीकों के कई दिलचस्प use cases और applications हैं। चाहे फिल्में हों, शिक्षा, gaming, healthcare या robotics, natural language prompts से यथार्थवादी videos बनाना कई industries में बड़ा बदलाव लाने वाला है।
> There are many interesting use cases and applications for video generation technologies like Sora. Whether it be movies, education, gaming, healthcare or robotics, there is no doubt generating realistic videos from natural language prompts is going to shake up multiple industries.

इस diagram के नीचे दिया गया note Oxen.ai पर भी बिल्कुल लागू होता है। अगर आप Oxen.ai से परिचित नहीं हैं, तो बता दें कि हम machine learning models में आने-जाने वाले data पर collaboration और evaluation में मदद करने के लिए open source tools बना रहे हैं। हमारा मानना है कि बहुत से लोगों को इस data पर visibility चाहिए, और यह एक collaborative effort होना चाहिए। AI कई अलग-अलग क्षेत्रों और industries को प्रभावित कर रहा है, और इन models को train और evaluate करने वाले data पर जितनी अधिक निगाहें होंगी, नतीजे उतने बेहतर होंगे।
> The note at the bottom of this diagram rings true for us at Oxen.ai. If you are not familiar with Oxen.ai we are building open source tools to help you collaborate on and evaluate data the comes in and out of machine learning models. We believe that many people need visibility into this data, and that it should be a collaborative effort. AI is touching many different fields and industries and the more eyes on the data that trains and evaluates these models, the better.

इसे यहां देखें: https://oxen.ai
> Check us out here: https://oxen.ai

पेपर सूची / Paper Reading List

OpenAI द्वारा प्रकाशित technical report के references section में कई papers के links हैं, लेकिन यह समझना थोड़ा मुश्किल है कि पहले कौन-से पढ़ें या कौन-से महत्वपूर्ण background knowledge हैं। हमने उनमें से सबसे प्रभावशाली और दिलचस्प papers चुने हैं और उन्हें प्रकार के अनुसार व्यवस्थित किया है।
> There are many papers linked in the references section of the OpenAI technical report but it is a bit hard to know which ones to read first or are important background knowledge. We've sifted through them and selected what we think are the most impactful and interesting ones to read, and organized them by type.

पृष्ठभूमि से जुड़े पेपर / Background Papers

2015 से generated images और videos की quality लगातार बेहतर होती रही है। आम लोगों का ध्यान खींचने वाली सबसे बड़ी प्रगति 2022 में Midjourney, Stable Diffusion और Dall-E के साथ शुरू हुई। इस section में कुछ foundational papers और model architectures शामिल हैं, जिनका साहित्य में बार-बार उल्लेख होता है। हालांकि सभी papers सीधे Sora architecture से जुड़े नहीं हैं, फिर भी समय के साथ state of the art किस तरह बेहतर हुआ है, यह समझने के लिए ये सभी महत्वपूर्ण संदर्भ हैं।
> The quality of generated images and video have been steadily increasing since 2015. The biggest gains that caught the general public's eyes began in 2022 with Midjourney, Stable Diffusion and Dalle. This section contains some foundational papers and model architectures that are referenced over and over again in the literature. While not all papers are directly involved in the Sora architecture, they are all important context for how the state of the art has improved over time.

नीचे दिए गए कई papers को पहले के ArXiv Dives में कवर किया जा चुका है, इसलिए अगर आप उन्हें देखना चाहते हैं, तो Oxen.ai ब्लॉग पर मौजूद सभी सामग्री देखें।

https://www.oxen.ai/community/arxiv-dives

U-Net

"U-Net: जैव-चिकित्सीय इमेज सेगमेंटेशन के लिए Convolutional Networks (U-Net: Convolutional Networks for Biomedical Image Segmentatio)" पेपर इस बात का एक बेहतरीन उदाहरण है कि किसी एक डोमेन (यहाँ जैव-चिकित्सीय इमेजिंग) के कार्य के लिए इस्तेमाल किया गया शोधपत्र बाद में कई अलग-अलग उपयोग मामलों में लागू हुआ। सबसे उल्लेखनीय बात यह है कि यह Stable Diffusion जैसे कई diffusion models की backbone है, जो हर चरण पर noise की भविष्यवाणी करने और उसे कम करने की learning को संभव बनाती है। हालांकि इसका Sora architecture में सीधे उपयोग नहीं होता, फिर भी यह पिछली state-of-the-art तकनीकों को समझने के लिए महत्वपूर्ण पृष्ठभूमि ज्ञान है।
> "U-Net: Convolutional Networks for Biomedical Image Segmentation" एक बेहतरीन उदाहरण है कि कैसे किसी एक डोमेन (Biomedical imaging) के एक कार्य के लिए इस्तेमाल किया गया पेपर बाद में कई अलग-अलग उपयोग मामलों में लागू हुआ। सबसे उल्लेखनीय रूप से, यह Stable Diffusion जैसे कई diffusion models की backbone है, जो हर चरण पर noise की भविष्यवाणी और उसे कम करने की learning को संभव बनाती है। हालांकि इसका Sora architecture में सीधे उपयोग नहीं होता, यह पिछली state of the art तकनीकों के लिए महत्वपूर्ण background knowledge है।

https://arxiv.org/abs/1505.04597

भाषा ट्रांसफॉर्मर / Language Transformers

"केवल Attention ही पर्याप्त है (Attention is All You Need)" पेपर एक और ऐसा शोधपत्र है जिसने machine translation task में खुद को साबित किया, लेकिन अंततः यह पूरे natural language processing research के लिए एक seminal paper बन गया। Transformers अब ChatGPT जैसे कई LLM applications की backbone हैं। Transformers को आगे चलकर कई modalities तक विस्तारित किया जा सकता है, और इन्हें Sora architecture के एक component के रूप में इस्तेमाल किया जाता है।
> "Attention Is All You Need" एक और पेपर है जिसने Machine Translation task पर खुद को साबित किया, लेकिन अंततः यह पूरे natural language processing research के लिए एक seminal paper बन गया। Transformers अब ChatGPT जैसे कई LLM applications की backbone हैं। Transformers आगे चलकर कई modalities तक विस्तारित हो जाते हैं और Sora architecture के एक component के रूप में उपयोग किए जाते हैं।

https://arxiv.org/abs/1706.03762

विज़न ट्रांसफॉर्मर / Vision Transformer (ViT)

"एक इमेज 16x16 शब्दों के बराबर है: बड़े पैमाने पर इमेज रिकग्निशन के लिए Transformers (An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)" पेपर उन शुरुआती शोधपत्रों में से एक था जिसने Transformers को image recognition पर लागू किया, और यह साबित किया कि अगर उन्हें पर्याप्त बड़े datasets पर train किया जाए तो वे ResNet और अन्य Convolutional Neural Networks से बेहतर प्रदर्शन कर सकते हैं। यह पेपर "Attention is All You Need" में दी गई architecture को computer vision tasks के लिए काम करने लायक बनाता है। जहाँ सामान्यतः input text tokens होते हैं, वहीं ViT input के रूप में 16x16 image patches का उपयोग करता है।
> "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" उन शुरुआती papers में से एक था जिसने Transformers को image recognition पर लागू किया, और यह साबित किया कि यदि उन्हें पर्याप्त बड़े datasets पर train किया जाए तो वे ResNets और अन्य Convolutional Neural Networks से बेहतर प्रदर्शन कर सकते हैं। यह "Attention Is All You Need" पेपर की architecture को लेकर उसे computer vision tasks के लिए काम करने लायक बनाता है। text tokens की जगह, ViT input के रूप में 16x16 image patches का उपयोग करता है।

https://arxiv.org/abs/2010.11929

लेटेंट डिफ्यूज़न मॉडल / Latent Diffusion Models

"लेटेंट डिफ्यूज़न मॉडल्स के साथ उच्च-रिज़ॉल्यूशन इमेज सिंथेसिस (High-Resolution Image Synthesis with Latent Diffusion Models)" Stable Diffusion जैसे कई image generation models के पीछे की तकनीक है। यह दिखाता है कि latent representation से denoising auto-encoders की एक sequence के रूप में image generation को कैसे पुनर्गठित किया जा सकता है। ये models ऊपर संदर्भित U-Net architecture को generative process की backbone के रूप में उपयोग करते हैं। ये models किसी भी text input के आधार पर photo-realistic images बना सकते हैं।
> "High-Resolution Image Synthesis with Latent Diffusion Models" Stable Diffusion जैसे कई image generation models के पीछे की तकनीक है। वे दिखाते हैं कि latent representation से denoising auto-encoders की एक sequence के रूप में image generation को कैसे reformulate किया जा सकता है। वे ऊपर संदर्भित U-Net architecture को generative process की backbone के रूप में उपयोग करते हैं। ये models किसी भी text input के आधार पर photo-realistic images generate कर सकते हैं।

https://arxiv.org/abs/2112.10752

CLIP

"प्राकृतिक भाषा supervision से transferable visual models सीखना (Learning Transferable Visual Models From Natural Language Supervision)" को contrastive language-image pre-training (CLIP; Contrastive Language-Image Pre-training) भी कहा जाता है, और यह टेक्स्ट डेटा तथा इमेज डेटा को एक ही latent space में embed करने की तकनीक है। यह तकनीक टेक्स्ट और इमेज पेयर्स के बीच cosine similarity को ऊँचा रखकर generative models की language understanding और visual understanding को आपस में जोड़ने में मदद करती है।
> "Learning Transferable Visual Models From Natural Language Supervision" often referred to as Contrastive Language-Image Pre-training (CLIP) is a technique for embedding text data and image data into the same latent space as each other. This technique helps connect the language understanding half of generative models to the visual understanding half by making sure that the cosine similarity between the text and image representations are high between text and image pairs.

https://arxiv.org/abs/2103.00020

VQ-VAE

Sora के तकनीकी दस्तावेज़ के अनुसार, Vector Quantized Variational Auto Encoder (VQ-VAE, Vector Quantized Variational Auto Encoder) की मदद से raw video की dimensionality कम की जाती है। VAE models को latent representations सीखने के लिए एक शक्तिशाली unsupervised pre-training method माना जाता है।
> According to the technical report, they reduce the dimensionality of the raw video with a Vector Quantised Variational Auto Encoder (VQ-VAE). VAEs have been shown to be a powerful unsupervised pre-training method to learn latent representations.

https://arxiv.org/abs/1711.00937

Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

Sora के तकनीकी दस्तावेज़ में बताया गया है कि वे किसी भी aspect ratio वाले वीडियो को कैसे इनपुट लेते हैं, और इससे वे कहीं बड़े dataset पर training कैसे कर पाते हैं। डेटा को crop किए बिना मॉडल को जितना अधिक डेटा दिया जा सके, परिणाम उतने बेहतर मिलते हैं। यह पेपर इमेज के लिए यही तकनीक इस्तेमाल करता है, जबकि Sora इसे वीडियो तक विस्तारित करता है।
> The Sora technical report talks about how they take in videos of any aspect ratio, and how this allows them to train on a much larger set of data. The more data they can feed the model without having to crop it, the better results they get. This paper uses the same technique but for images, and Sora extends it for video.

https://arxiv.org/abs/2307.06304


वीडियो generation क्षेत्र के पेपर / Video Generation Papers

वे कुछ video generation papers का संदर्भ देते हैं, जिन्होंने Sora को प्रेरित किया और ऊपर बताए गए generative models को वीडियो पर लागू करके अगले स्तर तक पहुँचाया।

ViViT: A Video Vision Transformer

यह पेपर विस्तार से बताता है कि वीडियो tasks के लिए ज़रूरी 'spatio-temporal tokens' में वीडियो को कैसे विभाजित किया जा सकता है। यह पेपर video classification पर केंद्रित है, लेकिन यही tokenization तरीका video generation task पर भी लागू किया जा सकता है।
> This paper goes into details about how you can chop the video into "spatio-temporal tokens" needed for video tasks. The paper focuses on video classification, but the same tokenization can be applied to generating video.

https://arxiv.org/abs/2103.15691

Imagen Video: High Definition Video Generation with Diffusion Models

Imagen video diffusion models की एक cascade पर आधारित एक text-conditional video generation system है। यह temporal direction में convolutions और super resolution तकनीक का उपयोग करके टेक्स्ट से high quality वीडियो बनाता है।
> Imagen is a text-conditional video generation system based on a cascade of video diffusion models. They use convolutions in the temporal direction and super resolution to generate high quality videos from text.

https://arxiv.org/abs/2210.02303

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

यह पेपर ऊपर बताए गए image generation papers के latent diffusion models को लेकर latent space में एक temporal dimension जोड़ता है। इसमें latent spaces को align करके temporal dimension में कुछ दिलचस्प तकनीकें लागू की जाती हैं, लेकिन यह अभी भी Sora जैसी temporal consistency तक नहीं पहुँचता।
> This paper takes the latent diffusion models from the image generation papers above and introduces a temporal dimension to the latent space. They apply some interesting techniques in the temporal dimension by aligning the latent spaces, but does not quite have the temporal consistency of Sora yet.

https://arxiv.org/abs/2304.08818

Photorealistic video generation with diffusion models

यह पेपर diffusion modeling के ज़रिए photorealistic वीडियो generation के लिए transformer-based approach W.A.L.T का परिचय देता है। मेरी समझ के अनुसार, reference list में यह Sora के सबसे क़रीब तकनीक लगती है, और इसे Google, Stanford, तथा Georgia Tech की टीमों ने दिसंबर 2023 में प्रकाशित किया था।
> They introduce W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. This feels like the closest technique to Sora in the reference list as far as I can tell, and was released in December of 2023 by the teams at Google, Stanford and Georgia Tech.

https://arxiv.org/abs/2312.06662


विज़न-लैंग्वेज समझ के क्षेत्र के पेपर / Vision-Language Understanding

text prompt से वीडियो generate करने के लिए बड़े पैमाने पर datasets इकट्ठा करने पड़ते हैं। इंसानों के लिए इतने सारे वीडियो को manually label करना संभव नहीं है, इसलिए लगता है कि DALL-E 3 paper में बताए गए तरीकों जैसी synthetic data techniques का उपयोग किया जाता है।
> In order to Generate Videos from text prompts, they need to collect a large dataset. It is not feasible to have humans label that many videos, so it seems they use some synthetic data techniques similar to those described in the DALL·E 3 paper.

DALL·E 3

text-to-video generation systems को train करने के लिए संबंधित text captions वाले बड़े पैमाने के वीडियो चाहिए होते हैं। DALL-E 3 में पेश की गई re-captioning तकनीकों को Sora के वीडियो training data पर लागू किया जाता है। DALL-E 3 की तरह, छोटे user prompts को लंबे और अधिक विस्तृत captions में बदलकर वीडियो मॉडल तक भेजने के लिए GPT models का भी उपयोग किया जाता है।
> Training text-to-video generation systems requires a large amount of videos with corresponding text captions. They apply the re-captioning technique introduced in DALL·E 3 to videos. Similar to DALL·E 3, they also leverage GPT to turn short user prompts into longer detailed captions that are sent to the video model.

https://openai.com/dall-e-3

Llava

मॉडल को user instructions का पालन करने योग्य बनाने के लिए, संभवतः Llava paper की तरह instruction-based fine-tuning किया गया होगा। यह paper ऊपर बताए गए Dall-E के तरीकों के साथ मिलाकर उपयोग किए जा सकने वाले बड़े instruction datasets बनाने के लिए कुछ रोचक synthetic data techniques भी दिखाता है।
> In order for the model to be able to follow user instructions, they likely did some instruction fine-tuning similar to the Llava paper. This paper also shows some synthetic data techniques to create a large instruction dataset that could be interesting in combination with the Dalle methods above.

https://arxiv.org/abs/2304.08485

Make-A-Video & Tune-A-Video

Make-A-Video और Tune-A-Video जैसे papers ने दिखाया है कि prompt engineering कैसे मॉडल की natural language understanding क्षमता का उपयोग करके जटिल निर्देशों को समझती है और उन्हें सुसंगत, जीवंत, और उच्च-गुणवत्ता वाले वीडियो narratives में render करती है। उदाहरण के लिए, किसी साधारण user prompt को adjectives और verbs के साथ विस्तार देकर दृश्य को अधिक समृद्ध बनाया जा सकता है।
> Papers like Make-A-Video and Tune-A-Video have shown how prompt engineering leverages model’s natural language understanding ability to decode complex instructions and render them into cohesive, lively, and high-quality video narratives. For example: taking a simple user prompt and extending it with adjectives and verbs to more fully flush out the scene.

https://arxiv.org/abs/2209.14792

https://arxiv.org/abs/2212.11565

निष्कर्ष / Conclusion

हमें उम्मीद है कि यह लेख आपको Sora जैसे सिस्टम के सभी महत्वपूर्ण घटकों को समझने के लिए एक शुरुआती बिंदु देगा! अगर आपको लगता है कि हमसे कुछ छूट गया है, तो हमें hello@oxen.ai पर ईमेल ज़रूर करें।
> We hope this gives you a jumping off point for all the important components that could make up a system like Sora! If you think we missed anything, feel free to email us at hello@oxen.ai.

यहाँ परिचित कराए गए papers किसी भी तरह से हल्के-फुल्के पढ़ने लायक नहीं हैं। इसी वजह से हम शुक्रवार को एक समय में एक paper लेते हैं, धीमे चलते हैं, और विषयों को आसान भाषा में समझाते हैं ताकि कोई भी उन्हें समझ सके। हमारा मानना है कि AI systems बनाने में कोई भी योगदान दे सकता है, और जितना अधिक आप fundamentals को समझेंगे, उतने अधिक patterns पहचान पाएँगे और उतने बेहतर products बना पाएँगे।
> It is by no means a light set of reading. This is why on Fridays we take one paper at a time, slow down, and break down the topics in plain speak so anyone can understand. We believe anyone can contribute to building AI systems, and the more you understand the fundamentals, the more patterns you will spot, and better products you will build.

https://www.oxen.ai/community

ArXiv Dives के लिए sign up करके या बस Oxen.ai Discord community से जुड़कर इस learning journey में हमारे साथ शामिल हों।
> Join us on a learning journey either by signing up for ArXiv Dives or simply joining the Oxen.ai Discord community.

https://discord.com/invite/s3tBEn7Ptg

मूल लेख

https://www.oxen.ai/blog/road-to-sora-reading-list


⚠️विज्ञापन⚠️: :pytorch:Pytorch Korea User Group:kr: द्वारा संकलित यह लेख क्या आपको उपयोगी लगा? सदस्य के रूप में जुड़ें, तो हम प्रमुख लेख आपको ईमेल:love_letter: से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly है, लेकिन Daily में बदलना भी संभव है।)

1 टिप्पणियां