World Simulator के रूप में वीडियो जनरेशन मॉडल

(openai.com)

1 पॉइंट द्वारा GN⁺ 2024-02-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने Sora के जरिए यह खोजा कि क्या वीडियो जनरेशन मॉडल को केवल वीडियो synthesis से आगे बढ़ाकर भौतिक और डिजिटल दुनिया के simulation तक विस्तारित किया जा सकता है
मुख्य design यह है कि वीडियो और इमेज को समय और space में compress किए गए latent space में रखा जाए, फिर उसे spatiotemporal patches में बाँटकर Transformer tokens की तरह train किया जाए
Sora fixed size में crop नहीं करता, बल्कि variable length, resolution और aspect ratio को वैसा ही सीखता है, इसलिए widescreen, vertical video और high-resolution image generation को एक ही model में संभालता है
DALL·E 3 की recaptioning को वीडियो पर लागू किया गया और GPT से छोटे prompts को detailed captions में expand करके text fidelity और video quality बढ़ाई गई
3D consistency, object persistence और Minecraft जैसी digital world simulation कुछ हद तक संभव हैं, लेकिन glass टूटने या food consumption जैसे state change की जरूरत वाले physical interactions में सीमाएँ अब भी हैं

Sora जिन समस्याओं को संभालता है और report का scope

OpenAI वीडियो data पर large-scale generative model training का exploration कर रहा है
Sora एक text-conditional diffusion model है, जो अलग-अलग length, resolution और aspect ratio वाले videos और images को साथ में train करता है
सबसे बड़ा model, Sora, अधिकतम 1 मिनट तक का high-fidelity video generate कर सकता है
यह technical report दो बातों पर focus करती है
- विविध visual data को large-scale generative model training के लिए उपयुक्त unified representation में बदलने का तरीका
- Sora की capabilities और limitations का qualitative evaluation
Model architecture और implementation details शामिल नहीं हैं
मौजूदा video generation research ने recurrent neural networks, GAN, autoregressive Transformer, diffusion models जैसे कई तरीकों का इस्तेमाल किया है, लेकिन अक्सर narrow data categories, छोटे videos और fixed-size videos पर focus किया गया
Sora को अलग-अलग length, aspect ratio और resolution में videos और images generate करने वाले general-purpose visual data model के रूप में design किया गया है

Visual data को patches में unify करने का तरीका

जैसे large language models text tokens के जरिए code, math और natural language को unify करते हैं, Sora visual data के लिए patches का उपयोग करता है
Video को पहले lower-dimensional latent space में compress किया जाता है, फिर spatiotemporal patches में decompose किया जाता है
Patch-based representation विभिन्न video और image types को train करने में scalable और प्रभावी रूप से काम करता है

Video compression और spatiotemporal latent patches

Sora original video को pixel space में सीधे handle नहीं करता, बल्कि time और space में compressed latent representation में train और generate करता है
एक अलग decoder model generated latent representation को वापस pixel space में map करता है
Compressed input video से निकाली गई spatiotemporal patch sequence Transformer के tokens की तरह काम करती है
Images को single-frame video माना जा सकता है, इसलिए उन्हें भी उसी तरीके से process किया जा सकता है
Inference के समय randomly initialized patches को इच्छित size के grid में रखकर generated video का size control किया जाता है

Video generation के लिए diffusion Transformer scaling

Sora एक diffusion model है, जिसे noisy patches और text prompt जैसी conditioning information input के रूप में लेकर original clean patches predict करना सिखाया जाता है
साथ ही Sora एक diffusion Transformer है
Transformer ने language modeling, computer vision और image generation जैसे कई क्षेत्रों में scaling properties दिखाई हैं, और Sora में भी video model के रूप में प्रभावी ढंग से scale होता है
समान seed और input पर training आगे बढ़ने और compute बढ़ने के साथ sample quality स्पष्ट रूप से बेहतर होती है
- Comparison examples base compute, 4x compute और 32x compute से बने हैं

Original size पर training के फायदे

मौजूदा image और video generation approaches आमतौर पर 4 seconds, 256x256 जैसे standard sizes में resize, crop और trim करती हैं
Sora data को original size पर train करने के तरीके से कई फायदे पाता है
Sampling flexibility
- Sora 1920x1080p widescreen video, 1080x1920 vertical video और इनके बीच के कई प्रकार के video sample कर सकता है
- अलग-अलग devices के लिए content native aspect ratio में सीधे generate किया जा सकता है
- उसी model से lower size पर जल्दी prototype बनाकर, बाद में full resolution में generate किया जा सकता है
Framing और composition में सुधार
- Original aspect ratio पर training से composition और framing बेहतर होती है
- सभी training videos को square में crop करने वाला model कभी-कभी ऐसे videos बनाता है जिनमें subject सिर्फ आंशिक रूप से दिखाई देता है
- Sora square-crop model की तुलना में बेहतर framing वाले videos generate करता है

Language understanding और caption processing

Text-to-video generation system को train करने के लिए matching text captions वाले बहुत बड़े video set की जरूरत होती है
OpenAI ने DALL·E 3 में पेश की गई recaptioning technique को video पर apply किया
पहले बहुत detailed captions बनाने वाला model train किया गया, फिर उससे पूरे training videos के लिए text captions generate किए गए
Detailed video captions से training करने पर text fidelity और overall video quality बेहतर होती है
DALL·E 3 की तरह GPT का इस्तेमाल short user prompts को long detailed captions में बदलने और उन्हें video model को देने के लिए किया जाता है
यह तरीका Sora को user prompts का अधिक सटीक पालन करने वाले high-quality videos generate करने में इस्तेमाल होता है

Images और videos को input के रूप में इस्तेमाल करने वाली generation और editing

Sora text के अलावा existing images या videos को भी prompt के रूप में ले सकता है
यह feature perfectly looping videos generate करने, static images को animate करने, और video को आगे-पीछे time में extend करने जैसे tasks में इस्तेमाल होता है
DALL·E images को animate करना
- Sora image और prompt input लेकर video generate कर सकता है
- Examples DALL·E 2 और DALL·E 3 image-based video generation से बने हैं
Generated video extension
- Sora video को time में आगे या पीछे extend कर सकता है
- Generated video के एक segment से शुरू होकर पीछे की time direction में extend किए गए तीन videos के starting points अलग होते हैं, लेकिन वे एक ही ending तक पहुँचते हैं
- इसी तरीके से video को आगे-पीछे extend करके seamless infinite loop बनाया जा सकता है
Video-to-video editing और connection
- Diffusion model आधारित image/video editing methods में से एक SDEdit को Sora पर apply किया गया
- यह technique Sora को input video की style और environment को zero-shot में transform करने देती है
- दो input videos के बीच gradually interpolate करके, पूरी तरह अलग subject और scene composition वाले videos के बीच भी smooth transition बनाया जा सकता है

Image generation capability

Sora images भी generate कर सकता है
Time length एक frame वाली spatial grid में Gaussian noise patches रखकर images generate की जाती हैं
Generated image sizes variable हो सकते हैं और 2048x2048 resolution तक संभव हैं
Example prompts में autumn portrait close-up, coral reef, apple tree के नीचे young tiger की digital art, और aurora वाला snow-covered mountain village शामिल हैं

Scale बढ़ाने पर दिखाई दी simulation capability

Large-scale पर train किए गए video models इंसानों, animals और environment के कुछ पहलुओं को simulate करने की emergent capabilities दिखाते हैं
इन traits को 3D या objects पर explicit inductive bias के बिना scaling से उभरी phenomenon के रूप में देखा जाता है
3D consistency
- Sora dynamic camera movement वाले videos generate कर सकता है
- Camera के move या rotate करने पर people और scene elements 3D space में consistently move करते हैं
Long-term consistency और object persistence
- लंबे video samples में temporal consistency बनाए रखना video generation systems की महत्वपूर्ण चुनौती है
- Sora हमेशा नहीं, लेकिन कभी-कभी short-range और long-range dependencies को प्रभावी ढंग से model करता है
- People, animals और objects occlude होने या frame से बाहर जाने के बाद भी बने रह सकते हैं
- एक ही sample में same character के कई shots बनाए जा सकते हैं और पूरे video में appearance बनाए रखी जा सकती है
World के साथ interaction
- Sora कभी-कभी ऐसे actions simulate करता है जो सरल तरीके से world state को प्रभावित करते हैं
- Examples में artist के canvas पर छोड़े brush strokes का समय के साथ बने रहना, और किसी व्यक्ति के hamburger खाने के बाद bite mark का रह जाना शामिल है
Digital world simulation
- Sora video game जैसी artificial processes भी simulate कर सकता है
- Minecraft example में, default policy से player को control करते हुए world और dynamics को high fidelity में render किया जा सकता है
- “Minecraft” का उल्लेख करने वाले caption prompt भर से यह capability zero-shot में निकाली जा सकती है

Current limitations और निष्कर्ष

Simulator के रूप में Sora की कई सीमाएँ हैं
Glass टूटने जैसी कई basic interactions की physics को यह सही ढंग से model नहीं कर पाता
Food खाने जैसे interactions, जहाँ object state को सही तरह बदलना चाहिए, हमेशा accurate नहीं होते
लंबे samples में consistency टूटने या objects के अचानक दिखाई देने जैसे failure cases Sora landing page पर और दिए गए हैं
मौजूदा capabilities दिखाती हैं कि video models की continuous scaling, physical और digital worlds तथा उनमें मौजूद objects, animals और people को handle करने वाले सक्षम simulators के development का path बन सकती है

1 टिप्पणियां

GN⁺ 2024-02-17

Hacker News की राय

लगता है लोग यह समझ नहीं पा रहे कि यह तकनीक क्या संभव बना सकती है। यह वास्तविक physics laws वाले वीडियो के विश्वसनीय लगातार scenes बना सकती है, और अगर यह इतनी तेज हो जाए कि real-time में काम करे, तो बड़ा बदलाव आएगा।
इसे real-time camera feed वाले robot से जोड़कर, आने वाली image के संभावित future scenes लगातार कई रूपों में generate करवाएँ, तो ऐसा autonomous robot बन सकता है जो आसपास की दुनिया का real-time model बनाता है और भविष्य का अनुमान लगाता है। हर prediction असली परिणाम से कितना मेल खाता है, इसके आधार पर error correction जोड़ दी जाए, तो मुझे लगता है यह AGI के सचमुच करीब पहुँच सकता है।
Output को text generation या अपनी movement control से जोड़ा जा सकता है, और यह भी सोचा जा सकता है कि वह अपने द्वारा किए जा सकने वाले actions के परिणामों का अनुमान लगाए और फिर सबसे अच्छा action चुने। ऐसे use case में image का पूरी तरह realistic, error-free या high-resolution होना भी ज़रूरी नहीं। यह सोचने लायक है कि दुनिया को लेकर हमारी अपनी कल्पना आखिर कितनी realistic होती है।
उदाहरण के लिए, घर साफ करने वाला robot living room की image देखे, फिर साफ हो चुके living room की image बनाए, उसके बाद खुद को room साफ करते हुए video interpolate करके कल्पना करे, उस video के हिसाब से जितना संभव हो उतना action ले, और फिर दोबारा लगातार scenes बनाकर action करे। ज़रूरत हो तो यह हर सेकंड कई बार दोहराया जा सकता है।
- यह planning के लिए इस्तेमाल होने वाले world model वाले agent के ज़्यादा करीब है। सचमुच realistic images generate करने की बहुत ज़रूरत नहीं होती, और world model अपने compressed abstract representation के अंदर काम करता है।
  ऐसे system के लिए V-Jepa देखने लायक है: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-jo...
- सिद्धांत रूप में यह सही है, लेकिन समस्या यह है कि सिद्धांत रूप में हमारे पास AGI पहले भी कई बार रहा है। उदाहरण के लिए Q-learning में किसी game या system की state को neural network में डालकर संभावित future rewards का अनुमान लगवाया जाता है, फिर उस prediction accuracy को बार-बार सुधारते हुए अंततः किसी भी system में optimal action तक पहुँचा जा सकता है—ऐसा विचार है।
  Reinforcement learning experiments करने पर “बस चालू कर देंगे तो यह अच्छा काम करेगा और ढेरों शानदार solutions ढूँढ लेगा” वाली उम्मीद हमेशा रोमांचक लगती है, लेकिन असल में कभी-कभी ऐसा हो सकता है, पर अधिकतर ऐसा नहीं होता। Learning के संकेत दिखते हैं, लेकिन अक्सर बहुत बड़े नतीजे नहीं मिलते।
  Civilization जैसे video game में strong AI आता है या नहीं, इसे लगातार देखने की वजह भी यही है कि हम देखना चाहते हैं कि क्या यह complex systems की समस्याएँ हल करते हुए भी game developers के लिए practically implement करने लायक realistic है। Experts की team research project के रूप में Civilization को solve कर सकती है, लेकिन वह practicality से बहुत दूर है। Game के अंदर AI best move predict करे, उससे पहले ही सवाल है कि क्या लोगों के Civilization खेलने के videos दिखाने भर से video model best move predict कर पाएगा।
- दिलचस्प बात यह है कि video data इतना ज़्यादा है कि अब ऐसे models आ गए हैं जो 2D pixel space में future project कर सकते हैं।
  Robotics का ultimate goal असल में 3D world space में future project करना है, और 3D world model कितना complex है, इस पर निर्भर करते हुए काम करने योग्य 3D projection model कहीं छोटा भी हो सकता है।
  बस उससे जुड़ा data internet पर इतनी आसानी से मौजूद नहीं है।
- जैसा दूसरे जवाबों में कहा गया है, यह Yann LeCun द्वारा [1] में पेश किए गए goal-oriented AI idea से जुड़ा है। Paper में उस नाम का इस्तेमाल नहीं हुआ था, लेकिन LeCun ने talks और slides में इसे ऐसा ही कहा, और साथ ही यह भी कहते रहे कि ऐसी चीज़ generative models से हासिल नहीं होगी।
  AI field में लंबे समय तक रहने पर DeepBlue से लेकर convolutional neural networks, deep reinforcement learning और आज के large language models तक, AGI तक ले जाने वाले कई breakthroughs दिखते हैं। हर बार या तो वह वैसा breakthrough नहीं था जैसा लोगों ने सोचा था, या फिर AGI के लिए एक engineering breakthrough से कहीं ज़्यादा चीज़ों की ज़रूरत होती है।
  अगर आपको लगता है कि यह idea संभव है, तो इसे किसी simple environment में खुद आज़माया जा सकता है। छोटा grid world या Nethack [2] जैसे text-based game का simplified version बनाकर test-tube जैसे setup में implement करें और देखें कि यह कितना अच्छा काम करता है। इस पर paper भी लिखा जा सकता है।
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
  [2] बेहतर होगा कि Nethack से ही शुरुआत न करें। “AI” के लिए यह बहुत कठिन है।
- Sora जैसे systems निश्चित रूप से ज़रूरी हैं, लेकिन अपने आप में पर्याप्त नहीं हैं। अगर इन्हें सही तरह से reasoning कर सकने वाले multimodal model के साथ जोड़ा जाए, तो यह AGI, और अधिक सटीक रूप से ASI, के करीब पहुँच सकता है।
  क्योंकि इनके पास इंसानों से लंबी context length, infrared या electroreception जैसी अतिरिक्त sensory modalities, कहीं व्यापक expertise और विशाल bandwidth जैसे फायदे होंगे।
  मेरे हिसाब से Sora का future successor model + GPT-4 का संभावित successor model = ASI।
  इससे जुड़ी मेरी एक और comment: https://news.ycombinator.com/item?id=39391971
अच्छा है कि यह पेज सिर्फ़ top results ही नहीं दिखाता, बल्कि कुछ failure cases भी दिखाता है
उदाहरण के लिए, surfer आखिर में हवा में surfing करता है: https://cdn.openai.com/tmp/s/prompting_7.mp4
एक scene ऐसा भी है जहाँ काँच टूटना चाहिए, लेकिन वह टूटता नहीं और अजीब तरीके से सिर्फ़ liquid बहता है: https://cdn.openai.com/tmp/s/discussion_0.mp4
इस व्यक्ति के चलने का तरीका भी अजीब है: https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-a...
यह map कहाँ से आया, यह भी समझ नहीं आता: https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls...
- कुछ showcase videos में भी perspective और parallax errors दिखते हैं। इंसानी subject background के लोगों की तुलना में बहुत बड़ा दिखता है, या ऐसे horizontal plane पर खड़ा होता है जो match नहीं करता। सच कहें तो थोड़ा चक्कर-सा आ सकता है, लेकिन फिर भी बहुत impressive है
- map वाले scene में लगभग 6 सेकंड पर तीसरा हाथ map हटा रहा है
- “इस व्यक्ति के चलने का तरीका” वाले scene में यह भी अजीब है कि कमर के नीचे से छाता क्यों निकला हुआ है
“खाना खाने जैसी interactions हमेशा सही object state changes नहीं बनातीं” वाला हिस्सा देखकर लगता है कि शायद इसी वजह से उन्होंने Will Smith को spaghetti खाते हुए नहीं दिखाया
“video models को scale करना physical और digital worlds के high-performance simulators विकसित करने की promising path है” — यह वाक्य robotics के लिए दिलचस्प है, लेकिन निकट भविष्य का उपयोग शायद Gaussian splatting scenes की खाली जगहें भरना हो सकता है
किसी space का 3D walkthrough बनाने के लिए सभी possible angles को बिना gaps cover करने वाली सैकड़ों से हज़ारों photos चाहिए होती हैं, और फिर भी कुछ हिस्से छूट जाते हैं। इस स्तर का model hidden edges, close-up details, और standard reconstruction में holes या blur बनकर रह जाने वाले हिस्सों को believable तरीके से restore कर सकता है
किसी जगह की सिर्फ़ 5–10 photos से भी किसी भी angle से explore की जा सकने वाली smooth और realistic 3D scene मिल सकती है, और लोगों या unwanted objects को scene से हटाना भी संभव हो जाएगा। इस तरह extrapolate की गई reconstruction हर detail में reality से पूरी तरह match नहीं करेगी, लेकिन फिर भी बहुत सारे applications को enable करेगी
- ऐसी चीज़ को “reconstruction” कहने के बजाय artist’s impression कहना ज़्यादा सही होगा। जहाँ exact details important नहीं हैं वहाँ अच्छा है, लेकिन अगर details important नहीं हैं तो blurred भी काफ़ी हो सकता है
AlphaGo और AlphaZero ने superhuman performance इसलिए दी क्योंकि Go के लिए perfect simulator मौजूद था। जिस real world में हम रहते हैं, उसके लिए ऐसा simulator नहीं है। Pure large language models इंसानों द्वारा perceive की गई दुनिया का rough और abstract representation कुछ हद तक सीख लेते हैं, लेकिन Sora deep learning से ऐसा simulator बनाने की कोशिश है
“हमारे results बताते हैं कि video generation models को scale करना physical world के general-purpose simulator बनाने की promising path है” — यही मुख्य बात है
अगर ऐसा simulator पर्याप्त अच्छा हो जाए, तो software side पर general-purpose और superhuman robotic capabilities मिल सकती हैं। इस approach से सच में यह हासिल हो पाएगा या नहीं, यह अभी साफ़ नहीं है
superhuman क्यों? क्योंकि हमारी working memory से लंबा context length एक स्पष्ट advantage है, और alternative sensory modalities या उन details को ज़्यादा dense तरीके से simulate करने की क्षमता भी advantage हो सकती है जिनसे अधिकतर इंसान परिचित नहीं होते
- यह बात वाकई दिलचस्प है कि यह मेरी intuition के उलट जाती है। मुझे लगता था कि real camera streams को analyze करना, दिख रही चीज़ों को video game जैसी polygon representation में बदलना, और फिर उस geometry पर AI से decision-making करवाना कहीं ज़्यादा आसान होगा
  लेकिन AI का flow intermediate steps छोड़कर सीधे pixel data पर काम करने की तरफ़ है। यह approach training data से 3D geometry, perspective और physics की समझ अपने-आप उभर आने की उम्मीद करती है
- real world का perfect simulator पहले से मौजूद है। camera से record कर लो। researchers को दिशा पकड़ने और single-digit factor तक तेज़ी से सीखने का तरीका खोजने के लिए बस थोड़ा समय मिल जाए, तो वे वहाँ पहुँच जाएंगे
लगता है Ylecun ने कई बार कहा था कि बड़े models को train करने के लिए video बेहतर है, क्योंकि video की information density ज़्यादा होती है
results वाकई impressive हैं। इतनी high-quality videos generate करना, और video के past और future को extend कर पाना यह दिखाता है कि model real world, object interactions, 3D structure वगैरह को कितना “समझता” है
image generation को भी दुनिया के बारे में पहले से बहुत कुछ जानना पड़ता है, लेकिन video generation में model को 3D, object motion और interactions समझने पड़ते हैं—इस लिहाज़ से मुझे लगता है कि gap कहीं बड़ा है
किसी के drawing करने वाला scene पूरा generated video है, यह बात पागल कर देने जैसी लगती है
इसे खुद try करना चाहता हूँ, लेकिन imagine भी नहीं कर सकता कि cost कितनी महंगी होगी। full resolution में train करके maximum 1 minute की video generate कर सकता है
video generation इतनी खराब थी कि मुझे लगा था इस level तक पहुँचने में अभी कई साल लगेंगे, लेकिन यह फिर एक बार बस data और compute जोड़ दो वाली मिसाल लगती है। Transformer फिर साबित करता दिख रहा है कि वह कुछ भी सीख सकता है और अच्छे से कर सकता है
main article पर भी काफी reaction है, लेकिन यह page सच में overwhelming है। results बहुत impactful हैं
robot example काफी disappointing है, लेकिन लोग और background characters ज़्यादातर बहुत अच्छी तरह बने हैं, और static image diffusion models के अधिकतर results से कहीं बेहतर हैं। इंसान के objects से interact करते समय वही व्यक्ति बना रहना—मुझे उम्मीद नहीं थी कि ऐसे models इतनी जल्दी इसमें इतने अच्छे हो जाएंगे
यह देखकर हैरानी होती है कि यह model किसी स्पष्ट 3D prior knowledge के बिना भी इतनी 3D-consistent videos generate करता है। इतना कि उस video से सीधे NeRF जैसी 3D representation train कराई जा सकती है: https://twitter.com/BenMildenhall/status/1758224827788468722
- Stable Diffusion को modify करके मौजूदा image से HDR spherical environment map बनाने का काम भी इसी तरह चौंकाने वाला था: https://diffusionlight.github.io/
  इससे भी ज्यादा हैरानी की बात यह है कि model से image के center में chrome sphere inpaint कराया जाता है, ताकि reflection के जरिए camera के पीछे क्या है वह बनाया जा सके। model context को समझता है और पूरे environment में plausibly मौजूद हो सकने वाली चीजों की कल्पना कर लेता है
- गौर से देखें तो ऐसा नहीं है। examples में बहुत सारी inconsistencies हैं। camera rotate होने पर perspective पूरी तरह बिगड़ जाता है, खिड़की का perspective बदलता है, और patio अचानक गहरा या उथला हो जाता है। camera move होने पर shadows बनती और गायब भी होती हैं
  दूसरे examples में सड़कें, objects और लोग अचानक दिखाई देते या गायब हो जाते हैं, पत्थर इंसान में बदल जाता है, और घोड़े के अचानक दूसरा सिर उग आता है, फिर वह केवल दो पैरों वाला अलग घोड़ा बन जाता है
  सरसरी तौर पर देखने पर impressive है, लेकिन ध्यान से देखने पर यह realism से ज्यादा सपने जैसा है। यह लंबी अवधि की temporal, spatial और causal consistency के बिना, image से image की कल्पना करने जैसा है। 10 साल पुराने Google DeepDream से इसे बहुत ज्यादा impressive मानना मुश्किल है
- जिज्ञासा है कि model का कोई variant image के बजाय सीधे 3D mesh और camera animation output कर पाएगा या नहीं
- 2D diffusion models में भी यही बात है[1]। lighting, shadows और object occlusion जैसी चीजों की वजह से लगता है कि 3D कैसे काम करता है, यह समझना पड़ता है
  [1] https://dreamfusion3d.github.io/
- जिज्ञासा है कि stereo image data पर train करने से यह कितना और बेहतर होगा
दिलचस्प idea है। जैसे large language model सिर्फ “text predictor” होता है, लेकिन coherent text को ठीक से predict करने के लिए उसे भाषा और दुनिया का model सीखना पड़ता है, वैसे ही video predictor को भी एक समझ में आने वाला world model सीखना होगा—यह स्वाभाविक है
सोचता हूं कि इनके इसी तरह useful बनने के लिए इन्हें आगे कितने orders of magnitude तक evolve करना होगा
अगर ऐसी capability की अनुमति दी जाए, शायद premium या उससे ऊपर के models में, तो यह जल्द ही पूरी porn industry को ध्वस्त कर सकती है। मेरा मतलब websites से नहीं, बल्कि उन sex workers से है जिनका अक्सर शोषण होता है
कोई भी अपनी पसंद का वर्णन करे और ऐसे videos बनाने के लिए वास्तविक इंसानों को तकलीफ उठाने की जरूरत न पड़े—वह तुरंत visualize हो सके। मुझे पता है कि यह, खासकर अमेरिका में, बात करने में संकोच वाला sensitive topic है, लेकिन market बहुत बड़ा है और सही तरीके से किया जाए तो यह मानवता के लिए मददगार भी हो सकता है
- हर porn actor पर reward circuits बिगड़ चुके हजारों porn consumers होते हैं, और actors में से कुछ का abuse होता है जबकि कई को काफी अच्छा compensation मिलता है
  अंतहीन addictive stimulus बनाना मानवता की मदद करने वाली चीज से सबसे दूर है
  अगर आप इस क्षेत्र में कुछ अच्छा करना चाहते हैं, तो consumption को limit करने के तरीकों पर research करना बेहतर होगा

World Simulator के रूप में वीडियो जनरेशन मॉडल

Sora जिन समस्याओं को संभालता है और report का scope

Visual data को patches में unify करने का तरीका

Video compression और spatiotemporal latent patches

Video generation के लिए diffusion Transformer scaling

Original size पर training के फायदे

Sampling flexibility

Framing और composition में सुधार

Language understanding और caption processing

Images और videos को input के रूप में इस्तेमाल करने वाली generation और editing

DALL·E images को animate करना

Generated video extension

Video-to-video editing और connection

Image generation capability

Scale बढ़ाने पर दिखाई दी simulation capability

3D consistency

Long-term consistency और object persistence

World के साथ interaction

Digital world simulation

Current limitations और निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय