Diffusion मॉडल एक real-time game engine है

(gamengen.github.io)

1 पॉइंट द्वारा GN⁺ 2024-08-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

GameNGen केवल neural network model के ज़रिए क्लासिक गेम DOOM की screen transitions जनरेट करता है, जिससे अलग पारंपरिक engine के बिना real-time interaction संभव होता है
यह एक single TPU पर 20fps से अधिक पर चलता है और लंबे play trajectories में भी screen quality और responsiveness बनाए रखने का लक्ष्य रखता है
अगले frame prediction ने PSNR 29.4 दर्ज किया, और human evaluators छोटे clips में असली game और simulation को random guess से बस थोड़ा बेहतर स्तर पर ही अलग कर पाए
training, RL agent द्वारा बनाए गए action·observation records के आधार पर होती है, जिसमें diffusion model पिछले frames और action sequence से अगला frame जनरेट करता है
inference के दौरान जमा होने वाले autoregressive drift को कम करने के लिए training के समय context frames में Gaussian noise जोड़ा जाता है, और यह लंबे समय की visual stability में महत्वपूर्ण भूमिका निभाता है

केवल neural network से चलने वाला DOOM simulation

GameNGen एक neural network model-आधारित game engine है, जो जटिल environment में लंबे trajectories के दौरान real-time interaction संभव बनाता है
demo में लोग DOOM खेल रहे हैं, इसकी real-time recording को केवल GameNGen neural network model से simulate किया गया है
performance और quality का फोकस इस पर है कि इसे असली gameplay से अलग पहचानना कठिन हो
- यह एक single TPU पर 20fps से अधिक पर DOOM को interactive तरीके से simulate करता है
- अगले frame prediction में PSNR 29.4 हासिल किया गया
- यह PSNR lossy JPEG compression के समान स्तर का है
- human evaluators छोटे game clips और simulation clips को random अनुमान से थोड़ा बेहतर स्तर पर ही अलग कर पाए
संबंधित सामग्री Paper और Arxiv में देखी जा सकती है

training data और generative model की संरचना

data collection बड़े पैमाने पर human play इकट्ठा करने के बजाय automated RL agent को train करके किया गया
- agent के training episodes से actions और observations को save किया गया
- save किए गए action·observation records ही generative model का training data बने
generative model के रूप में छोटे diffusion model Stable Diffusion v1.4 का पुनः उपयोग किया गया
- यह पिछले actions और observation frame sequences को condition के रूप में लेकर अगला frame जनरेट करता है
- autoregressive inference में होने वाले drift को कम करने के लिए training के समय encoded context frames में Gaussian noise जोड़ा जाता है
- यह noise injection मॉडल को पिछले frame से sampled जानकारी को correct करने में मदद करता है, जिससे लंबे समय तक visual stability बनाए रखना महत्वपूर्ण बनता है
Stable Diffusion v1.4 का pretrained autoencoder 8x8 pixel patches को 4 latent channels में compress करता है
- game frame prediction में छोटे details और खासकर नीचे वाले HUD bar में noticeable artifacts दिखाई देते हैं
- image quality बढ़ाने के लिए latent autoencoder के केवल decoder को target frame pixels पर MSE loss के साथ train किया गया

1 टिप्पणियां

GN⁺ 2024-08-29

Hacker News की राय

यह देखकर हैरानी हुई कि diffusion models में अपेक्षा से ज़्यादा कारण-परिणाम और क्रमबद्धता मौजूद लगती है
Google ने diffusion model के core के रूप में SD 1.4 का इस्तेमाल किया, यह भी एक अच्छा reminder है कि बड़े cloud monopoly वाली कंपनियों के लिए भी open models उपयोगी होते हैं
सारांश में जो बातें प्रभावशाली लगीं वे थीं: 1) agent से Doom खेलवाकर practically अनंत training data हासिल करना, 2) मूल frames में Gaussian noise जोड़कर अगले frames को फिर से “सुधारने” के लिए reward देना, और यह long-term stable “rendering” के लिए अहम था
खासकर आखिरी बात दिलचस्प है, क्योंकि यह model को error correction और stability सिखाने वाली intuition जैसी लगती है
यह भी जिज्ञासा है कि क्या इस model को “Doom-based model” की तरह देखकर, photorealistic या ray-traced style में fine-tune करके बेहतर दिखने वाली rendering पाना आसान हो सकता है
- demo video को ध्यान से देखें तो “कारण-परिणाम और क्रमबद्धता” को थोड़ा कम मानकर चलना चाहिए
  player लगभग वापस नहीं जाता, लेकिन जब character सच में मुड़कर वही चीज़ फिर देखता है, तो वह काफी बदल चुकी होती है। grey walls और triangular sign वाला room खास तौर पर ध्यान खींचता है
  यह diffusion models से अपेक्षित behavior से मेल खाता है। billions of frames के gameplay पर train होने के कारण यह पिछले कुछ frames के आधार पर plausible “next” frame अच्छी तरह बना लेता है, लेकिन level structure को याद रखने जैसे logical game constraints को गहराई से नहीं समझता
- कुछ गलतफहमियां साफ करें तो, diffusion model खुद state बनाए नहीं रखता
  weights में कारण-परिणाम जैसी concepts कुछ हद तक encoded हो सकती हैं, लेकिन model एक बार में सिर्फ एक frame render करता है। यह मूल रूप से text-to-image model है, text-to-video model नहीं
  text के बजाय previous state और frames अगले frame की prediction input के रूप में जाते हैं
  noise को SD model में डालने से पहले previous frame में जोड़ा जाता है, और reinforcement learning agent ने उसे “correct” नहीं किया था
  denoising objective machine learning में व्यापक रूप से इस्तेमाल होता है, और intuitively prediction model को आसपास के frames या words जैसे context का उपयोग करने के लिए मजबूर करता है
  यहां यह generative diffusion model की randomness से पैदा होने वाली छोटी errors के accumulate होकर autoregressive drift बनने से रोकने में मदद करता है। Figure 4 में player के स्थिर खड़े रहने पर ऐसा drift दिखता है
- यह game से ज़्यादा, पिछले कुछ frames के आधार पर अगले frame की prediction करने वाली game video की memory जैसा है
  कुछ ऐसा कि “अगला क्या हुआ होगा, इसकी कल्पना की जा सकती है”
  इसे दुनिया का सबसे inefficient video compression कहना चाहूंगा
  जो सच में देखना चाहता हूं वह actual predictive power, यानी imagination है। abstract में यह साफ नहीं दिखा
  model को classic map set पर train किया गया था; अगर किसी अनजान map के gameplay के कुछ frames input दिए जाएं, तो यह क्या करेगा? आगे क्या होगा, इसकी कितनी अच्छी कल्पना कर पाएगा?
- यह सोचना एक आम भ्रम है कि बड़ी कंपनियां हर project में अपने सारे resources झोंक देती हैं
  यह paper चार co-authors ने लिखा है। उन्हें काफी resources मिले होंगे, लेकिन फिर भी research division को मिले resource pool के भीतर ही बांटकर इस्तेमाल करना पड़ा होगा
  Google में भी Gemini कुछ versions के साथ केवल एक ही है
- Google को तो पुराने LLM memo के बाद यह बात सबसे अच्छी तरह पता होनी चाहिए। उसका सार कुछ ऐसा था: “हम open models से लड़ने या compete करने की कोशिश में हार रहे हैं”: https://www.semianalysis.com/p/google-we-have-no-moat-and-ne...
यह बात अपने-आप में अजीब तरह से हैरान करने वाली है कि यह काम करता है, और 20fps rendering तक हो जाती है, यह भी कमाल है
पिछले frame और action को encode करके हर step पर model में डालना पड़ता था, इसलिए यह diffusion model और recurrent neural network के मिश्रण जैसा दिखता है
अमूर्त रूप से कहें तो model किसी ऐसे game का सपना देख रहा है जिसे उसने बहुत खेला है, और real-time input उस सपने की state को बदल रहा है
सोचने पर मजबूर करता है कि क्या इंसान भी अगले पल की prediction machine हैं, बस उनमें थोड़ी ज़्यादा memory embedded है
- इंसानों में ऐसी क्षमता होना काफ़ी समझ में आता है
  logic को उलटकर, अगर अगले frame को वर्तमान frame के नतीजे के रूप में अपेक्षित hypothesis माना जाए, तो इस “hypothesis” की वास्तविक sensations से तुलना करना पूरे sensory input को process करने की तुलना में difference को process करना आसान बनाता है
  जैसा कि Richard Dawkins ने हाल के podcast[1] में कहा, genes शानदार prediction machines हैं क्योंकि survival prediction पर निर्भर करता है। vision पर लगने वाले resources की मात्रा को देखते हुए, visual predictions generate करने की क्षमता अच्छी तरह fit बैठती है
  तो फिर aphantasia हमें क्या बताता है?
  [1] https://podcasts.apple.com/dk/podcast/into-the-impossible-wi...
- इंसान सचमुच ऐसे हो सकते हैं। कम-से-कम Lisa Feldman Barrett ऐसा मानती हैं
  Lex Fridman podcast “Counterintuitive Ideas About How the Brain Works”[2] सुनने लायक है। वे समझाती हैं कि brain के लिए reaction की बजाय लगातार prediction के रूप में काम करना सबसे efficient है, वगैरह
  वे science communicator के रूप में भी शानदार हैं, इसलिए सुनते रहने का मन करता है
  [1] https://en.wikipedia.org/wiki/Lisa_Feldman_Barrett
  [2] https://www.youtube.com/watch?v=NbdRIVCBqNI&t=1443s
- सही है। predictive coding देखें: https://en.wikipedia.org/wiki/Predictive_coding
- यह पूरे v5 TPU पर चल रहा है: https://cloud.google.com/blog/products/ai-machine-learning/i...
  3090 जैसे high-end consumer GPU से इसकी तुलना कैसे होती है, यह साफ़ नहीं है, लेकिन INT8 TFLOPS लगभग समान दिखते हैं। TPU में memory कम है (16GB बनाम 24GB), और बाकी specs के बारे में ठीक से नहीं पता
  फिर भी कुछ बात मेल नहीं खाती। SD में आम तौर पर 3090 पर भी एक high-quality result बनाने में कम-से-कम कुछ seconds लगते हैं, जबकि यहाँ यह लगभग दस गुना के आसपास तेज़ है। इससे लगता है कि इस task में TPU, GPU पर भारी पड़ता है
  लगता है कि यह low-resolution (320x240) images बना रहा है, लेकिन फिर भी यह बहुत तेज़ महसूस होता है
- इंसान को “अगले पल की prediction machine” मानना कुछ ज़्यादा ही reductionist लगता है
  ऐसा लगता है जैसे AI से शुरू करके पीछे की ओर जाते हुए सारी cognition को “अगली किसी चीज़ का predictor” के ढाँचे में फिट किया जा रहा हो
  आखिरकार यह stochastic parrot वाली बहस की ही पुनरावृत्ति है
इस thread को देखने के बाद, मुझे लगता है यह बताना ज़रूरी है कि यह paper realtime user input लेकर उसे output में reflect करने वाला system describe नहीं करता
हालांकि abstract की wording से मुझे लगा कि वह strongly imply करता है कि ऐसा कुछ हो रहा है
यह agent द्वारा DOOM खेलने के बड़े dataset पर train होता है, और user evaluation के लिए video samples देता है, लेकिन ऐसा नहीं है कि user realtime में simulation में input देकर लगभग 20FPS पर “DOOM खेल” रहा हो
paper में “game को शुरू में effectively कैसे बनाया जाए, human input का सबसे अच्छा उपयोग कैसे किया जाए जैसे key questions बाकी हैं”, “final goal human player को simulation के साथ interact कराना है” जैसी lines clue देती हैं
सबसे बढ़कर, realtime user gameplay को describe करने वाला section गायब है
- model public नहीं है, इसलिए gameplay quality को सीधे evaluate नहीं किया जा सकता, लेकिन authors में से एक ने कहा है कि यह “playable है, और project page के videos actual gameplay हैं”: https://x.com/shlomifruchter/status/1828850796840268009
  https://gamengen.github.io/ के top video की शुरुआत भी “ये लोगों के game खेलने की realtime recordings हैं” से होती है
  इन claims को देखें तो लगता है project के अंत तक उन्होंने ऐसा playable system बना लिया था जिसे इंसान के सामने रखा जा सके. हालांकि arXiv पर draft upload होने के समय शायद ऐसा न रहा हो
- शुरुआत में मैंने भी यही सोचा था, लेकिन abstract नहीं बल्कि paper को दोबारा देखें तो बात अलग है
  इसमें लिखा है “A key inputs और mouse movements का set है…” और “…actions पर condition करने के लिए हर action के लिए embedding A_emb सीखते हैं”
  यानी इस model की diffusion process words पर नहीं, बल्कि user actions से निकले action embedding A पर conditioned होती है
  फिर noisy starting frame को latent representation में encode करके noisy latent representation में दूसरे condition के रूप में concatenate किया जाता है
  आखिर में यह एक diffusion model है जो सिर्फ Doom images पर train होता है, और current Doom frame व user action पर conditioned होकर subsequent frames बनाता है
  इसलिए user सच में play कर रहा है
  हालांकि यह संभव है, यह कोई चौंकाने वाली बात नहीं. मूलतः यह game की neural-network recording है, लेकिन शानदार tech demo है
- paper को यह हिस्सा और साफ लिखना चाहिए, यह सही है, लेकिन section 5.2.3 की line की वजह से मुझे लगता है कि यह playable था और इंसान ने खेला था
  उसमें लिखा है, “model को manually play करते समय, कुछ areas दोनों के लिए बहुत आसान हैं, कुछ areas दोनों के लिए बहुत मुश्किल हैं, और कुछ areas में agent कहीं बेहतर करता है”
  शायद मेरी imagination कम हो, लेकिन “model को manually play करना” का कोई और reasonable interpretation मुझे नहीं सूझता
- जो आपने describe किया, वह इस शानदार project की याद दिलाता है:
  https://www.youtube.com/watch?v=udPY5rQVoW0
  “Playing a Neural Network's version of GTA V: GAN Theft Auto”
- वह गलत है. यह इंसान द्वारा playable interactive simulation है
  “Figure 1: a human player is playing DOOM on GameNGen at 20 FPS.”
  abstract की sentence ambiguous है, इसलिए यहां काफी confusion हुआ, लेकिन paper इस point पर स्पष्ट है
  tech experts से भरे forum में ऐसी गलत जानकारी का high upvote होना काफी disappointing है
हर चीज़ पर Doom चलाने की खोज जारी है
technically कहें तो यह संभवतः सबसे महान anti-Doom है, यानी सबसे ज़्यादा hardware requirements वाला Doom नहीं है क्या?
hardware specs को linear axis पर रखें तो यह मजेदार है कि Doom अब दोनों सिरों पर मौजूद है
- इस हिस्से को पढ़ते समय मुझे लगा था कि आप कहना चाह रहे हैं कि technically यह Doom बिल्कुल चलाता ही नहीं
  यानी Doom के original hardware/software environment के बिना port करके चलाने के बजाय, यह Doom के बिना Doom चलाने जैसा है
- अगर सबसे ज़्यादा hardware requirements वाला Doom चाहिए, तो ray-casting rendering target को मनमाने ढंग से बहुत ऊँचा सेट करके भी तो किया जा सकता है, नहीं?
- यह No-Doom है
- सचमुच महान anti-Doom तो वह होगा जिसमें ऐसे models अनंत रूप से nested हों, model दूसरे model को predict करे और आखिर में Doom को predict करे
  anti-Doom का अगला step होगा: model बनाने वाला model Doom output generate करे
- यहां ज़्यादा करीबी analogy “Minecraft के अंदर Minecraft चलाना” लगती है: https://news.ycombinator.com/item?id=32901461
Doom सिस्टम आवश्यकताएँ:
4MB RAM, 12MB डिस्क स्पेस
Stable Diffusion v1 में 860M UNet और CLIP ViT-L/14(540M) है, checkpoint का आकार 4.27GB, और full EMA 7.7GB है
यह TPU-v5e पर चलता है, और प्रति chip अधिकतम compute bf16 में 197 TFLOPs, Int8 में 393 TFLOPs है; HBM2 की capacity और bandwidth 16GB और 819GBps है, और inter-chip connection bandwidth 1600Gbps है
speed को देखते हुए यह काफ़ी impressive है, लेकिन improvement की गुंजाइश बेहद ज़्यादा है। capacity के हिसाब से इसे सैकड़ों बार याद कर लेने लायक होना चाहिए, फिर भी लगता है कि इसने game को पूरी तरह memorize नहीं किया है
इसलिए optimization के तरीकों की गुंजाइश निश्चित रूप से बहुत है। हालांकि यहाँ लक्ष्य memorization है, इसलिए ऐसी techniques का मौजूदा तकनीक पर क्या असर होगा, यह पता नहीं
दिलचस्प बात यह है कि अगर काफी ज़्यादा “play” किया जाए, automation हो, और storage व compute बहुत अधिक इस्तेमाल किए जाएँ, तो game को उधेड़ा जा सकता है
Doom को reverse engineer करने के लिए engineer रखने की तुलना में cost और time कैसा होगा, यह जानने की उत्सुकता है। कितना prior knowledge allow किया जाए, यह भी अस्पष्ट है। pretrained model और ViZDoom environment को देखते हुए, यह भी उत्सुकता है कि Doom source T5 में था या नहीं, और कौन-सा ViT checkpoint इस्तेमाल हुआ था
मैं इस model checkpoint को ज़रूर देखना चाहता हूँ। लोग इसे dissect करेंगे तो शायद सच में कुछ बेहद दिलचस्प पाएँगे
https://www.reddit.com/r/gaming/comments/a4yi5t/original_doo...
https://huggingface.co/CompVis/stable-diffusion-v-1-4-origin...
https://cloud.google.com/tpu/docs/v5e
https://github.com/Farama-Foundation/ViZDoom
https://zdoom.org/index
- आपकी बात सही है, लेकिन इस research के context में यह मुख्य मुद्दा नहीं है
  original game की तुलना में compute cost बेहिसाब है, और precomputation या storage जैसे बुनियादी elements की कमी भी सच है
  लेकिन माना जा सकता है कि ऐसी चीज़ें इस discovery के आसपास solve हो जाएँगी, समय के साथ स्वाभाविक रूप से सुधरेंगी, या bottleneck के रूप में कम अहम हो जाएँगी
  असली breakthrough यह है कि explicitly encode किए बिना भी ऐसे context-aware frame sequences को model किया जा सकता है। pure game perspective से भी, और general simulation perspective से भी
- game को “उधेड़ना” तो छोटा हिस्सा है
  बड़ा मतलब यह है कि real-world video से games generate किए जा सकते हैं
  अगर perfect flight simulator चाहिए, तो 1 साल तक हर passenger aircraft cockpit में GoPro लगा दीजिए
ऐसे posts में dead comments पढ़ना हमेशा मज़ेदार होता है। वे कितने meaningless हैं, यह point out करना मुझे अच्छा लगता है
कुछ लोगों को सिर्फ़ बनाने के मज़े के लिए चीज़ें बनाना सीखना चाहिए
क्या यह useful है? सच कहें तो बहुत नहीं। क्या यह interesting है? बिल्कुल
हर चीज़ profit के लिए बननी ज़रूरी नहीं। दुनिया को बेहतर बनाने के लिए भी बननी ज़रूरी नहीं
कभी-कभी मकसद learning, challenge और possibility check करना हो सकता है
मज़े में बिताया गया time कभी waste नहीं होता। deathbed पर कुछ लोग शायद ज़्यादा enjoy न कर पाने का regret करेंगे
- इस thread की skepticism और criticism AI hype पर निशाना साध रही है
  “यह सच में कमाल है” कहने में यह संकेत है कि निकट भविष्य में सभी software को AI models से replace कर, कल्पना की जा सकने वाली कोई भी videogame experience बनाई जा सकती है
  realistically, यह अब तक बने Doom का सबसे inefficient और unreliable रूप है। यह उन शुरुआती x86 PCs से literally लाखों गुना ज़्यादा compute इस्तेमाल करता है, जो Doom को real-time में render और play कर सकते थे
  बेशक, यह एक मज़ेदार party trick है
- बिल्कुल सही। hustle culture 80–90 के दशक की मज़ेदार maker culture की जगह लेती हुई फैलती बीमारी जैसी लगती है
  इसमें कुछ unavoidable पहलू भी है। cost of living लगातार महंगी होती जा रही है और entrepreneurs को rockstar की तरह romanticize किया जा रहा है, जिससे यह hustle mindset बनता है
- अभी यह experiment meaningless लगता है
  लेकिन मुझे वे दिन याद हैं जब “internet radio” की संभावना पर articles आते थे। पहले की तरह broadcast waves को हवा में भेजने और हज़ारों radios के tune करके सुनने के बजाय, कोई server बेहिसाब packets को बहुत लंबी copper wires के ज़रिए हज़ारों endpoints तक भेजता था
  यहाँ तक कि endpoints connection बनाए रखने के लिए बेचारे server को ACK packets वापस भेजते थे, जो compute, wires और energy की waste जैसा लगता था
  लेकिन आज हम उन्हीं copper wires पर Netflix movies binge-watch कर रहे हैं
  मैं यह नहीं कह रहा कि games को user input के आधार पर अगली image का सपना देखने वाले diffusion models से replace कर दिया जाएगा, लेकिन उसके variants interactive art creation या entertainment के नए रूप बन सकते हैं
- मुझे नहीं लगता कि यह useful नहीं है। यह पूरी तरह नए games generate करने की दिशा में stepping stone है
- उस मज़े का carbon footprint कितना है, यह जानने की उत्सुकता है
प्रभावशाली तो है, लेकिन सहमत होना मुश्किल है। diffusion model game engine नहीं है
game engine वह component है जो game को समय-अक्ष पर आगे बढ़ाता है। इसलिए यह car engine जैसा है, और नाम भी वहीं से आया है
engine को काम करने के लिए पूरी बनी हुई car या चलने की road की जरूरत नहीं होती
ऊपर वाली चीज़, किसी दी गई road पर car रख देने पर क्या होता है, उसका dynamic interactive replication जैसी है, और इसके लिए चलने वाली vehicle से लाखों test drives करनी पड़ती हैं
अगर यह engine है, तो इसे off-road भी काम करना चाहिए
- यह diffusion models पर आम criticism नहीं, बल्कि किसी खास तरह से trained result model की criticism के ज्यादा करीब है
  present tense में “काम करने के लिए road पर चलती car चाहिए” कहने के बजाय, past tense में “इसे वह काम सिखाने के लिए इसकी जरूरत पड़ी थी” कहना सही है
  यह भी साफ नहीं है कि दूसरे engines कैसे काम करते हैं, इससे मिले concepts इस्तेमाल करने वाला game engine game engine क्यों नहीं रह जाता
  diffusion models को सामान्य तौर पर देखें, तो जैसे आम diffusion model training images की बिल्कुल वही copy ही नहीं बनाते, बल्कि interpolate कर सकते हैं या अलग-अलग concepts apply करके नया output बना सकते हैं, वैसे ही यह मानने की कोई वजह नहीं दिखती कि यह approach trained “test track” के बाहर काम नहीं कर पाएगी
- दिलचस्प point है
  एक मायने में यह असली game engine data पर trained simulated game engine है
  लेकिन अगर काम करता हुआ simulation game engine “game को आगे बढ़ा” सकता है, तो मेरे हिसाब से वह अपने-आप में game engine बन जाता है। यह कैसे हासिल किया गया, यह महत्वपूर्ण नहीं है
  एक तरफ humans ने content बनाया, दूसरी तरफ यह existing game content की नकल करता है, लेकिन player को फर्क नहीं पड़ता
  ऐसी “generative game engine” के off-road जाने की कल्पना भी की जा सकती है। यानी किसी अनदेखी जगह पर जाने पर क्या होगा, इसका extrapolation करना
  उल्टा, ऐसे model की extrapolation क्षमता traditional game engine से बेहतर भी हो सकती है। सामान्य game engine में अगर आप गलती से wall के पार निकल जाएँ तो screen खाली हो जाती है, लेकिन यह model आगे बढ़ते हुए चीज़ें गढ़ सकता है
SD model में text conditioning हटा दी गई है, इसलिए वह इसमें शामिल नहीं है, लेकिन निकट भविष्य में सिर्फ text prompt से मजेदार नए games बनाए जा सकेंगे, ऐसी कल्पना की जा सकती है
DOOM कैसा दिखता है और कैसे काम करता है, यह सीखने के लिए reinforcement learning इस्तेमाल करनी पड़ी, लेकिन इसका मतलब जरूरी नहीं कि यह chicken-and-egg problem हो
यह कुछ वैसा ही है जैसे LLM केवल existing text पर trained होने के बावजूद नई stories लिख सकते हैं
इस approach की सबसे बड़ी चुनौतियों में से एक शायद open-world games होंगे, जिनमें possible states की संख्या लगभग infinite होती है
paper भी कहता है कि reinforcement learning agent से DOOM के हर कोने को पूरी तरह explore करवाने में मुश्किल हुई
Factorio या Dwarf Fortress शायद जल्द simulate नहीं होंगे। शायद
- पर्याप्त compute हो तो neural network weights DOOM source code की बहुत compressed latent representation में converge करेंगे
  शायद यह source code से भी छोटी हो सकती है। इस field का कोई व्यक्ति शायद इसे सही कर सके
  उस point पर असल में source code को latent space में interpolate करते हुए game “render” किया जाएगा। मानो एक पूरा latent-space computer हो, जिसमें engine, assets, textures और software renderer हों
  पर्याप्त शक्तिशाली computer हो तो Factorio और TF2 जैसे games के बीच latent-space interpolation की कल्पना भी की जा सकती है। और desired gameplay aspects पर condition लगाकर इस latent space को adjust किया जा सकता है
  ऐसा भविष्य rendering के आखिरी stage जैसी pipeline के कुछ हिस्सों में बहुत जल्दी आ जाएगा। उदाहरण के लिए DLSS पहले से commercialized है
  किसी दिन जब हर कोई neural network metaverse में bolt से जकड़ा होगा, तो शायद Nvidia की revenue फिर से gaming की तरफ लौट आए
  DOOM चुना गया, यह सच में अच्छा है
- इसी तरह, कोई बहुत simple game engine चलाकर उससे सिर्फ low-resolution wireframe जैसा output निकलवाया जा सकता है, और फिर उसे upscale किया जा सकता है
  यानी सारी मेहनत game mechanics पर लगाना और visual quality पर नहीं
  उम्मीद है कि यह तरीका visual inconsistencies कम करने में बेहतर होगा, जैसे सिर घुमाकर वापस देखने पर लाल monster का नीला ally बन जाना
- अगर आपको लगता है कि “सिर्फ text prompt से मजेदार नया game” बनाया जा सकता है, तो खुद ऐसा prompt लिखकर देखिए
  Mario जैसे अपेक्षाकृत simple platform game से शुरू कर सकते हैं
  जब आप लगभग 300 pages लिख चुके होंगे और अभी भी सिर्फ आधा ही समझा पाए होंगे, तब समझ आएगा कि यह hopeful thinking क्यों है
- असल में ऐसा नहीं है। यह Doom के first level का reproduction है। कुछ नया नहीं बन रहा
- निकट भविष्य के videogames जबरदस्त तरीके से बदलेंगे
  हो सकता है एक व्यक्ति model से बातचीत करके आज के AAA titles जैसी चीज़ बना सके
  Steam पर 2D side-scroller boom को याद करें, लेकिन सोचिए कि ये immersive photorealistic 3D games हैं, surreal physics (water flow, spreading fire, tornadoes) और पूरी तरह deformation/construction की possibilities के साथ
  model real-world video पर pre-trained हो, और game बस appearance, setting और story के priors को थोड़ा adjust करने वाला “style” हो
अगर game पहले से बना लिया गया है, तो क्या diffusion model game engine है? model training के लिए game चाहिए। क्या यह chicken-and-egg नहीं?
- कुछ ideas हैं
  game engine का non-real-time version बनाया जा सकता है, और neural network को real-time approximation के तौर पर इस्तेमाल किया जा सकता है
  real-world में shoot किए गए video में HUD जैसी चीज़ें edit करके डाल सकते हैं, और neural network को Doom नहीं बल्कि real world simulate करना सिखाया जा सकता है
  इस paper ने 900 million frames इस्तेमाल किए, जो 30fps पर लगभग 1 साल का video लगता है। algorithmic improvements से training requirements घट सकती हैं
  1 साल का video भी असल में बहुत ज्यादा मात्रा नहीं है। उदाहरण के लिए 500 लोगों को recruit करके उनके head और paintball guns पर GoPro, accelerometer, gyro लगाकर weekend भर paintball खिलाया जाए, तो 1 साल का video मिल सकता है
- कई games पर training की जाए, तो जैसे image generation model ऐसी नई images बना सकता है जो कभी exist नहीं करती थीं, वैसे ही ऐसे नए games बनाए जा सकते हैं जो कभी exist नहीं करते थे
- अगला step शायद text guidance जोड़कर ऐसे games generate करना हो सकता है जो मौजूद नहीं हैं
- क्या generated images के बारे में भी यही बात नहीं कही जा सकती?
- भविष्य में physics और known laws को model में encode कर सकने वाली scientific machine learning techniques foundation model का आधार बन सकती हैं
  उसके ऊपर के दूसरे models game को customize करने के लिए सिर्फ details fine-tune करें
डिफ्यूजन मॉडल गेम इंजन नहीं हो सकते। क्योंकि गेम इंजन को नए गेम बनाने और मौजूदा गेम के नियमों को real time में बदलने में सक्षम होना चाहिए
यहां तक कि स्क्रीन पर न दिखने वाले नियम भी बदल सकने चाहिए
ये tools दिलचस्प हैं, लेकिन AI के हर hype की तरह इनके साथ disclaimer की जरूरत है
इस tool ने गेम नहीं बनाया; इसने बस इंसानों द्वारा बनाए गए गेम को sample करके frames और play mechanics का बाहरी रूप generate किया है
- अगर स्क्रीन पर कभी न दिखने वाला कोई नियम बदला गया, तो क्या वह सच में बदला?
  “बस” generate किया? मैं समझता हूं कि mechanically यह सरल हो सकता है, लेकिन इतनी समृद्ध conditional distribution को compress किया गया है—यह बात बिल्कुल सरल नहीं लगती
- इन्होंने सिर्फ एक गेम पर training की और केवल control inputs को embed किया
  अगर कई games पर training की जाए और हर game के बारे में कहीं ज्यादा जानकारी embed की जाए, तो संभव है कि हम game का वर्णन करने वाला prompt देकर उसे play कर सकें
- मैं देखना चाहूंगा कि कम-poly assets से render किए गए, या किसी तरह segmented game को लेकर diffusion model से realistic या stylized art details जोड़ी जाएं
  इससे consistency problem को ठीक करते हुए भी असली फायदा मिल सकता है
- शीर्षक होना चाहिए: “डिफ्यूजन मॉडल का इस्तेमाल user input दिए जाने पर frames render करने के लिए किया जा सकता है”
- आखिरकार, क्या इसने बस training में इस्तेमाल किए गए video से थोड़ा अलग gameplay video ही generate किया है?

Diffusion मॉडल एक real-time game engine है

केवल neural network से चलने वाला DOOM simulation

training data और generative model की संरचना

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय