Diffusion Models Are Real-Time Game Engines
- GameNGen: न्यूरल मॉडल से संचालित पहला गेम इंजन, जो जटिल environments के साथ real-time interaction को high quality में प्रदान करता है
- DOOM simulation: एक single TPU पर classic game DOOM को 20 frames per second से अधिक की दर पर interactively simulate किया जा सकता है
- PSNR: अगले frame prediction में 29.4 PSNR हासिल किया गया, जो lossy JPEG compression के समान है
- मानव evaluators: मानव evaluators गेम clips और simulation clips में अंतर करने में random guessing से केवल थोड़ा बेहतर थे
पूरा gameplay video
एजेंट play के जरिए data collection
- स्वचालित RL agent: बड़े पैमाने पर human gameplay data इकट्ठा नहीं किया जा सकता, इसलिए पहले चरण में एक स्वचालित RL agent को गेम खेलने के लिए train किया गया, और इन training episodes की actions और observations को रिकॉर्ड करके generative model के training data के रूप में इस्तेमाल किया गया
Generative diffusion model training
- Stable Diffusion v1.4: actions और observations (frames) के पिछले sequence को condition के रूप में लेने वाले एक छोटे diffusion model का पुनः उपयोग किया गया
- Gaussian noise जोड़ना: training के दौरान encoded frames में Gaussian noise जोड़कर context frames को corrupt किया गया, ताकि network पिछले frames से sampled जानकारी को modify कर सके। यह लंबे समय तक visual stability बनाए रखने के लिए महत्वपूर्ण है
Latent decoder fine-tuning
- Stable Diffusion v1.4 का pre-trained autoencoder: 8x8 pixel patches को 4 latent channels में compress करता है, जिससे game frames की prediction के समय उल्लेखनीय artifacts पैदा होते हैं। इसका असर खास तौर पर छोटे details और नीचे की HUD bar पर पड़ता है
- Decoder training: image quality सुधारने के लिए latent autoencoder के सिर्फ decoder को train किया गया, जिसमें target frame pixels के लिए MSE loss की गणना की गई
GN⁺ का सार
- GameNGen एक neural model का उपयोग करके real-time में जटिल game environments के साथ interact कर सकने वाला पहला game engine है
- DOOM simulation के जरिए यह high-quality frame prediction देता है, और यह इतना परिष्कृत है कि मानव evaluators के लिए वास्तविक game और simulation में अंतर करना कठिन है
- Stable Diffusion v1.4 जैसे मौजूदा models का पुनः उपयोग करके efficiency बढ़ाई गई, और Gaussian noise जोड़ने जैसी techniques से visual stability बनाए रखी गई
- Latent decoder fine-tuning के जरिए image quality बेहतर की गई, जिससे game frames के details सुरक्षित रहे
1 टिप्पणियां
Hacker News की राय
Google के SD 1.4 का उपयोग करने वाला diffusion model उम्मीद से ज़्यादा cause, effect और sequence समेटे हुए है
यह paper ऐसे सिस्टम का वर्णन नहीं करता जो real-time user input लेकर output को समायोजित करे
यह हैरान करने वाला है कि यह मॉडल 20fps पर render कर सकता है
Doom को हर चीज़ पर चलाने की कोशिश जारी है
इसे निरर्थक बताने वाली टिप्पणियाँ पढ़ना मज़ेदार है
Doom system requirements और Stable Diffusion v1 की तुलना
game engine की भूमिका दुनिया को render करना है
हालाँकि text conditioning नहीं दी गई थी, लेकिन सिर्फ text prompt से नया game बनाना संभव हो सकता है