Diffusion मॉडल एक real-time game engine है
(gamengen.github.io)- GameNGen केवल neural network model के ज़रिए क्लासिक गेम DOOM की screen transitions जनरेट करता है, जिससे अलग पारंपरिक engine के बिना real-time interaction संभव होता है
- यह एक single TPU पर 20fps से अधिक पर चलता है और लंबे play trajectories में भी screen quality और responsiveness बनाए रखने का लक्ष्य रखता है
- अगले frame prediction ने PSNR 29.4 दर्ज किया, और human evaluators छोटे clips में असली game और simulation को random guess से बस थोड़ा बेहतर स्तर पर ही अलग कर पाए
- training, RL agent द्वारा बनाए गए action·observation records के आधार पर होती है, जिसमें diffusion model पिछले frames और action sequence से अगला frame जनरेट करता है
- inference के दौरान जमा होने वाले autoregressive drift को कम करने के लिए training के समय context frames में Gaussian noise जोड़ा जाता है, और यह लंबे समय की visual stability में महत्वपूर्ण भूमिका निभाता है
केवल neural network से चलने वाला DOOM simulation
- GameNGen एक neural network model-आधारित game engine है, जो जटिल environment में लंबे trajectories के दौरान real-time interaction संभव बनाता है
- demo में लोग DOOM खेल रहे हैं, इसकी real-time recording को केवल GameNGen neural network model से simulate किया गया है
- performance और quality का फोकस इस पर है कि इसे असली gameplay से अलग पहचानना कठिन हो
- यह एक single TPU पर 20fps से अधिक पर DOOM को interactive तरीके से simulate करता है
- अगले frame prediction में PSNR 29.4 हासिल किया गया
- यह PSNR lossy JPEG compression के समान स्तर का है
- human evaluators छोटे game clips और simulation clips को random अनुमान से थोड़ा बेहतर स्तर पर ही अलग कर पाए
- संबंधित सामग्री Paper और Arxiv में देखी जा सकती है
training data और generative model की संरचना
- data collection बड़े पैमाने पर human play इकट्ठा करने के बजाय automated RL agent को train करके किया गया
- agent के training episodes से actions और observations को save किया गया
- save किए गए action·observation records ही generative model का training data बने
- generative model के रूप में छोटे diffusion model Stable Diffusion v1.4 का पुनः उपयोग किया गया
- यह पिछले actions और observation frame sequences को condition के रूप में लेकर अगला frame जनरेट करता है
- autoregressive inference में होने वाले drift को कम करने के लिए training के समय encoded context frames में Gaussian noise जोड़ा जाता है
- यह noise injection मॉडल को पिछले frame से sampled जानकारी को correct करने में मदद करता है, जिससे लंबे समय तक visual stability बनाए रखना महत्वपूर्ण बनता है
- Stable Diffusion v1.4 का pretrained autoencoder 8x8 pixel patches को 4 latent channels में compress करता है
- game frame prediction में छोटे details और खासकर नीचे वाले HUD bar में noticeable artifacts दिखाई देते हैं
- image quality बढ़ाने के लिए latent autoencoder के केवल decoder को target frame pixels पर MSE loss के साथ train किया गया
1 टिप्पणियां
Hacker News की राय
यह देखकर हैरानी हुई कि diffusion models में अपेक्षा से ज़्यादा कारण-परिणाम और क्रमबद्धता मौजूद लगती है
Google ने diffusion model के core के रूप में SD 1.4 का इस्तेमाल किया, यह भी एक अच्छा reminder है कि बड़े cloud monopoly वाली कंपनियों के लिए भी open models उपयोगी होते हैं
सारांश में जो बातें प्रभावशाली लगीं वे थीं: 1) agent से Doom खेलवाकर practically अनंत training data हासिल करना, 2) मूल frames में Gaussian noise जोड़कर अगले frames को फिर से “सुधारने” के लिए reward देना, और यह long-term stable “rendering” के लिए अहम था
खासकर आखिरी बात दिलचस्प है, क्योंकि यह model को error correction और stability सिखाने वाली intuition जैसी लगती है
यह भी जिज्ञासा है कि क्या इस model को “Doom-based model” की तरह देखकर, photorealistic या ray-traced style में fine-tune करके बेहतर दिखने वाली rendering पाना आसान हो सकता है
player लगभग वापस नहीं जाता, लेकिन जब character सच में मुड़कर वही चीज़ फिर देखता है, तो वह काफी बदल चुकी होती है। grey walls और triangular sign वाला room खास तौर पर ध्यान खींचता है
यह diffusion models से अपेक्षित behavior से मेल खाता है। billions of frames के gameplay पर train होने के कारण यह पिछले कुछ frames के आधार पर plausible “next” frame अच्छी तरह बना लेता है, लेकिन level structure को याद रखने जैसे logical game constraints को गहराई से नहीं समझता
weights में कारण-परिणाम जैसी concepts कुछ हद तक encoded हो सकती हैं, लेकिन model एक बार में सिर्फ एक frame render करता है। यह मूल रूप से text-to-image model है, text-to-video model नहीं
text के बजाय previous state और frames अगले frame की prediction input के रूप में जाते हैं
noise को SD model में डालने से पहले previous frame में जोड़ा जाता है, और reinforcement learning agent ने उसे “correct” नहीं किया था
denoising objective machine learning में व्यापक रूप से इस्तेमाल होता है, और intuitively prediction model को आसपास के frames या words जैसे context का उपयोग करने के लिए मजबूर करता है
यहां यह generative diffusion model की randomness से पैदा होने वाली छोटी errors के accumulate होकर autoregressive drift बनने से रोकने में मदद करता है। Figure 4 में player के स्थिर खड़े रहने पर ऐसा drift दिखता है
कुछ ऐसा कि “अगला क्या हुआ होगा, इसकी कल्पना की जा सकती है”
इसे दुनिया का सबसे inefficient video compression कहना चाहूंगा
जो सच में देखना चाहता हूं वह actual predictive power, यानी imagination है। abstract में यह साफ नहीं दिखा
model को classic map set पर train किया गया था; अगर किसी अनजान map के gameplay के कुछ frames input दिए जाएं, तो यह क्या करेगा? आगे क्या होगा, इसकी कितनी अच्छी कल्पना कर पाएगा?
यह paper चार co-authors ने लिखा है। उन्हें काफी resources मिले होंगे, लेकिन फिर भी research division को मिले resource pool के भीतर ही बांटकर इस्तेमाल करना पड़ा होगा
Google में भी Gemini कुछ versions के साथ केवल एक ही है
यह बात अपने-आप में अजीब तरह से हैरान करने वाली है कि यह काम करता है, और 20fps rendering तक हो जाती है, यह भी कमाल है
पिछले frame और action को encode करके हर step पर model में डालना पड़ता था, इसलिए यह diffusion model और recurrent neural network के मिश्रण जैसा दिखता है
अमूर्त रूप से कहें तो model किसी ऐसे game का सपना देख रहा है जिसे उसने बहुत खेला है, और real-time input उस सपने की state को बदल रहा है
सोचने पर मजबूर करता है कि क्या इंसान भी अगले पल की prediction machine हैं, बस उनमें थोड़ी ज़्यादा memory embedded है
logic को उलटकर, अगर अगले frame को वर्तमान frame के नतीजे के रूप में अपेक्षित hypothesis माना जाए, तो इस “hypothesis” की वास्तविक sensations से तुलना करना पूरे sensory input को process करने की तुलना में difference को process करना आसान बनाता है
जैसा कि Richard Dawkins ने हाल के podcast[1] में कहा, genes शानदार prediction machines हैं क्योंकि survival prediction पर निर्भर करता है। vision पर लगने वाले resources की मात्रा को देखते हुए, visual predictions generate करने की क्षमता अच्छी तरह fit बैठती है
तो फिर aphantasia हमें क्या बताता है?
[1] https://podcasts.apple.com/dk/podcast/into-the-impossible-wi...
Lex Fridman podcast “Counterintuitive Ideas About How the Brain Works”[2] सुनने लायक है। वे समझाती हैं कि brain के लिए reaction की बजाय लगातार prediction के रूप में काम करना सबसे efficient है, वगैरह
वे science communicator के रूप में भी शानदार हैं, इसलिए सुनते रहने का मन करता है
[1] https://en.wikipedia.org/wiki/Lisa_Feldman_Barrett
[2] https://www.youtube.com/watch?v=NbdRIVCBqNI&t=1443s
3090 जैसे high-end consumer GPU से इसकी तुलना कैसे होती है, यह साफ़ नहीं है, लेकिन INT8 TFLOPS लगभग समान दिखते हैं। TPU में memory कम है (16GB बनाम 24GB), और बाकी specs के बारे में ठीक से नहीं पता
फिर भी कुछ बात मेल नहीं खाती। SD में आम तौर पर 3090 पर भी एक high-quality result बनाने में कम-से-कम कुछ seconds लगते हैं, जबकि यहाँ यह लगभग दस गुना के आसपास तेज़ है। इससे लगता है कि इस task में TPU, GPU पर भारी पड़ता है
लगता है कि यह low-resolution (320x240) images बना रहा है, लेकिन फिर भी यह बहुत तेज़ महसूस होता है
ऐसा लगता है जैसे AI से शुरू करके पीछे की ओर जाते हुए सारी cognition को “अगली किसी चीज़ का predictor” के ढाँचे में फिट किया जा रहा हो
आखिरकार यह stochastic parrot वाली बहस की ही पुनरावृत्ति है
इस thread को देखने के बाद, मुझे लगता है यह बताना ज़रूरी है कि यह paper realtime user input लेकर उसे output में reflect करने वाला system describe नहीं करता
हालांकि abstract की wording से मुझे लगा कि वह strongly imply करता है कि ऐसा कुछ हो रहा है
यह agent द्वारा DOOM खेलने के बड़े dataset पर train होता है, और user evaluation के लिए video samples देता है, लेकिन ऐसा नहीं है कि user realtime में simulation में input देकर लगभग 20FPS पर “DOOM खेल” रहा हो
paper में “game को शुरू में effectively कैसे बनाया जाए, human input का सबसे अच्छा उपयोग कैसे किया जाए जैसे key questions बाकी हैं”, “final goal human player को simulation के साथ interact कराना है” जैसी lines clue देती हैं
सबसे बढ़कर, realtime user gameplay को describe करने वाला section गायब है
https://gamengen.github.io/ के top video की शुरुआत भी “ये लोगों के game खेलने की realtime recordings हैं” से होती है
इन claims को देखें तो लगता है project के अंत तक उन्होंने ऐसा playable system बना लिया था जिसे इंसान के सामने रखा जा सके. हालांकि arXiv पर draft upload होने के समय शायद ऐसा न रहा हो
इसमें लिखा है “A key inputs और mouse movements का set है…” और “…actions पर condition करने के लिए हर action के लिए embedding A_emb सीखते हैं”
यानी इस model की diffusion process words पर नहीं, बल्कि user actions से निकले action embedding A पर conditioned होती है
फिर noisy starting frame को latent representation में encode करके noisy latent representation में दूसरे condition के रूप में concatenate किया जाता है
आखिर में यह एक diffusion model है जो सिर्फ Doom images पर train होता है, और current Doom frame व user action पर conditioned होकर subsequent frames बनाता है
इसलिए user सच में play कर रहा है
हालांकि यह संभव है, यह कोई चौंकाने वाली बात नहीं. मूलतः यह game की neural-network recording है, लेकिन शानदार tech demo है
उसमें लिखा है, “model को manually play करते समय, कुछ areas दोनों के लिए बहुत आसान हैं, कुछ areas दोनों के लिए बहुत मुश्किल हैं, और कुछ areas में agent कहीं बेहतर करता है”
शायद मेरी imagination कम हो, लेकिन “model को manually play करना” का कोई और reasonable interpretation मुझे नहीं सूझता
https://www.youtube.com/watch?v=udPY5rQVoW0
“Playing a Neural Network's version of GTA V: GAN Theft Auto”
“Figure 1: a human player is playing DOOM on GameNGen at 20 FPS.”
abstract की sentence ambiguous है, इसलिए यहां काफी confusion हुआ, लेकिन paper इस point पर स्पष्ट है
tech experts से भरे forum में ऐसी गलत जानकारी का high upvote होना काफी disappointing है
हर चीज़ पर Doom चलाने की खोज जारी है
technically कहें तो यह संभवतः सबसे महान anti-Doom है, यानी सबसे ज़्यादा hardware requirements वाला Doom नहीं है क्या?
hardware specs को linear axis पर रखें तो यह मजेदार है कि Doom अब दोनों सिरों पर मौजूद है
यानी Doom के original hardware/software environment के बिना port करके चलाने के बजाय, यह Doom के बिना Doom चलाने जैसा है
anti-Doom का अगला step होगा: model बनाने वाला model Doom output generate करे
Doom सिस्टम आवश्यकताएँ:
4MB RAM, 12MB डिस्क स्पेस
Stable Diffusion v1 में 860M UNet और CLIP ViT-L/14(540M) है, checkpoint का आकार 4.27GB, और full EMA 7.7GB है
यह TPU-v5e पर चलता है, और प्रति chip अधिकतम compute bf16 में 197 TFLOPs, Int8 में 393 TFLOPs है; HBM2 की capacity और bandwidth 16GB और 819GBps है, और inter-chip connection bandwidth 1600Gbps है
speed को देखते हुए यह काफ़ी impressive है, लेकिन improvement की गुंजाइश बेहद ज़्यादा है। capacity के हिसाब से इसे सैकड़ों बार याद कर लेने लायक होना चाहिए, फिर भी लगता है कि इसने game को पूरी तरह memorize नहीं किया है
इसलिए optimization के तरीकों की गुंजाइश निश्चित रूप से बहुत है। हालांकि यहाँ लक्ष्य memorization है, इसलिए ऐसी techniques का मौजूदा तकनीक पर क्या असर होगा, यह पता नहीं
दिलचस्प बात यह है कि अगर काफी ज़्यादा “play” किया जाए, automation हो, और storage व compute बहुत अधिक इस्तेमाल किए जाएँ, तो game को उधेड़ा जा सकता है
Doom को reverse engineer करने के लिए engineer रखने की तुलना में cost और time कैसा होगा, यह जानने की उत्सुकता है। कितना prior knowledge allow किया जाए, यह भी अस्पष्ट है। pretrained model और ViZDoom environment को देखते हुए, यह भी उत्सुकता है कि Doom source T5 में था या नहीं, और कौन-सा ViT checkpoint इस्तेमाल हुआ था
मैं इस model checkpoint को ज़रूर देखना चाहता हूँ। लोग इसे dissect करेंगे तो शायद सच में कुछ बेहद दिलचस्प पाएँगे
https://www.reddit.com/r/gaming/comments/a4yi5t/original_doo...
https://huggingface.co/CompVis/stable-diffusion-v-1-4-origin...
https://cloud.google.com/tpu/docs/v5e
https://github.com/Farama-Foundation/ViZDoom
https://zdoom.org/index
original game की तुलना में compute cost बेहिसाब है, और precomputation या storage जैसे बुनियादी elements की कमी भी सच है
लेकिन माना जा सकता है कि ऐसी चीज़ें इस discovery के आसपास solve हो जाएँगी, समय के साथ स्वाभाविक रूप से सुधरेंगी, या bottleneck के रूप में कम अहम हो जाएँगी
असली breakthrough यह है कि explicitly encode किए बिना भी ऐसे context-aware frame sequences को model किया जा सकता है। pure game perspective से भी, और general simulation perspective से भी
बड़ा मतलब यह है कि real-world video से games generate किए जा सकते हैं
अगर perfect flight simulator चाहिए, तो 1 साल तक हर passenger aircraft cockpit में GoPro लगा दीजिए
ऐसे posts में dead comments पढ़ना हमेशा मज़ेदार होता है। वे कितने meaningless हैं, यह point out करना मुझे अच्छा लगता है
कुछ लोगों को सिर्फ़ बनाने के मज़े के लिए चीज़ें बनाना सीखना चाहिए
क्या यह useful है? सच कहें तो बहुत नहीं। क्या यह interesting है? बिल्कुल
हर चीज़ profit के लिए बननी ज़रूरी नहीं। दुनिया को बेहतर बनाने के लिए भी बननी ज़रूरी नहीं
कभी-कभी मकसद learning, challenge और possibility check करना हो सकता है
मज़े में बिताया गया time कभी waste नहीं होता। deathbed पर कुछ लोग शायद ज़्यादा enjoy न कर पाने का regret करेंगे
“यह सच में कमाल है” कहने में यह संकेत है कि निकट भविष्य में सभी software को AI models से replace कर, कल्पना की जा सकने वाली कोई भी videogame experience बनाई जा सकती है
realistically, यह अब तक बने Doom का सबसे inefficient और unreliable रूप है। यह उन शुरुआती x86 PCs से literally लाखों गुना ज़्यादा compute इस्तेमाल करता है, जो Doom को real-time में render और play कर सकते थे
बेशक, यह एक मज़ेदार party trick है
इसमें कुछ unavoidable पहलू भी है। cost of living लगातार महंगी होती जा रही है और entrepreneurs को rockstar की तरह romanticize किया जा रहा है, जिससे यह hustle mindset बनता है
लेकिन मुझे वे दिन याद हैं जब “internet radio” की संभावना पर articles आते थे। पहले की तरह broadcast waves को हवा में भेजने और हज़ारों radios के tune करके सुनने के बजाय, कोई server बेहिसाब packets को बहुत लंबी copper wires के ज़रिए हज़ारों endpoints तक भेजता था
यहाँ तक कि endpoints connection बनाए रखने के लिए बेचारे server को ACK packets वापस भेजते थे, जो compute, wires और energy की waste जैसा लगता था
लेकिन आज हम उन्हीं copper wires पर Netflix movies binge-watch कर रहे हैं
मैं यह नहीं कह रहा कि games को user input के आधार पर अगली image का सपना देखने वाले diffusion models से replace कर दिया जाएगा, लेकिन उसके variants interactive art creation या entertainment के नए रूप बन सकते हैं
प्रभावशाली तो है, लेकिन सहमत होना मुश्किल है। diffusion model game engine नहीं है
game engine वह component है जो game को समय-अक्ष पर आगे बढ़ाता है। इसलिए यह car engine जैसा है, और नाम भी वहीं से आया है
engine को काम करने के लिए पूरी बनी हुई car या चलने की road की जरूरत नहीं होती
ऊपर वाली चीज़, किसी दी गई road पर car रख देने पर क्या होता है, उसका dynamic interactive replication जैसी है, और इसके लिए चलने वाली vehicle से लाखों test drives करनी पड़ती हैं
अगर यह engine है, तो इसे off-road भी काम करना चाहिए
present tense में “काम करने के लिए road पर चलती car चाहिए” कहने के बजाय, past tense में “इसे वह काम सिखाने के लिए इसकी जरूरत पड़ी थी” कहना सही है
यह भी साफ नहीं है कि दूसरे engines कैसे काम करते हैं, इससे मिले concepts इस्तेमाल करने वाला game engine game engine क्यों नहीं रह जाता
diffusion models को सामान्य तौर पर देखें, तो जैसे आम diffusion model training images की बिल्कुल वही copy ही नहीं बनाते, बल्कि interpolate कर सकते हैं या अलग-अलग concepts apply करके नया output बना सकते हैं, वैसे ही यह मानने की कोई वजह नहीं दिखती कि यह approach trained “test track” के बाहर काम नहीं कर पाएगी
एक मायने में यह असली game engine data पर trained simulated game engine है
लेकिन अगर काम करता हुआ simulation game engine “game को आगे बढ़ा” सकता है, तो मेरे हिसाब से वह अपने-आप में game engine बन जाता है। यह कैसे हासिल किया गया, यह महत्वपूर्ण नहीं है
एक तरफ humans ने content बनाया, दूसरी तरफ यह existing game content की नकल करता है, लेकिन player को फर्क नहीं पड़ता
ऐसी “generative game engine” के off-road जाने की कल्पना भी की जा सकती है। यानी किसी अनदेखी जगह पर जाने पर क्या होगा, इसका extrapolation करना
उल्टा, ऐसे model की extrapolation क्षमता traditional game engine से बेहतर भी हो सकती है। सामान्य game engine में अगर आप गलती से wall के पार निकल जाएँ तो screen खाली हो जाती है, लेकिन यह model आगे बढ़ते हुए चीज़ें गढ़ सकता है
SD model में text conditioning हटा दी गई है, इसलिए वह इसमें शामिल नहीं है, लेकिन निकट भविष्य में सिर्फ text prompt से मजेदार नए games बनाए जा सकेंगे, ऐसी कल्पना की जा सकती है
DOOM कैसा दिखता है और कैसे काम करता है, यह सीखने के लिए reinforcement learning इस्तेमाल करनी पड़ी, लेकिन इसका मतलब जरूरी नहीं कि यह chicken-and-egg problem हो
यह कुछ वैसा ही है जैसे LLM केवल existing text पर trained होने के बावजूद नई stories लिख सकते हैं
इस approach की सबसे बड़ी चुनौतियों में से एक शायद open-world games होंगे, जिनमें possible states की संख्या लगभग infinite होती है
paper भी कहता है कि reinforcement learning agent से DOOM के हर कोने को पूरी तरह explore करवाने में मुश्किल हुई
Factorio या Dwarf Fortress शायद जल्द simulate नहीं होंगे। शायद
शायद यह source code से भी छोटी हो सकती है। इस field का कोई व्यक्ति शायद इसे सही कर सके
उस point पर असल में source code को latent space में interpolate करते हुए game “render” किया जाएगा। मानो एक पूरा latent-space computer हो, जिसमें engine, assets, textures और software renderer हों
पर्याप्त शक्तिशाली computer हो तो Factorio और TF2 जैसे games के बीच latent-space interpolation की कल्पना भी की जा सकती है। और desired gameplay aspects पर condition लगाकर इस latent space को adjust किया जा सकता है
ऐसा भविष्य rendering के आखिरी stage जैसी pipeline के कुछ हिस्सों में बहुत जल्दी आ जाएगा। उदाहरण के लिए DLSS पहले से commercialized है
किसी दिन जब हर कोई neural network metaverse में bolt से जकड़ा होगा, तो शायद Nvidia की revenue फिर से gaming की तरफ लौट आए
DOOM चुना गया, यह सच में अच्छा है
यानी सारी मेहनत game mechanics पर लगाना और visual quality पर नहीं
उम्मीद है कि यह तरीका visual inconsistencies कम करने में बेहतर होगा, जैसे सिर घुमाकर वापस देखने पर लाल monster का नीला ally बन जाना
Mario जैसे अपेक्षाकृत simple platform game से शुरू कर सकते हैं
जब आप लगभग 300 pages लिख चुके होंगे और अभी भी सिर्फ आधा ही समझा पाए होंगे, तब समझ आएगा कि यह hopeful thinking क्यों है
हो सकता है एक व्यक्ति model से बातचीत करके आज के AAA titles जैसी चीज़ बना सके
Steam पर 2D side-scroller boom को याद करें, लेकिन सोचिए कि ये immersive photorealistic 3D games हैं, surreal physics (water flow, spreading fire, tornadoes) और पूरी तरह deformation/construction की possibilities के साथ
model real-world video पर pre-trained हो, और game बस appearance, setting और story के priors को थोड़ा adjust करने वाला “style” हो
अगर game पहले से बना लिया गया है, तो क्या diffusion model game engine है? model training के लिए game चाहिए। क्या यह chicken-and-egg नहीं?
game engine का non-real-time version बनाया जा सकता है, और neural network को real-time approximation के तौर पर इस्तेमाल किया जा सकता है
real-world में shoot किए गए video में HUD जैसी चीज़ें edit करके डाल सकते हैं, और neural network को Doom नहीं बल्कि real world simulate करना सिखाया जा सकता है
इस paper ने 900 million frames इस्तेमाल किए, जो 30fps पर लगभग 1 साल का video लगता है। algorithmic improvements से training requirements घट सकती हैं
1 साल का video भी असल में बहुत ज्यादा मात्रा नहीं है। उदाहरण के लिए 500 लोगों को recruit करके उनके head और paintball guns पर GoPro, accelerometer, gyro लगाकर weekend भर paintball खिलाया जाए, तो 1 साल का video मिल सकता है
उसके ऊपर के दूसरे models game को customize करने के लिए सिर्फ details fine-tune करें
डिफ्यूजन मॉडल गेम इंजन नहीं हो सकते। क्योंकि गेम इंजन को नए गेम बनाने और मौजूदा गेम के नियमों को real time में बदलने में सक्षम होना चाहिए
यहां तक कि स्क्रीन पर न दिखने वाले नियम भी बदल सकने चाहिए
ये tools दिलचस्प हैं, लेकिन AI के हर hype की तरह इनके साथ disclaimer की जरूरत है
इस tool ने गेम नहीं बनाया; इसने बस इंसानों द्वारा बनाए गए गेम को sample करके frames और play mechanics का बाहरी रूप generate किया है
“बस” generate किया? मैं समझता हूं कि mechanically यह सरल हो सकता है, लेकिन इतनी समृद्ध conditional distribution को compress किया गया है—यह बात बिल्कुल सरल नहीं लगती
अगर कई games पर training की जाए और हर game के बारे में कहीं ज्यादा जानकारी embed की जाए, तो संभव है कि हम game का वर्णन करने वाला prompt देकर उसे play कर सकें
इससे consistency problem को ठीक करते हुए भी असली फायदा मिल सकता है