DIAMOND 💎 का अवलोकन
- DIAMOND एक reinforcement learning एजेंट है, जिसे diffusion world model में प्रशिक्षित किया गया है.
- यह मॉडल Atari जैसे गेम वातावरणों में दृश्य विवरणों को महत्वपूर्ण रूप से संभालता है.
- DIAMOND, CounterStrike: Global Offensive (CSGO) जैसे 3D वातावरणों का भी सिमुलेशन कर सकता है.
शोध की पृष्ठभूमि और प्रेरणा
- world model, reinforcement learning एजेंटों को सुरक्षित और कुशल तरीके से प्रशिक्षित करने का एक आशाजनक दृष्टिकोण है.
- मौजूदा world model मुख्य रूप से environment dynamics को मॉडल करने के लिए discrete latent variables की sequence का उपयोग करते हैं.
- लेकिन ऐसा compression, reinforcement learning के लिए महत्वपूर्ण दृश्य विवरणों को नज़रअंदाज़ कर सकता है.
- diffusion model, image generation में एक प्रमुख दृष्टिकोण के रूप में स्थापित हो चुके हैं.
- DIAMOND इन्हीं paradigm shifts से प्रेरित होकर विकसित किया गया है.
DIAMOND का प्रदर्शन और परिणाम
- DIAMOND ने Atari 100k benchmark में औसत human-normalized score 1.46 हासिल किया.
- यह world model के भीतर प्रशिक्षित एजेंटों में सर्वोत्तम प्रदर्शन है.
- DIAMOND का कोड GitHub पर सार्वजनिक रूप से उपलब्ध है.
DIAMOND कैसे काम करता है
- diffusion model को गेम के अगले frame की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है.
- यह एजेंट की actions और पिछले frames को ध्यान में रखकर environment response का सिमुलेशन करता है.
- autoregressive generation एजेंट को गेम सीखने में मदद करती है.
- तेज़ world model के लिए denoising steps की संख्या कम करनी होती है.
- DDPM-आधारित मॉडल कम denoising steps पर अस्थिर होते हैं, जबकि EDM-आधारित मॉडल स्थिर रहते हैं.
दृश्य विवरणों का महत्व
- DIAMOND महत्वपूर्ण दृश्य विवरणों को बेहतर तरीके से मॉडल करता है.
- यह discrete token-आधारित IRIS की तुलना में बेहतर दृश्य विवरण पकड़ता है.
- Atari 100k में यह इंसानों से 46% बेहतर प्रदर्शन दिखाता है.
GN⁺ का सार
- DIAMOND reinforcement learning में दृश्य विवरणों के महत्व को रेखांकित करता है.
- diffusion model का उपयोग करके बेहतर दृश्य विवरण पकड़े जा सकते हैं.
- यह Atari और CSGO जैसे गेम्स में प्रदर्शन सुधार दिखाता है.
- यह संबंधित क्षेत्रों के शोधकर्ताओं के लिए रोचक और उपयोगी सामग्री हो सकता है.
- समान क्षमताओं वाले प्रोजेक्ट्स में DreamerV2 और PlaNet शामिल हैं.
1 टिप्पणियां
Hacker News टिप्पणियाँ
एक उपयोगकर्ता ने उल्लेख किया कि लिंक किया गया वीडियो उसके सपनों से बहुत मिलता-जुलता है, और समझाया कि सपने में ऊँची छलांग लगाने की कोशिश करते समय उसे ऐसा ही अनुभव होता है
बताया गया कि 300M पैरामीटर वाले मॉडल को GTX4090 पर 12 दिनों तक 5M फ्रेम्स के साथ ट्रेन किया गया था
उल्लेख किया गया कि 2015 में एक बड़ी टेक कंपनी ने इसी तरह का काम किया था
कहा गया कि बड़े LLMs जैसे इंडस्ट्री-स्केल के काम बेहद आश्चर्यजनक होंगे
समझाया गया कि इसका उपयोग गेम इंजन में यथार्थवादी physics approximations बनाने के लिए किया जा सकता है
यह सवाल उठाया गया कि जिन्होंने इसे वास्तव में आज़माया है, क्या वे गेम मैप बना रहे हैं, या यह कोई अजीब मतिभ्रम जैसा अनुभव है
दावा किया गया कि वे stable diffusion की बुनियादी अवधारणा समझते हैं, और जिज्ञासा जताई कि क्या 3D asset स्तर पर इसे आज़माने वाला कोई शोध है
इस बात पर हैरानी जताई गई कि कुछ लोग NN images और videos में "नर्क जैसा शोर" पहचान नहीं पाते
Schmidhuber के समूह द्वारा 2018 में किए गए काम का उल्लेख किया गया और लिंक साझा किया गया
कहा गया कि नवीनतम GTA से संबंधित वास्तविक फुटेज पर मॉडल को ट्रेन करके पुराने गेम्स के visuals अपग्रेड करना दिलचस्प होगा
जिज्ञासा जताई गई कि क्या इसे language model के साथ जोड़ने का कोई तरीका है, और तर्क दिया गया कि भाषा world model पर आधारित होनी चाहिए
माना गया कि language models अक्षम हैं, और structural engineering tool पर ट्रेन किए गए एक "game" की कल्पना की गई
समझाया गया कि यह नेटवर्क दुनिया को समझने और उपयोगी actions की भविष्यवाणी करने या सवालों के जवाब देने वाले हिस्से के रूप में काम कर सकता है
जिज्ञासा जताई गई कि मजबूत loops वाला यह मॉडल नए images या maps को शुरुआती बिंदु के रूप में इस्तेमाल करने पर कैसे प्रतिक्रिया देगा