1 पॉइंट द्वारा GN⁺ 2024-10-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

DIAMOND 💎 का अवलोकन

  • DIAMOND एक reinforcement learning एजेंट है, जिसे diffusion world model में प्रशिक्षित किया गया है.
  • यह मॉडल Atari जैसे गेम वातावरणों में दृश्य विवरणों को महत्वपूर्ण रूप से संभालता है.
  • DIAMOND, CounterStrike: Global Offensive (CSGO) जैसे 3D वातावरणों का भी सिमुलेशन कर सकता है.

शोध की पृष्ठभूमि और प्रेरणा

  • world model, reinforcement learning एजेंटों को सुरक्षित और कुशल तरीके से प्रशिक्षित करने का एक आशाजनक दृष्टिकोण है.
  • मौजूदा world model मुख्य रूप से environment dynamics को मॉडल करने के लिए discrete latent variables की sequence का उपयोग करते हैं.
  • लेकिन ऐसा compression, reinforcement learning के लिए महत्वपूर्ण दृश्य विवरणों को नज़रअंदाज़ कर सकता है.
  • diffusion model, image generation में एक प्रमुख दृष्टिकोण के रूप में स्थापित हो चुके हैं.
  • DIAMOND इन्हीं paradigm shifts से प्रेरित होकर विकसित किया गया है.

DIAMOND का प्रदर्शन और परिणाम

  • DIAMOND ने Atari 100k benchmark में औसत human-normalized score 1.46 हासिल किया.
  • यह world model के भीतर प्रशिक्षित एजेंटों में सर्वोत्तम प्रदर्शन है.
  • DIAMOND का कोड GitHub पर सार्वजनिक रूप से उपलब्ध है.

DIAMOND कैसे काम करता है

  • diffusion model को गेम के अगले frame की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है.
  • यह एजेंट की actions और पिछले frames को ध्यान में रखकर environment response का सिमुलेशन करता है.
  • autoregressive generation एजेंट को गेम सीखने में मदद करती है.
  • तेज़ world model के लिए denoising steps की संख्या कम करनी होती है.
  • DDPM-आधारित मॉडल कम denoising steps पर अस्थिर होते हैं, जबकि EDM-आधारित मॉडल स्थिर रहते हैं.

दृश्य विवरणों का महत्व

  • DIAMOND महत्वपूर्ण दृश्य विवरणों को बेहतर तरीके से मॉडल करता है.
  • यह discrete token-आधारित IRIS की तुलना में बेहतर दृश्य विवरण पकड़ता है.
  • Atari 100k में यह इंसानों से 46% बेहतर प्रदर्शन दिखाता है.

GN⁺ का सार

  • DIAMOND reinforcement learning में दृश्य विवरणों के महत्व को रेखांकित करता है.
  • diffusion model का उपयोग करके बेहतर दृश्य विवरण पकड़े जा सकते हैं.
  • यह Atari और CSGO जैसे गेम्स में प्रदर्शन सुधार दिखाता है.
  • यह संबंधित क्षेत्रों के शोधकर्ताओं के लिए रोचक और उपयोगी सामग्री हो सकता है.
  • समान क्षमताओं वाले प्रोजेक्ट्स में DreamerV2 और PlaNet शामिल हैं.

1 टिप्पणियां

 
GN⁺ 2024-10-14
Hacker News टिप्पणियाँ
  • एक उपयोगकर्ता ने उल्लेख किया कि लिंक किया गया वीडियो उसके सपनों से बहुत मिलता-जुलता है, और समझाया कि सपने में ऊँची छलांग लगाने की कोशिश करते समय उसे ऐसा ही अनुभव होता है

  • बताया गया कि 300M पैरामीटर वाले मॉडल को GTX4090 पर 12 दिनों तक 5M फ्रेम्स के साथ ट्रेन किया गया था

  • उल्लेख किया गया कि 2015 में एक बड़ी टेक कंपनी ने इसी तरह का काम किया था

  • कहा गया कि बड़े LLMs जैसे इंडस्ट्री-स्केल के काम बेहद आश्चर्यजनक होंगे

  • समझाया गया कि इसका उपयोग गेम इंजन में यथार्थवादी physics approximations बनाने के लिए किया जा सकता है

    • भारी physics engine का उपयोग करके gameplay snippets बनाए जाएँ और मॉडल को physics का approximation सीखने दिया जाए
    • सुझाव दिया गया कि कई specialized physics engines हो सकते हैं
  • यह सवाल उठाया गया कि जिन्होंने इसे वास्तव में आज़माया है, क्या वे गेम मैप बना रहे हैं, या यह कोई अजीब मतिभ्रम जैसा अनुभव है

  • दावा किया गया कि वे stable diffusion की बुनियादी अवधारणा समझते हैं, और जिज्ञासा जताई कि क्या 3D asset स्तर पर इसे आज़माने वाला कोई शोध है

  • इस बात पर हैरानी जताई गई कि कुछ लोग NN images और videos में "नर्क जैसा शोर" पहचान नहीं पाते

  • Schmidhuber के समूह द्वारा 2018 में किए गए काम का उल्लेख किया गया और लिंक साझा किया गया

  • कहा गया कि नवीनतम GTA से संबंधित वास्तविक फुटेज पर मॉडल को ट्रेन करके पुराने गेम्स के visuals अपग्रेड करना दिलचस्प होगा

  • जिज्ञासा जताई गई कि क्या इसे language model के साथ जोड़ने का कोई तरीका है, और तर्क दिया गया कि भाषा world model पर आधारित होनी चाहिए

  • माना गया कि language models अक्षम हैं, और structural engineering tool पर ट्रेन किए गए एक "game" की कल्पना की गई

  • समझाया गया कि यह नेटवर्क दुनिया को समझने और उपयोगी actions की भविष्यवाणी करने या सवालों के जवाब देने वाले हिस्से के रूप में काम कर सकता है

  • जिज्ञासा जताई गई कि मजबूत loops वाला यह मॉडल नए images या maps को शुरुआती बिंदु के रूप में इस्तेमाल करने पर कैसे प्रतिक्रिया देगा