DeepMind का Genie 2: बड़े पैमाने का foundation world model

(deepmind.google)

5 पॉइंट द्वारा GN⁺ 2024-12-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Genie 2 एक foundation world model है जो ऐसे विविध 3D environment बनाता है जिन्हें इंसान या AI agent keyboard और mouse का उपयोग करके नियंत्रित कर सकते हैं
गेम AI research में महत्वपूर्ण भूमिका निभाते हैं, और Genie 2 agents को नए worlds के अनंत curriculum में train और evaluate करने में सक्षम बनाता है
फ़ीचर
- तेज़ prototyping: Genie 2 विभिन्न interactive experiences का तेज़ी से prototype बनाने में सक्षम बनाता है, जिससे researchers नए environments के साथ प्रयोग कर सकते हैं।
- Agent deployment: Genie 2 का उपयोग करके AI agents के लिए समृद्ध और विविध environments तेज़ी से बनाए जा सकते हैं।
- Model architecture: बड़े video datasets पर train किया गया Genie 2 विभिन्न object interactions, complex character animations, physics आदि को model कर सकता है।
- Responsible development: Genie 2 foundation world models की उस क्षमता को दिखाता है जो विविध 3D environments बना सकती है और agent research को तेज़ कर सकती है।
Emergent capabilities
- Genie 2 विविध 3D worlds बना सकता है और object interactions, complex character animations, physics आदि को model कर सकता है।
- उपयोगकर्ता text में किसी world का वर्णन कर सकते हैं, उस idea की rendering चुन सकते हैं, और नए बनाए गए world के साथ interact कर सकते हैं।
- Behavior control : Genie 2 keyboard input के अनुसार character की सही पहचान करता है और उसे move कराता है।
- Counterfactual experience generation : एक ही starting frame से विभिन्न paths बनाकर agent training के लिए counterfactual experiences simulate किए जा सकते हैं।
- Long-term memory : Genie 2 world के उन हिस्सों को याद रख सकता है जो field of view से बाहर हो चुके हों, और दोबारा दिखने पर उन्हें सटीक रूप से render कर सकता है।
- Diverse environments : Genie 2 first-person, isometric projection, third-person driving video जैसे विभिन्न perspectives बना सकता है।
- 3D structure : यह complex 3D visual scenes बना सकता है।
- Object interaction : यह balloon फोड़ना, दरवाज़ा खोलना, explosive launch करना जैसी विभिन्न object interactions को model कर सकता है।
- Character animation : यह विभिन्न गतिविधियाँ करने वाले characters को animate कर सकता है।
- NPC : यह अन्य agents के साथ complex interactions को model कर सकता है।
- Physics : यह water effects, smoke effects, gravity, lighting आदि को model कर सकता है।
- Play from real images : real images से दिए गए prompts के आधार पर यह घास के बीच बहता पानी या हवा में लहराती घास जैसी चीज़ों को model कर सकता है।
विविध interactive experiences की तेज़ prototyping
- Genie 2 नए environments पर तेज़ी से प्रयोग करने और embodied AI agents को train तथा test करने के लिए support देता है
  - उदाहरण: Imagen 3 से generate की गई images का उपयोग करके paper airplane, dragon, hawk और parachute को नियंत्रित करने वाले विभिन्न environment simulations
- Genie 2 की out-of-distribution generalization क्षमता concept art और drawings को पूर्ण interactive environments में बदल सकती है
  - तेज़ prototyping के ज़रिए creative process को bootstrap करना और environment design को accelerate करना
Genie 2 का उपयोग करके evaluation environments बनाना
- Genie 2 AI agents के लिए समृद्ध और विविध environments तेज़ी से बना सकता है
  - training के दौरान न देखे गए नए evaluation tasks बनाकर agents का test करना
- game developers के साथ DeepMind के सहयोग से विकसित SIMA agent natural language instructions के आधार पर 3D game worlds में tasks करता है
  - Genie 2 एक single image prompt से 3D environment बनाता है, और SIMA agent keyboard तथा mouse input के माध्यम से interact करता है
- यह अभी शुरुआती चरण का research है, लेकिन Genie 2 training environments की diversity और generality प्रदान करता है और embodied agents की safe training की समस्या को हल करने में योगदान देने की उम्मीद है
- AI agents की generalized training के माध्यम से AGI (Artificial General Intelligence) की प्रगति के लिए आधार तैयार करना
Diffusion world model
- Genie 2 बड़े video datasets पर trained एक latent diffusion model है
- frames को autoencoder से गुज़ारकर latent space में बदला जाता है, फिर उन्हें transformer आधारित dynamic model में भेजा जाता है
- training के दौरान language models में इस्तेमाल होने वाले causal mask जैसा mask लागू किया जाता है
- Autoregressive inference
  - inference के दौरान Genie 2 पिछले latent frames और action data को frame-by-frame autoregressive तरीके से sample करता है
  - action controllability बेहतर करने के लिए Classifier-Free Guidance तकनीक का उपयोग किया जाता है
- Genie 2 high-resolution 3D environments को efficiently generate करते हुए action controllability बनाए रखता है
- diffusion model और autoregressive approach को मिलाकर यह immersive virtual environments के लिए अगली पीढ़ी की तकनीक प्रदान करता है
जिम्मेदार तकनीकी विकास
- Genie 2 विविध 3D environments बनाने और agent research को तेज़ करने वाले foundation world model की क्षमता दिखाता है।

1 टिप्पणियां

GN⁺ 2024-12-05

Hacker News टिप्पणियाँ

इस मॉडल का आकार जानने की जिज्ञासा है, और तकनीकी विवरणों की कमी खलती है। Google का अप्रोच अब भी बंद प्रकृति का है, यह बात रेखांकित की गई है। फिर भी, फ़ोटो और टेक्स्ट विवरण के आधार पर दुनिया को एक्सप्लोर करने की संभावना चौंकाने वाली है.
वीडियो और world generation को लेकर दबाव लगातार बना रहना दिलचस्प है। अनंत कहानी-निर्माण वाले गेम्स में रुचि जताई गई है, और भविष्य में इंटरैक्टिव स्टोरीटेलिंग के स्वर्ण युग की उम्मीद की गई है.
यह बताया गया है कि यह तकनीक गेम डेवलपमेंट में उपयोगी न भी हो सकती है। गेम्स में इंटरैक्शन महत्वपूर्ण होता है, और डिज़ाइनर को गहरा नियंत्रण चाहिए। world generation वाला हिस्सा सबसे उपयोगी माना गया है.
इस बात पर ज़ोर दिया गया है कि यह तकनीक AGI और robotics में बड़ा कदम ला सकती है। इसे मशीनों में मानव मस्तिष्क जैसी कार्यप्रणाली जोड़ने की शुरुआत के रूप में देखा गया है.
यह समझाया गया है कि शोध का असली लक्ष्य ऐसा मॉडल विकसित करना है जो मानव की 3D दुनिया की समझ से आगे निकल जाए। इससे robotics और autonomous vehicles के विकास में योगदान मिलेगा.
Genie2 द्वारा concept art के विवरणों को नज़रअंदाज़ करना निराशाजनक बताया गया है। मूल सुंदर alien creatures की अनदेखी किए जाने की आलोचना की गई है.
यह समझाया गया है कि generative AI लचीलापन देता है, लेकिन इसके लिए बहुत अधिक computation चाहिए। traditional programming और generative AI की भूमिकाओं को लेकर जिज्ञासा व्यक्त की गई है.
इस तकनीक के वास्तविक मूल्य पर सवाल उठाया गया है। ऊँची computation cost और अनियमित व्यवहार को समस्या बताया गया है.
MS Edge में scroll काम नहीं कर रहा था, इसलिए Firefox का इस्तेमाल किया गया, और वीडियो की visual quality अच्छी नहीं बताई गई। यह भी पूछा गया है कि AI शोधकर्ता पहले से अच्छी तरह काम कर रही प्रणालियों को बदलना क्यों चाहते हैं.

DeepMind का Genie 2: बड़े पैमाने का foundation world model

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ