Google DeepMind ने Genie 3 world model पेश किया

(deepmind.google)

14 पॉइंट द्वारा GN⁺ 2025-08-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

केवल text prompt से real-time interactive 3D environment बनाने वाला पहला general-purpose world model
24fps, 720p resolution, और कई मिनट तक consistency बनाए रखने में सक्षम, और पिछले Genie 2 की तुलना में interactivity, realism, और persistence में बड़ा सुधार
भौतिक घटनाएं, ecosystem, animation, और ऐतिहासिक-भौगोलिक पृष्ठभूमि सहित कई विषयों के virtual world को स्वाभाविक और विविध तरीके से बना सकता है
Promptable world events फीचर के जरिए उपयोगकर्ता text से मौसम बदलना, object जोड़ना जैसी dynamic event को real time में नियंत्रित कर सकते हैं
agent research के लिए डिज़ाइन किया गया है और SIMA agent जैसे सिस्टम के साथ मिलकर long-term goal achievement या complex behavior sequence का परीक्षण कर सकता है

Genie 3: world simulation में एक नई छलांग

world model के विकास की पृष्ठभूमि

DeepMind ने AI agent training, open-ended learning, और robotics जैसे क्षेत्रों में simulation environment research का नेतृत्व किया है
world model ऐसा AI system है जो environment में बदलाव और agent के action के परिणामों का अनुमान और पुनरुत्पादन कर सकता है, और इसे AGI की दिशा में एक महत्वपूर्ण मध्यवर्ती चरण माना जाता है
Genie 1 और 2 के बाद, Genie 3 real-time interactivity और visual-physical consistency दोनों साथ देने वाला पहला world model है

Genie 3 की प्रमुख विशेषताएं

प्रकृति और भौतिक घटनाओं की modeling
- पानी, रोशनी, और अलग-अलग environmental interaction जैसी वास्तविक दुनिया की प्राकृतिक घटनाओं को केवल prompt से स्वाभाविक रूप में बना सकता है
जटिल ecosystem और animation
- जानवरों के behavior, पौधों की growth जैसी ecosystem की गतिशीलता और कल्पनाशील animation world तैयार कर सकता है
ऐतिहासिक और भौगोलिक पृष्ठभूमि का निर्माण
- भौगोलिक और कालगत सीमाओं से परे विविध spaces को real time में virtual environment के रूप में बनाया जा सकता है
real-time interaction और control
- user input के अनुसार 24fps, 720p पर तुरंत world change को visualise करता है
- पहले देखे गए location और state को याद रखकर कई मिनट तक physical और visual consistency बनाए रखता है
Promptable World Events
- text prompt से मौसम बदलना, object या character जोड़ना जैसी environment change event को real time में शुरू किया जा सकता है
- exploration control के अलावा “what if” scenario या असामान्य स्थितियों के निर्माण जैसी व्यापक application संभावनाएं देता है
agent research और experiment
- SIMA जैसे 3D environment-विशेष AI agent Genie 3 की दुनिया में जटिल goals का पीछा करते हुए long sequence execution capability की जांच कर सकते हैं
- agent का goal Genie 3 के साथ साझा नहीं किया जाता, और परिणाम केवल behavior sequence और world simulation के आधार पर बनते हैं

तकनीकी चुनौतियां और उपलब्धियां

frame-by-frame autoregressive generation प्रक्रिया में user input और पिछले sequence दोनों को real time में शामिल करना होता है, इसलिए यह अत्यंत कठिन तकनीकी चुनौती है
मौजूदा NeRF, Gaussian Splatting आदि से अलग, Genie 3 बिना explicit 3D representation के pure generative approach पर आधारित है, इसलिए यह अधिक dynamic और समृद्ध environment बना सकता है

सीमाएं और चुनौतियां

action range की सीमा: prompt-आधारित environment change विविध हैं, लेकिन सीधे किए जा सकने वाले action अभी सीमित हैं
multi-agent interaction: कई agents के बीच interaction का सटीक simulation अभी भी research का विषय है
real-world location reproduction की सीमा: यह वास्तविक भौगोलिक spaces की पूरी accuracy प्रदान नहीं करता
text rendering की सीमा: स्पष्ट text representation केवल explicit input दिए जाने पर ही संभव है
interaction time की सीमा: फिलहाल केवल कुछ मिनट तक लगातार interaction का समर्थन है

ज़िम्मेदारी और उपलब्धता का दायरा

Genie 3 की open-ended और real-time generation विशेषताएं नए safety और ethics मुद्दे लाती हैं, इसलिए Responsible Development & Innovation Team के साथ घनिष्ठ सहयोग किया जा रहा है
शुरुआत में इसे सीमित researcher और creator group को research preview के रूप में दिया जाएगा, और feedback के आधार पर धीरे-धीरे विस्तार तथा risk response strategy तैयार की जाएगी

भविष्य और उपयोग की संभावनाएं

Genie 3 education, training, AI agent learning, और performance validation जैसे कई क्षेत्रों में नई संभावनाएं प्रस्तुत करता है
AGI (Artificial General Intelligence) research में इसकी केंद्रीय भूमिका की उम्मीद की जा रही है, और इसे मानवता के हित में सुरक्षित तरीके से विकसित किया जाएगा

1 टिप्पणियां

GN⁺ 2025-08-06

Hacker News राय

अगर इस क्षेत्र में काम करने वाला या विशेषज्ञता रखने वाला कोई है, तो जानना चाहूंगा कि Genie 3 किन तकनीकों, आर्किटेक्चर, सिस्टम डिज़ाइन और computing requirements के साथ बनाया गया होगा। अभी सार्वजनिक जानकारी बहुत कम है, इसलिए खासकर यह सुनना दिलचस्प होगा कि इस क्षेत्र के विशेषज्ञ इसकी implementation के बारे में कैसे अनुमान या inference लगाते हैं
यह बिल्कुल अप्रत्याशित स्तर है कि कुछ मिनटों की consistency को real-time 720p में हासिल किया जा सकता है। मैंने सुना है कि Genie 3 की consistency model scaling से उभरी हुई emergent capability है। यानी आर्किटेक्चर को जानबूझकर बेहतर नहीं बनाया गया, बल्कि मॉडल बड़ा करते-करते यह performance जैसे संयोग से आ गई। इसकी सीमाओं को किसी ऐसे व्यक्ति ने संक्षेप में लिखा है जिसने इसे खुद इस्तेमाल किया है(X लिंक):
- physical simulation अब भी कठिन है, और psychology में इस्तेमाल होने वाले intuitive physics tests (जैसे block stacking) में साफ़ failure cases मौजूद हैं
- social interaction या कई agents के उलझे हुए हालात कठिन हैं, और 1:1 मुकाबले वाले गेम अच्छी तरह काम नहीं करते
- complex instructions या game logic (जैसे key इकट्ठा कर दरवाज़ा खोलना) भी ठीक से काम नहीं करती
- action space भी सीमित है
- असली game engine तक पहुँचने में अभी बहुत समय है, लेकिन यह साफ़ तौर पर भविष्य की एक झलक सीधे देखने का मौका है इन सीमाओं के बावजूद, यह महसूस होता है कि world models आगे चलकर robotics और real-world AI में उम्मीद से ज़्यादा महत्वपूर्ण भूमिका निभाएंगे। शायद भविष्य के robots सपनों में सीखने वाले युग में प्रवेश करें
- multiplayer सिर्फ़ logistic या technical पक्ष से नहीं, बल्कि gameplay के नज़रिए से कैसे संभव होगा, यह जानने की सच में जिज्ञासा है
- गेम स्पष्ट रूप से एक बड़ा use case है, लेकिन मूल रूप से लगता है कि इसे Google के warehouse robots की training के लिए synthetic data generation के उद्देश्य से विकसित किया गया है। संबंधित जानकारी के लिए The Guardian लेख और Gemini Robot लॉन्च से 4 महीने पहले की HN पोस्ट देखें
- तकनीकी प्रगति की रफ्तार इतनी तेज़ होगी, यह उम्मीद नहीं थी। मैंने कुछ महीने पहले world model output manipulation को AAA games के अगले चरण पर एक लेख लिखा था(ब्लॉग पोस्ट), और तब भी मुझे लगा था कि इसमें अभी कई साल बाकी हैं। मैंने मज़ाक में यह भी कहा था कि Rockstar, GTA6 बनाते हुए world model के बहकावे में आ जाएगा, लेकिन अब यह बात इतनी अजीब नहीं लगती। GameNGen के बाद की प्रगति देखकर लगता है कि GTA6 की रिलीज़ से पहले ही यह उससे आगे निकल सकता है
- इस स्तर पर visual reality gap को काफी हद तक भरा जा सकता है, इसलिए यह robotics के लिए बहुत अच्छा tool हो सकता है। बेशक, physical simulation अब भी अलग चुनौती है
- यह Bitter lesson के फिर से लागू होने का एक और क्षण है
यह सचमुच उत्साहजनक प्रगति है, शायद Demis ने पिछले महीने जिस चीज़ का संकेत दिया था, वही यह है(संबंधित ट्वीट). जारी क्लिप्स देखकर कुछ तकनीकी डिटेल्स का अनुमान लगाया जा सकता है:
1. texture हर 4 frames पर 'jump' करती दिखती है, जिससे लगता है कि शायद 4x time-axis downscaled VAE इस्तेमाल हुआ है, और इसका मतलब कम-से-कम 4-frame interaction latency है (जब तक VAE control conditioning को support न करता हो)। मैंने real-time वीडियो नहीं देखा, लेकिन एक दृश्य में screen recording और keyboard b-roll को मिलाकर दिखाया गया है
2. तेज़ motion में 16x16 spatial blocking दिखती है, इसलिए VAE के spatial axis पर भी 16x16 downscaling का अनुमान है। पहले बिंदु के साथ मिलाकर देखें तो यह 21,600 tokens प्रति सेकंड, यानी लगभग 13 लाख tokens प्रति मिनट प्रोसेस करता होगा
3. हर clip का पहला frame बाद के frames की तुलना में ज़्यादा sharp और कम videogame-जैसा दिखता है, जिससे लगता है कि t2i(text-to-image) + i2w(image-to-world) साथ में लागू हैं। अनुमान है कि t2i को सामान्य data पर और i2w को labeled controls के साथ game data पर fine-tune किया गया है। समय के साथ contrast और saturation बढ़ने की प्रवृत्ति दिखती है, लेकिन यह दूसरे autoregressive video models की तुलना में कम है (उदाहरण वीडियो)
- latency के बारे में, इस real-time gameplay वीडियो में keypress और subject movement के बीच लगभग 1.1 सेकंड (30fps पर लगभग 33 frames) का अंतर निकाला गया है। Genie 3 research preview के एक उपयोगकर्ता की समीक्षा में कहा गया कि "कुछ control delay है, लेकिन यह मॉडल से ज़्यादा उस infrastructure की वजह से है जो service दे रहा है", इसलिए latency का बड़ा हिस्सा client/server streaming संरचना से जुड़ा होगा
काश यह लोग इसके काम करने के तरीके के बारे में और जानकारी दें। कम-से-कम शोधकर्ताओं के लिए एक paper तो होना चाहिए था। मेरा अनुमान है कि यह मौजूदा video generation models जैसा है, लेकिन input को movement direction, viewangle आदि पर condition किया जाता होगा। मुझे लगता है कि यह relative input नहीं बल्कि absolute input है, और इसमें कुछ state simulation भी शामिल हो सकता है (हालाँकि demo वीडियो में object collision physics दिखती है, तो शायद ऐसा न हो, या फिर 2D में up axis generate हो रहा हो)। साफ़ लगता है कि इसे game engine आधारित data पर train किया गया है, क्योंकि screen-space reflection artifacts दिखाई देते हैं। शायद photogrammetry/splat आधारित data भी जोड़ा गया है, और अवास्तविक तत्वों का resolution खासकर कम दिखता है। demo में कुछ साफ़ inconsistencies भी दिखती हैं:
- wingsuit वाला दृश्य कम गुणवत्ता का लगता है (शायद high-resolution image से initialize किया गया?)
- garden demo में हर variation में geometry अलग लगती है। दूसरी hose सिर्फ़ एक version में दिखती है, मानो हर बार पहली नज़र में नई geometry तत्काल generate की जा रही हो
- school demo में खिड़की के बाहर आधी कार नज़र आती है, और repeated patterns दिखते हैं (जब transformer के parameters कम हों तो infinite loop patterns अक्सर बनते हैं, जो scaling की संभावना का संकेत भी है। stability के लिए शायद greedy sampling इस्तेमाल हो रही है)
- museum scene में amethyst box पर अजीब reflections हैं, mammoth का पिछला हिस्सा दाईं box edge पर बिना reflection के दिखता है, फिर box के आर-पार दिखते ही अचानक उभर आता है। tusk reflection भी अचानक दिखाई देता है, जो Fresnel effect से संबंधित नहीं है
यह बेहद प्रभावशाली है, लेकिन डिटेल्स सच में बहुत कम हैं। दूसरे comment की तरह मैं इस बात से सहमत नहीं कि जब तक खुद इस्तेमाल न करो तब तक इसका मतलब नहीं, लेकिन हैरानी इस बात की है कि कुछ ही साल पहले ऐसी घोषणा के साथ paper ज़रूर आता। अब सिर्फ़ paper जैसी चीज़ें हैं, जैसे creators, demo, bibtex citation वगैरह, लेकिन वास्तविक शोध साझा नहीं किया गया। एक परिचित से बात करते हुए मुझे यह चिंता हुई कि AI की तत्काल क्षमताओं से भी ज़्यादा, research/academic mode से फटाफट 'value extraction' की economic logic की ओर झुकाव बढ़ गया है। policy और economics में इसे सीधे या परोक्ष रूप से आधार बनाना और भी जोखिमपूर्ण है। मैं commercialization के खिलाफ नहीं हूँ, लेकिन product announcement को research paper जैसा दिखाना और साथ ही हाल में academic research support में कटौती पर गणितज्ञों की चेतावनियाँ आना, लंबे समय में भरोसा कम करने वाली बात है
अब भी यह कल्पना करना कठिन है कि prediction के आधार पर 'अगला pixel' बनाना, पारंपरिक deterministic तरीके से scene build और render करने से बेहतर हो सकता है। उदाहरण के लिए, अगर AI का उपयोग textures, models और motion sequences बनाने के लिए किया जाए, और graphics card उन्हें जोड़कर scene render करे, तो user wire model, textures, camera position वगैरह को मनचाहे ढंग से बदल सकता है
- अगर किसी खास स्तर से ऊपर की visual quality चाहिए, तो एक ऐसा बिंदु आता है जहाँ 'अगला pixel' prediction पारंपरिक rendering से सस्ता पड़ सकता है। मॉडल surfaces पर अनंत तक zoom in करके यह भी बता सकता है कि उनके भीतर क्या होगा। पारंपरिक rendering में जिन technical challenges तक पहुँचना कठिन है, वे कम हो जाते हैं
यह क्रांतिकारी लगता है। आने की उम्मीद थी, लेकिन इसे सामने देखकर भी नया लगता है। सीमाएँ हैं, लेकिन यह शुरुआत है। अब तक game engines में मुख्य बात यह थी कि engineers या developers shapes (जैसे triangles) को pixels पर ठीक-ठीक position करते थे, लेकिन अब ऐसा लगता है कि हर frame में computer खुद सीधे 'चित्र' बना रहा है, और triangle computations के बिना ही image निकाल रहा है
text rendering. साफ़ और पढ़ने योग्य text मुख्य रूप से तभी generate किया जा सकता है जब वह input world description में शामिल हो इससे image AI के शुरुआती दिन याद आते हैं जब वह text ठीक से नहीं बना पाता था। वह समस्या भी जल्द हल हो गई थी, इसलिए शायद यह सिर्फ़ समय की बात है
- और हाथों की drawing quality भी 10 गुना से ज़्यादा खराब हुआ करती थी। अब हाथ, text और images तीनों बेहतर हो गए हैं, तो लगता है कि खामियाँ ढूँढने के लिए हम फिर से 'Where's Waldo' जैसा खेल खेलेंगे। मुझे लगता है कि कभी न कभी ऐसे infinite-zoom videos भी आएँगे जिनमें AI watermark pixel के 1/3 स्तर पर छिपा होगा। व्यक्तिगत रूप से मुझे augmented video का क्षेत्र ज़्यादा दिलचस्प लगता है। Runway वगैरह stormtrooper vlog style videos पर काम कर रहे हैं, लेकिन कीमत बहुत ज़्यादा है
- text की समस्या को पूरी तरह हल हुआ मानना अभी जल्दी होगी। यह निश्चित रूप से बहुत बेहतर हुई है, लेकिन gpt-image-1 भी text generation में कभी-कभी असफल होता है
- prompt और generated blackboard content में dash(-) होने या न होने का अंतर है
किसी presentation ने पहली बार मेरी reality sense को कई बार हिला दिया। यह सचमुच mind-blowing अनुभव था
generative AI की प्रगति मुझे लगातार और उदास कर रही है। लगता है कि creativity हमसे तेज़ी से छीनी जा रही है। अगर तकनीक इस अवस्था में एक tool बनी रहे और मानवीय रचना में मदद करे तो ठीक है, लेकिन अभी ऐसा लगता है कि इसका लक्ष्य पूर्ण replacement है। हाँ, कोई कह सकता है कि "तुम खुद संगीत या चित्र बना सकते हो", लेकिन ऐतिहासिक रूप से artworks सिर्फ़ अपने लिए नहीं, बल्कि दूसरों के साथ साझा करने के सामाजिक संदर्भ में भी पैदा हुए हैं। तो अंततः हमारे लिए क्या बचेगा? सिर्फ़ वह साधारण श्रम जो अभी automate नहीं हुआ, और अगर वह भी automate हो गया तो इंसानों के लिए क्या बचेगा, समझ नहीं आता। क्या भविष्य वही होगा जहाँ personalized stimulation देकर सिर्फ़ dopamine बढ़ाया जाए और दिमाग़ खराब होता जाए (जो आंशिक रूप से TikTok जैसी चीज़ों में अभी दिख भी रहा है)? अगर सब काम automate हो जाएँ, तो आर्थिक संरचना कैसे कायम रहेगी, यह भी सवाल है। शायद यह Fermi paradox की एक व्याख्या हो सकती है। ऐसा संसार जहाँ तकनीक इतनी जटिल हो जाए कि कोई उसे छू भी न सके, साधारण तकनीकी पहुँच भी खत्म हो जाए, और संसाधन अपरिवर्तनीय रूप से समाप्त हो चुके हों। ऐसे में जीवन का अर्थ कैसे खोजा जाए, यही चिंता है
- इस दावे के विपरीत कि कला हमेशा जनता के साथ साझा करने के लिए ही बनती है, कई प्रसिद्ध लेखक, चित्रकार और कलाकार इसके counterexample हैं। Kafka इसका प्रमुख उदाहरण है, और कई महत्वपूर्ण कृतियाँ उनके निधन के बाद, उनकी इच्छा के विरुद्ध, बाद में खोजी गईं। इससे बाकी तर्क अमान्य नहीं हो जाते, लेकिन कला अपने लिए भी हमेशा अस्तित्व में रही है और आगे भी रहेगी
- "मैं उन लोगों की बात स्वीकार नहीं कर सकता जो कहते हैं कि इस युग में जीना खुशी की बात है" — खुशी एक भावना है, कोई logical act नहीं। यह आशा और कल्पना से जन्मी अनुभूति है। optimism के लिए logic की ज़रूरत नहीं होती। और जीवन का अर्थ खोजने का प्रश्न LLM आने के बाद पहली बार नहीं उठा; यह हजारों साल पुराना विषय है। उदाहरण के लिए, [भगवद गीता] में भी नायक ईश्वर से पूछता है, "जब परिणाम भी निरर्थक है तो मुझे कर्म क्यों करना चाहिए?" लेकिन वहाँ भी कोई स्पष्ट अंतिम उत्तर नहीं, केवल ध्यानमय चिंतन है। यह प्रश्न AI से बहुत पहले से मनुष्य के सामने रहा है
- यह कुछ वैसा है जैसे आज हमें जीवित रहने के लिए चलना या भारी चीज़ें उठाना ज़रूरी नहीं रह गया, और इसलिए यदि हम exercise न करें तो शरीर धीरे-धीरे कमजोर हो जाता है। भविष्य में अगर अधिकांश लोगों को जीने के लिए सोचना, रचना या खोज करना भी आवश्यक न रहे, तो वे धीरे-धीरे मूर्ख होते जाएँगे। कुछ ही लोग अपने दिमाग़ को तराशेंगे, लेकिन वे भी अंततः मशीनों से अधिक बुद्धिमान नहीं हो पाएँगे। जैसे सर्वश्रेष्ठ athlete भी किसी मशीन को नहीं हरा सकता
- जिस दुनिया में हम अभी रहते हैं, वहाँ भी मुझसे कहीं बेहतर संगीत बनाने वाले लोगों के गीत YouTube और Spotify पर भरे पड़े हैं। इसलिए मुझे यह बदलाव उसी निरंतरता का हिस्सा लगता है
- मैं तुम्हारी बात से सहमत नहीं हूँ। मैंने जीवन में सैकड़ों गीत बनाए हैं, लेकिन उन्हें कभी किसी के साथ साझा नहीं किया, और मेरे सभी musician दोस्त भी लगभग ऐसे ही हैं। रचना की क्रिया दर्शक हो या न हो, उससे अलग क्षेत्र है। वास्तव में तो स्थिति लगभग उलटी है। और music production का इतिहास भी नई technologies के जरिए धीरे-धीरे entry barriers कम करता आया है; पहले महंगे उपकरणों की वजह से प्रवेश ही मुश्किल था

Google DeepMind ने Genie 3 world model पेश किया

Genie 3: world simulation में एक नई छलांग

world model के विकास की पृष्ठभूमि

Genie 3 की प्रमुख विशेषताएं

प्रकृति और भौतिक घटनाओं की modeling

जटिल ecosystem और animation

ऐतिहासिक और भौगोलिक पृष्ठभूमि का निर्माण

real-time interaction और control

Promptable World Events

agent research और experiment

तकनीकी चुनौतियां और उपलब्धियां

सीमाएं और चुनौतियां

ज़िम्मेदारी और उपलब्धता का दायरा

भविष्य और उपयोग की संभावनाएं

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय