Google DeepMind ने Genie 3 world model पेश किया
(deepmind.google)- केवल text prompt से real-time interactive 3D environment बनाने वाला पहला general-purpose world model
- 24fps, 720p resolution, और कई मिनट तक consistency बनाए रखने में सक्षम, और पिछले Genie 2 की तुलना में interactivity, realism, और persistence में बड़ा सुधार
- भौतिक घटनाएं, ecosystem, animation, और ऐतिहासिक-भौगोलिक पृष्ठभूमि सहित कई विषयों के virtual world को स्वाभाविक और विविध तरीके से बना सकता है
- Promptable world events फीचर के जरिए उपयोगकर्ता text से मौसम बदलना, object जोड़ना जैसी dynamic event को real time में नियंत्रित कर सकते हैं
- agent research के लिए डिज़ाइन किया गया है और SIMA agent जैसे सिस्टम के साथ मिलकर long-term goal achievement या complex behavior sequence का परीक्षण कर सकता है
Genie 3: world simulation में एक नई छलांग
world model के विकास की पृष्ठभूमि
- DeepMind ने AI agent training, open-ended learning, और robotics जैसे क्षेत्रों में simulation environment research का नेतृत्व किया है
- world model ऐसा AI system है जो environment में बदलाव और agent के action के परिणामों का अनुमान और पुनरुत्पादन कर सकता है, और इसे AGI की दिशा में एक महत्वपूर्ण मध्यवर्ती चरण माना जाता है
- Genie 1 और 2 के बाद, Genie 3 real-time interactivity और visual-physical consistency दोनों साथ देने वाला पहला world model है
Genie 3 की प्रमुख विशेषताएं
-
प्रकृति और भौतिक घटनाओं की modeling
- पानी, रोशनी, और अलग-अलग environmental interaction जैसी वास्तविक दुनिया की प्राकृतिक घटनाओं को केवल prompt से स्वाभाविक रूप में बना सकता है
-
जटिल ecosystem और animation
- जानवरों के behavior, पौधों की growth जैसी ecosystem की गतिशीलता और कल्पनाशील animation world तैयार कर सकता है
-
ऐतिहासिक और भौगोलिक पृष्ठभूमि का निर्माण
- भौगोलिक और कालगत सीमाओं से परे विविध spaces को real time में virtual environment के रूप में बनाया जा सकता है
-
real-time interaction और control
- user input के अनुसार 24fps, 720p पर तुरंत world change को visualise करता है
- पहले देखे गए location और state को याद रखकर कई मिनट तक physical और visual consistency बनाए रखता है
-
Promptable World Events
- text prompt से मौसम बदलना, object या character जोड़ना जैसी environment change event को real time में शुरू किया जा सकता है
- exploration control के अलावा “what if” scenario या असामान्य स्थितियों के निर्माण जैसी व्यापक application संभावनाएं देता है
-
agent research और experiment
- SIMA जैसे 3D environment-विशेष AI agent Genie 3 की दुनिया में जटिल goals का पीछा करते हुए long sequence execution capability की जांच कर सकते हैं
- agent का goal Genie 3 के साथ साझा नहीं किया जाता, और परिणाम केवल behavior sequence और world simulation के आधार पर बनते हैं
तकनीकी चुनौतियां और उपलब्धियां
- frame-by-frame autoregressive generation प्रक्रिया में user input और पिछले sequence दोनों को real time में शामिल करना होता है, इसलिए यह अत्यंत कठिन तकनीकी चुनौती है
- मौजूदा NeRF, Gaussian Splatting आदि से अलग, Genie 3 बिना explicit 3D representation के pure generative approach पर आधारित है, इसलिए यह अधिक dynamic और समृद्ध environment बना सकता है
सीमाएं और चुनौतियां
- action range की सीमा: prompt-आधारित environment change विविध हैं, लेकिन सीधे किए जा सकने वाले action अभी सीमित हैं
- multi-agent interaction: कई agents के बीच interaction का सटीक simulation अभी भी research का विषय है
- real-world location reproduction की सीमा: यह वास्तविक भौगोलिक spaces की पूरी accuracy प्रदान नहीं करता
- text rendering की सीमा: स्पष्ट text representation केवल explicit input दिए जाने पर ही संभव है
- interaction time की सीमा: फिलहाल केवल कुछ मिनट तक लगातार interaction का समर्थन है
ज़िम्मेदारी और उपलब्धता का दायरा
- Genie 3 की open-ended और real-time generation विशेषताएं नए safety और ethics मुद्दे लाती हैं, इसलिए Responsible Development & Innovation Team के साथ घनिष्ठ सहयोग किया जा रहा है
- शुरुआत में इसे सीमित researcher और creator group को research preview के रूप में दिया जाएगा, और feedback के आधार पर धीरे-धीरे विस्तार तथा risk response strategy तैयार की जाएगी
भविष्य और उपयोग की संभावनाएं
- Genie 3 education, training, AI agent learning, और performance validation जैसे कई क्षेत्रों में नई संभावनाएं प्रस्तुत करता है
- AGI (Artificial General Intelligence) research में इसकी केंद्रीय भूमिका की उम्मीद की जा रही है, और इसे मानवता के हित में सुरक्षित तरीके से विकसित किया जाएगा
1 टिप्पणियां
Hacker News राय
अगर इस क्षेत्र में काम करने वाला या विशेषज्ञता रखने वाला कोई है, तो जानना चाहूंगा कि Genie 3 किन तकनीकों, आर्किटेक्चर, सिस्टम डिज़ाइन और computing requirements के साथ बनाया गया होगा। अभी सार्वजनिक जानकारी बहुत कम है, इसलिए खासकर यह सुनना दिलचस्प होगा कि इस क्षेत्र के विशेषज्ञ इसकी implementation के बारे में कैसे अनुमान या inference लगाते हैं
यह बिल्कुल अप्रत्याशित स्तर है कि कुछ मिनटों की consistency को real-time 720p में हासिल किया जा सकता है। मैंने सुना है कि Genie 3 की consistency model scaling से उभरी हुई emergent capability है। यानी आर्किटेक्चर को जानबूझकर बेहतर नहीं बनाया गया, बल्कि मॉडल बड़ा करते-करते यह performance जैसे संयोग से आ गई। इसकी सीमाओं को किसी ऐसे व्यक्ति ने संक्षेप में लिखा है जिसने इसे खुद इस्तेमाल किया है(X लिंक):
physical simulation अब भी कठिन है, और psychology में इस्तेमाल होने वाले intuitive physics tests (जैसे block stacking) में साफ़ failure cases मौजूद हैं
social interaction या कई agents के उलझे हुए हालात कठिन हैं, और 1:1 मुकाबले वाले गेम अच्छी तरह काम नहीं करते
complex instructions या game logic (जैसे key इकट्ठा कर दरवाज़ा खोलना) भी ठीक से काम नहीं करती
action space भी सीमित है
असली game engine तक पहुँचने में अभी बहुत समय है, लेकिन यह साफ़ तौर पर भविष्य की एक झलक सीधे देखने का मौका है इन सीमाओं के बावजूद, यह महसूस होता है कि world models आगे चलकर robotics और real-world AI में उम्मीद से ज़्यादा महत्वपूर्ण भूमिका निभाएंगे। शायद भविष्य के robots सपनों में सीखने वाले युग में प्रवेश करें
multiplayer सिर्फ़ logistic या technical पक्ष से नहीं, बल्कि gameplay के नज़रिए से कैसे संभव होगा, यह जानने की सच में जिज्ञासा है
गेम स्पष्ट रूप से एक बड़ा use case है, लेकिन मूल रूप से लगता है कि इसे Google के warehouse robots की training के लिए synthetic data generation के उद्देश्य से विकसित किया गया है। संबंधित जानकारी के लिए The Guardian लेख और Gemini Robot लॉन्च से 4 महीने पहले की HN पोस्ट देखें
तकनीकी प्रगति की रफ्तार इतनी तेज़ होगी, यह उम्मीद नहीं थी। मैंने कुछ महीने पहले world model output manipulation को AAA games के अगले चरण पर एक लेख लिखा था(ब्लॉग पोस्ट), और तब भी मुझे लगा था कि इसमें अभी कई साल बाकी हैं। मैंने मज़ाक में यह भी कहा था कि Rockstar, GTA6 बनाते हुए world model के बहकावे में आ जाएगा, लेकिन अब यह बात इतनी अजीब नहीं लगती। GameNGen के बाद की प्रगति देखकर लगता है कि GTA6 की रिलीज़ से पहले ही यह उससे आगे निकल सकता है
इस स्तर पर visual reality gap को काफी हद तक भरा जा सकता है, इसलिए यह robotics के लिए बहुत अच्छा tool हो सकता है। बेशक, physical simulation अब भी अलग चुनौती है
यह Bitter lesson के फिर से लागू होने का एक और क्षण है
यह सचमुच उत्साहजनक प्रगति है, शायद Demis ने पिछले महीने जिस चीज़ का संकेत दिया था, वही यह है(संबंधित ट्वीट). जारी क्लिप्स देखकर कुछ तकनीकी डिटेल्स का अनुमान लगाया जा सकता है:
काश यह लोग इसके काम करने के तरीके के बारे में और जानकारी दें। कम-से-कम शोधकर्ताओं के लिए एक paper तो होना चाहिए था। मेरा अनुमान है कि यह मौजूदा video generation models जैसा है, लेकिन input को movement direction, viewangle आदि पर condition किया जाता होगा। मुझे लगता है कि यह relative input नहीं बल्कि absolute input है, और इसमें कुछ state simulation भी शामिल हो सकता है (हालाँकि demo वीडियो में object collision physics दिखती है, तो शायद ऐसा न हो, या फिर 2D में up axis generate हो रहा हो)। साफ़ लगता है कि इसे game engine आधारित data पर train किया गया है, क्योंकि screen-space reflection artifacts दिखाई देते हैं। शायद photogrammetry/splat आधारित data भी जोड़ा गया है, और अवास्तविक तत्वों का resolution खासकर कम दिखता है। demo में कुछ साफ़ inconsistencies भी दिखती हैं:
यह बेहद प्रभावशाली है, लेकिन डिटेल्स सच में बहुत कम हैं। दूसरे comment की तरह मैं इस बात से सहमत नहीं कि जब तक खुद इस्तेमाल न करो तब तक इसका मतलब नहीं, लेकिन हैरानी इस बात की है कि कुछ ही साल पहले ऐसी घोषणा के साथ paper ज़रूर आता। अब सिर्फ़ paper जैसी चीज़ें हैं, जैसे creators, demo, bibtex citation वगैरह, लेकिन वास्तविक शोध साझा नहीं किया गया। एक परिचित से बात करते हुए मुझे यह चिंता हुई कि AI की तत्काल क्षमताओं से भी ज़्यादा, research/academic mode से फटाफट 'value extraction' की economic logic की ओर झुकाव बढ़ गया है। policy और economics में इसे सीधे या परोक्ष रूप से आधार बनाना और भी जोखिमपूर्ण है। मैं commercialization के खिलाफ नहीं हूँ, लेकिन product announcement को research paper जैसा दिखाना और साथ ही हाल में academic research support में कटौती पर गणितज्ञों की चेतावनियाँ आना, लंबे समय में भरोसा कम करने वाली बात है
अब भी यह कल्पना करना कठिन है कि prediction के आधार पर 'अगला pixel' बनाना, पारंपरिक deterministic तरीके से scene build और render करने से बेहतर हो सकता है। उदाहरण के लिए, अगर AI का उपयोग textures, models और motion sequences बनाने के लिए किया जाए, और graphics card उन्हें जोड़कर scene render करे, तो user wire model, textures, camera position वगैरह को मनचाहे ढंग से बदल सकता है
यह क्रांतिकारी लगता है। आने की उम्मीद थी, लेकिन इसे सामने देखकर भी नया लगता है। सीमाएँ हैं, लेकिन यह शुरुआत है। अब तक game engines में मुख्य बात यह थी कि engineers या developers shapes (जैसे triangles) को pixels पर ठीक-ठीक position करते थे, लेकिन अब ऐसा लगता है कि हर frame में computer खुद सीधे 'चित्र' बना रहा है, और triangle computations के बिना ही image निकाल रहा है
और हाथों की drawing quality भी 10 गुना से ज़्यादा खराब हुआ करती थी। अब हाथ, text और images तीनों बेहतर हो गए हैं, तो लगता है कि खामियाँ ढूँढने के लिए हम फिर से 'Where's Waldo' जैसा खेल खेलेंगे। मुझे लगता है कि कभी न कभी ऐसे infinite-zoom videos भी आएँगे जिनमें AI watermark pixel के 1/3 स्तर पर छिपा होगा। व्यक्तिगत रूप से मुझे augmented video का क्षेत्र ज़्यादा दिलचस्प लगता है। Runway वगैरह stormtrooper vlog style videos पर काम कर रहे हैं, लेकिन कीमत बहुत ज़्यादा है
text की समस्या को पूरी तरह हल हुआ मानना अभी जल्दी होगी। यह निश्चित रूप से बहुत बेहतर हुई है, लेकिन gpt-image-1 भी text generation में कभी-कभी असफल होता है
prompt और generated blackboard content में dash(-) होने या न होने का अंतर है
किसी presentation ने पहली बार मेरी reality sense को कई बार हिला दिया। यह सचमुच mind-blowing अनुभव था
generative AI की प्रगति मुझे लगातार और उदास कर रही है। लगता है कि creativity हमसे तेज़ी से छीनी जा रही है। अगर तकनीक इस अवस्था में एक tool बनी रहे और मानवीय रचना में मदद करे तो ठीक है, लेकिन अभी ऐसा लगता है कि इसका लक्ष्य पूर्ण replacement है। हाँ, कोई कह सकता है कि "तुम खुद संगीत या चित्र बना सकते हो", लेकिन ऐतिहासिक रूप से artworks सिर्फ़ अपने लिए नहीं, बल्कि दूसरों के साथ साझा करने के सामाजिक संदर्भ में भी पैदा हुए हैं। तो अंततः हमारे लिए क्या बचेगा? सिर्फ़ वह साधारण श्रम जो अभी automate नहीं हुआ, और अगर वह भी automate हो गया तो इंसानों के लिए क्या बचेगा, समझ नहीं आता। क्या भविष्य वही होगा जहाँ personalized stimulation देकर सिर्फ़ dopamine बढ़ाया जाए और दिमाग़ खराब होता जाए (जो आंशिक रूप से TikTok जैसी चीज़ों में अभी दिख भी रहा है)? अगर सब काम automate हो जाएँ, तो आर्थिक संरचना कैसे कायम रहेगी, यह भी सवाल है। शायद यह Fermi paradox की एक व्याख्या हो सकती है। ऐसा संसार जहाँ तकनीक इतनी जटिल हो जाए कि कोई उसे छू भी न सके, साधारण तकनीकी पहुँच भी खत्म हो जाए, और संसाधन अपरिवर्तनीय रूप से समाप्त हो चुके हों। ऐसे में जीवन का अर्थ कैसे खोजा जाए, यही चिंता है
इस दावे के विपरीत कि कला हमेशा जनता के साथ साझा करने के लिए ही बनती है, कई प्रसिद्ध लेखक, चित्रकार और कलाकार इसके counterexample हैं। Kafka इसका प्रमुख उदाहरण है, और कई महत्वपूर्ण कृतियाँ उनके निधन के बाद, उनकी इच्छा के विरुद्ध, बाद में खोजी गईं। इससे बाकी तर्क अमान्य नहीं हो जाते, लेकिन कला अपने लिए भी हमेशा अस्तित्व में रही है और आगे भी रहेगी
"मैं उन लोगों की बात स्वीकार नहीं कर सकता जो कहते हैं कि इस युग में जीना खुशी की बात है" — खुशी एक भावना है, कोई logical act नहीं। यह आशा और कल्पना से जन्मी अनुभूति है। optimism के लिए logic की ज़रूरत नहीं होती। और जीवन का अर्थ खोजने का प्रश्न LLM आने के बाद पहली बार नहीं उठा; यह हजारों साल पुराना विषय है। उदाहरण के लिए, [भगवद गीता] में भी नायक ईश्वर से पूछता है, "जब परिणाम भी निरर्थक है तो मुझे कर्म क्यों करना चाहिए?" लेकिन वहाँ भी कोई स्पष्ट अंतिम उत्तर नहीं, केवल ध्यानमय चिंतन है। यह प्रश्न AI से बहुत पहले से मनुष्य के सामने रहा है
यह कुछ वैसा है जैसे आज हमें जीवित रहने के लिए चलना या भारी चीज़ें उठाना ज़रूरी नहीं रह गया, और इसलिए यदि हम exercise न करें तो शरीर धीरे-धीरे कमजोर हो जाता है। भविष्य में अगर अधिकांश लोगों को जीने के लिए सोचना, रचना या खोज करना भी आवश्यक न रहे, तो वे धीरे-धीरे मूर्ख होते जाएँगे। कुछ ही लोग अपने दिमाग़ को तराशेंगे, लेकिन वे भी अंततः मशीनों से अधिक बुद्धिमान नहीं हो पाएँगे। जैसे सर्वश्रेष्ठ athlete भी किसी मशीन को नहीं हरा सकता
जिस दुनिया में हम अभी रहते हैं, वहाँ भी मुझसे कहीं बेहतर संगीत बनाने वाले लोगों के गीत YouTube और Spotify पर भरे पड़े हैं। इसलिए मुझे यह बदलाव उसी निरंतरता का हिस्सा लगता है
मैं तुम्हारी बात से सहमत नहीं हूँ। मैंने जीवन में सैकड़ों गीत बनाए हैं, लेकिन उन्हें कभी किसी के साथ साझा नहीं किया, और मेरे सभी musician दोस्त भी लगभग ऐसे ही हैं। रचना की क्रिया दर्शक हो या न हो, उससे अलग क्षेत्र है। वास्तव में तो स्थिति लगभग उलटी है। और music production का इतिहास भी नई technologies के जरिए धीरे-धीरे entry barriers कम करता आया है; पहले महंगे उपकरणों की वजह से प्रवेश ही मुश्किल था