Project Genie: अनंत और इंटरैक्टिव दुनिया के साथ प्रयोग
(blog.google)- Google का Project Genie एक प्रयोगात्मक research prototype है, जो उपयोगकर्ताओं को टेक्स्ट और इमेज की मदद से इंटरैक्टिव virtual worlds बनाना, एक्सप्लोर करना और remix करना देता है
- यह Genie 3 मॉडल पर आधारित है और उपयोगकर्ता की मूवमेंट के अनुसार रीयल-टाइम में रास्ते और वातावरण जनरेट करता है
- यह वेब ऐप के रूप में उपलब्ध है, और Nano Banana Pro तथा Gemini मॉडल इंटीग्रेट किए गए हैं ताकि world sketching, exploration और remixing फीचर्स को सपोर्ट किया जा सके
- मॉडल की सीमाओं के कारण शुरुआती वर्ज़न में भौतिक नियमों से असंगति, character control lag, और 60-सेकंड सीमा जैसी पाबंदियां हैं
- फिलहाल यह अमेरिका में Google AI Ultra subscribers (18+ आयु) के लिए उपलब्ध है, और आगे चलकर इसे अधिक क्षेत्रों तक विस्तारित किया जाएगा
Project Genie का अवलोकन
- Project Genie Google DeepMind द्वारा विकसित Genie 3 आधारित एक प्रयोगात्मक research prototype है, जो उपयोगकर्ताओं को खुद virtual worlds बनाने, एक्सप्लोर करने और remix करने का वातावरण देता है
- यह अमेरिका में Google AI Ultra subscribers (18+ आयु) के लिए उपलब्ध है
- उपयोगकर्ता टेक्स्ट prompts और इमेज के जरिए दुनिया बना सकते हैं और उन्हें रीयल-टाइम में एक्सप्लोर कर सकते हैं
- यह प्रोजेक्ट immersive world generation technology को आम उपयोगकर्ताओं तक लाने की पहली पहल है, और world model शोध का विस्तारित रूप है
World Model का विकास
- world model ऐसे सिस्टम होते हैं जो environment में होने वाले dynamic changes का simulation करते हैं और किसी action के प्रभाव का अनुमान लगाते हैं
- Google DeepMind का लक्ष्य chess या Go जैसे खास environments के लिए agents से आगे बढ़कर, वास्तविक दुनिया की विविधता को एक्सप्लोर कर सकने वाले AGI systems विकसित करना है
- Genie 3 उपयोगकर्ता की मूवमेंट के अनुसार रीयल-टाइम में रास्ते जनरेट करता है और physical interactions का simulation करता है
- यह static 3D snapshots के बजाय dynamic world generation को सपोर्ट करता है
- robotics, animation, fiction, और historical places की exploration जैसे कई scenarios में इसका उपयोग हो सकता है
Project Genie कैसे काम करता है
- यह एक web-based prototype है, जिसमें Genie 3 के अलावा Nano Banana Pro और Gemini मॉडल भी इंटीग्रेटेड हैं
- इसमें तीन मुख्य फीचर्स हैं
-
1. World Sketching (दुनिया की स्केचिंग)
- टेक्स्ट और इमेज (generate की गई या upload की गई) से जीवंत environments डिज़ाइन किए जा सकते हैं
- character और exploration style को define किया जा सकता है, और walking, flying, driving जैसी अलग-अलग movement modes को सपोर्ट किया जाता है
- Nano Banana Pro integration की मदद से दुनिया का preview और detail adjustment किया जा सकता है
- first-person या third-person view चुना जा सकता है
-
2. World Exploration (दुनिया की खोज)
- बनाई गई दुनिया एक एक्सप्लोर करने योग्य environment होती है, जिसमें उपयोगकर्ता की actions के अनुसार रीयल-टाइम में रास्ते जनरेट होते हैं
- exploration के दौरान camera view adjust किया जा सकता है
-
3. World Remixing (दुनिया का remixing)
- मौजूदा दुनिया के prompt के आधार पर नई व्याख्या वाली दुनिया को फिर से बनाया जा सकता है
- gallery या random exploration features के जरिए दूसरे उपयोगकर्ताओं की दुनियाओं को एक्सप्लोर या modify किया जा सकता है
- तैयार दुनिया और exploration process को वीडियो के रूप में डाउनलोड किया जा सकता है
जिम्मेदार AI का निर्माण
- Project Genie, Google Labs के भीतर चल रहा एक प्रयोगात्मक research prototype है, जिसे responsible AI development principles के अनुसार संचालित किया जाता है
- मौजूदा मॉडल की सीमाओं के कारण निम्नलिखित पाबंदियां स्पष्ट रूप से बताई गई हैं
- बनाई गई दुनिया वास्तविकता से अलग हो सकती है या prompt तथा भौतिक नियमों से मेल नहीं खा सकती
- character control lag या responsiveness में कमी हो सकती है
- 60 सेकंड की generation time limit है
- अगस्त 2025 में घोषित prompt-based event change feature अभी इसमें शामिल नहीं है
- भविष्य के updates और improvements की जानकारी DeepMind के आधिकारिक पेज पर देखी जा सकती है
आगे की योजना और पहुंच का विस्तार
- Project Genie का विकास विश्वसनीय testers के साथ collaborative research के आधार पर किया गया है
- यह रिलीज़ यह समझने की दिशा में एक कदम है कि उपयोगकर्ता world models का वास्तविक रूप में कैसे उपयोग करते हैं
- फिलहाल यह अमेरिका में Google AI Ultra subscribers तक सीमित है, और आगे अधिक क्षेत्रों में विस्तार की योजना है
- Google की दीर्घकालिक योजना world generation technology को अधिक उपयोगकर्ताओं के लिए खोलने की है
1 टिप्पणियां
Hacker News टिप्पणियाँ
इन दिनों मुझे बार-बार Andy Clark की The Experience Machine याद आ रही है
यह सिद्धांत है कि मानव मस्तिष्क दुनिया को सीधे नहीं पहचानता, बल्कि भीतर निर्मित simulation को इंद्रिय संकेतों से सुधारते हुए वास्तविकता का अनुभव करता है
यानी हम एक high-resolution generative model के भीतर जी रहे हैं, और संवेदनाएँ उस model के error signal को समायोजित करने का काम करती हैं
जैसे Genie 3 latent space में अगला frame predict करता है, वैसे ही मानव मस्तिष्क भी ‘Active Inference’ के ज़रिए अपेक्षा और वास्तविक अनुभव के अंतर को कम करने की कोशिश करता है
अंततः यथार्थ का अनुभव बाहरी दुनिया की सीधी रिकॉर्डिंग नहीं, बल्कि लगातार सुधरती हुई interactive simulation है
उदाहरण के लिए सपने को उस स्थिति के रूप में देखा जा सकता है जहाँ sensory input बंद होने पर आंतरिक model स्वतंत्र रूप से काम करता है
ऐसे विषयों पर बहुत पहले से philosophy और religion में भी चर्चा होती रही है, और यह बात रोचक है कि मानव चेतना अपनी ही प्रक्षेपण से वास्तविकता रचती है
एक बिंदु पर सवाल उठता है कि यह फ़ोटो रह जाती है या computed impressionist artwork बन जाती है
लगता है बहुत से लोग Genie को सिर्फ़ games या movies के लिए product समझ रहे हैं
लेकिन असली उद्देश्य अगली पीढ़ी के AI और robots के लिए एक ‘imagination engine’ बनाना है, यानी ऐसा world model जो actions के परिणामों का simulation करके decision-making में मदद करे
मैं ऐसी संरचना की कल्पना करता हूँ जो real-world video को एक निश्चित frame rate पर encode करके model की imagination को real-world data में grounded करे, फिर संभावित action scenarios को branch करके उनका मूल्यांकन करे और सबसे अच्छे prediction को motor तक भेजे
timing को साधना आसान नहीं होगा, लेकिन बड़ी तस्वीर अब साफ़ दिख रही है
Genie video इसलिए generate करता है ताकि वह इंसानों के लिए समझने और debug करने योग्य interface बन सके
यानी उद्देश्य अलग है: शोधकर्ताओं के लिए एक AI experiment game
अगर Genie, VR के साथ जुड़ता है, तो वैसा ही dystopian turning point आ सकता है
लेकिन मैं अब भी वास्तविक दुनिया के risk और liveliness को पसंद करता हूँ
Genie का सार्वजनिक होना सच में अच्छा लगा
शुरुआती users के कुछ दिलचस्प वीडियो हैं:
शहर की खोज, helicopter simulation, space station और Dunkin Donuts, laptop simulation, otter pilot
मैंने कई दुनिया बनाई—जैसे चाँद पर चलना, 221B Baker Street में Holmes और Watson से मिलना, या Taipei night market में विशाल bubble tea के रूप में घूमना
एक demo video भी है
यह अभी experimental prototype है, लेकिन भविष्य की झलक जैसा महसूस होता है
Unreal 5 assets को कुछ शब्दों से generate कर पाना शानदार है, लेकिन सच कहूँ तो मैं इस तरह खेलना नहीं चाहूँगा
और मैं per-second compute cost भी नहीं देना चाहूँगा
Genie की असली breakthrough यह है कि इसमें पीछे मुड़कर देखा जा सकता है
दूसरे labs के simulators frame के बाहर की consistency बनाए नहीं रख पाए, लेकिन Genie ने यह समस्या हल कर दी
हालाँकि उस तरीके में animation expression पर कुछ सीमाएँ हो सकती हैं
Project Genie टीम का एक इंटरव्यू वीडियो है
YouTube लिंक
Genie एक research prototype है जो real time में अनंत विविध photoreal worlds generate, explore और interact करने देता है
इसमें passive video generation से interactive media की ओर बदलाव, world consistency और memory retention की तकनीकी चुनौतियाँ, और AI agents के training ground के रूप में इसकी भूमिका पर चर्चा है
ऐसी तकनीक को देखते-देखते उल्टा वास्तविक दुनिया में समय बिताने का मन होता है
स्क्रीन बंद करके वे काम फिर से करना चाहता हूँ जिनसे मुझे प्यार है
वास्तविक footage से बनी virtual दुनिया उल्टा उदासी देती है
शायद वास्तविकता भी पहले से simulation ही हो
मुझे HN पर पहले आया वह personal project याद आया जिसमें park video से world model train किया गया था
उसका एक interactive demo भी था, और Genie उस विचार को एक कदम आगे ले जाता हुआ लगता है
यह अफ़सोस की बात है कि blogs या indie demos को उद्धृत नहीं किया जाता
park model में 5 million parameters थे, उसे 15 मिनट के video पर train किया गया था, और वह iPhone पर भी चल जाता है
वहीं Genie 3 दर्जनों अरब parameters वाला बहुत बड़ा model है, जिसे लाखों घंटों के video पर train किया गया है
मध्यम आकार के models भी सामने आ रहे हैं, इसलिए 1–2 साल में gaming GPU पर local run संभव लग रहा है
उदाहरण: LingBot-World, Waypoint 1
यह सब कुछ फ़िल्म 『The Thirteenth Floor』 के विषय जैसा लगता है
trailer लिंक
काश कोई इस GIF से एक दुनिया बना दे
मैं पहले से सोचता आया हूँ: Meta(FB) world models पर ज़्यादा आक्रामक क्यों नहीं है
यही तो metaverse vision का मूल है, लेकिन उल्टा Yann LeCun को बाहर जाने दिया गया
उन्होंने LLM प्रतिस्पर्धा में हिस्सा नहीं लिया और केवल अप्रमाणित सिद्धांतों पर ध्यान दिया
नतीजा यह हुआ कि Meta AI के अग्रणी समूह से पीछे छूट गई, और LeCun अपनी प्रतिष्ठा बचाए हुए निकल गए
JEPA एक उपन्यासकार की तरह “कुत्ता डाकिए की ओर दौड़ता है” कहकर सार बताता है
Genie एक चित्रकार की तरह अगला दृश्य खुद बनाता है; तभी कहानी मौजूद होती है
यानी Genie frame-level generation है, जबकि JEPA concept-level prediction
अगर इसे product नहीं बनाया जा सका, तो पूरे project को समेट देना चाहिए
content कितना भी अच्छा हो, यह अब भी niche market में ही अटका है