Project Genie: अनंत और इंटरैक्टिव दुनिया के साथ प्रयोग

(blog.google)

6 पॉइंट द्वारा GN⁺ 2026-01-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google का Project Genie एक प्रयोगात्मक research prototype है, जो उपयोगकर्ताओं को टेक्स्ट और इमेज की मदद से इंटरैक्टिव virtual worlds बनाना, एक्सप्लोर करना और remix करना देता है
यह Genie 3 मॉडल पर आधारित है और उपयोगकर्ता की मूवमेंट के अनुसार रीयल-टाइम में रास्ते और वातावरण जनरेट करता है
यह वेब ऐप के रूप में उपलब्ध है, और Nano Banana Pro तथा Gemini मॉडल इंटीग्रेट किए गए हैं ताकि world sketching, exploration और remixing फीचर्स को सपोर्ट किया जा सके
मॉडल की सीमाओं के कारण शुरुआती वर्ज़न में भौतिक नियमों से असंगति, character control lag, और 60-सेकंड सीमा जैसी पाबंदियां हैं
फिलहाल यह अमेरिका में Google AI Ultra subscribers (18+ आयु) के लिए उपलब्ध है, और आगे चलकर इसे अधिक क्षेत्रों तक विस्तारित किया जाएगा

Project Genie का अवलोकन

Project Genie Google DeepMind द्वारा विकसित Genie 3 आधारित एक प्रयोगात्मक research prototype है, जो उपयोगकर्ताओं को खुद virtual worlds बनाने, एक्सप्लोर करने और remix करने का वातावरण देता है
- यह अमेरिका में Google AI Ultra subscribers (18+ आयु) के लिए उपलब्ध है
- उपयोगकर्ता टेक्स्ट prompts और इमेज के जरिए दुनिया बना सकते हैं और उन्हें रीयल-टाइम में एक्सप्लोर कर सकते हैं
यह प्रोजेक्ट immersive world generation technology को आम उपयोगकर्ताओं तक लाने की पहली पहल है, और world model शोध का विस्तारित रूप है

World Model का विकास

world model ऐसे सिस्टम होते हैं जो environment में होने वाले dynamic changes का simulation करते हैं और किसी action के प्रभाव का अनुमान लगाते हैं
Google DeepMind का लक्ष्य chess या Go जैसे खास environments के लिए agents से आगे बढ़कर, वास्तविक दुनिया की विविधता को एक्सप्लोर कर सकने वाले AGI systems विकसित करना है
Genie 3 उपयोगकर्ता की मूवमेंट के अनुसार रीयल-टाइम में रास्ते जनरेट करता है और physical interactions का simulation करता है
- यह static 3D snapshots के बजाय dynamic world generation को सपोर्ट करता है
- robotics, animation, fiction, और historical places की exploration जैसे कई scenarios में इसका उपयोग हो सकता है

Project Genie कैसे काम करता है

यह एक web-based prototype है, जिसमें Genie 3 के अलावा Nano Banana Pro और Gemini मॉडल भी इंटीग्रेटेड हैं
इसमें तीन मुख्य फीचर्स हैं
1. World Sketching (दुनिया की स्केचिंग)
- टेक्स्ट और इमेज (generate की गई या upload की गई) से जीवंत environments डिज़ाइन किए जा सकते हैं
- character और exploration style को define किया जा सकता है, और walking, flying, driving जैसी अलग-अलग movement modes को सपोर्ट किया जाता है
- Nano Banana Pro integration की मदद से दुनिया का preview और detail adjustment किया जा सकता है
- first-person या third-person view चुना जा सकता है
2. World Exploration (दुनिया की खोज)
- बनाई गई दुनिया एक एक्सप्लोर करने योग्य environment होती है, जिसमें उपयोगकर्ता की actions के अनुसार रीयल-टाइम में रास्ते जनरेट होते हैं
- exploration के दौरान camera view adjust किया जा सकता है
3. World Remixing (दुनिया का remixing)
- मौजूदा दुनिया के prompt के आधार पर नई व्याख्या वाली दुनिया को फिर से बनाया जा सकता है
- gallery या random exploration features के जरिए दूसरे उपयोगकर्ताओं की दुनियाओं को एक्सप्लोर या modify किया जा सकता है
- तैयार दुनिया और exploration process को वीडियो के रूप में डाउनलोड किया जा सकता है

जिम्मेदार AI का निर्माण

Project Genie, Google Labs के भीतर चल रहा एक प्रयोगात्मक research prototype है, जिसे responsible AI development principles के अनुसार संचालित किया जाता है
मौजूदा मॉडल की सीमाओं के कारण निम्नलिखित पाबंदियां स्पष्ट रूप से बताई गई हैं
- बनाई गई दुनिया वास्तविकता से अलग हो सकती है या prompt तथा भौतिक नियमों से मेल नहीं खा सकती
- character control lag या responsiveness में कमी हो सकती है
- 60 सेकंड की generation time limit है
अगस्त 2025 में घोषित prompt-based event change feature अभी इसमें शामिल नहीं है
भविष्य के updates और improvements की जानकारी DeepMind के आधिकारिक पेज पर देखी जा सकती है

आगे की योजना और पहुंच का विस्तार

Project Genie का विकास विश्वसनीय testers के साथ collaborative research के आधार पर किया गया है
यह रिलीज़ यह समझने की दिशा में एक कदम है कि उपयोगकर्ता world models का वास्तविक रूप में कैसे उपयोग करते हैं
फिलहाल यह अमेरिका में Google AI Ultra subscribers तक सीमित है, और आगे अधिक क्षेत्रों में विस्तार की योजना है
Google की दीर्घकालिक योजना world generation technology को अधिक उपयोगकर्ताओं के लिए खोलने की है

1 टिप्पणियां

GN⁺ 2026-01-30

Hacker News टिप्पणियाँ

इन दिनों मुझे बार-बार Andy Clark की The Experience Machine याद आ रही है
यह सिद्धांत है कि मानव मस्तिष्क दुनिया को सीधे नहीं पहचानता, बल्कि भीतर निर्मित simulation को इंद्रिय संकेतों से सुधारते हुए वास्तविकता का अनुभव करता है
यानी हम एक high-resolution generative model के भीतर जी रहे हैं, और संवेदनाएँ उस model के error signal को समायोजित करने का काम करती हैं
जैसे Genie 3 latent space में अगला frame predict करता है, वैसे ही मानव मस्तिष्क भी ‘Active Inference’ के ज़रिए अपेक्षा और वास्तविक अनुभव के अंतर को कम करने की कोशिश करता है
अंततः यथार्थ का अनुभव बाहरी दुनिया की सीधी रिकॉर्डिंग नहीं, बल्कि लगातार सुधरती हुई interactive simulation है
- न्यूरोलॉजी के हिसाब से यह पहले से काफ़ी स्थापित अवधारणा है
  उदाहरण के लिए सपने को उस स्थिति के रूप में देखा जा सकता है जहाँ sensory input बंद होने पर आंतरिक model स्वतंत्र रूप से काम करता है
- संबंधित वीडियो के तौर पर kurzgesagt का Why Your Brain Blinds You For 2 Hours Every Day और उसके source collection की सिफ़ारिश करता हूँ
- Anil Seth का Your Brain Hallucinates Your Conscious Reality भी इसी संदर्भ में है
  ऐसे विषयों पर बहुत पहले से philosophy और religion में भी चर्चा होती रही है, और यह बात रोचक है कि मानव चेतना अपनी ही प्रक्षेपण से वास्तविकता रचती है
- smartphone फ़ोटो की post-processing को भी इसी तरह के रूपक की तरह देखा जा सकता है
  एक बिंदु पर सवाल उठता है कि यह फ़ोटो रह जाती है या computed impressionist artwork बन जाती है
- Donald Hoffman की 『The Case Against Reality』 भी साथ में पढ़ने लायक है
लगता है बहुत से लोग Genie को सिर्फ़ games या movies के लिए product समझ रहे हैं
लेकिन असली उद्देश्य अगली पीढ़ी के AI और robots के लिए एक ‘imagination engine’ बनाना है, यानी ऐसा world model जो actions के परिणामों का simulation करके decision-making में मदद करे
- मैं भी सहमत हूँ। लोग कहते थे कि LLMs के पास world model नहीं है, और अब हम शायद अगले चरण में बढ़ रहे हैं
  मैं ऐसी संरचना की कल्पना करता हूँ जो real-world video को एक निश्चित frame rate पर encode करके model की imagination को real-world data में grounded करे, फिर संभावित action scenarios को branch करके उनका मूल्यांकन करे और सबसे अच्छे prediction को motor तक भेजे
  timing को साधना आसान नहीं होगा, लेकिन बड़ी तस्वीर अब साफ़ दिख रही है
- मेरी राय थोड़ी अलग है। अगर सचमुच imagination चाहिए, तो ज़रूरी नहीं कि video decoding ही करना पड़े
  Genie video इसलिए generate करता है ताकि वह इंसानों के लिए समझने और debug करने योग्य interface बन सके
  यानी उद्देश्य अलग है: शोधकर्ताओं के लिए एक AI experiment game
- लेकिन ऐसी संरचना की cost बहुत ज़्यादा है। robotics के लिए शायद पूरी तरह अलग architecture चाहिए होगा
- Instagram भी शुरू में दोस्तों के साथ फ़ोटो share करने वाली app थी, लेकिन अब वह एक addictive platform बन चुकी है
  अगर Genie, VR के साथ जुड़ता है, तो वैसा ही dystopian turning point आ सकता है
- ऐसी environment mapping और AI द्वारा वैकल्पिक परिणाम बनाना आखिरकार holodeck की अवधारणा ही है
  लेकिन मैं अब भी वास्तविक दुनिया के risk और liveliness को पसंद करता हूँ
Genie का सार्वजनिक होना सच में अच्छा लगा
शुरुआती users के कुछ दिलचस्प वीडियो हैं:
शहर की खोज, helicopter simulation, space station और Dunkin Donuts, laptop simulation, otter pilot
- मैं भी early tester के रूप में शामिल था
  मैंने कई दुनिया बनाई—जैसे चाँद पर चलना, 221B Baker Street में Holmes और Watson से मिलना, या Taipei night market में विशाल bubble tea के रूप में घूमना
  एक demo video भी है
  यह अभी experimental prototype है, लेकिन भविष्य की झलक जैसा महसूस होता है
- तकनीकी रूप से यह चौंकाने वाला है, लेकिन immersion कम है
  Unreal 5 assets को कुछ शब्दों से generate कर पाना शानदार है, लेकिन सच कहूँ तो मैं इस तरह खेलना नहीं चाहूँगा
  और मैं per-second compute cost भी नहीं देना चाहूँगा
- अगर dinosaur era को recreate करने वाला version आए, तो मैं ज़रूर देखना चाहूँगा
- Project Genie पर आपकी राय जानना चाहता हूँ
Genie की असली breakthrough यह है कि इसमें पीछे मुड़कर देखा जा सकता है
दूसरे labs के simulators frame के बाहर की consistency बनाए नहीं रख पाए, लेकिन Genie ने यह समस्या हल कर दी
- सुना है Fei-Fei Li की lab वास्तविक 3D दुनिया generate कर रही है
  हालाँकि उस तरीके में animation expression पर कुछ सीमाएँ हो सकती हैं
- यह हैरानी की बात है कि ML researchers को explicit cache structure की ज़रूरत इतनी देर से समझ आई
- तो फिर यह जानने की जिज्ञासा है कि अगर एक हफ़्ते बाद उसी जगह वापस जाएँ, तो क्या वही दृश्य बना रहेगा
Project Genie टीम का एक इंटरव्यू वीडियो है
YouTube लिंक
Genie एक research prototype है जो real time में अनंत विविध photoreal worlds generate, explore और interact करने देता है
इसमें passive video generation से interactive media की ओर बदलाव, world consistency और memory retention की तकनीकी चुनौतियाँ, और AI agents के training ground के रूप में इसकी भूमिका पर चर्चा है
ऐसी तकनीक को देखते-देखते उल्टा वास्तविक दुनिया में समय बिताने का मन होता है
स्क्रीन बंद करके वे काम फिर से करना चाहता हूँ जिनसे मुझे प्यार है
- मुझे भी यही एहसास होता है। वीडियो में किसी को keyboard पर टाइप करते देखते ही एक तरह की कड़वाहट महसूस होती है
  वास्तविक footage से बनी virtual दुनिया उल्टा उदासी देती है
- मुझे AI से प्यार है, लेकिन उम्मीद है कि ऐसी तकनीक उल्टा सच्चे मानवीय अनुभव की क़ीमत याद दिलाएगी
- मैंने पूरी ज़िंदगी tech industry में काम किया, लेकिन अब तो सब कुछ बंद कर देने का मन करता है
- विडंबना यह है कि ऐसी प्रगति simulation hypothesis पर और ज़्यादा विश्वास दिलाती है
  शायद वास्तविकता भी पहले से simulation ही हो
- आसमान नीला है, धूप अच्छी है, लेकिन आलस की वजह से सोचता हूँ कि चलो walking simulation ही चला लें
मुझे HN पर पहले आया वह personal project याद आया जिसमें park video से world model train किया गया था
उसका एक interactive demo भी था, और Genie उस विचार को एक कदम आगे ले जाता हुआ लगता है
यह अफ़सोस की बात है कि blogs या indie demos को उद्धृत नहीं किया जाता
- सही बात है, अवधारणा मिलती-जुलती है लेकिन scale का अंतर चरम है
  park model में 5 million parameters थे, उसे 15 मिनट के video पर train किया गया था, और वह iPhone पर भी चल जाता है
  वहीं Genie 3 दर्जनों अरब parameters वाला बहुत बड़ा model है, जिसे लाखों घंटों के video पर train किया गया है
  मध्यम आकार के models भी सामने आ रहे हैं, इसलिए 1–2 साल में gaming GPU पर local run संभव लग रहा है
  उदाहरण: LingBot-World, Waypoint 1
यह सब कुछ फ़िल्म 『The Thirteenth Floor』 के विषय जैसा लगता है
trailer लिंक
काश कोई इस GIF से एक दुनिया बना दे
मैं पहले से सोचता आया हूँ: Meta(FB) world models पर ज़्यादा आक्रामक क्यों नहीं है
यही तो metaverse vision का मूल है, लेकिन उल्टा Yann LeCun को बाहर जाने दिया गया
- LeCun ने परिणामों की कमी और हठी research direction से अंदरूनी दरार पैदा की
  उन्होंने LLM प्रतिस्पर्धा में हिस्सा नहीं लिया और केवल अप्रमाणित सिद्धांतों पर ध्यान दिया
  नतीजा यह हुआ कि Meta AI के अग्रणी समूह से पीछे छूट गई, और LeCun अपनी प्रतिष्ठा बचाए हुए निकल गए
- JEPA और Genie के अंतर को मैं इस तरह समझाता हूँ
  JEPA एक उपन्यासकार की तरह “कुत्ता डाकिए की ओर दौड़ता है” कहकर सार बताता है
  Genie एक चित्रकार की तरह अगला दृश्य खुद बनाता है; तभी कहानी मौजूद होती है
  यानी Genie frame-level generation है, जबकि JEPA concept-level prediction
- मैं पूरी तरह सहमत हूँ। world model ही Reality Labs निवेश का असली बचाव-कार्ड है
  अगर इसे product नहीं बनाया जा सका, तो पूरे project को समेट देना चाहिए
- असफल उदाहरण सार्वजनिक नहीं होते। Meta ने वास्तव में कहाँ निवेश किया है, यह स्पष्ट नहीं है
- बुनियादी समस्या यह है कि लोग VR headset पहनना पसंद नहीं करते
  content कितना भी अच्छा हो, यह अब भी niche market में ही अटका है

Project Genie: अनंत और इंटरैक्टिव दुनिया के साथ प्रयोग

Project Genie का अवलोकन

World Model का विकास

Project Genie कैसे काम करता है

1. World Sketching (दुनिया की स्केचिंग)

2. World Exploration (दुनिया की खोज)

3. World Remixing (दुनिया का remixing)

जिम्मेदार AI का निर्माण

आगे की योजना और पहुंच का विस्तार

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ