- बड़े पैमाने की autonomous driving simulation के लिए एक generative world model, जो रीयल-टाइम में वास्तविक जैसी परिस्थितियाँ पुनर्निर्मित करता है
- Genie 3 पर निर्मित, इसलिए दुर्लभ या चरम स्थितियाँ (टोर्नेडो, बाढ़, जानवरों का अचानक आना आदि) भी वास्तविक जैसी बनाई जा सकती हैं
- ड्राइविंग कंट्रोल, सीन कंपोज़िशन, और भाषा-आधारित कंट्रोल के जरिए simulation को बारीकी से समायोजित किया जा सकता है, और camera व lidar data एक साथ जनरेट किए जा सकते हैं
- सामान्य वीडियो या dashcam फुटेज को multi-sensor simulation में बदलकर वास्तविक ड्राइविंग सीन को उसी तरह पुनर्निर्मित किया जा सकता है
- यह मॉडल सुरक्षा सत्यापन और सेवा विस्तार के लिए एक प्रमुख टूल है, जो उन परिस्थितियों की तैयारी भी संभव बनाता है जो वास्तविक दुनिया में लगभग असंभव हैं
Waymo वर्ल्ड मॉडल का अवलोकन
- Waymo Driver ने अमेरिका के प्रमुख शहरों में पूर्ण autonomous driving के साथ लगभग 20 करोड़ मील ड्राइव किया है, और इसके अलावा वर्चुअल वातावरण में अरबों मील चलाया है
- इसे इस तरह डिज़ाइन किया गया है कि वास्तविक सड़कों पर मुश्किल से मिलने वाली जटिल परिस्थितियों को पहले से सीखा जा सके
- Waymo World Model ऐसी वर्चुअल ड्राइविंग के लिए एक हाइपर-रियलिस्टिक simulation generation system है
- यह Waymo के AI ecosystem के तीन मुख्य स्तंभों में से एक है और सुरक्षा सिद्ध करने की नींव का काम करता है
Genie 3 आधारित संरचना और क्षमताएँ
- यह Google DeepMind के Genie 3 पर आधारित है और ड्राइविंग वातावरण के लिए विशेष रूप से अनुकूलित किया गया है
- Genie 3 एक सामान्य world model है जो यथार्थवादी और इंटरैक्टिव 3D वातावरण बनाता है
- Genie के व्यापक world knowledge का उपयोग करके, टोर्नेडो या हाथी से सामना जैसी वास्तविक दुनिया में लगभग असंभव घटनाओं का भी simulation किया जा सकता है
- language prompt, driving input, और scene placement के जरिए simulation को बारीकी से नियंत्रित किया जा सकता है
- यह camera और lidar data दोनों जनरेट करने वाला multi-sensor output सपोर्ट करता है
मल्टीमॉडल world knowledge
- पारंपरिक autonomous driving simulators आमतौर पर केवल अपने एकत्रित डेटा पर ट्रेन होते हैं, लेकिन Waymo का मॉडल Genie 3 के pre-trained व्यापक वीडियो डेटा का उपयोग करता है
- 2D वीडियो knowledge को Waymo के lidar system के लिए 3D output में ट्रांसफ़र किया जाता है
- camera दृश्य विवरण में मज़बूत है, जबकि lidar सटीक depth information में बेहतर है
- रोज़मर्रा की ड्राइविंग से लेकर दुर्लभ long-tail स्थितियों तक कई तरह के दृश्य बनाए जा सकते हैं
-
चरम मौसम और प्राकृतिक आपदा simulation
- बर्फ़ से ढके Golden Gate Bridge पर ड्राइविंग, टोर्नेडो से सामना, बाढ़ में डूबा उपनगरीय इलाका, उष्णकटिबंधीय शहर की बर्फ़ीली सड़कें, आग के बीच से निकलना जैसे दृश्य तैयार किए जा सकते हैं
-
दुर्लभ और safety-critical घटनाएँ
- आक्रामक ड्राइवर, पेड़ की डाल से टकराती गाड़ी, अस्थिर सामान ढोने वाला वाहन, गलत दिशा में आता ट्रक जैसे सुरक्षा-संबंधी scenarios को पुनर्निर्मित किया जा सकता है
-
long-tail ऑब्जेक्ट और असामान्य स्थितियाँ
- हाथी, Texas longhorn, शेर, डायनासोर की वेशभूषा पहना पैदल यात्री, विशाल पिनव्हील जैसे असामान्य ऑब्जेक्ट्स से सामना कराने वाले simulation उपलब्ध हैं
simulation control क्षमताएँ
- इसे तीन तरीकों से नियंत्रित किया जा सकता है: driving behavior control, scene composition control, और language control
-
driving behavior control
- यह एक इंटरैक्टिव simulator प्रदान करता है जो विशेष driving input पर प्रतिक्रिया देता है
- उदाहरण: किसी खास स्थिति में अगर वाहन को और अधिक आक्रामक तरीके से चलाया जाए तो क्या परिणाम होंगे, इसका परीक्षण
- यह पारंपरिक 3DGS(3D Gaussian Splats) तरीकों की तुलना में visual consistency और realism बेहतर बनाए रखता है
- यह एक इंटरैक्टिव simulator प्रदान करता है जो विशेष driving input पर प्रतिक्रिया देता है
-
scene composition control
- सड़क की संरचना, सिग्नल की स्थिति, आसपास के वाहनों का व्यवहार आदि को स्वतंत्र रूप से बदला जा सकता है
- कस्टम scenarios बनाना और सड़क वातावरण में बदलाव करना संभव है
- सड़क की संरचना, सिग्नल की स्थिति, आसपास के वाहनों का व्यवहार आदि को स्वतंत्र रूप से बदला जा सकता है
-
language control
- दिन का समय, मौसम, और पूरा दृश्य टेक्स्ट कमांड से बदला जा सकता है
- उदाहरण: भोर, सुबह, दोपहर, शाम, रात जैसे समय-खंडों में बदलाव
- बादल, कोहरा, बारिश, बर्फ़, साफ़ मौसम जैसी weather conditions बदली जा सकती हैं
- दिन का समय, मौसम, और पूरा दृश्य टेक्स्ट कमांड से बदला जा सकता है
वीडियो-आधारित simulation conversion
- सामान्य camera या dashcam वीडियो को इनपुट के रूप में लेकर, उसे Waymo Driver के दृष्टिकोण वाली multi-sensor simulation में बदला जा सकता है
- चूँकि यह वास्तविक वीडियो पर आधारित है, इसलिए realism और accuracy दोनों अधिक हैं
- उदाहरण: नॉर्वे, Utah के Arches National Park, California की Death Valley जैसे वास्तविक स्थानों के वीडियो का रूपांतरण
स्केलेबल inference
- लंबे सीन simulation में अधिक computation लगता है, लेकिन अनुकूलित मॉडल वेरिएंट के जरिए उच्च गुणवत्ता बनाए रखते हुए compute cost को काफी कम किया गया है
- संकरी लेन से गुजरना, जटिल चौराहे, चढ़ाई वाले रास्ते जैसे लंबी अवधि के ड्राइविंग scenarios को सपोर्ट करता है
- 4x playback उदाहरण: हाईवे bottleneck से बचाव, जटिल रिहायशी इलाके में ड्राइविंग, चढ़ाई पर मोटरसाइकिल से बचना, SUV का U-turn आदि
सुरक्षा और विस्तार क्षमता
- वास्तविक दुनिया में लगभग असंभव स्थितियों को वर्चुअली पुनर्निर्मित करके पहले से तैयारी की जा सकती है
- यह Waymo Driver के safety standards को मजबूत करता है और नए क्षेत्रों व वातावरणों में service expansion की नींव रखता है
- इस प्रोजेक्ट में Waymo और Google DeepMind के कई शोधकर्ताओं ने भाग लिया
1 टिप्पणियां
Hacker News की राय
अब समझ आता है कि DeepMind अचानक world model पर इतना ध्यान क्यों दे रहा है
मैंने Waymo को कभी Boston Dynamics के humanoid की तरह ‘रोबोट’ नहीं समझा था, लेकिन असल में वह भी एक रोबोट ही है
Google/Alphabet ने AI क्षेत्र में हैरान कर देने वाली vertical integration हासिल कर ली है — अपनी बिजली उत्पादन क्षमता, chips, data centers, search·Gmail·YouTube·Gemini·Workspace·Wallet, अरबों Android·Chromebook users, ad network, browser, Waymo, Boston Dynamics के साथ सहयोग, fusion research, और drug discovery तक
इस scale को देखें तो ChatGPT या Grok जैसे chatbots की तुलना ही नहीं बनती
पहले मुझे लगता था कि self-driving car research सिर्फ Street View के लिए है, लेकिन अब लगता है कि तस्वीर कहीं बड़ी थी
संबंधित paper यहाँ देखा जा सकता है
गाड़ियाँ real time में road conditions update कर सकती थीं, लेकिन अब लगता है कि वह काफी पीछे रह गया है
संबंधित video यहाँ देखें
कहा जा रहा है कि Genie model rare events (tornado, elephant encounter आदि) को simulate कर सकता है, लेकिन यह शक है कि generated result सचमुच realistic हैं या नहीं
उदाहरण के लिए, अगर model सड़क पर 5mm लोहे की गोलियाँ बिखरी होने जैसी स्थिति predict करे, तो यह कैसे verify होगा कि उसका अनुमान वाजिब है?
इसे perfect होने की ज़रूरत नहीं, repeated use और validation के ज़रिए यह धीरे-धीरे बेहतर होता जाएगा
जैसे whiteout blizzard में सफेद गाय जैसी extreme case भी simulation से पकड़ी जा सकती है
perfect prediction नामुमकिन है, लेकिन हम knowledge-based best judgment की दिशा में धीरे-धीरे सुधार करते हैं
कहा जा रहा है कि Waymo World Model सामान्य camera video को भी multimodal simulation में बदल सकता है, यानी अगर Waymo चाहे तो सिर्फ camera से भी drive कर सकता है
Tesla ने LiDAR phase से गुज़रा ही नहीं, इसलिए उसके लिए ऐसे result पाना मुश्किल है
यह इंसानी binocular disparity की तरह depth perception को support करता है
पहला training के लिए है, दूसरा actual vehicle deployment के लिए
इसलिए सिर्फ camera वाला approach सीमित है
तकनीक impressive है, लेकिन मुझे लगता है train infrastructure में सुधार ज़्यादा ज़रूरी है
fare evasion, violence और unhygienic conditions की वजह से लोग दूर हो जाते हैं
इस हक़ीक़त को नज़रअंदाज़ करके सिर्फ public transit की बात करना खोखला लगता है
इसलिए अगर Waymo जैसी service वादा किया गया quality level सच में दे, तो उसे ज़्यादा ध्यान मिलेगा
मेरी नज़र में bike-sharing system ही अकेला ऐसा विकल्प है जिसने अपना वादा निभाया है
शोर, भीख माँगना, drugs जैसी समस्याओं के कारण public transit से लोग बचते हैं
अमेरिका के infrastructure की हकीकत देखते हुए large-scale rail reform अवास्तविक लगता है
जापान जैसे देशों में rail बेहतर होने के बावजूद car ownership अमेरिका से बहुत अलग नहीं है
इस announcement का मुख्य बिंदु 2D video से 3D LiDAR data generate करने की तकनीक है
DeepMind और Google infrastructure तक पहुँच Waymo की ज़बरदस्त competitive edge है
flood, tornado, wildfire जैसी simulations impressive हैं, लेकिन power outage जैसी आम स्थिति में Waymo का एक साथ रुक जाना सवाल उठाता है
अगर ऐसे basic scenarios handle नहीं होते, तो simulation की अहमियत कम लगती है
यानी simulation की value बनी रहती है, लेकिन वह हर failure नहीं रोक सकता
संबंधित video
Waymo का training में virtual counterfactual situations इस्तेमाल करना जोखिम भरा लगता है
असली त्रासदी वाली घटनाओं से ज़्यादा ‘अच्छा handle किए गए videos’ होंगे, इसलिए system शायद overconfidence सीख ले
मकसद यह है कि Waymo tornado या elephant जैसी स्थिति में सिर्फ रुक न जाए, बल्कि respond भी कर सके
अगर सिर्फ complete safety चाहेंगे, तो कार चलेगी ही नहीं
सिर्फ ‘धीमा मतलब सुरक्षित’ वाला approach सही नहीं है
real safety situations में world model biased data के कारण खतरनाक हो सकता है
अगर training data में failure cases बहुत कम हों, तो असली accident scenarios reproduce नहीं हो पाएँगे
उदाहरण के तौर पर यह video collision avoidance case दिखाता है
बस “काफी realistic” का मानदंड थोड़ा धुंधला है
इंसान भी 100% भरोसेमंद नहीं होते, इसलिए अगर 10 गुना ज़्यादा सुरक्षित स्तर और verifiable code-based safety guardrails साथ आएँ, तो सामाजिक स्वीकार्यता बढ़ सकती है
DeepMind का Project Genie शायद Waymo की underlying technology है
संबंधित लेख: Genie 3: A new frontier for world models
Hacker News discussion: Genie 3, Project Genie
autonomous driving learning का bell curve meme याद आता है
शुरुआत physics-based simulator से होती है, फिर real data collect किया जाता है, और फिर वापस physics-aware deep learning simulator की ओर लौटा जाता है
यह इतना स्वाभाविक evolution pattern लगता है कि इसका कोई नाम होना चाहिए