- बड़े पैमाने की autonomous driving simulation के लिए एक generative world model, जो रीयल-टाइम में वास्तविक जैसी परिस्थितियाँ पुनर्निर्मित करता है
- Genie 3 पर निर्मित, इसलिए दुर्लभ या चरम स्थितियाँ (टोर्नेडो, बाढ़, जानवरों का अचानक आना आदि) भी वास्तविक जैसी बनाई जा सकती हैं
- ड्राइविंग कंट्रोल, सीन कंपोज़िशन, और भाषा-आधारित कंट्रोल के जरिए simulation को बारीकी से समायोजित किया जा सकता है, और camera व lidar data एक साथ जनरेट किए जा सकते हैं
- सामान्य वीडियो या dashcam फुटेज को multi-sensor simulation में बदलकर वास्तविक ड्राइविंग सीन को उसी तरह पुनर्निर्मित किया जा सकता है
- यह मॉडल सुरक्षा सत्यापन और सेवा विस्तार के लिए एक प्रमुख टूल है, जो उन परिस्थितियों की तैयारी भी संभव बनाता है जो वास्तविक दुनिया में लगभग असंभव हैं
Waymo वर्ल्ड मॉडल का अवलोकन
- Waymo Driver ने अमेरिका के प्रमुख शहरों में पूर्ण autonomous driving के साथ लगभग 20 करोड़ मील ड्राइव किया है, और इसके अलावा वर्चुअल वातावरण में अरबों मील चलाया है
- इसे इस तरह डिज़ाइन किया गया है कि वास्तविक सड़कों पर मुश्किल से मिलने वाली जटिल परिस्थितियों को पहले से सीखा जा सके
- Waymo World Model ऐसी वर्चुअल ड्राइविंग के लिए एक हाइपर-रियलिस्टिक simulation generation system है
- यह Waymo के AI ecosystem के तीन मुख्य स्तंभों में से एक है और सुरक्षा सिद्ध करने की नींव का काम करता है
Genie 3 आधारित संरचना और क्षमताएँ
- यह Google DeepMind के Genie 3 पर आधारित है और ड्राइविंग वातावरण के लिए विशेष रूप से अनुकूलित किया गया है
- Genie 3 एक सामान्य world model है जो यथार्थवादी और इंटरैक्टिव 3D वातावरण बनाता है
- Genie के व्यापक world knowledge का उपयोग करके, टोर्नेडो या हाथी से सामना जैसी वास्तविक दुनिया में लगभग असंभव घटनाओं का भी simulation किया जा सकता है
- language prompt, driving input, और scene placement के जरिए simulation को बारीकी से नियंत्रित किया जा सकता है
- यह camera और lidar data दोनों जनरेट करने वाला multi-sensor output सपोर्ट करता है
मल्टीमॉडल world knowledge
- पारंपरिक autonomous driving simulators आमतौर पर केवल अपने एकत्रित डेटा पर ट्रेन होते हैं, लेकिन Waymo का मॉडल Genie 3 के pre-trained व्यापक वीडियो डेटा का उपयोग करता है
- 2D वीडियो knowledge को Waymo के lidar system के लिए 3D output में ट्रांसफ़र किया जाता है
- camera दृश्य विवरण में मज़बूत है, जबकि lidar सटीक depth information में बेहतर है
- रोज़मर्रा की ड्राइविंग से लेकर दुर्लभ long-tail स्थितियों तक कई तरह के दृश्य बनाए जा सकते हैं
-
चरम मौसम और प्राकृतिक आपदा simulation
- बर्फ़ से ढके Golden Gate Bridge पर ड्राइविंग, टोर्नेडो से सामना, बाढ़ में डूबा उपनगरीय इलाका, उष्णकटिबंधीय शहर की बर्फ़ीली सड़कें, आग के बीच से निकलना जैसे दृश्य तैयार किए जा सकते हैं
-
दुर्लभ और safety-critical घटनाएँ
- आक्रामक ड्राइवर, पेड़ की डाल से टकराती गाड़ी, अस्थिर सामान ढोने वाला वाहन, गलत दिशा में आता ट्रक जैसे सुरक्षा-संबंधी scenarios को पुनर्निर्मित किया जा सकता है
-
long-tail ऑब्जेक्ट और असामान्य स्थितियाँ
- हाथी, Texas longhorn, शेर, डायनासोर की वेशभूषा पहना पैदल यात्री, विशाल पिनव्हील जैसे असामान्य ऑब्जेक्ट्स से सामना कराने वाले simulation उपलब्ध हैं
simulation control क्षमताएँ
- इसे तीन तरीकों से नियंत्रित किया जा सकता है: driving behavior control, scene composition control, और language control
-
driving behavior control
- यह एक इंटरैक्टिव simulator प्रदान करता है जो विशेष driving input पर प्रतिक्रिया देता है
- उदाहरण: किसी खास स्थिति में अगर वाहन को और अधिक आक्रामक तरीके से चलाया जाए तो क्या परिणाम होंगे, इसका परीक्षण
- यह पारंपरिक 3DGS(3D Gaussian Splats) तरीकों की तुलना में visual consistency और realism बेहतर बनाए रखता है
-
scene composition control
- सड़क की संरचना, सिग्नल की स्थिति, आसपास के वाहनों का व्यवहार आदि को स्वतंत्र रूप से बदला जा सकता है
- कस्टम scenarios बनाना और सड़क वातावरण में बदलाव करना संभव है
-
language control
- दिन का समय, मौसम, और पूरा दृश्य टेक्स्ट कमांड से बदला जा सकता है
- उदाहरण: भोर, सुबह, दोपहर, शाम, रात जैसे समय-खंडों में बदलाव
- बादल, कोहरा, बारिश, बर्फ़, साफ़ मौसम जैसी weather conditions बदली जा सकती हैं
वीडियो-आधारित simulation conversion
- सामान्य camera या dashcam वीडियो को इनपुट के रूप में लेकर, उसे Waymo Driver के दृष्टिकोण वाली multi-sensor simulation में बदला जा सकता है
- चूँकि यह वास्तविक वीडियो पर आधारित है, इसलिए realism और accuracy दोनों अधिक हैं
- उदाहरण: नॉर्वे, Utah के Arches National Park, California की Death Valley जैसे वास्तविक स्थानों के वीडियो का रूपांतरण
स्केलेबल inference
- लंबे सीन simulation में अधिक computation लगता है, लेकिन अनुकूलित मॉडल वेरिएंट के जरिए उच्च गुणवत्ता बनाए रखते हुए compute cost को काफी कम किया गया है
- संकरी लेन से गुजरना, जटिल चौराहे, चढ़ाई वाले रास्ते जैसे लंबी अवधि के ड्राइविंग scenarios को सपोर्ट करता है
- 4x playback उदाहरण: हाईवे bottleneck से बचाव, जटिल रिहायशी इलाके में ड्राइविंग, चढ़ाई पर मोटरसाइकिल से बचना, SUV का U-turn आदि
सुरक्षा और विस्तार क्षमता
- वास्तविक दुनिया में लगभग असंभव स्थितियों को वर्चुअली पुनर्निर्मित करके पहले से तैयारी की जा सकती है
- यह Waymo Driver के safety standards को मजबूत करता है और नए क्षेत्रों व वातावरणों में service expansion की नींव रखता है
- इस प्रोजेक्ट में Waymo और Google DeepMind के कई शोधकर्ताओं ने भाग लिया
अभी कोई टिप्पणी नहीं है.