6 पॉइंट द्वारा GN⁺ 2026-02-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • बड़े पैमाने की autonomous driving simulation के लिए एक generative world model, जो रीयल-टाइम में वास्तविक जैसी परिस्थितियाँ पुनर्निर्मित करता है
  • Genie 3 पर निर्मित, इसलिए दुर्लभ या चरम स्थितियाँ (टोर्नेडो, बाढ़, जानवरों का अचानक आना आदि) भी वास्तविक जैसी बनाई जा सकती हैं
  • ड्राइविंग कंट्रोल, सीन कंपोज़िशन, और भाषा-आधारित कंट्रोल के जरिए simulation को बारीकी से समायोजित किया जा सकता है, और camera व lidar data एक साथ जनरेट किए जा सकते हैं
  • सामान्य वीडियो या dashcam फुटेज को multi-sensor simulation में बदलकर वास्तविक ड्राइविंग सीन को उसी तरह पुनर्निर्मित किया जा सकता है
  • यह मॉडल सुरक्षा सत्यापन और सेवा विस्तार के लिए एक प्रमुख टूल है, जो उन परिस्थितियों की तैयारी भी संभव बनाता है जो वास्तविक दुनिया में लगभग असंभव हैं

Waymo वर्ल्ड मॉडल का अवलोकन

  • Waymo Driver ने अमेरिका के प्रमुख शहरों में पूर्ण autonomous driving के साथ लगभग 20 करोड़ मील ड्राइव किया है, और इसके अलावा वर्चुअल वातावरण में अरबों मील चलाया है
    • इसे इस तरह डिज़ाइन किया गया है कि वास्तविक सड़कों पर मुश्किल से मिलने वाली जटिल परिस्थितियों को पहले से सीखा जा सके
  • Waymo World Model ऐसी वर्चुअल ड्राइविंग के लिए एक हाइपर-रियलिस्टिक simulation generation system है
    • यह Waymo के AI ecosystem के तीन मुख्य स्तंभों में से एक है और सुरक्षा सिद्ध करने की नींव का काम करता है

Genie 3 आधारित संरचना और क्षमताएँ

  • यह Google DeepMind के Genie 3 पर आधारित है और ड्राइविंग वातावरण के लिए विशेष रूप से अनुकूलित किया गया है
    • Genie 3 एक सामान्य world model है जो यथार्थवादी और इंटरैक्टिव 3D वातावरण बनाता है
  • Genie के व्यापक world knowledge का उपयोग करके, टोर्नेडो या हाथी से सामना जैसी वास्तविक दुनिया में लगभग असंभव घटनाओं का भी simulation किया जा सकता है
  • language prompt, driving input, और scene placement के जरिए simulation को बारीकी से नियंत्रित किया जा सकता है
  • यह camera और lidar data दोनों जनरेट करने वाला multi-sensor output सपोर्ट करता है

मल्टीमॉडल world knowledge

  • पारंपरिक autonomous driving simulators आमतौर पर केवल अपने एकत्रित डेटा पर ट्रेन होते हैं, लेकिन Waymo का मॉडल Genie 3 के pre-trained व्यापक वीडियो डेटा का उपयोग करता है
  • 2D वीडियो knowledge को Waymo के lidar system के लिए 3D output में ट्रांसफ़र किया जाता है
    • camera दृश्य विवरण में मज़बूत है, जबकि lidar सटीक depth information में बेहतर है
  • रोज़मर्रा की ड्राइविंग से लेकर दुर्लभ long-tail स्थितियों तक कई तरह के दृश्य बनाए जा सकते हैं
  • चरम मौसम और प्राकृतिक आपदा simulation

    • बर्फ़ से ढके Golden Gate Bridge पर ड्राइविंग, टोर्नेडो से सामना, बाढ़ में डूबा उपनगरीय इलाका, उष्णकटिबंधीय शहर की बर्फ़ीली सड़कें, आग के बीच से निकलना जैसे दृश्य तैयार किए जा सकते हैं
  • दुर्लभ और safety-critical घटनाएँ

    • आक्रामक ड्राइवर, पेड़ की डाल से टकराती गाड़ी, अस्थिर सामान ढोने वाला वाहन, गलत दिशा में आता ट्रक जैसे सुरक्षा-संबंधी scenarios को पुनर्निर्मित किया जा सकता है
  • long-tail ऑब्जेक्ट और असामान्य स्थितियाँ

    • हाथी, Texas longhorn, शेर, डायनासोर की वेशभूषा पहना पैदल यात्री, विशाल पिनव्हील जैसे असामान्य ऑब्जेक्ट्स से सामना कराने वाले simulation उपलब्ध हैं

simulation control क्षमताएँ

  • इसे तीन तरीकों से नियंत्रित किया जा सकता है: driving behavior control, scene composition control, और language control
  • driving behavior control

    • यह एक इंटरैक्टिव simulator प्रदान करता है जो विशेष driving input पर प्रतिक्रिया देता है
      • उदाहरण: किसी खास स्थिति में अगर वाहन को और अधिक आक्रामक तरीके से चलाया जाए तो क्या परिणाम होंगे, इसका परीक्षण
    • यह पारंपरिक 3DGS(3D Gaussian Splats) तरीकों की तुलना में visual consistency और realism बेहतर बनाए रखता है
  • scene composition control

    • सड़क की संरचना, सिग्नल की स्थिति, आसपास के वाहनों का व्यवहार आदि को स्वतंत्र रूप से बदला जा सकता है
      • कस्टम scenarios बनाना और सड़क वातावरण में बदलाव करना संभव है
  • language control

    • दिन का समय, मौसम, और पूरा दृश्य टेक्स्ट कमांड से बदला जा सकता है
      • उदाहरण: भोर, सुबह, दोपहर, शाम, रात जैसे समय-खंडों में बदलाव
      • बादल, कोहरा, बारिश, बर्फ़, साफ़ मौसम जैसी weather conditions बदली जा सकती हैं

वीडियो-आधारित simulation conversion

  • सामान्य camera या dashcam वीडियो को इनपुट के रूप में लेकर, उसे Waymo Driver के दृष्टिकोण वाली multi-sensor simulation में बदला जा सकता है
    • चूँकि यह वास्तविक वीडियो पर आधारित है, इसलिए realism और accuracy दोनों अधिक हैं
  • उदाहरण: नॉर्वे, Utah के Arches National Park, California की Death Valley जैसे वास्तविक स्थानों के वीडियो का रूपांतरण

स्केलेबल inference

  • लंबे सीन simulation में अधिक computation लगता है, लेकिन अनुकूलित मॉडल वेरिएंट के जरिए उच्च गुणवत्ता बनाए रखते हुए compute cost को काफी कम किया गया है
    • संकरी लेन से गुजरना, जटिल चौराहे, चढ़ाई वाले रास्ते जैसे लंबी अवधि के ड्राइविंग scenarios को सपोर्ट करता है
  • 4x playback उदाहरण: हाईवे bottleneck से बचाव, जटिल रिहायशी इलाके में ड्राइविंग, चढ़ाई पर मोटरसाइकिल से बचना, SUV का U-turn आदि

सुरक्षा और विस्तार क्षमता

  • वास्तविक दुनिया में लगभग असंभव स्थितियों को वर्चुअली पुनर्निर्मित करके पहले से तैयारी की जा सकती है
  • यह Waymo Driver के safety standards को मजबूत करता है और नए क्षेत्रों व वातावरणों में service expansion की नींव रखता है
  • इस प्रोजेक्ट में Waymo और Google DeepMind के कई शोधकर्ताओं ने भाग लिया

1 टिप्पणियां

 
GN⁺ 2026-02-07
Hacker News की राय
  • अब समझ आता है कि DeepMind अचानक world model पर इतना ध्यान क्यों दे रहा है
    मैंने Waymo को कभी Boston Dynamics के humanoid की तरह ‘रोबोट’ नहीं समझा था, लेकिन असल में वह भी एक रोबोट ही है
    Google/Alphabet ने AI क्षेत्र में हैरान कर देने वाली vertical integration हासिल कर ली है — अपनी बिजली उत्पादन क्षमता, chips, data centers, search·Gmail·YouTube·Gemini·Workspace·Wallet, अरबों Android·Chromebook users, ad network, browser, Waymo, Boston Dynamics के साथ सहयोग, fusion research, और drug discovery तक
    इस scale को देखें तो ChatGPT या Grok जैसे chatbots की तुलना ही नहीं बनती

    • Google ने AI को product की तरह बेचने से ज़्यादा internal R&D और self-application पर ध्यान दिया है
      पहले मुझे लगता था कि self-driving car research सिर्फ Street View के लिए है, लेकिन अब लगता है कि तस्वीर कहीं बड़ी थी
    • Google 2018 से ही world model पर research कर रहा है
      संबंधित paper यहाँ देखा जा सकता है
    • Tesla ने भी FSD training के लिए ऐसा ही system बनाया, लेकिन उसे map service के रूप में productize न करना अफसोस की बात है
      गाड़ियाँ real time में road conditions update कर सकती थीं, लेकिन अब लगता है कि वह काफी पीछे रह गया है
    • Tesla ने humanoid robot पर काम क्यों शुरू किया, यह भी अब इसी संदर्भ में समझ आता है
    • अगर यह नज़रिया अब जाकर समझ आया है, तो Tesla से कम से कम 3 साल पीछे हैं
      संबंधित video यहाँ देखें
  • कहा जा रहा है कि Genie model rare events (tornado, elephant encounter आदि) को simulate कर सकता है, लेकिन यह शक है कि generated result सचमुच realistic हैं या नहीं
    उदाहरण के लिए, अगर model सड़क पर 5mm लोहे की गोलियाँ बिखरी होने जैसी स्थिति predict करे, तो यह कैसे verify होगा कि उसका अनुमान वाजिब है?

    • समय के साथ world model की quality बेहतर होगी, और self-driving systems को ‘काफी realistic’ synthetic data पर train किया जा सकेगा
      इसे perfect होने की ज़रूरत नहीं, repeated use और validation के ज़रिए यह धीरे-धीरे बेहतर होता जाएगा
    • मकसद यह घोषित करना नहीं है कि “अब कार लोहे की गोलियों पर भी सुरक्षित है”, बल्कि unit test की तरह यह देखना है कि खास परिस्थितियों में system expected तरीके से react करता है या नहीं
      जैसे whiteout blizzard में सफेद गाय जैसी extreme case भी simulation से पकड़ी जा सकती है
    • अगर “tornado से elephant तक” simulate किया जा सकता है, तो The Sims जैसा game भी शानदार हो सकता है
    • सच तो यह है कि यही अनिश्चितता इंसानों पर भी लागू होती है
      perfect prediction नामुमकिन है, लेकिन हम knowledge-based best judgment की दिशा में धीरे-धीरे सुधार करते हैं
    • simulation में train करना और real world में validate करना, यही सही approach है
  • कहा जा रहा है कि Waymo World Model सामान्य camera video को भी multimodal simulation में बदल सकता है, यानी अगर Waymo चाहे तो सिर्फ camera से भी drive कर सकता है

    • लेकिन व्यवहार में यह LiDAR, video और दूसरे sensors से bootstrapped representation में conversion है
      Tesla ने LiDAR phase से गुज़रा ही नहीं, इसलिए उसके लिए ऐसे result पाना मुश्किल है
    • LiDAR तब error correction का काम करता है जब camera accuracy कम हो
      यह इंसानी binocular disparity की तरह depth perception को support करता है
    • LiDAR jamming attack से बचाव के लिए भी अब भी महत्वपूर्ण है
    • video → sensor data conversion और उस data से driving करना, ये दो अलग stages हैं
      पहला training के लिए है, दूसरा actual vehicle deployment के लिए
    • self-driving cars को सामाजिक स्वीकार्यता के लिए इंसानों से कहीं ज़्यादा सुरक्षित होना पड़ेगा
      इसलिए सिर्फ camera वाला approach सीमित है
  • तकनीक impressive है, लेकिन मुझे लगता है train infrastructure में सुधार ज़्यादा ज़रूरी है

    • Bay Area में रहने के नाते कह सकता हूँ कि ट्रेन पहले से है, लेकिन fare, management और basic order इतने खराब हैं कि operating cost भी नहीं निकलती
      fare evasion, violence और unhygienic conditions की वजह से लोग दूर हो जाते हैं
      इस हक़ीक़त को नज़रअंदाज़ करके सिर्फ public transit की बात करना खोखला लगता है
      इसलिए अगर Waymo जैसी service वादा किया गया quality level सच में दे, तो उसे ज़्यादा ध्यान मिलेगा
      मेरी नज़र में bike-sharing system ही अकेला ऐसा विकल्प है जिसने अपना वादा निभाया है
    • ट्रेन आखिरकार लोगों के व्यवहारिक मानदंड टूट जाएँ तो नर्क बन जाती है
      शोर, भीख माँगना, drugs जैसी समस्याओं के कारण public transit से लोग बचते हैं
    • किसी भी हालत में कारों की absolute advantage बनी रहती है
      अमेरिका के infrastructure की हकीकत देखते हुए large-scale rail reform अवास्तविक लगता है
      जापान जैसे देशों में rail बेहतर होने के बावजूद car ownership अमेरिका से बहुत अलग नहीं है
    • कहीं भी, जब चाहो, अपने schedule के हिसाब से सुरक्षित और साफ-सुथरे तरीके से पहुँचना हो तो कार बेहतर लगती है
    • फिर भी Waymo drivers को कम करने और car ownership घटाने की दिशा में turning point बन सकता है
  • इस announcement का मुख्य बिंदु 2D video से 3D LiDAR data generate करने की तकनीक है
    DeepMind और Google infrastructure तक पहुँच Waymo की ज़बरदस्त competitive edge है

    • सच कहें तो 2D video से 3D estimate करने की तकनीक कई दशकों से मौजूद है
    • Metric3D जैसे monodepth approaches भी हैं, लेकिन Waymo का result साफ़ तौर पर current SOTA स्तर का है
  • flood, tornado, wildfire जैसी simulations impressive हैं, लेकिन power outage जैसी आम स्थिति में Waymo का एक साथ रुक जाना सवाल उठाता है
    अगर ऐसे basic scenarios handle नहीं होते, तो simulation की अहमियत कम लगती है

    • simulation individual vehicle performance को बेहतर बनाता है, लेकिन power outage एक system-wide issue था, जो remote support staff overload के कारण हुआ
      यानी simulation की value बनी रहती है, लेकिन वह हर failure नहीं रोक सकता
    • वास्तव में Waymo के flooded area में घुसने का एक मामला भी रहा है
      संबंधित video
  • Waymo का training में virtual counterfactual situations इस्तेमाल करना जोखिम भरा लगता है
    असली त्रासदी वाली घटनाओं से ज़्यादा ‘अच्छा handle किए गए videos’ होंगे, इसलिए system शायद overconfidence सीख ले

    • लेकिन वास्तव में यह ‘counterfactual’ कम और rare situations को supplement करने वाली generation ज़्यादा है
      मकसद यह है कि Waymo tornado या elephant जैसी स्थिति में सिर्फ रुक न जाए, बल्कि respond भी कर सके
    • driving दरअसल speed और safety के balance का सवाल है
      अगर सिर्फ complete safety चाहेंगे, तो कार चलेगी ही नहीं
    • intersection पर safe होने पर भी आगे न बढ़ना, या सिर्फ 5 mph पर चलना भी गलत driving behavior है
      सिर्फ ‘धीमा मतलब सुरक्षित’ वाला approach सही नहीं है
  • real safety situations में world model biased data के कारण खतरनाक हो सकता है
    अगर training data में failure cases बहुत कम हों, तो असली accident scenarios reproduce नहीं हो पाएँगे

    • लेकिन Waymo पहले से ही 100 million miles से अधिक real driving data पर train कर रहा है
      उदाहरण के तौर पर यह video collision avoidance case दिखाता है
    • फिर भी bias की संभावना बनी रहती है, लेकिन LLM आधारित prompt-driven scenario generation से diversity बढ़ाई जा सकती है
      बस “काफी realistic” का मानदंड थोड़ा धुंधला है
      इंसान भी 100% भरोसेमंद नहीं होते, इसलिए अगर 10 गुना ज़्यादा सुरक्षित स्तर और verifiable code-based safety guardrails साथ आएँ, तो सामाजिक स्वीकार्यता बढ़ सकती है
  • DeepMind का Project Genie शायद Waymo की underlying technology है
    संबंधित लेख: Genie 3: A new frontier for world models
    Hacker News discussion: Genie 3, Project Genie

    • DeepMind सिर्फ Alphabet की एक subsidiary नहीं, बल्कि Demis Hassabis के नेतृत्व में Google AI की केंद्रीय organization है
  • autonomous driving learning का bell curve meme याद आता है
    शुरुआत physics-based simulator से होती है, फिर real data collect किया जाता है, और फिर वापस physics-aware deep learning simulator की ओर लौटा जाता है

    • आखिरकार यह simple simulation → real-world data → rare reality के लिए simulation वाला चक्र बन जाता है
      यह इतना स्वाभाविक evolution pattern लगता है कि इसका कोई नाम होना चाहिए