3 पॉइंट द्वारा GN⁺ 2025-11-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Meta का WorldGen एक end-to-end generative AI system है, जो एक ही टेक्स्ट prompt से explore की जा सकने वाली 3D दुनिया अपने-आप बना देता है
  • यह procedural reasoning, diffusion-based 3D generation, और object-aware scene decomposition को जोड़कर geometrically consistent और visually rich environment तैयार करता है
  • निर्माण प्रक्रिया 4 चरणों में होती है: planning, reconstruction, decomposition, और refinement
  • तैयार नतीजे Unity, Unreal जैसे standard game engines के साथ compatible हैं, और इन्हें बिना किसी अलग conversion process के इस्तेमाल किया जा सकता है
  • इसमें जटिल और महंगे 3D content production को सबके लिए संभव और अधिक efficient बनाने की क्षमता है

WorldGen का अवलोकन

  • WorldGen सिर्फ “cartoon medieval village” या “sci-fi base station on Mars” जैसे टेक्स्ट input से कुछ ही मिनटों में interactive 3D दुनिया बना सकता है
    • बनाई गई दुनिया style और theme की consistency बनाए रखती है, और ऐसे जुड़े हुए ढांचे में होती है जिसमें character स्वतंत्र रूप से चल-फिर सके
  • generative AI technology में प्रगति के आधार पर, यह एक single text या image prompt से पूरा 3D environment बना सकता है

तकनीकी संरचना और निर्माण चरण

  • WorldGen की शुरुआत procedural blockout generation, Navmesh extraction, और reference image generation वाली planning stage से होती है
  • इसके बाद image-to-3D conversion, Navmesh-based scene generation, और base texture generation करने वाली reconstruction stage आती है
  • AutoPartGen का उपयोग कर scene decomposition और data curation के जरिए बारीक तत्वों को अलग किया जाता है
  • अंत में image enhancement, mesh refinement, और texturing model के जरिए refinement stage पूरी की जाती है

मौजूदा तरीकों से अंतर

  • मौजूदा systems आमतौर पर single viewpoint केंद्रित generation करते हैं, जिससे केंद्र से बाहर जाते ही quality तेज़ी से गिर जाती है
  • WorldGen 50×50 मीटर पैमाने का पूर्ण textured scene बनाता है और style तथा geometric consistency बनाए रखता है
  • भविष्य में इससे भी बड़े world scale को लक्ष्य बनाकर research जारी है

compatibility और उपयोग की संभावनाएँ

  • फिलहाल यह research stage में है और developers के लिए सार्वजनिक रूप से उपलब्ध नहीं है, लेकिन generated content को Unity, Unreal आदि में सीधे इस्तेमाल किया जा सकता है
  • किसी अलग rendering pipeline conversion की ज़रूरत नहीं है

सीमाएँ और आगे की दिशा

  • मौजूदा model में spatial size और generation latency के लिहाज़ से अभी सुधार की गुंजाइश है
  • आने वाले versions का लक्ष्य और बड़े space generation और speed improvement है

औद्योगिक महत्व

  • यह 3D content production की जटिलता और लागत का बोझ कम कर सकता है, और non-experts के लिए भी virtual world बनाना संभव बना सकता है
  • यह Meta द्वारा Connect event में पेश किए गए “एक भी line of code के बिना कोई भी virtual world बना सके” वाले vision से मेल खाता है

आभार सूची

  • यह project Reality Labs 3D GenAI team ने किया है
  • प्रमुख योगदानकर्ता: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn आदि († चिन्ह project lead को दर्शाता है)

1 टिप्पणियां

 
GN⁺ 2025-11-24
Hacker News राय
  • डेमो दिलचस्प है, लेकिन इमारतों के अंदर नहीं जा सकते, इमारतों का आकार और गाँव की लेआउट लगभग एक जैसी है, और visual inconsistency भी काफी है
    आखिरकार यह बस एक जैसे बक्सों को grid पर रखकर उनके बीच घूमने जैसा लगता है
    मुझे पता है कि प्रगति धीरे-धीरे होती है, लेकिन दूसरे world generation डेमो की तुलना में यह बहुत छोटा कदम लगता है

    • AI द्वारा बनाए गए गाँव ऐसे दिखते हैं मानो उन पर सख्त urban planning नियम लागू हों
      हर इमारत grid पर बराबर दूरी से रखी हुई है, और लगता है height limit भी है
      realistic open-world games (GTA, Cyberpunk आदि) में जानबूझकर dead ends या locked doors जैसी ‘design की गई भीड़भाड़’ होती है
      अगर हर रास्ता किसी दिलचस्प जगह पर ही जाए, तो उल्टा exploration का मज़ा कम हो जाता है
    • यह डेमो World Labs जैसे दूसरे उदाहरणों की तुलना में content creation pipeline में ज़्यादा उपयोगी हो सकता है
      अगर यह explicit assets इस्तेमाल करने वाला तरीका है, तो गेम development के लिए ज़्यादा उपयुक्त हो सकता है
      Meta ने इस क्षेत्र में कई core papers दिए हैं और Hyperscape भी है, इसलिए इसे दूसरी दिशा में किया गया प्रयोगात्मक प्रयास माना जा सकता है
    • कोई असल में काम करने वाला डेमो लिंक दिख नहीं रहा
    • ज़्यादातर गेम्स में भी इमारतों के अंदर नहीं जा सकते। Cyberpunk में भी बहुत कम दरवाज़े खुलते हैं
      सोचता हूँ वह दिन कब आएगा जब आम यूज़र भी ऐसे worldgen engine खुद इस्तेमाल कर पाएँगे
      समझ नहीं आता कि Google, Meta, Tencent लगातार डेमो क्यों दिखाते हैं लेकिन वास्तव में रिलीज़ नहीं करते
  • यह मौजूदा GenAI तकनीकों को जोड़कर बनाई गई engineering pipeline जैसा लगता है
    नतीजे भी SOTA स्तर के नहीं हैं, और प्रगति से ज़्यादा यह एक dead-end approach लगती है
    असली innovation तो तब होगी जब textured mesh को सीधे end-to-end trained model से बनाया जाए, और यह न कर पाना शायद दिखाता है कि अभी core technology की कमी है
    फिर भी, आगे चलकर मॉडल training के लिए dataset bootstrap करने में इसका उपयोग हो सकता है

    • जानना चाहूँगा कि अभी इस क्षेत्र की SOTA technology क्या है
    • डेवलपर्स ने ऊपर से आई मांगें पूरी करने की पूरी कोशिश की होगी, लेकिन यह बड़ी कंपनियों की innovation limits दिखाने वाला उदाहरण लगता है
  • यह ‘world model’ से ज़्यादा 3DAssetGen के करीब है
    यह असली दुनिया generate नहीं करता, बस assets को जोड़ता है
    हाथ से बनाए गए worlds इससे कहीं बेहतर होते हैं, यहाँ तक कि RPG Maker से बने गेम्स भी इससे ज़्यादा आकर्षक लगते हैं

    • असल में यह शायद सिर्फ छोटे square क्षेत्रों को generate करता है। ऐसे grid-based worlds खिलाड़ियों के लिए असुविधाजनक हो सकते हैं
      फिर भी, पहली कोशिश होने के नाते इसका महत्व है, और उम्मीद है कि AI metaverse worlds बनाने की बाधा कम कर सकता है
      GTA जैसे गेम में एक छोटा island बनाने में भी जितना समय और खर्च लगता है, उसे देखते हुए यह बात और समझ आती है
    • पेज पर कहीं भी ‘world model’ शब्द नहीं है
  • इससे अच्छा तो 5 डॉलर के asset store से building models खरीद लिए जाएँ
    ऐसा कुछ बनाने के लिए अरबों डॉलर डेटा सेंटर पर खर्च करना और पर्यावरण को नुकसान पहुँचाना क्या वाकई ज़रूरी है

    • मुझे लगता है वह पैसा Quaternius जैसे low-poly artists को support करने में लगाना बेहतर होगा
      यह भी सोचने वाली बात है कि आजकल 3D artists मुफ्त में assets बाँटने के इच्छुक हैं भी या नहीं
  • पहले वीडियो का माहौल Warcraft 3 या DotA की याद दिलाता है
    एक समय था जब एक साधारण-सा मैप online games और esports को पूरी तरह बदल देता था
    आज हम कहीं ज़्यादा high-quality on-demand worlds बना सकते हैं, फिर भी उस दौर का साधारण मैप कहीं ज़्यादा महान लगता है

  • आखिर हमें चाहिए तो बस एक बेहतर SimCity, फिर इतने सारे world generation models और data centers की ज़रूरत क्यों है, समझ नहीं आता
    भारी मात्रा में बिजली और पानी खर्च करके नकली गाँव बनाना अपने आप में विडंबना है
    मैं भी जानबूझकर console नहीं खरीदता, क्योंकि डर है कि कहीं Red Dead जैसे गेम्स में बहुत ज़्यादा न डूब जाऊँ
    समझ नहीं आता कि इस तकनीक से वास्तव में किसे फायदा होता है

  • लिंक पर क्लिक किया तो 404 error मिला, फिर खोजने पर पता चला कि मई में इसी नाम का Worldgen project पहले से था
    वह वाला कहीं ज़्यादा realistic 3D scenes बेहतर तरीके से बनाता दिखता है

    • लेकिन वह असल में लगभग 2D images को 3D जैसा दिखाने वाला ट्रिक ही है
      कैमरा ज़रा-सा भी हिलाओ तो तुरंत टूट जाता है
  • पेपर खुद काफ़ी अच्छा था
    इसमें अलग-अलग mesh processing methods के बारे में दिलचस्प विवरण हैं
    पेपर लिंक

  • “interactive” शब्द कई बार इस्तेमाल किया गया, तो मुझे लगा कि दरवाज़ा खोलना या चीज़ें उठाना जैसी वास्तविक interaction होगी,
    लेकिन असल में उसका मतलब सिर्फ first-person view में इधर-उधर देख पाना था
    अगर यह परिभाषा है, तो हर 3D model को interactive कहा जा सकता है

  • 2D diffusion-based panorama generation → point cloud conversion → 3D lifting → 2D inpainting → 3D Gaussian splatting optimization
    इस तरह images को जोड़कर 3D बनाया गया है
    अवधारणा के स्तर पर यह world model कहना थोड़ा मुश्किल approach है, इसलिए शब्दावली की यह अस्पष्टता खटकती है