• Voyager इनपुट इमेज और यूज़र द्वारा निर्धारित कैमरा पाथ के आधार पर संगत 3D point cloud sequence बनाने वाला एक नया video diffusion framework है
  • RGB और depth जानकारी को एक साथ जनरेट करके कुशल और सीधे 3D reconstruction को संभव बनाता है
  • बड़े पैमाने की video dataset generation pipeline पेश करता है, जिससे मैनुअल 3D annotation के बिना विविध training data हासिल किया जा सकता है
  • WorldScore benchmark में 3D consistency, content alignment सहित कई श्रेणियों में मौजूदा कई मॉडलों की तुलना में बेहतर प्रदर्शन दिखाता है
  • single या multi-GPU पर optimized parallel inference support और real-time demo के जरिए कई तरह के application possibilities दिखाता है

प्रोजेक्ट परिचय

  • HunyuanWorld-Voyager इनपुट इमेज और यूज़र द्वारा तय कैमरा मूवमेंट पाथ के आधार पर world-consistent (3D-Consistent) point cloud video sequence जनरेट करता है
  • यूज़र कैमरा पाथ को स्वतंत्र रूप से सेट करके world exploration के लिए 3D scene video बना सकते हैं
  • RGB और depth video को एक साथ कस्टमाइज़ करके जनरेट करता है, जिससे तेज़ और भरोसेमंद 3D reconstruction संभव होता है

आर्किटेक्चर

  • Voyager को दो मुख्य components के साथ डिज़ाइन किया गया है
    • (1) world-consistent video diffusion architecture: यह global scene consistency सुनिश्चित करता है और RGB तथा depth को aligned स्थिति में एक साथ जनरेट करता है
    • (2) long-range world exploration: point culling, autoregressive inference और smooth video sampling का उपयोग करके context-consistent scene expansion को सपोर्ट करता है

डेटा इंजन

  • Voyager training के लिए video reconstruction pipeline आधारित scalable data engine अलग से डिज़ाइन किया गया है
    • किसी भी सामान्य वीडियो के लिए camera pose estimation और meter-based depth prediction को automate करके, बिना मैनुअल काम के बड़े पैमाने का training dataset बनाया जा सकता है
    • real-world captured video और Unreal Engine आधारित synthetic data सहित 100,000 से अधिक video clips वाला dataset प्रदान करता है

मुख्य फीचर्स और डेमो

  • camera path control आधारित interactive video generation demo उपलब्ध है
  • जनरेट किए गए वीडियो से जुड़े 3D point cloud को तुरंत reconstruct किया जा सकता है
  • single image से 3D scene generation, video-depth estimation जैसे विभिन्न उपयोग परिदृश्य दिखाए गए हैं

प्रदर्शन तुलना

  • WorldScore benchmark पर मूल्यांकन किया गया
    • Voyager ने कई categories (camera control, object control, content alignment, 3D consistency आदि) में शीर्ष स्तर का प्रदर्शन दर्ज किया
    • खास तौर पर subjective quality और 3D consistency श्रेणियों में सबसे अधिक स्कोर हासिल किया

सिस्टम आवश्यकताएँ

  • single 80GB GPU पर 540p resolution वीडियो जनरेट करने के लिए कम से कम 60GB memory आवश्यक है
  • Linux operating system और CUDA 12.4 (recommended 80GB या अधिक) वातावरण में सर्वोत्तम प्रदर्शन मिलता है

parallel inference प्रदर्शन

  • xDiT आधारित multi-GPU parallel inference सपोर्ट करता है
    • 8 H20 GPU के उपयोग पर, 49-frame 50-step (512x768) मानक में 288 सेकंड में परिणाम जनरेट करता है (single GPU की तुलना में 6.69x speedup)

यूज़र इंटरफ़ेस और डेमो

  • Gradio आधारित real-time demo उपलब्ध है
    • image upload, camera direction selection और prompt text input के जरिए RGB-D video आसानी से जनरेट किया जा सकता है

डेटा इंजन ओपन सोर्स

  • RGB-D video training के लिए बड़े पैमाने का scalable data generation engine भी open source के रूप में उपलब्ध कराया गया है

उद्धरण और संदर्भ

  • arXiv पेपर: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • विभिन्न open source परियोजनाओं (VGGT, MoGE, Metric3D आदि) पर आधारित शोध उपलब्धियों के आधार पर HunyuanWorld-Voyager को डिज़ाइन और इम्प्लीमेंट किया गया है

प्रोजेक्ट की मुख्य वैल्यू और अंतर

  • Voyager की सबसे बड़ी ताकत यह है कि यह single image से world-consistent 3D video (point cloud आधारित) को विविध paths के साथ आउटपुट कर सकता है, जो अधिकांश मौजूदा image-to-video generation projects की तुलना में इसकी बढ़त है
  • RGB और depth जानकारी दोनों को जनरेट करने और बड़े पैमाने का automated data engine साथ में उपलब्ध कराने के कारण, यह वास्तविक 3D content generation, virtual environment creation, digital twin, AIGC applications सहित कई उद्योगों में उपयोगी हो सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.