Voyager – रीयल-टाइम 3D reconstruction को सपोर्ट करने वाला interactive video generation model
(github.com/Tencent-Hunyuan)- Voyager इनपुट इमेज और यूज़र द्वारा निर्धारित कैमरा पाथ के आधार पर संगत 3D point cloud sequence बनाने वाला एक नया video diffusion framework है
- RGB और depth जानकारी को एक साथ जनरेट करके कुशल और सीधे 3D reconstruction को संभव बनाता है
- बड़े पैमाने की video dataset generation pipeline पेश करता है, जिससे मैनुअल 3D annotation के बिना विविध training data हासिल किया जा सकता है
- WorldScore benchmark में 3D consistency, content alignment सहित कई श्रेणियों में मौजूदा कई मॉडलों की तुलना में बेहतर प्रदर्शन दिखाता है
- single या multi-GPU पर optimized parallel inference support और real-time demo के जरिए कई तरह के application possibilities दिखाता है
प्रोजेक्ट परिचय
- HunyuanWorld-Voyager इनपुट इमेज और यूज़र द्वारा तय कैमरा मूवमेंट पाथ के आधार पर world-consistent (3D-Consistent) point cloud video sequence जनरेट करता है
- यूज़र कैमरा पाथ को स्वतंत्र रूप से सेट करके world exploration के लिए 3D scene video बना सकते हैं
- RGB और depth video को एक साथ कस्टमाइज़ करके जनरेट करता है, जिससे तेज़ और भरोसेमंद 3D reconstruction संभव होता है
आर्किटेक्चर
- Voyager को दो मुख्य components के साथ डिज़ाइन किया गया है
- (1) world-consistent video diffusion architecture: यह global scene consistency सुनिश्चित करता है और RGB तथा depth को aligned स्थिति में एक साथ जनरेट करता है
- (2) long-range world exploration: point culling, autoregressive inference और smooth video sampling का उपयोग करके context-consistent scene expansion को सपोर्ट करता है
डेटा इंजन
- Voyager training के लिए video reconstruction pipeline आधारित scalable data engine अलग से डिज़ाइन किया गया है
- किसी भी सामान्य वीडियो के लिए camera pose estimation और meter-based depth prediction को automate करके, बिना मैनुअल काम के बड़े पैमाने का training dataset बनाया जा सकता है
- real-world captured video और Unreal Engine आधारित synthetic data सहित 100,000 से अधिक video clips वाला dataset प्रदान करता है
मुख्य फीचर्स और डेमो
- camera path control आधारित interactive video generation demo उपलब्ध है
- जनरेट किए गए वीडियो से जुड़े 3D point cloud को तुरंत reconstruct किया जा सकता है
- single image से 3D scene generation, video-depth estimation जैसे विभिन्न उपयोग परिदृश्य दिखाए गए हैं
प्रदर्शन तुलना
- WorldScore benchmark पर मूल्यांकन किया गया
- Voyager ने कई categories (camera control, object control, content alignment, 3D consistency आदि) में शीर्ष स्तर का प्रदर्शन दर्ज किया
- खास तौर पर subjective quality और 3D consistency श्रेणियों में सबसे अधिक स्कोर हासिल किया
सिस्टम आवश्यकताएँ
- single 80GB GPU पर 540p resolution वीडियो जनरेट करने के लिए कम से कम 60GB memory आवश्यक है
- Linux operating system और CUDA 12.4 (recommended 80GB या अधिक) वातावरण में सर्वोत्तम प्रदर्शन मिलता है
parallel inference प्रदर्शन
- xDiT आधारित multi-GPU parallel inference सपोर्ट करता है
- 8 H20 GPU के उपयोग पर, 49-frame 50-step (512x768) मानक में 288 सेकंड में परिणाम जनरेट करता है (single GPU की तुलना में 6.69x speedup)
यूज़र इंटरफ़ेस और डेमो
- Gradio आधारित real-time demo उपलब्ध है
- image upload, camera direction selection और prompt text input के जरिए RGB-D video आसानी से जनरेट किया जा सकता है
डेटा इंजन ओपन सोर्स
- RGB-D video training के लिए बड़े पैमाने का scalable data generation engine भी open source के रूप में उपलब्ध कराया गया है
उद्धरण और संदर्भ
- arXiv पेपर: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- विभिन्न open source परियोजनाओं (VGGT, MoGE, Metric3D आदि) पर आधारित शोध उपलब्धियों के आधार पर HunyuanWorld-Voyager को डिज़ाइन और इम्प्लीमेंट किया गया है
प्रोजेक्ट की मुख्य वैल्यू और अंतर
- Voyager की सबसे बड़ी ताकत यह है कि यह single image से world-consistent 3D video (point cloud आधारित) को विविध paths के साथ आउटपुट कर सकता है, जो अधिकांश मौजूदा image-to-video generation projects की तुलना में इसकी बढ़त है
- RGB और depth जानकारी दोनों को जनरेट करने और बड़े पैमाने का automated data engine साथ में उपलब्ध कराने के कारण, यह वास्तविक 3D content generation, virtual environment creation, digital twin, AIGC applications सहित कई उद्योगों में उपयोगी हो सकता है
1 टिप्पणियां
Hacker News टिप्पणियाँ
इस लाइसेंस में काफ़ी दिलचस्प शर्तें हैं
मुझे लगता है यह EU AI Act की वजह से है
मैंने खुद compliance check app चलाकर देखा था, और छोटे business/open source/research/no clients पर टिक करने के बाद भी registration, disclosure, और तरह-तरह की प्रक्रियाएँ फिर भी उलझी हुई रहीं
शुरुआती draft उलझाने वाला था, फिर लगा था सुधरा है, लेकिन अब भी अस्पष्ट और bureaucratic है
EU जैसी जगहें AI regulation को काफ़ी आक्रामक ढंग से आगे बढ़ाना चाहती हैं
open source लाइब्रेरी का मकसद legal liability से बचना होता है
लेकिन ऐसे इलाक़ों में liability का मामला जटिल है, इसलिए शायद उन्होंने सीधा usage ही रोकने का रास्ता चुना
लाइसेंस में “blog या usage review, ‘Powered by Tencent Hunyuan’ प्रदर्शित करना” की सिफ़ारिश है
मुझे यह YouTubers के “subscribe और like करना न भूलें” जैसे नए तरह के promotion जैसा लगता है
मैं ऐसी पाबंदियों को practically malicious compliance मानता हूँ
असल में AI Act में training data और copyright compliance, तथा risk management approach का बस एक संक्षिप्त विवरण ही चाहिए
यह कोई बहुत जटिल या rocket science जैसी चीज़ नहीं है
फिर भी सोच रहा हूँ कि क्या EU में वास्तव में डाउनलोड और उपयोग हो जाता है
मैं लाइसेंस की परवाह नहीं करता, लेकिन शायद कुछ भी लेने के लिए signup तो करना ही पड़ेगा
तकनीकी रूप से यह साफ़ लिखा है कि input सिर्फ़ single photo हो सकती है, लेकिन अगर multiple images देकर photogrammetry जैसा कुछ किया जाए तो क्या अभिव्यक्ति की range और बढ़ सकती है?
मेरे मन में भी बिल्कुल यही सवाल था
मेरे मामले में इसका एक बिलकुल अलग इस्तेमाल है
कुछ इलाक़ों में lidar boat से depth measurement data नहीं मिल पाया, और दिलचस्प क्षेत्रों का डेटा ग़ायब है
मेरे पास यहाँ सिर्फ़ flight video है, जिसमें कुछ हिस्सों में पानी पारदर्शी दिखता है
अगर पर्याप्त कोणों वाला video मिले तो पानी की सतह के reflection जैसे noise हटाकर, तल की image को बेहतर बनाकर photogrammetry reconstruction की कोशिश की जा सकती है
अहम बात यह है कि सटीक reconstruction के लिए कई कोणों का डेटा चाहिए
रोशनी और camera angle के हिसाब से पानी के नीचे की visibility बदलती है, इसलिए पहले अलग-अलग समय पर बार-बार उड़ान भरनी पड़ती थी
लेकिन मैं यह आज़माना चाहता हूँ कि क्या यह मॉडल एक ही image से कुछ वैसा reconstruction कर सकता है
ऐसे photogrammetry models पहले से मौजूद हैं जो कई images लेकर यह काम करते हैं
single photo के बजाय कुछ कम images लेने लायक feature extension कोई भी आसानी से आज़मा सकता है
लेकिन सवाल की टोन से लगता है जैसे यह बस कोई “गलती से छूटा हुआ” detail हो सकता है
performance comparison table में “highest score” को लाल रंग से highlight करना दिलचस्प है
यह Chinese stock charts जैसा ही pattern है
China में लाल रंग rise और हरा रंग fall को दिखाता है
जैसा कहा गया, East Asia में लाल रंग का मतलब positive होता है
लेकिन मुझे उससे भी ज़्यादा दिलचस्प यह लगता है कि तीसरा रंग yellow है
आम तौर पर यह visual spectrum के क्रम से मेल नहीं खाता
(लाल ~700nm, हरा ~550nm, पीला ~580nm)
सामान्य समझ से अलग यह color order दिलचस्प है
रंगों के अर्थ सांस्कृतिक निर्माण होते हैं
China में लाल रंग का मतलब पश्चिम से अलग है
इसलिए ऐसा चुनाव Chinese context में बिलकुल भी अनोखा नहीं है
पश्चिमी communication में भी, जैसे फ़िल्म और fashion में, ऐसे symbolic colors अक्सर दिखते हैं
China की याद दिलाने वाले रंग के रूप में लाल अक्सर इस्तेमाल होता है
यह सांस्कृतिक अंतर से पैदा हुआ एक phenomenon है, और मुझे यह काफ़ी दिलचस्प लगता है
हालाँकि इसका मेरे रोज़मर्रा जीवन पर कोई असर नहीं है, इसलिए यह बस एक रोचक सामाजिक अवलोकन है
1995 में मैंने एक Indian professor का image processing course किया था
तब मैंने पूछा था कि low-resolution images को बेहतर कैसे दिखाया जा सकता है, और जवाब मिला था, “information create नहीं की जा सकती”
लेकिन अब 30 साल बाद हम ऐसे दौर में हैं जहाँ एक फोटो से video बनाया जा सकता है
असल में image से उम्मीद से कहीं ज़्यादा information निकाली जा सकती है
खासकर video में तो और भी ज़्यादा information निकलती है
इस तरह की technique को ‘super-resolution’ कहा जाता है
information को शून्य से create नहीं किया जा सकता, लेकिन subject की properties के बारे में मौजूद ज्ञान का इस्तेमाल करके missing हिस्सों को स्वाभाविक ढंग से भरा जाता है
तकनीकी प्रगति बड़ी है, लेकिन सच कहें तो उस समय “information” और “create” के मतलब अलग थे
उदाहरण के लिए, अगर कोई बच्चा portrait photo में crayon से stick body बना दे, तो उसे भी “information add करना” कहा जा सकता है
लेकिन वह मूलतः मौजूद वास्तविक घटना की information नहीं है
और researchers data, journalists quotes, इस तरह मनमाने ढंग से नहीं गढ़ सकते; ज़िम्मेदारी का संदर्भ हर जगह अलग है
क्या यह मॉडल सचमुच पूरा 360-degree rotation भी कर सकता है?
जो uploaded videos हैं उन्हें देखकर तो बस हल्की movement या ज़्यादा से ज़्यादा थोड़ा-सा pan ही लगता है
हर frame पर मॉडल एक depth image बनाता है, और हर pixel एक 3D point बन जाता है
अगर यह मान लें कि पूरा 3D scene static है, तो सभी frames को 3D point cloud में इकट्ठा करके जमा किया जा सकता है
उसके बाद किसी classic 3D renderer में viewpoint को मनचाहे घुमा सकते हैं
लेकिन अगर वास्तविक video generation चरण में frame-to-frame information consistency कम हो, जैसे रंग बदलते रहें, तो point cloud भी बस “consistent रूप से ग़लत data” ही होगा
नतीजतन viewpoint घुमाने पर रंगों का मेल बिगड़कर धुंधला blended दिखेगा
और बने हुए scene में virtual objects को ठीक से डालना भी मुश्किल होगा
क्योंकि lighting information नहीं होती, और color blending भी environment से मेल नहीं खाती
विचार बढ़िया है, लेकिन हल करने के लिए अभी कई अतिरिक्त समस्याएँ हैं
मैं सच में VR में ऐसी functionality जल्दी आज़माने को लेकर उत्साहित हूँ
visionOS 26 का “Immersive Photo” mode एक बार ज़रूर आज़माएँ
iCloud library की photos अपने-आप local model द्वारा convert हो जाती हैं, शायद Gaussian Splat 3D scene तरीके से
panning और rotation दोनों संभव हैं, और यह Vision Pro की क़ीमत वसूल करा देता है
मेरी पुरानी Nikon D70 से ली गई photos में भी landscape और लोग लगभग वास्तविक लगते हैं
इतनी जल्दीबाज़ी मत कीजिए
अभी भी असली high-resolution 120fps, stable stereo, और ultra-low latency वाले स्तर से यह काफ़ी दूर है
मुझे लगता है कि मौजूदा स्थिति में इसे लागू किया गया तो motion sickness बहुत ज़्यादा हो सकती है
इन videos का field of view बहुत अव्यवस्थित है
फिलहाल text-to-3D-asset conversion में सबसे बेहतर model या combination क्या है, यह जानना चाहता हूँ
अगर open source आधारित हो तो और अच्छा है
या text+single-image-to-sprite-sheet भी संभव है?
यह असल में open source नहीं है, बल्कि “weights-available” फ़ॉर्मेट है
training data भी नहीं है, और अगर open source का मतलब “modification के लिए सबसे उपयुक्त रूप” है, तो data भी होना चाहिए
लाइसेंस का एक हिस्सा:
EU/UK/Korea restriction शायद इसलिए है कि वे क्षेत्र बिना अनुमति data training पर आपत्ति उठा सकते हैं या monetary compensation की माँग कर सकते हैं
मैं “यह open source नहीं है” वाली बात से सहमत हूँ, लेकिन
“modification के लिए सबसे उपयुक्त रूप” ज़रूरी नहीं कि data यानी training data ही हो; weights ही वह रूप हैं
data तो weights को modify करने का एक तरीका है
मैं बस यह बताना चाहूँगा कि fine-tuning काफ़ी सस्ती पड़ती है
AI2 को छोड़कर, मुझे लगता है लगभग सभी AI models असली open source नहीं हैं, यानी training logs और data तक खुले नहीं हैं
आजकल open source शब्द लगभग “weights-available” का पर्याय बन गया है
“7. दूसरों को नुकसान पहुँचाने या चुनावों में हेरफेर करने के उद्देश्य से स्पष्ट रूप से false information बनाकर distribute न करें”
“8. fake reviews जैसी false online activity न बनाएँ”
→ क्या यह वही बात नहीं कि खुद करें और दूसरों को मना करें?
“15. अन्य देशों या क्षेत्रों की social ethics/morals के विरुद्ध तरीके से उपयोग न करें”
जैसी शर्तें व्यवहार में हर क्षेत्र में उपयोग को मुश्किल बना देती हैं
policy ज़रूरत से ज़्यादा भारी है
मेरी दिलचस्पी इसमें है कि Panoramax (open StreetView alternative) की photos डालकर 3D navigation योग्य scene reconstruct किया जाए
क्या कैमरे को 1080 degree घुमाना मुमकिन नहीं है, यही पूछना चाहता हूँ!!
videos <i>बहुत</i> छोटे हैं, 45 degree भी ठीक से नहीं घूमते
Genie3 भी मुश्किल से 90 degree घुमाता है
असल में ध्यान इस बात पर होना चाहिए कि मॉडल क्या “नहीं कर पाता”, और यहाँ बात यही है कि “यह ठीक से rotate नहीं कर पाता”
अगर यह एक ही जगह पर रखकर घुमाने वाला साधारण test पास नहीं कर सकता, तो मैं इसे आगे ‘world model’ कहना नहीं चाहूँगा
उफ़, काफ़ी चिढ़ हो रही है