1 पॉइंट द्वारा GN⁺ 1 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • NVIDIA का SANA-WM एक इमेज और 6-DoF camera trajectory को इनपुट लेकर single GPU पर 720p, 1 मिनट लंबा controllable वीडियो जनरेट करता है
  • Hybrid Linear Diffusion Transformer frame-level Gated DeltaNet और periodic softmax को मिलाकर लंबे rollout में consistency बनाए रखता है
  • ट्रेनिंग में 64 H100 पर 15 दिन लगे, और distilled variant RTX 5090 1 पर NVFP4 के साथ 60 सेकंड 720p क्लिप को 34 सेकंड में denoise करता है
  • लगभग 2.13 लाख सार्वजनिक वीडियो और मीटर-स्तरीय 6-DoF pose supervision का उपयोग करके सटीक camera path following को सपोर्ट किया गया है
  • 1 मिनट world model benchmark में इसने मौजूदा open source baselines की तुलना में action following accuracy बेहतर दिखाई और समान visual quality पर 36x अधिक throughput हासिल किया

मॉडल और सार्वजनिक सामग्री

  • SANA-WM 2.6 अरब पैरामीटर वाला open source world model है, जो एक इमेज और camera trajectory को इनपुट लेकर 720p, 1 मिनट लंबा controllable वीडियो जनरेट करता है
  • NVIDIA से Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie इसमें शामिल हैं
  • Paper, Code, Models soon उपलब्ध हैं
  • पेपर का शीर्षक SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer है

मुख्य डिज़ाइन और generation pipeline

  • लंबे rollout के लिए hybrid architecture

    • Hybrid Linear Diffusion Transformer frame-level Gated DeltaNet और periodic softmax को मिलाकर मिनट-स्तरीय rollout में world consistency बनाए रखता है
    • efficiency comparison में recurrent variant memory और latency के लिहाज़ से बेहतर scale करता है, जबकि all-softmax तरीका 60 सेकंड generation में OOM देता है
  • सटीक camera control

    • SANA-WM 6-DoF camera trajectory को इनपुट के रूप में लेकर metric camera path का पालन करने वाले वीडियो बनाता है
    • coarse global pose branch और fine pixel-aligned geometry branch साथ मिलकर camera path following fidelity बढ़ाते हैं
    • सार्वजनिक वीडियो से मीटर-स्तरीय सटीक 6-DoF camera pose निकालकर spatiotemporally consistent high-quality action labels बनाए जाते हैं
  • 2-stage quality enhancement

    • Stage 1 आउटपुट पर 17B long-form video refiner लागू किया जाता है, जिससे पूरी sequence में quality और consistency बेहतर होती है
    • refiner लंबे rollout backbone के ऊपर texture, motion और बाद के हिस्सों की quality को और स्पष्ट बनाता है

ट्रेनिंग और inference efficiency

  • ट्रेनिंग में 64 H100 पर 15 दिन लगे, और training data में लगभग 2.13 लाख public video clips तथा meter-level pose supervision का उपयोग हुआ
  • inference में single H100 से 1 मिनट 720p वीडियो generation संभव है
  • distilled variant model RTX 5090 1 पर NVFP4 quantization के साथ 60 सेकंड 720p क्लिप को 34 सेकंड में denoise करता है
  • SANA-WM, LingBot-World और HY-WorldPlay जैसे बड़े industrial baselines के समान visual quality दिखाते हुए efficiency बेहतर करता है
  • 1 मिनट world model benchmark में इसने मौजूदा open source baselines से बेहतर action following accuracy दिखाई और समान visual quality पर 36x अधिक throughput हासिल किया

डेमो में दिखने वाली generation characteristics

  • 1 मिनट world demo

    • कई 1 मिनट उदाहरण first-person viewpoint के स्थिर observation point को बनाए रखते हुए camera movement या observer action के बिना environment की अपनी motion जनरेट करते हैं
    • Video 68: बर्फ से ढका Alps path, cliff, cave entrance, icicles, हवा में झुके pine trees, orange jacket पहने hiker, और साथ में snow particles, fog, branch movement, powder snow flow जनरेट होते हैं
    • Video 72: खुले intersection में नीला forest, storm clouds के नीचे ruined tower, और धूप वाले village की ओर जाती तीन-शाखाओं वाली path जनरेट होती है
    • Video 81: बंद underground SF research facility का T-junction, पानी में डूबा बायां corridor, भाप से भरा दायां corridor, और अंधेरे में खुलता circular metal door दिखाई देता है
  • 20 सेकंड world demo

    • Video 82: पहाड़ों में छोड़ी गई hut का interior, hand-drawn map, rusted key, warm lantern, बर्फीले forest trail के पार golden cave, और ember smoke, lantern flame, door crack से आती snowstorm motion
    • Video 85: jungle ruins का sealed circular door, हरे symbols, छोटा exploration robot, और vines, insects, butterflies, puddles, door symbols की pulsating motion
    • Video 92: पानी के भीतर ancient temple का stone corridor, coral pillars, green crack, छोटा spherical submersible robot, और fish, bubbles, particles, seaweed, caustics जोड़े जाते हैं
  • वही first frame और repeated prompts

    • Video 100, Video 101, Video 102: एक ही salt flat prompt में sports car, rough salt crust, low sunlight को बनाए रखते हुए salt dust, cloud movement, heat haze, और ground wind lines जनरेट होते हैं
    • Video 103, Video 104, Video 105: उथला reflective water, muddy stepping stones, purple forest, आधा डूबा crashed spaceship, spacesuit पहना astronaut, और छोटा alien creature एक ही prompt variation में दिखाई देते हैं
    • Video 119, Video 120, Video 121: tropical beach sunrise scene में fixed viewpoint से waves, palm leaves, birds, clouds की motion जनरेट होती है

Refiner effect उदाहरण

  • jungle canyon

    • Video 124 और Video 125 Stage 1 Refined उदाहरण हैं, जो विशाल jungle canyon के अंदर first-person fixed viewpoint दिखाते हैं
    • waterfall के पीछे धुंधला दिखता ancient stone temple, मुड़ा हुआ paper airplane, रंग-बिरंगे birds, floating leaves, wet rock walls, tangled vines, और water droplets शामिल हैं
    • waterfall, mist, bird wing flaps, falling leaves, sparkling droplets, और air current में कांपता paper airplane स्वतः motion करते हैं
  • cliff में तराशा गया ancient door

    • Video 126 और Video 127 जंगल की ऊँचाई पर स्थित cliff के भीतर ancient door दिखाते हैं
    • moss-covered path से half-open door तक stone steps जाती हैं, और carved pillars, guardian statues, ivy-covered walls, बाईं ओर mountain valley, तथा entrance के पास cloaked traveler रखा गया है
    • देर दोपहर की warm sunlight और door से रिसती teal light साथ आती हैं, जबकि leaves, birds, vines, portal light स्वतंत्र रूप से motion करते हैं
  • पानी में डूबा ancient temple

    • Video 130 और Video 131 Stage 1 और refined result को साथ-साथ दिखाते हैं
    • coral लगे pillars के बीच stone walkway जाती है, और cracked ceremonial wall की central fissure से bright green light निकलकर floor के glowing symbols के साथ align होती है
    • छोटा spherical submersible robot सामने तैरता है, और fish, bubbles, particles, seaweed, caustics, green symbols स्वतः motion करते हैं

डेमो निर्माण नोट्स

  • पेज के सभी वीडियो SANA-WM bidirectional variant से जनरेट किए गए हैं, फिर 2-stage long-video refiner से गुजरे हैं
  • gallery के सभी demo videos की first-frame images OpenAI GPT Image 2 और Google Nano Banana Pro से बनाई गईं, और SANA-WM ने static images को 1 मिनट लंबे वीडियो में animate किया

1 टिप्पणियां

 
GN⁺ 1 시간 전
Hacker News की राय
  • वीडियो गेम के नज़रिए से देखें तो ऐसे world model उतने सहज नहीं लगते
    मैं खुद गेम डेवलपर नहीं हूँ, लेकिन जिन गेम्स को मैं पसंद करता हूँ उनमें गहरी intentionality होती है। उदाहरण के लिए FromSoftware के गेम्स या हाल का Lies of P लें, तो आम तौर पर एक भी चीज़ यूँ ही नहीं रखी गई होती, और लगभग हर object जानबूझकर रखा गया लगता है
    इसके उलट, जिन गेम्स में ऐसी intentionality नहीं होती वे बेजान महसूस होते हैं, immersion तोड़ते हैं, या डेवलपर जिस अनुभव को देना चाहता है उससे बाहर धकेल देते हैं
    यह कल्पना करना मुश्किल है कि world model कभी उस स्तर तक पहुँच पाएँगे जहाँ वे ऐसी intentionality को पकड़ सकें। सबसे बेहतर LLM भी writing में अक्सर असफल होते हैं, code में भी, और उन माध्यमों की experience surface भी वीडियो गेम में user interaction की रेंज से छोटी लगती है
    यह भी साफ़ नहीं है कि अगर कोई इंसान एक intentional experience बनाना चाहे तो ऐसे world model को modular तरीके से कैसे इस्तेमाल करेगा। LLM कुछ हद तक modular हैं: एक text बनाता है, इंसान उसे ठीक करता है, फिर दूसरा LLM आगे बढ़ाता है। यहाँ video output भी वैसा ही है या नहीं, पता नहीं
    आखिरकार world model अपने आप में प्रभावशाली हैं, लेकिन writing वाले LLM की तरह यह स्पष्ट नहीं कि हम आखिर किस दिशा में बना रहे हैं। क्या हम बस कम संतोषजनक और कम मानवीय अनुभवों को और तेज़ी से बनाना सीख रहे हैं, या सबसे तात्कालिक फायदा यह है कि robot systems दुनिया बनाकर actions के नतीजों की कल्पना और simulation कर सकें
    कुल मिलाकर ऐसा लगता है कि हम ऐसी दुनिया की तरफ़ तेज़ी से बढ़ रहे हैं जहाँ हमारे हर अनुभव के पीछे की intentionality कम होती जा रही है, और सब कुछ ज़्यादा impersonal और ज़्यादा noisy होता जा रहा है

    • यहाँ दो अलग बातें हैं। पहली, AI के बिना भी बारीकी से डिज़ाइन किए गए environment और procedural generation वाले environment दोनों संभव हैं, और दोनों अच्छे भी बन सकते हैं। उल्टा, दोनों अपने-अपने तरीकों से असफल भी हो सकते हैं
      लापरवाही से की गई procedural generation कम variety या बेतुके नतीजे दे सकती है, और लापरवाही से किया गया manual placement गेम के अपने ही नियम तोड़कर inconsistent experience बना सकता है
      explicit placement से internal consistency बनाए रखना scale बढ़ने पर कठिन होता जाता है। अगर internal consistency quality को प्रभावित करने वाला factor है, तो किसी scale के बाद generated content उल्टा ज़्यादा high-quality समाधान बन सकता है
      दूसरी बात, AI से content बनाते समय भी लापरवाही को लेकर वही नियम लागू होते हैं। कुछ generative AI tools में आप जो चाहते हैं उसे shape देने के options लगभग नहीं होते, लेकिन यह AI की अनिवार्य विशेषता नहीं है। कुछ मामलों में लोग simple interface चाहते हैं, और कुछ में generator अभी इतना नया है कि fine-grained control से पहले बस कुछ काम कराने पर ज़ोर है, इसलिए controls सीमित हैं
      कुछ मायनों में यह अभी इतना नया है कि यह बताना मुश्किल है कि किस तरह का control वांछनीय होगा, और पहले generator बनाकर यह देखना कि लोग उससे क्या करना चाहते हैं, फिर चाही गई control features बनाना एक तर्कसंगत रास्ता लगता है। output के style, object placement, camera movement, और scene composition पर high-level control देने वाले tools भी हैं, लेकिन उन्हें बहुत कम लोग देखते हैं
      AI ऐसी चीज़ें संभव बना सकता है जो उसके बिना बन ही नहीं पातीं, लेकिन कुछ ख़ास बनाने के लिए आज भी बारीकी और देखभाल चाहिए
    • सही कहा। इससे दुनिया ऊपर-ऊपर से ठीक लेकिन अंदर से खोखले content से भर जाएगी। आप चाहें तो मनचाहा विषय भी चिपका सकते हैं
      जिन लोगों की परख कम है वे शायद शिकायत न करें, लेकिन बाकी लोगों को 100 में 99 शोर जैसी चीज़ों के बीच 1 अच्छी चीज़ ढूँढने में और ज़्यादा समय लगाना पड़ेगा
      यह Amazon जैसा भी काफ़ी लगता है। टूटी हुई sorting, manipulated unit pricing, और सस्ती नक़ल की बाढ़ मिलकर यूज़र को हार मानने पर मजबूर कर देती है, और वह वही खरीदता है जो ऊपर दिख रहा हो, यानी recommendations या Amazon की copy
      अगर कई products को web search करके image tab में देखें, तो कई बार results का 50~90% Amazon product links ही होते हैं
    • मुझे लगता है ऐसे models पुराने Gutenberg printing press जैसे साबित हो सकते हैं। content की मात्रा अचानक बहुत बढ़ेगी, और उसका ज़्यादातर हिस्सा बहुत अच्छा नहीं होगा
      लेकिन इतनी भारी मात्रा की वजह से कुल मिलाकर high-quality content भी ज़्यादा बनेगा। दूसरे शब्दों में, average game quality गिर सकती है, लेकिन सच में “महान” games बनने की रफ़्तार बढ़ेगी
    • लगता है इसने AI में अभी जो कुछ हो रहा है उसका सार पकड़ लिया है। graphics, images, video, music, text, code—सब कुछ देखने में शानदार लग सकता है, लेकिन खोखला और मूल्यहीन महसूस होता है
      जीवन के किसी भी काम में नतीजे की quality उसके पीछे लगी care और intention का सीधा प्रतिबिंब होती है। सरल शब्दों में, आपने उसमें कितना मन लगाया, उसका असर दिखता ही है। AI के दौर में भी यह सच है
      बस अब effort के बिना result तक पहुँचने का रास्ता बहुत छोटा हो गया है, इसलिए मात्रा बढ़ रही है और कुल प्रभाव पतला पड़ रहा है। ऐसे सस्ते outputs जिस भी क्षेत्र को छूते हैं उसे cheap बना देते हैं, इसलिए अलग दिखने के लिए उल्टा और ज़्यादा मेहनत करनी पड़ेगी
    • FromSoftware या Lies of P जैसे उदाहरण, जहाँ हर चीज़ जानबूझकर रखी गई लगती है, काफ़ी specific और एक तरफ़ झुका हुआ उदाहरण है
      बहुत से अच्छे games ऐसे भी हैं जो बारीकी से item placement पर निर्भर नहीं करते। उदाहरण के लिए Bethesda के कई games बेहतरीन थे जबकि उनकी ज़्यादातर चीज़ें बेकार decoration ही थीं, लेकिन हाल की titles में जब उन्होंने हर junk को purpose देना शुरू किया और वह नियम तोड़ा, तो चीज़ें काफ़ी खराब हो गईं
      बहुत से अच्छे games ऐसे भी हैं जो ऐसी intentionality पर बिल्कुल निर्भर नहीं करते, और सचमुच बस cool ideas को random तरीके से जोड़ देते हैं, या procedural तरीके से बने होते हैं
  • यह कहना कि model weights “जल्द” आएँगे, फिलहाल vaporware कहने जैसा है। weights अभी तक खुले नहीं हैं, तो इसे “open source” कैसे कहा जा सकता है
    2.8B model से ऐसे results आने पर सबका शक करना स्वाभाविक है। weights नहीं हैं तो मानो कुछ हुआ ही नहीं

    • model यहाँ है: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
    • निष्पक्ष रूप से देखें तो पूरा codebase open source है, इसलिए यह ज़्यादातर open-weight models से बेहतर ही है। फिर भी मैं आपकी भावना से सहमत हूँ
      https://github.com/NVlabs/Sana
    • तब तो यह साफ़ तौर पर open नहीं है। सोच रहा हूँ क्या title बदला जा सकता है
  • 2.6B कहा गया है, लेकिन उसके बाद यह पंक्ति भी है
    “dedicated 17B long-video refiner long rollout backbone के ऊपर texture, motion, और later-stage quality को स्पष्ट बनाता है”

  • यह सब कुछ वीडियो गेम जैसा दिखता है। शायद training के लिए synthetic data Unreal Engine से बनाया गया होगा

  • GPU पर इसे चलाना काफ़ी प्रभावशाली है। कुछ लोग शिकायत और चिंता ज़ाहिर कर रहे हैं, लेकिन यह अभी शुरुआती दौर है, और आज इसकी सबसे ख़राब हालत होने की संभावना है, इसलिए यह games पर क्या असर डालेगा इसे लेकर मैं काफ़ी उत्साहित हूँ

  • शायद यह मूर्खतापूर्ण सवाल हो, लेकिन यहाँ बनने वाली चीज़ में “world” क्या है? क्या इसमें वास्तविक physical space का कोई abstract representation है, जैसे game engine वाला scene graph, या बस इतना मतलब है कि “यह video generator दूसरे video generators की तुलना में physical consistency ज़्यादा रखता है”

    • world model वह model है जो मौजूदा state, और वैकल्पिक रूप से उस दुनिया में रहने वाले agent की actions दिए जाने पर, simulated world की अगली state की भविष्यवाणी करता है। यह अगले शब्द की भविष्यवाणी करने वाले language model से काफ़ी मिलता-जुलता है
      उस world state का रूप कुछ भी हो सकता है, लेकिन पिछले 1~2 साल में यह शब्द ज़्यादा संकरे अर्थ में इस्तेमाल होने लगा है। इसका मतलब ऐसे video generation models से है जो game जैसी manipulation पर स्वाभाविक प्रतिक्रिया देते हैं, मानो वे कोई वीडियो गेम simulate कर रहे हों। हालांकि video frames के पीछे कोई अतिरिक्त hidden state नहीं होती
    • इस संदर्भ में world का मतलब है कि ये videos वीडियो गेम की तरह interactive हैं। linked examples में keyboard और mouse input देखा जा सकता है
      model को लगभग 1 मिनट तक scene consistency बनाए रखने के लिए train किया गया है, इसलिए अगर आप इधर-उधर देखें और screen के बाहर चला गया object बाद में उसी दिशा में फिर देखें, तो वह दोबारा दिखाई देता है
  • download कहाँ है? GitHub पर तो नहीं मिला, और webpage पर download button disabled है
    और क्या यह 24GB memory वाले RTX 4090 पर चलेगा?

  • चेतावनी: उस page पर auto-play videos देखते हुए मेरा download 350Mbps तक पहुँच गया

    • मुझे एक घंटे से ज़्यादा बाद पता चला, जबकि tab में page खुला हुआ था। क्या यह सचमुच उसी video को बार-बार stream और re-stream कर रहा है? क्या cache करने के लिए data बहुत ज़्यादा है, इसलिए इसे अनंत बार फिर से भेजा जा रहा है
      उम्मीद है कोई metered या limited network पर वह page खुला न छोड़ दे
      यह देखकर हैरानी होती है कि GitHub ने उस page को बंद नहीं किया
      क्या AI researchers compute और network resources जलाने के इतने आदी हो गए हैं कि कई HD videos को auto-play और loop कराने वाले webpage के बारे में सोचना ही बंद कर दिया है
    • मेरे 70Mbps connection पर तो videos buffer भी नहीं हुए, इसलिए मैंने देखना छोड़ दिया। वे इतने high-quality भी नहीं लग रहे थे
  • 2.6B model अगर 1 मिनट का video इस quality और consistency के साथ निकाल रहा है, तो यह यक़ीन से परे प्रभावशाली लगता है

  • पहली बर्फ़ीली पहाड़ी वाले वीडियो में, जहाँ आदमी चल रहा है, cave entrance consistency की समस्या है। क्या इस model size पर यह “उम्मीद के मुताबिक” है

    • ज़्यादातर videos में ऐसी कुछ समस्या दिखती है। उदाहरण के लिए library वाले video में मेज़ पर रखी किताब का आकार कभी-कभी बदल जाता है
      अगर examples प्रतिनिधि हैं, तो ‘Refiner’ का असर तो उल्टा ही लगता है। हर मामले में stage-1 image ‘refined’ image से बेहतर लगती है। clutter कम है, ज़्यादा realistic लगती है, और जो लोग इस अभिव्यक्ति को जानते हैं, उनके लिए उसमें “cowbell” कम है
    • सभी videos में यह काफ़ी साफ़ consistency issue दिखता है जब camera पहले दिखाए गए क्षेत्र की तरफ़ वापस मुड़ता है