- नॉर्मलाइज़िंग फ्लो (normalizing flow) का उपयोग करके टेक्स्ट, इमेज और वीडियो इनपुट से सीधे वीडियो पैदा करने वाला पहला causal वीडियो जेनरेटर
- एंड-टू-एंड ट्रेनिंग, एक्यूरेट likelihood estimation, मल्टी जनरेशन टास्क (T2V/I2V/V2V) को एक ही मॉडल से हैंडल करना
- Global-Local आर्किटेक्चर, Flow-Score Matching, और वीडियो-सचेत Jacobi iteration के साथ स्पैशियो-टेम्पोरल consistency और efficiency में सुधार
- 7B parameter मॉडल से 480p·16fps वीडियो निर्माण, 70M टेक्स्ट-वीडियो और 400M टेक्स्ट-इमेज डेटा पर प्रशिक्षण
- नॉर्मलाइज़िंग फ्लो ने diffusion-based मॉडल के बराबर की क्वालिटी हासिल की, और हाई-क्वालिटी autoregressive वीडियो निर्माण की संभावना साबित की
STARFlow-V अवलोकन
- STARFlow-V एक नॉर्मलाइज़िंग फ्लो आधारित causal वीडियो जनरेशन मॉडल है, जो diffusion मॉडल-स्तर की विज़ुअल क्वालिटी प्राप्त करता है
- इसमें एंड-टू-एंड ट्रेनिंग, सटीक likelihood estimation, और मल्टी जनरेशन टास्क सपोर्ट एक साथ मौजूद हैं
- वीडियो जेनरेशन डोमेन में, जो अब तक diffusion मॉडल से हावी था, STARFlow-V ने नॉर्मलाइज़िंग फ्लो की practicality साबित की
- टेक्स्ट-वीडियो (T2V), इमेज-वीडियो (I2V), वीडियो-वीडियो (V2V) जनरेशन—सभी को सिंगल स्ट्रक्चर से संभाला जा सकता है
कोर डिज़ाइन और ट्रेनिंग आर्किटेक्चर
- मॉडल में Deep Autoregressive Block (ग्लोबल टेम्पोरल reasoning) और Shallow Flow Block (फ्रेम-लेवल डिटेल मॉडलिंग) शामिल हैं
- पहला ब्लॉक स्पैशियो-टेम्पोरल latent space में लंबी दूरी की dependencies पकड़ता है
- दूसरा प्रत्येक फ्रेम के local details को मॉडल करता है
- Flow-Score Matching के जरिए ट्रेन किया गया causal lightweight denoiser आउटपुट की consistency को बेहतर बनाता है
- ट्रेनिंग objective maximum likelihood estimation और Flow-Score Matching का दोहरा loss structure है
मुख्य तकनीकी योगदान
- Global-Local आर्किटेक्चर
- ग्लोबल causal Transformer ब्लॉक लंबे स्पैशियो-टेम्पोरल dependencies संभालते हैं
- फ्रेम-लेवल shallow flow ब्लॉक लोकल डिटेल्स को हैंडल करते हैं
- pixel-level autoregressive मॉडल में होने वाली accumulation error समस्या को कम करते हैं
- Flow-Score Matching आधारित नोइज़ रिडक्शन
- मॉडल के probability distribution gradient (score) को predict करने वाला causal neural denoiser साथ में train होता है
- बिना non-causal या incomplete external denoiser के single-step refinement संभव होता है
- वीडियो-सचेत Jacobi iteration
- नॉन-लीनियर सिस्टम सॉल्वर से जेनरेशन प्रोसेस को रीकंस्ट्रक्ट कर parallel latent updates किए जाते हैं
- adjacent frames की temporal info से initialization और pipeline execution के जरिए speedup हासिल होता है
मॉडल स्पेसिफिकेशन
- ट्रेनिंग डेटा: 70M टेक्स्ट-वीडियो पेयर्स, 400M टेक्स्ट-इमेज पेयर्स
- मॉडल साइज: 7B parameters, आउटपुट रेज़ोल्यूशन 480p, frame rate 16fps
- नॉर्मलाइज़िंग फ्लो की invertibility की वजह से बिना architecture बदलें या री-ट्रेन किए अलग-अलग जनरेशन टास्क किए जा सकते हैं
जेनरेशन रिज़ल्ट्स और तुलना
- टेक्स्ट-वीडियो: प्राकृतिक रोशनी, photoreal शैली, macro shots जैसी विविध स्थितियाँ हाई क्वालिटी में generate होती हैं
- इमेज-वीडियो: इनपुट इमेज के आधार पर temporal consistency बनाए रखते हुए वीडियो एक्सटेंड करता है
- वीडियो-वीडियो: object addition, color transfer, style बदलना, inpainting जैसे कई edit ऑपरेशंस support करता है
- लॉन्ग-फॉर्म वीडियो जेनरेशन: 10 से 30 सेकंड लंबी क्लिप्स भी chunk-wise autoregressive तरीके से बनाई जाती हैं
- तुलनात्मक प्रयोग: NOVA और WAN-Causal के मुकाबले visual fidelity और temporal consistency में बेहतर प्रदर्शन दिखाया गया
सीमाएँ और फेल केस
- कॉम्प्लेक्स physics interactions या तेज motion वाले scenes में क्वालिटी गिरती है
- कारण के रूप में ट्रेनिंग रिसोर्स की कमी, लो-क्वालिटी डेटा, और fine-tuning (SFT·RL) का अभाव बताए गए हैं
- उदाहरण: कुत्ते के पानी झटकने या बकरी के कूदने वाले scenes में अस्वाभाविक motion देखी गई
शोधगत महत्व
- STARFlow-V ने high-quality autoregressive वीडियो जेनरेशन के लिए नॉर्मलाइज़िंग फ्लो को पहले ही साबित किया है
- diffusion मॉडल-केंद्रित वीडियो रिसर्च के लिए एक नए वैकल्पिक एप्रोच का संकेत देता है
- इसे world model बिल्ड करने के लिए एक promising research path के रूप में माना गया है
1 टिप्पणियां
Hacker News राय
Apple के पास भी एक video understanding model है
एक दृष्टिबाधित व्यक्ति के रूप में, AI ने मेरी ज़िंदगी पूरी तरह बदल दी है। इस मॉडल से accessibility features कैसे आगे बढ़ेंगे, इसे लेकर मैं सचमुच उत्साहित हूँ
Apple का license केवल non-commercial research तक सीमित है, इसलिए यह open source की परिभाषा पर खरा नहीं उतरता
इसलिए मुझे लगता है कि इसे ‘open source’ कहने से बेहतर ‘weights available’ कहना होगा
अमेरिकी क़ानून के अनुसार model weights को रचनात्मक कार्य नहीं बल्कि machine output माना जा सकता है, इसलिए उन पर copyright नहीं होता
इसलिए मैं ऐसे बेमतलब license को नज़रअंदाज़ करके इसे स्वतंत्र रूप से इस्तेमाल करूँगा
“open weight model” की अवधारणा कुछ हद तक ‘open-source Windows machine code version’ जैसी लगती है, इसलिए थोड़ी असहज लगती है
Apple का license Clickwrap MIT जैसा है, फिर भी कम से कम इसमें modification और redistribution की अनुमति है, यह राहत की बात है
फिर भी binary को सीधे चला पाना सिर्फ SaaS मिलने से बेहतर है
open weights, retraining और distillation की संभावना देते हैं, इसलिए यह साधारण executable file जैसा नहीं है
मैंने text-to-video examples देखे, और सच कहूँ तो मैं प्रभावित नहीं हुआ
इससे पुराने Will Smith noodles video की याद आ गई। क्या मैं कुछ मिस कर रहा हूँ?
फिर भी शोधकर्ताओं के प्रयोग के लिए इसे सार्वजनिक करना अपने आप में मायने रखता है
यह परफ़ेक्ट नहीं है, लेकिन सार्वजनिक मॉडलों में सबसे उन्नत स्तर पर हो सकता है
हालांकि इसका license पर्याप्त रूप से ‘open’ है या नहीं, इस पर संदेह है
यह project शोध के रूप में नई कोशिश और संभावनाएँ दिखाता है
लेकिन product के नज़रिए से computing resources की सीमाएँ साफ़ दिखती हैं
यह उस रिपोर्ट से भी मेल खाता है जिसमें कहा गया था कि CFO ने CEO के ML infrastructure निवेश के फ़ैसले को रोक दिया
JG का इस्तीफ़ा, AI विभाग का बड़े पैमाने पर पुनर्गठन, और Tim के 2026 में रिटायर होने की अटकलों को देखते हुए
लगता है कि non-ML पक्ष ने internal politics में बढ़त ले ली है
फिर भी approach दिलचस्प है, इसलिए उम्मीद है कि दूसरे लोग इसके आधार पर कुछ उपयोगी बनाएँगे
paper के अनुसार, यह model diffusion video model की cumulative error समस्या को हल करने की कोशिश करने वाला एक research model है
इसमें latent space को causal संरचना में डिज़ाइन किया गया है ताकि consistency बढ़ सके
7B आकार के model के हिसाब से नतीजे काफ़ी अच्छे हैं
अगर Apple wan या veo स्तर का model जारी करे, तो लगता है कि उसे वाकई बेहद परिष्कृत data पर train किया गया होगा
STARFlow-V को 96 H100 GPU पर लगभग 2 करोड़ video से train किया गया बताया गया है
हालांकि training period का ज़िक्र नहीं है
जिज्ञासा है कि repo के examples Mac पर भी inference कर सकते हैं या नहीं
शीर्षक ग़लत है। model अभी जारी नहीं किया गया है, और link में भी ऐसा कुछ नहीं लिखा
समझ नहीं आता कि edited title क्यों इस्तेमाल किया गया
model अच्छा दिखता है, लेकिन यह जानना दिलचस्प होगा कि Apple के दिमाग में कौन-से use cases हैं
हो सकता है यह सिर्फ शोधकर्ताओं की रुचि का विषय हो, और यह भी स्पष्ट नहीं कि बड़ी कंपनियों में research की दिशा ऊपर से तय होती है या नहीं
Jobs के दौर से ही कई रिश्ते चले आ रहे हैं
TikTok या Instagram जल्द ही ऐसे features ला सकते हैं, लेकिन लगता है Apple इसे खुद देना चाहता है
व्यक्तिगत रूप से मुझे Snapchat acquisition एक अच्छी रणनीति लगेगी
repo में लिखा है: “Pretrained checkpoints will be released soon”
यानी अभी यह open weight नहीं है
जब weights वास्तव में जारी होंगे, तभी यह सच में open model कहलाएगा
“Soon” का मतलब कब है, यह अभी अज्ञात है