2 पॉइंट द्वारा GN⁺ 2025-12-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • नॉर्मलाइज़िंग फ्लो (normalizing flow) का उपयोग करके टेक्स्ट, इमेज और वीडियो इनपुट से सीधे वीडियो पैदा करने वाला पहला causal वीडियो जेनरेटर
  • एंड-टू-एंड ट्रेनिंग, एक्यूरेट likelihood estimation, मल्टी जनरेशन टास्क (T2V/I2V/V2V) को एक ही मॉडल से हैंडल करना
  • Global-Local आर्किटेक्चर, Flow-Score Matching, और वीडियो-सचेत Jacobi iteration के साथ स्पैशियो-टेम्पोरल consistency और efficiency में सुधार
  • 7B parameter मॉडल से 480p·16fps वीडियो निर्माण, 70M टेक्स्ट-वीडियो और 400M टेक्स्ट-इमेज डेटा पर प्रशिक्षण
  • नॉर्मलाइज़िंग फ्लो ने diffusion-based मॉडल के बराबर की क्वालिटी हासिल की, और हाई-क्वालिटी autoregressive वीडियो निर्माण की संभावना साबित की

STARFlow-V अवलोकन

  • STARFlow-V एक नॉर्मलाइज़िंग फ्लो आधारित causal वीडियो जनरेशन मॉडल है, जो diffusion मॉडल-स्तर की विज़ुअल क्वालिटी प्राप्त करता है
    • इसमें एंड-टू-एंड ट्रेनिंग, सटीक likelihood estimation, और मल्टी जनरेशन टास्क सपोर्ट एक साथ मौजूद हैं
  • वीडियो जेनरेशन डोमेन में, जो अब तक diffusion मॉडल से हावी था, STARFlow-V ने नॉर्मलाइज़िंग फ्लो की practicality साबित की
  • टेक्स्ट-वीडियो (T2V), इमेज-वीडियो (I2V), वीडियो-वीडियो (V2V) जनरेशन—सभी को सिंगल स्ट्रक्चर से संभाला जा सकता है

कोर डिज़ाइन और ट्रेनिंग आर्किटेक्चर

  • मॉडल में Deep Autoregressive Block (ग्लोबल टेम्पोरल reasoning) और Shallow Flow Block (फ्रेम-लेवल डिटेल मॉडलिंग) शामिल हैं
    • पहला ब्लॉक स्पैशियो-टेम्पोरल latent space में लंबी दूरी की dependencies पकड़ता है
    • दूसरा प्रत्येक फ्रेम के local details को मॉडल करता है
  • Flow-Score Matching के जरिए ट्रेन किया गया causal lightweight denoiser आउटपुट की consistency को बेहतर बनाता है
  • ट्रेनिंग objective maximum likelihood estimation और Flow-Score Matching का दोहरा loss structure है

मुख्य तकनीकी योगदान

  • Global-Local आर्किटेक्चर
    • ग्लोबल causal Transformer ब्लॉक लंबे स्पैशियो-टेम्पोरल dependencies संभालते हैं
    • फ्रेम-लेवल shallow flow ब्लॉक लोकल डिटेल्स को हैंडल करते हैं
    • pixel-level autoregressive मॉडल में होने वाली accumulation error समस्या को कम करते हैं
  • Flow-Score Matching आधारित नोइज़ रिडक्शन
    • मॉडल के probability distribution gradient (score) को predict करने वाला causal neural denoiser साथ में train होता है
    • बिना non-causal या incomplete external denoiser के single-step refinement संभव होता है
  • वीडियो-सचेत Jacobi iteration
    • नॉन-लीनियर सिस्टम सॉल्वर से जेनरेशन प्रोसेस को रीकंस्ट्रक्ट कर parallel latent updates किए जाते हैं
    • adjacent frames की temporal info से initialization और pipeline execution के जरिए speedup हासिल होता है

मॉडल स्पेसिफिकेशन

  • ट्रेनिंग डेटा: 70M टेक्स्ट-वीडियो पेयर्स, 400M टेक्स्ट-इमेज पेयर्स
  • मॉडल साइज: 7B parameters, आउटपुट रेज़ोल्यूशन 480p, frame rate 16fps
  • नॉर्मलाइज़िंग फ्लो की invertibility की वजह से बिना architecture बदलें या री-ट्रेन किए अलग-अलग जनरेशन टास्क किए जा सकते हैं

जेनरेशन रिज़ल्ट्स और तुलना

  • टेक्स्ट-वीडियो: प्राकृतिक रोशनी, photoreal शैली, macro shots जैसी विविध स्थितियाँ हाई क्वालिटी में generate होती हैं
  • इमेज-वीडियो: इनपुट इमेज के आधार पर temporal consistency बनाए रखते हुए वीडियो एक्सटेंड करता है
  • वीडियो-वीडियो: object addition, color transfer, style बदलना, inpainting जैसे कई edit ऑपरेशंस support करता है
  • लॉन्ग-फॉर्म वीडियो जेनरेशन: 10 से 30 सेकंड लंबी क्लिप्स भी chunk-wise autoregressive तरीके से बनाई जाती हैं
  • तुलनात्मक प्रयोग: NOVA और WAN-Causal के मुकाबले visual fidelity और temporal consistency में बेहतर प्रदर्शन दिखाया गया

सीमाएँ और फेल केस

  • कॉम्प्लेक्स physics interactions या तेज motion वाले scenes में क्वालिटी गिरती है
  • कारण के रूप में ट्रेनिंग रिसोर्स की कमी, लो-क्वालिटी डेटा, और fine-tuning (SFT·RL) का अभाव बताए गए हैं
  • उदाहरण: कुत्ते के पानी झटकने या बकरी के कूदने वाले scenes में अस्वाभाविक motion देखी गई

शोधगत महत्व

  • STARFlow-V ने high-quality autoregressive वीडियो जेनरेशन के लिए नॉर्मलाइज़िंग फ्लो को पहले ही साबित किया है
  • diffusion मॉडल-केंद्रित वीडियो रिसर्च के लिए एक नए वैकल्पिक एप्रोच का संकेत देता है
  • इसे world model बिल्ड करने के लिए एक promising research path के रूप में माना गया है

1 टिप्पणियां

 
GN⁺ 2025-12-03
Hacker News राय
  • Apple के पास भी एक video understanding model है
    एक दृष्टिबाधित व्यक्ति के रूप में, AI ने मेरी ज़िंदगी पूरी तरह बदल दी है। इस मॉडल से accessibility features कैसे आगे बढ़ेंगे, इसे लेकर मैं सचमुच उत्साहित हूँ

    • ऐसी बातें news headlines में कम दिखती हैं, इसलिए यह टिप्पणी वाकई स्वागतयोग्य है
    • कुछ साल पहले श्रवणबाधित माता-पिता के लिए बच्चे के रोने की आवाज़ पहचानकर alert देने वाला feature भी जोड़ा गया था
    • यह शायद कम-गुणवत्ता वाली टिप्पणी हो, लेकिन मुझे सच में खुशी हुई और मैं दिल से बधाई देता हूँ
    • जानना चाहूँगा कि AI ने आपकी ज़िंदगी कैसे बदली, क्या आप थोड़ा ठोस रूप से साझा कर सकते हैं
    • कम ही सही, लेकिन AI लोगों की सचमुच मदद कर रही है जैसी अच्छी खबर देखकर अच्छा लगा
  • Apple का license केवल non-commercial research तक सीमित है, इसलिए यह open source की परिभाषा पर खरा नहीं उतरता
    इसलिए मुझे लगता है कि इसे ‘open source’ कहने से बेहतर ‘weights available’ कहना होगा

    • सच तो यह है कि weights भी अभी जारी नहीं किए गए हैं
      अमेरिकी क़ानून के अनुसार model weights को रचनात्मक कार्य नहीं बल्कि machine output माना जा सकता है, इसलिए उन पर copyright नहीं होता
      इसलिए मैं ऐसे बेमतलब license को नज़रअंदाज़ करके इसे स्वतंत्र रूप से इस्तेमाल करूँगा
  • “open weight model” की अवधारणा कुछ हद तक ‘open-source Windows machine code version’ जैसी लगती है, इसलिए थोड़ी असहज लगती है
    Apple का license Clickwrap MIT जैसा है, फिर भी कम से कम इसमें modification और redistribution की अनुमति है, यह राहत की बात है

    • अच्छी उपमा है। इसे आगे बढ़ाएँ तो “closed machine code” एक सामान्य SaaS model जैसा है
      फिर भी binary को सीधे चला पाना सिर्फ SaaS मिलने से बेहतर है
    • इसे local में चला पाना महत्वपूर्ण है
      open weights, retraining और distillation की संभावना देते हैं, इसलिए यह साधारण executable file जैसा नहीं है
    • शायद आप code license और model license को आपस में मिला रहे हैं
  • मैंने text-to-video examples देखे, और सच कहूँ तो मैं प्रभावित नहीं हुआ
    इससे पुराने Will Smith noodles video की याद आ गई। क्या मैं कुछ मिस कर रहा हूँ?

    • यह मौजूदा state of the art से लगभग 2 साल पीछे लगता है
      फिर भी शोधकर्ताओं के प्रयोग के लिए इसे सार्वजनिक करना अपने आप में मायने रखता है
    • Will Smith spaghetti video को फिर से देखें, तो समझ आएगा कि यह उदाहरण उससे काफ़ी बेहतर है
      यह परफ़ेक्ट नहीं है, लेकिन सार्वजनिक मॉडलों में सबसे उन्नत स्तर पर हो सकता है
      हालांकि इसका license पर्याप्त रूप से ‘open’ है या नहीं, इस पर संदेह है
    • मेरा भी यही विचार था। कुछ अजीब हिस्से थे, जैसे कप में तरल रुक गया लेकिन फिर भी भरता रहा
  • यह project शोध के रूप में नई कोशिश और संभावनाएँ दिखाता है
    लेकिन product के नज़रिए से computing resources की सीमाएँ साफ़ दिखती हैं
    यह उस रिपोर्ट से भी मेल खाता है जिसमें कहा गया था कि CFO ने CEO के ML infrastructure निवेश के फ़ैसले को रोक दिया
    JG का इस्तीफ़ा, AI विभाग का बड़े पैमाने पर पुनर्गठन, और Tim के 2026 में रिटायर होने की अटकलों को देखते हुए
    लगता है कि non-ML पक्ष ने internal politics में बढ़त ले ली है
    फिर भी approach दिलचस्प है, इसलिए उम्मीद है कि दूसरे लोग इसके आधार पर कुछ उपयोगी बनाएँगे

  • paper के अनुसार, यह model diffusion video model की cumulative error समस्या को हल करने की कोशिश करने वाला एक research model है
    इसमें latent space को causal संरचना में डिज़ाइन किया गया है ताकि consistency बढ़ सके
    7B आकार के model के हिसाब से नतीजे काफ़ी अच्छे हैं
    अगर Apple wan या veo स्तर का model जारी करे, तो लगता है कि उसे वाकई बेहद परिष्कृत data पर train किया गया होगा

  • STARFlow-V को 96 H100 GPU पर लगभग 2 करोड़ video से train किया गया बताया गया है
    हालांकि training period का ज़िक्र नहीं है

    • यह दिलचस्प है कि Apple Intelligence को Nvidia GPU और Linux पर train किया गया
      जिज्ञासा है कि repo के examples Mac पर भी inference कर सकते हैं या नहीं
  • शीर्षक ग़लत है। model अभी जारी नहीं किया गया है, और link में भी ऐसा कुछ नहीं लिखा
    समझ नहीं आता कि edited title क्यों इस्तेमाल किया गया

  • model अच्छा दिखता है, लेकिन यह जानना दिलचस्प होगा कि Apple के दिमाग में कौन-से use cases हैं
    हो सकता है यह सिर्फ शोधकर्ताओं की रुचि का विषय हो, और यह भी स्पष्ट नहीं कि बड़ी कंपनियों में research की दिशा ऊपर से तय होती है या नहीं

    • Apple का Pixar और Disney से संबंध होने के कारण video और animation क्षेत्र में काफ़ी मज़बूत जुड़ाव है
      Jobs के दौर से ही कई रिश्ते चले आ रहे हैं
    • शायद इसका उपयोग iPhone से शूट किए गए video में generative effects जोड़ने के लिए होगा
      TikTok या Instagram जल्द ही ऐसे features ला सकते हैं, लेकिन लगता है Apple इसे खुद देना चाहता है
      व्यक्तिगत रूप से मुझे Snapchat acquisition एक अच्छी रणनीति लगेगी
  • repo में लिखा है: “Pretrained checkpoints will be released soon
    यानी अभी यह open weight नहीं है
    जब weights वास्तव में जारी होंगे, तभी यह सच में open model कहलाएगा
    “Soon” का मतलब कब है, यह अभी अज्ञात है