Stable Video Diffusion लॉन्च

(stability.ai)

14 पॉइंट द्वारा GN⁺ 2023-11-22 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Stable Video Diffusion, इमेज मॉडल Stable Diffusion पर आधारित पहला generative video मॉडल है
इसे research preview के रूप में उपलब्ध कराया गया है, और यह नवीनतम generative AI video मॉडल विभिन्न प्रकार के मॉडल बनाने की यात्रा में एक महत्वपूर्ण कदम है
कोड GitHub repository में उपलब्ध है, और मॉडल को लोकल में चलाने के लिए आवश्यक weights Hugging Face page पर देखे जा सकते हैं

विभिन्न video applications में लागू किया जा सकता है

video मॉडल को single image से multi-view synthesis सहित विभिन्न downstream tasks पर आसानी से लागू किया जा सकता है
Stable Diffusion के आसपास बने ecosystem की तरह, इस आधार पर build और expand करने वाले विभिन्न मॉडलों की योजना है
text-to-video interface वाली नई web experience के लिए waitlist में आज से पंजीकरण किया जा सकता है

प्रदर्शन में प्रतिस्पर्धी

Stable Video Diffusion को दो image-to-video मॉडलों के रूप में जारी किया गया है, जो 3 से 30 frames per second के बीच user-customizable frame rate पर 14 और 25 frames generate कर सकते हैं
जब इसे शुरुआती रूप में जारी किया गया, तो external evaluations से पता चला कि user preference studies में ये मॉडल leading closed models से बेहतर रहे

केवल research के लिए

टीम नवीनतम प्रगति के साथ मॉडल को अपडेट करने और feedback को शामिल करने के लिए उत्साहित है, लेकिन इस चरण में यह वास्तविक दुनिया या commercial applications के लिए नहीं है, इस पर जोर दिया गया है
safety और quality पर insights और feedback, मॉडल को अंतिम रिलीज़ के लिए परिष्कृत करने में महत्वपूर्ण हैं

AI मॉडलों का निरंतर विस्तार

Stable Video Diffusion, image, language, audio, 3D और code सहित विभिन्न modalities को कवर करने वाले open source मॉडलों की विस्तृत श्रृंखला में एक गर्वपूर्ण जोड़ है
यह Stability AI की human intelligence augmentation के प्रति प्रतिबद्धता को दर्शाने वाला portfolio है.

GN⁺ की राय

इस लेख का सबसे महत्वपूर्ण बिंदु Stable Video Diffusion मॉडल का लॉन्च है, जो AI तकनीक की प्रगति को दिखाता है और विभिन्न क्षेत्रों में इसके उपयोग की संभावनाएँ खोलता है.
शोधकर्ताओं और developers को नया टूल देने वाली यह तकनीक, जो creative video generation को संभव बनाती है, advertising, education, entertainment जैसे कई क्षेत्रों में रोचक applications की उम्मीद जगाती है.

2 टिप्पणियां

xguru 2023-11-22

LLM में Stable Diffusion Moment आ रहा है

क्या अब यह Stable Diffusion Moment Video तक भी पहुंचने वाला है? यकीनन आजकल विदेशी AI startup में जहां पैसा सबसे ज़्यादा जुट रहा है, वह Video सेक्टर ही लगता है।

GN⁺ 2023-11-22

Hacker News प्रतिक्रियाएँ

वीडियो पेज के निचले हिस्से में दो पक्षी (bluebirds) दिखाई देते हैं, और बैकग्राउंड में CN Tower जैसी दिखने वाली दो एक जैसी इमारतें हैं। CN Tower टोरंटो का एक प्रमुख landmark है, और टोरंटो की baseball team का नाम Blue Jays है। यह टावर downtown के मुख्य sports stadium के पास स्थित है। मुझे text-to-image conversion के काम करने के तरीके की मोटी समझ है, और यह तर्कसंगत लगता है कि "bluebird" vector space में "Toronto" या "CN Tower" के करीब हो सकता है। image-to-video में scale और speed का सुधार प्रभावशाली है, लेकिन image generation models कितने सक्षम हैं यह देखते हुए, editing या iterative work की क्षमता की कमी के कारण यह अभी सीमित लगता है। उदाहरण के लिए, मैं सोचता हूँ कि क्या ऐसा कोई समाधान है जो "फोटो में साइकिल को बाईं ओर ले जाओ" जैसे prompt के साथ model को iterative काम करने दे सके। यह क्षेत्र बहुत तेज़ी से आगे बढ़ रहा है।
पिछले साल machine learning में प्रगति की रफ्तार हैरान करने वाली रही। अगर ControlNet को वीडियो पर ठीक से लागू किया जाए, तो लोग इस तकनीक का उपयोग कैसे करेंगे यह देखना रोमांचक होगा। वीडियो को शुरुआत से generate करना भी शानदार है, लेकिन इस तकनीक की असली उपयोगिता temporal consistency में है। स्थिर वीडियो पाने के लिए आम तौर पर काफी manual post-processing की ज़रूरत होती है।
मैं अब भी सोचता हूँ कि "non-commercial" model license को वास्तव में कैसे लागू किया जा सकता है। software licenses software के redistribution को नियंत्रित करते हैं, लेकिन उससे बनाए गए उत्पादों को नहीं। उदाहरण के लिए, GIMP से बनाई गई image पर GPL license लागू नहीं होता।
यह क्षेत्र बहुत तेज़ी से बदल रहा है। पलक झपकते ही नया paper आ जाता है। इंसानी सीखने की गति अद्भुत है। इसे downstream tasks में इस्तेमाल करना बहुत दिलचस्प है। मैं सोचता हूँ कि इस model को animatediff के साथ integrate करना कितना आसान होगा। साथ ही, क्या m3 device पर benchmark चलाया जा सकता है, और क्या ऐसे diffusion inference और development चलाने के लिए m3 pro लेना सार्थक है।
तकनीकी प्रगति में एक आकर्षक छलांग। इससे ancestral samplers और non-ancestral samplers के बीच अंतर पर विचार आता है। उदाहरण के लिए, Euler method कुछ हद तक deterministic है और sampling steps बढ़ाने पर भी output नहीं बदलता, जबकि Euler Ancestral हर step पर noise जोड़ता है, जिससे अधिक विविधता मिलती है लेकिन यह अधिक random/probabilistic होता है। वीडियो generate करने के लिए मुझे लगता है कि sampler को पिछले frames पर काफ़ी निर्भर होना चाहिए और किसी तरह का sub-prompt inject करना चाहिए। उदाहरण के लिए, "किसी विशेष object को बाईं ओर 5 डिग्री घुमा दो"। दूसरे commenter द्वारा इस्तेमाल किया गया "temporal consistency" वाक्यांश मुझे पसंद आया।
यह तर्कसंगत है कि training data से सभी cuts और fades हटाने से परिणाम बेहतर हो सकते हैं। research paper के background section में "temporal convolution layers" का ज़िक्र है; क्या कोई समझा सकता है कि यह क्या है? मैं यह जानना चाहता हूँ कि वीडियो बनाने वाली images के बीच temporal state को दर्शाने के लिए किस तरह का training data input किया जाता है, या इसका कोई और मतलब है।
यह बहुत शानदार प्रगति है। कुछ महीने पहले मैंने Replicate पर कुछ "video" generation models आज़माए थे, और बहुत अच्छे results मिले थे, लेकिन अंत में बने वीडियो साफ़ तौर पर पिछले frame को prompt की तरह इस्तेमाल करके बनाए गए थे। यह तकनीक सचमुच कुछ ऐसा बनाती हुई लगती है जिसमें उच्च-स्तरीय context हो। सिर्फ़ आधे साल से थोड़ा ज़्यादा समय में इस स्तर की प्रगति देखना चकित करने वाला है।
मैं Stability.ai से अनुरोध करता हूँ कि वह सुनिश्चित करे कि उसका board समझदारी से काम कर रहा है।
मैं इस तकनीक को आज़माने के लिए बेहद उत्साहित हूँ। हाल में किए गए कुछ experiments साझा कर रहा हूँ।
static images की तरह, सूक्ष्म और अनपेक्षित defects को देखना बहुत दिलचस्प है। उदाहरण के लिए, cowboy hat पहने आदमी लगभग घुटता हुआ लगता है, और train वीडियो में पटरियाँ बहुत चौड़ी दिखती हैं जबकि ट्रेन बर्फ़ पर स्केट करती हुई चलती प्रतीत होती है।