Meta Movie Gen - इमर्सिव AI कंटेंट का नया मानक
(ai.meta.com)- Meta Movie Gen एक AI media model रिसर्च है जो सिर्फ़ सरल text input के ज़रिए वीडियो·साउंड generation, मौजूदा वीडियो editing, और personal image आधारित वीडियो creation को एक ही जगह पर संभालता है
- वीडियो generation लंबी high-quality output और कई aspect ratio को support करती है, और Meta इसे इंडस्ट्री की पहली capability के रूप में पेश करता है
- मौजूदा वीडियो पर style change, transition, और precision editing को text से लागू किया जा सकता है, जिससे लालटेन को हवा में तैरते soap bubbles में बदलने जैसे transformations संभव होते हैं
- फ़ोटो और text को साथ देने पर व्यक्ति की identity और motion को बनाए रखते हुए personalized वीडियो बनता है, जिसमें lab, selfie, western, और DJ scene जैसे examples शामिल हैं
- sound effects, background music, और पूरा soundtrack तक generate या extend किया जा सकता है, जिससे वीडियो production flow visual generation से audio composition तक बढ़ता है
Movie Gen जिन कामों को संभालता है
- Meta Movie Gen, Meta की नवीनतम research achievement के रूप में पेश किया गया AI media foundation model है
- यह एक ही text input flow में कई production tasks को संभालता है
- customized वीडियो generation
- sound generation
- मौजूदा वीडियो editing
- personal image को unique वीडियो में बदलना
- Meta, Movie Gen को immersive AI content के नए standard के रूप में पेश करता है
Text-आधारित वीडियो generation
- Movie Gen, text input से अलग-अलग aspect ratio में लंबा high-quality वीडियो generate करता है
- Meta का कहना है कि यह capability इंडस्ट्री में पहली है
- prompt में scene, subject, motion, background, और lighting conditions को साथ में specify किया जा सकता है
- गुलाबी sunglasses पहने एक sloth donut tube पर लेटा है और tropical drink पकड़े हुए है
- दोनों हाथों में fire tools पकड़े एक पुरुष समुद्र किनारे circular motion बनाता हुआ
- पीले surfboard को पकड़े surfing करता हुआ koala
- धूल भरे attic mirror के सामने नाचता सफेद कपड़े का ghost
- hot spring में छोटी sailboat के साथ खेलता लाल चेहरे वाला बंदर
मौजूदा वीडियो को text से edit करना
- Movie Gen, मौजूदा वीडियो को text input के ज़रिए बदलने के लिए precision editing को support करता है
- इसका दायरा style change, transition, और fine-grained editing तक फैला है
- example में लालटेन को हवा में तैरते soap bubbles में बदलने वाला transformation इस्तेमाल किया गया है
Personal image से customized वीडियो
- उपयोगकर्ता अपनी फ़ोटो upload करके और छोटा text input देकर Movie Gen से personalized वीडियो generate कर सकता है
- generated result व्यक्ति की identity और motion को preserve करने के तरीके से बनाया जाता है
- example scenes में कई environment और actions शामिल हैं
- rainbow wallpaper वाली lab में experiment करता पुरुष
- wood-paneled कमरे में easel पर रखे canvas पर पेंटिंग बनाती महिला
- backyard patio में पुरुष और beagle puppy selfie लेते हुए
- रेगिस्तान में wide-brim hat और brown coat पहने पुरुष चाय पकड़े हुए
- पुराने western town में सफेद घोड़े पर सवार cowgirl
- LA rooftop पर records बजाती महिला DJ और cheetah
वीडियो के अनुरूप sound generation
- Movie Gen, text input से sound effects, background music, और पूरा soundtrack बना या बढ़ा सकता है
- generated sound को वीडियो के tone, rhythm, और style को reflect करने के लिए design किया गया है
- example inputs में specific sounds और music mood को साथ में specify किया गया है
- चट्टानों और लोगों पर बारिश बरस रही है और background music चल रहा है
- पत्तों की सरसराहट, टहनियों के टूटने की आवाज़, और orchestral music
- ATV engine की गड़गड़ाहट के साथ acceleration और साथ में guitar music
- skateboard wheel के घूमने और concrete पर landing की impact sound
- wonder जगाने वाला orchestral piece
- सीटी के बाद तेज़ explosion और बड़ा crackling sound
Creators·entertainment industry collaboration
- Meta, Creative Industry Feedback Program के ज़रिए पुरस्कार-विजेता production company Blumhouse के साथ collaboration कर रहा है
- Blumhouse ने Movie Gen के public debut से पहले वीडियो बनाने के लिए filmmakers को चुना
- creators से कहा गया कि वे AI media toolset का उपयोग करके ऐसे results बनाएं जो उन्हें रोचक या उपयोगी लगें
- director Aneesh Chaganty की वीडियो का शीर्षक
"i h8 ai"है
Public examples और reference materials
- Meta का कहना है कि creators, Movie Gen के ज़रिए storytelling को बदल रहे हैं
- Instagram examples में निम्न account और prompt शामिल हैं
- @paigepiskin: छोटे फुलफुले cat-face tarantula को पकड़े हाथ, और कुत्ते को gray baby dragon में बदलने वाली edit
- @ka5sh: गुलाबी clown shoes पहने हरा cartoon alien, और इंसान को लाल bucket hat पहने हरे alien में बदलने वाली edit
- @girls: पतझड़ के पेड़ों वाली राह पर चलती लड़की, और Halloween decorations लगी दीवार के सामने कॉफ़ी पीती दो महिलाएँ
- @memezar: baby hippo और muscular gorilla की boxing match
- @ravivora: foreground में घना fog जोड़ना, और jellyfish से घिरी हुई सतह की ओर उठती महिला
- अतिरिक्त सामग्री के रूप में Movie Gen research paper दिया गया है, और Meta का कहना है कि उसने AI media generation में नया industry benchmark स्थापित किया है
- संबंधित लेखों के रूप में entertainment industry और creators collaboration तथा AI-आधारित content creation का दौर ब्लॉग लिंक किए गए हैं
1 टिप्पणियां
Hacker News की राय
टेक्स्ट से वीडियो एडिट करने वाला फीचर सबसे दिलचस्प है। यह बिना CGI बजट वाली indie फिल्मों में तुरंत काम आ सकता है
जैसे पहले किसी lounge chair पर cinema hall scene की तरह शूट किया जाए, फिर बाद में उसे cinema hall जैसा दिखने के लिए बदल दिया जाए
सही तरीके से इस्तेमाल करने पर यह indie films या shorts की quality बढ़ाएगा, और सीमा बस creativity होगी
वैसे भी model ने शायद indie cast से बेहतर actors पर training ली होगी
यह film नहीं, clip है। Stock photo/video industry जरूर चिंतित होगी, और चूंकि इन models के उनके काम पर trained होने की संभावना 100% है, वे मुकदमे भी करेंगे
अगर यह technology कभी film बनाएगी, तो वह text, image और music models की तरह अब तक बनी हर चीज़ का average बन जाएगी और नतीजा बेहद साधारण होगा
फिर scene को लगातार adjust करके save किया जा सकता है और अगले scene पर जाया जा सकता है। अगर AI animation को आगे बढ़ा सकता है, तो और विकसित होने पर दिए गए model को भरोसेमंद तरीके से reproduce न कर पाने की कोई वजह नहीं दिखती
Feature film आई है या बन रही है, यह पता नहीं
कहने में अच्छा नहीं लगता, लेकिन अभी की स्थिति में अगर AI इसी तरह बढ़ता रहा तो tech companies के हर जगह घुसने और बहुत powerful हो जाने की संभावना बड़ी है
समझ नहीं आता कि लगभग static HTML जैसी websites इतनी ज्यादा क्यों हैं, फिर भी phone को lag करा देती हैं
Videos देखने में cool लगते हैं, लेकिन अगर phone हर 2 सेकंड में रुक जाए तो संबंधित article पढ़ने में मज़ा नहीं आता
Page scroll करने पर text के कुछ हिस्से गायब होकर फिर उभरते हैं, और यह scroll-based animation भी नहीं है, लगभग random है। ऐसा लगता है जैसे browser render loop को कुछ block कर रहा है, इसलिए actual text drawing catch up नहीं कर पा रही। इतने simple page पर यह बेहूदा bug है, लेकिन अगर यहां React इस्तेमाल हुआ है तो अब कुछ भी संभव लगता है
इंसान visual input और visual entertainment पर बहुत ज्यादा निर्भर हैं। लेकिन ऐसे visuals धीरे-धीरे meaningless लगने लगे हैं, और सब कुछ fast food जैसे trash content जैसा दिखता है
Preschool बच्चा भी कुछ ही seconds में अपनी कल्पना की कोई भी चीज़ बना सकेगा, इससे चीजें बेहतर होंगी या कोई असली value पैदा होगी, ऐसा नहीं लगता। शायद यही इस technology की value भी हो। ऐसा समय आ सकता है जब visual तरीके से stories imagine करने वाली films जैसी चीजों को पूरी तरह भूल सकते हैं, क्योंकि किसी को अब परवाह नहीं होगी
फिर भी लोग इसके लिए पैसे देते हैं, यह समझ नहीं आता
मैं सालों से कह रहा हूं कि generated content की tsunami online असली human voices को निगल जाएगी। नतीजतन internet entertainment के अलावा बाकी कामों के लिए practically बेकार हो सकता है
Group chats में भी दिखता है कि एक दोस्त AI replies इस्तेमाल कर रहा है, लेकिन बाकी members नोटिस नहीं करते और गंभीरता से जवाब देते हैं। यह घिनौना लगता है, और instinctively AI trash content से बचना चाहता हूं। अब आगे क्या है, कहां जाना है, समझ नहीं आता। “human” forums internet के और गहरे corners में चले जाएंगे या लोग offline meetings को ज्यादा prefer करेंगे, इसका अंदाजा नहीं
अगर internet मर जाए और सभी छोटे communities में लौट जाएं, तो मुझे नहीं लगता कि यह इतना बुरा होगा। वैसे भी हम global scale की communication के लिए evolve नहीं हुए थे
ज्यादातर इंसान क्या बोलते हैं, देखा है? अगर AI ज्यादा intelligent बातें करता है, तो मैं इसके पक्ष में हूं
आजकल तो offline समय बिताना बेहतर लगता है। क्या ads, attention-seeking और AI trash content से मुक्त कोई और internet-based शरणस्थली अभी भी बची है?
सभी वीडियो में—इसे बेहतर शब्दों में कहना मुश्किल है—लेकिन तुरंत पहचानी जा सकने वाली generative AI वाली खास चमक है। और सबसे ज़्यादा साफ़ दिखने वाली चीज़ किनारों पर होने वाले सूक्ष्म बदलाव हैं, जो धुंधले artifacts बना देते हैं
यह भी पहले ही दिख चुका है कि जब लोग AI content की उम्मीद नहीं करते, तो वे उसे AI के रूप में बहुत कम पहचानते हैं। अगर मैं सतर्क न होता, तो शायद इन ज़्यादातर वीडियो को 100% असली मान लेता
ऐसे बहुत से reels दिखते हैं जिनमें चोरी किए गए content पर इतना noise जोड़ दिया जाता है कि content detection filters से बचा जा सके। comments में scam sites के links होते हैं और उसे “इस content का IMDB page” बताया जाता है
फिर भी किनारों वाली समस्या अभी भी बड़ी है
लगता है आम consumer images या videos की तुलना करते समय ऐसी विशेषताओं को ज़्यादा पसंद करता है, और quality judge करने के heuristic की तरह इस्तेमाल करता है। पुराने text-to-image generation models और नई पीढ़ी की तुलना करते हुए कुछ comparisons में यह दावा भी किया गया था कि कम छेड़छाड़ वाले पुराने models, नए models की तरह kitschy और अतिरंजित output की ओर उतने झुके हुए नहीं थे
हो सकता है मैं बहुत संकीर्ण नज़रिए से देख रहा हूं, लेकिन आखिर किसने यह चाहा था, और क्या किसी ने आसानी से उपलब्ध AI कचरा generation के नतीजों के बारे में सोचा भी था?
इंटरनेट पर अगर आपको पता न हो कि कहां देखना है, तो अच्छी quality का content ढूंढना पहले ही लगभग असंभव है
मेरे दोनों बच्चे काफ़ी creative हैं, और उन्हें डर है कि AI की वजह से वे creative काम से रोज़ी-रोटी नहीं कमा पाएंगे। लेकिन हाल में मुझे एक अलग विचार भी आया
हमने दशकों तक entertainment technology को बेहतर करने में अरबों, शायद खरबों dollars खर्च किए हैं। अगर AI कल्पना की जा सकने वाली हर तरह की entertainment बना सके, तो शायद हमें ऐसी entertainment boring लगने लगे। तब शायद space exploration, physics और chemistry के ज्ञान का विस्तार, और बीमारियों से लड़ाई कहीं ज़्यादा दिलचस्प लगें। क्योंकि वे असली हैं। इसी नज़रिए से, इंसानों द्वारा बनाई गई art भी असली होने की वजह से ज़्यादा रोचक हो सकती है
AI को लेकर उत्साहित लोग मुख्यतः online ही दिखते हैं, और बेहतर शब्दों के अभाव में कहूं तो वे सचमुच online दुनिया में गहराई से डूबे हुए, और खुद art बनाने की skill, knowledge या ability न रखने वाले लोग लगते हैं। जैसे ही कोई “AI-generated” कहता है, artistic तौर पर मेरी दिलचस्पी तुरंत खत्म हो जाती है। यह Photoshop या digital art tools इस्तेमाल करने जैसा नहीं है। न्यूनतम human intervention को advantage की तरह पेश करना—जैसे ही उसे art के रूप में पेश किया जाता है—मेरे लिए शुरुआत से ही टिकता नहीं। इस technology का utopian vision सच होता है या नहीं, यह देखूंगा, लेकिन नई technology को लेकर हांफती हुई optimism को आखिरकार ad-driven, फीके MBA-स्टाइल कचरे में जमते हुए कई बार देखा है, इसलिए मैं बहुत optimistic नहीं हूं
मैं Twitter पर कई नई AI generation communities follow करता हूं, और इन communities में creative industry के बहुत लोग हैं। advertising industry में काम करने वाले एक व्यक्ति ने हाल ही में एक famous brand shoot की कहानी share की। soundstage, actors, sound, makeup, lighting वगैरह 3 दिनों तक set up रहे, और लगभग 25 लोगों ने 3 दिन काम किया। लेकिन pre-production और post-production मिलाकर पीछे करीब 3 महीने की मेहनत थी। editing, color grading, sound editing, music वगैरह सोचिए। creative बच्चे शायद ऐसी दुनिया में रहेंगे जहां वे मिलते-जुलते results खुद हासिल कर सकेंगे। छोटी team में एक व्यक्ति characters देखे, एक audio, एक script—इस तरह। दसियों हजार dollars के rental equipment और 25 experts के बिना भी, लगन और AI generation tools से दिमाग के ideas को साकार किया जा सकेगा। मुझे सच में भरोसा है कि ये नए tools अभी हम जो सोच पा रहे हैं, उससे कहीं अधिक potential खोलेंगे
AI-generated works, human-generated works के बगल में अपनी जगह पाएंगे। उल्टा, थोड़ी-सी human talent से पैदा होने वाले फर्क को उजागर करके arthouse films और बेहतरीन acting के market को बेहतर भी कर सकते हैं। खतरे में art नहीं, बल्कि grunt work है। जो बदलेगा वह यह है कि लाखों लोगों को employ करने वाली human-made mediocrity का scale, दर्जनों लोगों को employ करने वाली AI-made mediocrity में shift हो जाएगा
यह सचमुच कमाल है। spatial और temporal consistency यकीन से परे है
अपेक्षित नतीजा यह है। Hollywood की सभी scripts अब previsualization films के साथ submit होंगी, comics को animation में बदलने वाला converter आएगा, और कहीं ज़्यादा products के online ads बनाए जाएंगे
उसके बाद देखना होगा कि यह technology stagnate करती है या और ऊपर जाती है
comics को animation में बदलना पहले से मौजूद है। ads, खासकर social/online ads, भी पहले से बन रहे हैं