- Google DeepMind ने Veo 3, Imagen 4 और Flow पेश किए, जिससे वीडियो·इमेज·फिल्म निर्माण टूल्स का दायरा क्रांतिकारी रूप से बढ़ा है
- Veo 3 में ऑडियो सहित वीडियो जनरेशन, वास्तविक भौतिकी का प्रतिबिंब, लिप सिंक जैसी क्षमताएँ हैं
- Imagen 4 बेहद सूक्ष्म डिटेल, और बेहतर टाइपोग्राफी प्रोसेसिंग के साथ आउटपुट तैयार करने में फायदेमंद है
- Flow एक नया क्रिएटिव टूल है जो कई मॉडलों को एकीकृत करके प्राकृतिक भाषा आधारित फिल्म निर्माण संभव बनाता है
- सभी जनरेटेड कंटेंट में SynthID watermark डाला जाता है, और इसके साथ detection tool भी जारी किया गया है ताकि पारदर्शिता बढ़े
नए generative media models और tools के साथ अपनी रचनात्मकता को साकार करें
- Google ने अपने नवीनतम generative media models Veo 3, Imagen 4, और नए फिल्म निर्माण टूल Flow की घोषणा की
- ये मॉडल इमेज, वीडियो और संगीत जनरेट करते हैं और क्रिएटर्स को उनकी कल्पना की दुनिया साकार करने में मदद करते हैं
- Google DeepMind ने वीडियो निर्माताओं, संगीतकारों और कलाकारों के साथ मिलकर इन टूल्स को सह-डिज़ाइन किया है और जिम्मेदार AI उपयोग पर ज़ोर दिया है
Veo 3: ऑडियो सहित उन्नत वीडियो जनरेशन
- Veo 3, Veo 2 की तुलना में बेहतर गुणवत्ता वाले वीडियो जनरेट करता है, और पहली बार बैकग्राउंड साउंड, डायलॉग आदि के साथ वीडियो जनरेशन संभव बनाता है
- टेक्स्ट या इमेज आधारित prompts के माध्यम से वास्तविक भौतिकी पर आधारित वीडियो बनाए जा सकते हैं और लिप सिंक भी सटीक है
- यह Gemini app, Flow और Vertex AI के जरिए अमेरिका में Ultra प्लान उपयोगकर्ताओं को उपलब्ध है
Veo 2: क्रिएटर फीडबैक पर आधारित नए फीचर्स
-
Veo 2 में क्रिएटर्स के फीडबैक के आधार पर निम्नलिखित फीचर्स जोड़े गए हैं:
- रेफरेंस आधारित वीडियो जनरेशन: कैरेक्टर, स्टाइल, ऑब्जेक्ट आदि को इमेज के रूप में इनपुट देकर एकसमान वीडियो जनरेट किए जा सकते हैं
- कैमरा कंट्रोल: rotation, zoom, dolly जैसी कैमरा मूवमेंट सेट की जा सकती हैं
- Outpainting: फ्रेम विस्तार के जरिए vertical से horizontal में बदलाव और दृश्य का स्वाभाविक विस्तार संभव है
- ऑब्जेक्ट जोड़ना और हटाना: ऑब्जेक्ट के आकार, shadow और interaction तक को ध्यान में रखकर स्वाभाविक एडिटिंग संभव है
-
ये फीचर्स Flow में उपलब्ध हैं, और Vertex AI API में इन्हें क्रमशः लागू किया जाएगा
Flow: Veo के लिए अनुकूलित AI फिल्म निर्माण टूल
- Flow, Veo, Imagen, Gemini को एकीकृत करके प्राकृतिक भाषा के आधार पर scenes, characters, styles आदि सेट करने और उन्हें वीडियो के रूप में साकार करने की सुविधा देता है
- यह अमेरिका में AI Pro और Ultra प्लान उपयोगकर्ताओं को उपलब्ध है, और धीरे-धीरे अन्य देशों में भी विस्तारित किया जाएगा
Imagen 4: बेहतर resolution, detail और typography
- Imagen 4 सूक्ष्म texture depiction, photorealistic और abstract styles का समर्थन, और 2K resolution output प्रदान करता है
- typography क्षमता भी बेहतर हुई है, जिससे cards, posters, comics बनाना अधिक आसान होता है
- यह Gemini app, Vertex AI, Slides, Docs, Whisk आदि में उपलब्ध है, और इसका 10 गुना तक तेज़ वर्जन भी जल्द जारी होगा
Lyria 2: इंटरैक्टिव संगीत जनरेशन
- यह संगीतकारों के लिए Music AI Sandbox में शामिल मॉडल है, जो रचनात्मक प्रयोगों को समर्थन देता है और नए संगीत की खोज संभव बनाता है
- यह YouTube Shorts, Vertex AI, MusicFX DJ आदि में उपलब्ध है, और API तथा AI Studio के माध्यम से real-time interaction भी प्रदान करता है
SynthID के साथ AI-generated कंटेंट की पहचान संभव
- 2023 से शुरू हुए SynthID ने इमेज, वीडियो, ऑडियो, टेक्स्ट सहित 10 अरब से अधिक AI-generated कंटेंट में watermark डाला है
- नए जारी किए गए SynthID Detector के जरिए उपयोगकर्ता भी यह पहचान सकते हैं कि कंटेंट जनरेटेड है या नहीं
- Google यह सुनिश्चित करने के लिए जिम्मेदार टूल डिज़ाइन और खुले सहयोग को जारी रखे हुए है कि generative AI का उपयोग रचनात्मकता में सहायता के लिए हो
1 टिप्पणियां
Hacker News राय
खुद टेस्ट करके देखा तो Imagen 4 की परफ़ॉर्मेंस Imagen 3 की तुलना में बहुत ज़्यादा बेहतर नहीं लगी, और prompt accuracy लगभग 60% के आसपास महसूस हुई
मुझे यह सवाल है कि यह टेस्ट “मॉडल सही कर सकता है या नहीं” को माप रहा है, या “वह कितनी बार सही करता है” को
मुझे लगता है कि success rate या success-rate threshold तय करके, और trials की संख्या fix करके मापना ज़्यादा उचित होगा
इस तरह के नतीजे मौजूदा मॉडलों की सीमाएँ समझने के लिए एक दिलचस्प resource लगते हैं
Gemini में कौन-सा मॉडल इस्तेमाल हो रहा है यह बताया नहीं जाता, इसलिए Vertex AI इस्तेमाल हो रहा है या नहीं, यह भी सवाल है
अब ऐसा लगने लगा है कि professional tools, open source versions से काफ़ी आगे निकल रहे हैं
wan या hunyuan जैसे free models भी बेहतरीन हैं, लेकिन Google या Runway के latest outputs एक स्तर ऊपर महसूस होते हैं
खासकर editing tools — motion, direction, cuts, audio insertion जैसी capabilities — सिर्फ generation quality से भी बड़ा differentiator बन रही हैं
माहौल ऐसा है कि बड़ी कंपनियाँ साफ़ तौर पर ad agencies/Hollywood सेक्टर को target कर रही हैं
लगता है कि ये tools उम्मीद से भी जल्दी industry standard बन सकते हैं
अभी भी एक-दो generation का और improvement चाहिए, लेकिन outputs बहुत प्रभावशाली हैं
local generation में platform के overly strict content moderation से भी बचा जा सकता है
comfy UI beginners के लिए मुश्किल है, लेकिन बहुत कम नियंत्रण वाले closed tools की बजाय छोटे YouTube channels और small productions में अभी भी open source tools काफ़ी चुने जाएँगे, ऐसा लगता है
तब उसका मतलब होगा कि किसी भी quality पर कुछ भी coding करना संभव हो जाएगा
Hunyuan Image 2.0 घोषित हो चुका है और text-to-image/image-to-image की quality और speed बहुत प्रभावशाली हैं
उन्होंने एक real-time 2D drawing canvas app बनाया है जो लगभग Krea की सारी functionality दे देता है
अफ़सोस यह है कि इस बार यह closed source है
Hunyuan 3D 2.0 भी अच्छा था, लेकिन 3D 2.5 अभी तक जारी नहीं हुआ
Hunyuan Video में Wan की तुलना में प्रगति नहीं दिखती, लेकिन Wan हाल में VACE नाम के multimodal/editing layer की वजह से ध्यान खींच रहा है
Comfy community भी VACE और Wan के साथ शानदार results बना रही है
कम बजट की indie फ़िल्में, भले direction और acting में कमज़ोर हों, फिर भी दर्शकों को immersion, हँसी और भावनात्मक असर दे पाती हैं क्योंकि उनमें कुल मिलाकर quality consistency बनी रहती है
इसके उलट AI video content में हर clip अपने-आप में polished हो सकता है, लेकिन कई clips को जोड़कर एक ही काम में immersion बनाए रखना अभी भी कठिन है
intro या audio के सहारे story की 'red thread (सुसंगत आकर्षण)' बनाए रखने वाले content में AI video काम कर सकता है, लेकिन अभी Hollywood को घबराने की ज़रूरत नहीं है, ऐसा आकलन
film grain जैसे तत्वों और 24p format के अब भी artistic choice बने रहने की वजह का भी उल्लेख
वह 1.8 लाख subscribers वाला AI video आधारित cinematic universe बना रहा है और शो काफ़ी दिलचस्प है
“कई AI video clips को जोड़कर immersive बनाना अभी बहुत दूर की बात है” — यह दावा अब वास्तविकता में टूट चुका है, ऐसा तर्क
AI-native video मौजूदा Hollywood 3-act structure से बहुत अलग हो सकता है, लेकिन अगर दर्शक उधर चले गए, तो Hollywood भी अंततः उसी रास्ते पर जाएगा — ऐसा दृष्टिकोण
असली समस्या content quality नहीं बल्कि distribution power है, और Google जैसे दुनिया के सबसे बड़े cultural distributors कला-जगत की असली पीड़ा को नज़रअंदाज़ करके कहीं और ताकत लगा रहे हैं — ऐसी आलोचना
अब हम शायद उस मोड़ पर पहुँच चुके हैं जहाँ लगभग हर किसी ने कम-से-कम एक AI-generated video देखकर उसे सच मान लिया होगा
बहुत obvious उदाहरण पहचानना आसान है, लेकिन बार-बार देखने के साथ AI video धीरे-धीरे और स्वाभाविक रूप से हमारी दुनिया में घुलता जा रहा है
Google, Darren Aronofsky के AI studio Primordial Soup के साथ collaboration कर रहा है
SAG-AFTRA strike के दौरान Hollywood में AI के इस्तेमाल पर रोक की बात हुई थी, तो यह जिज्ञासा है कि इस नए studio पर उसका असर क्यों नहीं पड़ा
इसलिए वह union actors को hire नहीं कर सकती, लेकिन कंपनी के स्वभाव को देखते हुए यह शायद बड़ी समस्या नहीं है
इस काम का technical level चौंकाने वाला है; audio और video का sync वाकई बेहतरीन है, और dialogue भी अलग voice model जितना अच्छा लग रहा है
owl video और old-man video में थोड़ा uncanny valley महसूस हुआ, और origami video में कुछ हद तक धमकी भरा और आक्रामक एहसास आया
पहले ऐसा uncanny video बनाने के लिए विशाल dev team, artists, supercomputer clusters और लंबे rendering time की ज़रूरत होती थी, अब बड़े clusters और inference time काफ़ी हैं
इस अद्भुत तकनीक के लिए dev team की दिल से सराहना
साथ ही निराशा भी काफ़ी है
उम्मीद है AI गैर-रचनात्मक कामों को ज़्यादा automate करे, और creators AI content की बाढ़ में दब न जाएँ
अभी AI accuracy लगभग 80% है, लेकिन बाकी 20% भरना ही असली कठिन यात्रा है
जैसे तेज़ विमान (तकनीक) से पहुँच जाने पर भी आख़िरी कदम (completeness) ट्रैफ़िक जाम जैसी बाधाओं में फँस जाता है
आगे AI जो नई रचनात्मक संभावनाएँ खोलेगा, उसका इंतज़ार है
संगीत भी ऐसा ही था; recording technology से पहले सिर्फ live performance ही असली था
हो सकता है कि digital era, art history के नज़रिए से एक असामान्य दौर हो
उल्टा, दर्जनों घंटे लगाकर हाथ से model बनाना और rigging करना ही शायद ज़्यादा non-creative labor है — ऐसा दृष्टिकोण
यह तर्क दिलचस्प लगा कि AI models creativity पैदा करते हैं और artists को अपनी creative vision साकार करने में मदद करते हैं
इस नए युग में भूमिका ‘कुछ बनाना’ से बदलकर ‘उसे निकलवाना’ जैसी हो रही है
text-prompt आधारित creation क्या सच में ‘vision’ है, क्या ‘process’ के बिना भी कला का रास्ता बचता है — ऐसे सवाल रचनात्मकता के मूल स्वभाव पर सोचने को मजबूर करते हैं
ऐसा लगता है कि creation की अवधारणा खुद धीरे-धीरे फिर से परिभाषित हो रही है
उनके लिए यह बहुत सुविधाजनक पुनर्परिभाषा है
कला का सार, output, process और इनके बीच का रिश्ता — इन पर अंतहीन चर्चा भी कम पड़ेगी
इसे data structure के pointer और actual data को गड़बड़ करने जैसी एक दिलचस्प उपमा दी गई
जिस तरह software engineer source code के ज़रिए vision को साकार करता है, वैसे ही creative fields भी बदलेंगी — ऐसा अनुमान
(digital music/TV/digital art)
पुरानी शैली को high art मानने वाले केवल कुछ लोग ही बचे — ऐसा विश्लेषण
जिज्ञासा है कि क्या किसी ने वास्तव में Veo3 इस्तेमाल किया है
demo videos प्रभावशाली हैं, लेकिन Sora के साथ निजी अनुभव काफ़ी frustrating रहा था और hit/miss बहुत ज़्यादा थे