2 पॉइंट द्वारा GN⁺ 2025-05-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Google DeepMind ने Veo 3, Imagen 4 और Flow पेश किए, जिससे वीडियो·इमेज·फिल्म निर्माण टूल्स का दायरा क्रांतिकारी रूप से बढ़ा है
  • Veo 3 में ऑडियो सहित वीडियो जनरेशन, वास्तविक भौतिकी का प्रतिबिंब, लिप सिंक जैसी क्षमताएँ हैं
  • Imagen 4 बेहद सूक्ष्म डिटेल, और बेहतर टाइपोग्राफी प्रोसेसिंग के साथ आउटपुट तैयार करने में फायदेमंद है
  • Flow एक नया क्रिएटिव टूल है जो कई मॉडलों को एकीकृत करके प्राकृतिक भाषा आधारित फिल्म निर्माण संभव बनाता है
  • सभी जनरेटेड कंटेंट में SynthID watermark डाला जाता है, और इसके साथ detection tool भी जारी किया गया है ताकि पारदर्शिता बढ़े

नए generative media models और tools के साथ अपनी रचनात्मकता को साकार करें

  • Google ने अपने नवीनतम generative media models Veo 3, Imagen 4, और नए फिल्म निर्माण टूल Flow की घोषणा की
  • ये मॉडल इमेज, वीडियो और संगीत जनरेट करते हैं और क्रिएटर्स को उनकी कल्पना की दुनिया साकार करने में मदद करते हैं
  • Google DeepMind ने वीडियो निर्माताओं, संगीतकारों और कलाकारों के साथ मिलकर इन टूल्स को सह-डिज़ाइन किया है और जिम्मेदार AI उपयोग पर ज़ोर दिया है

Veo 3: ऑडियो सहित उन्नत वीडियो जनरेशन

  • Veo 3, Veo 2 की तुलना में बेहतर गुणवत्ता वाले वीडियो जनरेट करता है, और पहली बार बैकग्राउंड साउंड, डायलॉग आदि के साथ वीडियो जनरेशन संभव बनाता है
  • टेक्स्ट या इमेज आधारित prompts के माध्यम से वास्तविक भौतिकी पर आधारित वीडियो बनाए जा सकते हैं और लिप सिंक भी सटीक है
  • यह Gemini app, Flow और Vertex AI के जरिए अमेरिका में Ultra प्लान उपयोगकर्ताओं को उपलब्ध है

Veo 2: क्रिएटर फीडबैक पर आधारित नए फीचर्स

  • Veo 2 में क्रिएटर्स के फीडबैक के आधार पर निम्नलिखित फीचर्स जोड़े गए हैं:

    • रेफरेंस आधारित वीडियो जनरेशन: कैरेक्टर, स्टाइल, ऑब्जेक्ट आदि को इमेज के रूप में इनपुट देकर एकसमान वीडियो जनरेट किए जा सकते हैं
    • कैमरा कंट्रोल: rotation, zoom, dolly जैसी कैमरा मूवमेंट सेट की जा सकती हैं
    • Outpainting: फ्रेम विस्तार के जरिए vertical से horizontal में बदलाव और दृश्य का स्वाभाविक विस्तार संभव है
    • ऑब्जेक्ट जोड़ना और हटाना: ऑब्जेक्ट के आकार, shadow और interaction तक को ध्यान में रखकर स्वाभाविक एडिटिंग संभव है
  • ये फीचर्स Flow में उपलब्ध हैं, और Vertex AI API में इन्हें क्रमशः लागू किया जाएगा

Flow: Veo के लिए अनुकूलित AI फिल्म निर्माण टूल

  • Flow, Veo, Imagen, Gemini को एकीकृत करके प्राकृतिक भाषा के आधार पर scenes, characters, styles आदि सेट करने और उन्हें वीडियो के रूप में साकार करने की सुविधा देता है
  • यह अमेरिका में AI Pro और Ultra प्लान उपयोगकर्ताओं को उपलब्ध है, और धीरे-धीरे अन्य देशों में भी विस्तारित किया जाएगा

Imagen 4: बेहतर resolution, detail और typography

  • Imagen 4 सूक्ष्म texture depiction, photorealistic और abstract styles का समर्थन, और 2K resolution output प्रदान करता है
  • typography क्षमता भी बेहतर हुई है, जिससे cards, posters, comics बनाना अधिक आसान होता है
  • यह Gemini app, Vertex AI, Slides, Docs, Whisk आदि में उपलब्ध है, और इसका 10 गुना तक तेज़ वर्जन भी जल्द जारी होगा

Lyria 2: इंटरैक्टिव संगीत जनरेशन

  • यह संगीतकारों के लिए Music AI Sandbox में शामिल मॉडल है, जो रचनात्मक प्रयोगों को समर्थन देता है और नए संगीत की खोज संभव बनाता है
  • यह YouTube Shorts, Vertex AI, MusicFX DJ आदि में उपलब्ध है, और API तथा AI Studio के माध्यम से real-time interaction भी प्रदान करता है

SynthID के साथ AI-generated कंटेंट की पहचान संभव

  • 2023 से शुरू हुए SynthID ने इमेज, वीडियो, ऑडियो, टेक्स्ट सहित 10 अरब से अधिक AI-generated कंटेंट में watermark डाला है
  • नए जारी किए गए SynthID Detector के जरिए उपयोगकर्ता भी यह पहचान सकते हैं कि कंटेंट जनरेटेड है या नहीं
  • Google यह सुनिश्चित करने के लिए जिम्मेदार टूल डिज़ाइन और खुले सहयोग को जारी रखे हुए है कि generative AI का उपयोग रचनात्मकता में सहायता के लिए हो

1 टिप्पणियां

 
GN⁺ 2025-05-21
Hacker News राय
  • खुद टेस्ट करके देखा तो Imagen 4 की परफ़ॉर्मेंस Imagen 3 की तुलना में बहुत ज़्यादा बेहतर नहीं लगी, और prompt accuracy लगभग 60% के आसपास महसूस हुई

    • यह जिज्ञासा हुई कि जो मॉडल सफल हुआ उसके लिए केवल एक बार कोशिश क्यों की जाती है, जबकि असफल मॉडल के लिए कई बार दोहराया जाता है
      मुझे यह सवाल है कि यह टेस्ट “मॉडल सही कर सकता है या नहीं” को माप रहा है, या “वह कितनी बार सही करता है” को
      मुझे लगता है कि success rate या success-rate threshold तय करके, और trials की संख्या fix करके मापना ज़्यादा उचित होगा
    • "The Yarrctic Circle" में OpenAI 4o जीत गया, लेकिन उसमें cutlass पकड़ा नहीं गया था, दृश्य सुंदर होने के बावजूद perspective समझ से बाहर था, और anatomy के हिसाब से पैर वास्तव में 150% लंबे हो गए थे — यानी बुनियादी स्तर पर चीज़ें पूरी तरह गलत थीं
      इस तरह के नतीजे मौजूदा मॉडलों की सीमाएँ समझने के लिए एक दिलचस्प resource लगते हैं
    • "Not the Bees" विजेता एंट्री में हाथ ड्राइवर से बिल्कुल अलग दिख रहे थे, इसलिए इसे ठीक से pass हुआ मानना मुश्किल है
    • यह कैसे verify किया जाता है कि वास्तव में Imagen 4 इस्तेमाल हो रहा है या Imagen 3, यह जानने की जिज्ञासा है
      Gemini में कौन-सा मॉडल इस्तेमाल हो रहा है यह बताया नहीं जाता, इसलिए Vertex AI इस्तेमाल हो रहा है या नहीं, यह भी सवाल है
    • ज़्यादा कठिन उदाहरण देकर test benchmark को और मुश्किल बनाने का सुझाव
      • पूरी तरह भरा हुआ wine glass
      • घड़ी की सुइयाँ 10 और 2 पर हों (यानी V न दिखाने वाली घड़ी)
      • 9-step IKEA shelf assembly diagram
      • हर तरह की gymnastics या acrobatics वगैरह
  • अब ऐसा लगने लगा है कि professional tools, open source versions से काफ़ी आगे निकल रहे हैं
    wan या hunyuan जैसे free models भी बेहतरीन हैं, लेकिन Google या Runway के latest outputs एक स्तर ऊपर महसूस होते हैं
    खासकर editing tools — motion, direction, cuts, audio insertion जैसी capabilities — सिर्फ generation quality से भी बड़ा differentiator बन रही हैं
    माहौल ऐसा है कि बड़ी कंपनियाँ साफ़ तौर पर ad agencies/Hollywood सेक्टर को target कर रही हैं
    लगता है कि ये tools उम्मीद से भी जल्दी industry standard बन सकते हैं
    अभी भी एक-दो generation का और improvement चाहिए, लेकिन outputs बहुत प्रभावशाली हैं

    • open source भले convenience में पीछे हो, लेकिन professional environment में custom lora, control net जैसी सुविधाओं से generation process के बीच में मनचाहे elements जोड़ पाना एक बड़ा advantage है
      local generation में platform के overly strict content moderation से भी बचा जा सकता है
      comfy UI beginners के लिए मुश्किल है, लेकिन बहुत कम नियंत्रण वाले closed tools की बजाय छोटे YouTube channels और small productions में अभी भी open source tools काफ़ी चुने जाएँगे, ऐसा लगता है
    • GAI का असली अस्तित्व तभी साबित होगा जब quality gap गायब हो जाएगा
      तब उसका मतलब होगा कि किसी भी quality पर कुछ भी coding करना संभव हो जाएगा
    • agency/Hollywood targeting का असली लक्ष्य विज्ञापन क्षेत्र है, ऐसा मत
    • Tencent Hunyuan टीम की प्रगति का विश्लेषण
      Hunyuan Image 2.0 घोषित हो चुका है और text-to-image/image-to-image की quality और speed बहुत प्रभावशाली हैं
      उन्होंने एक real-time 2D drawing canvas app बनाया है जो लगभग Krea की सारी functionality दे देता है
      अफ़सोस यह है कि इस बार यह closed source है
      Hunyuan 3D 2.0 भी अच्छा था, लेकिन 3D 2.5 अभी तक जारी नहीं हुआ
      Hunyuan Video में Wan की तुलना में प्रगति नहीं दिखती, लेकिन Wan हाल में VACE नाम के multimodal/editing layer की वजह से ध्यान खींच रहा है
      Comfy community भी VACE और Wan के साथ शानदार results बना रही है
  • कम बजट की indie फ़िल्में, भले direction और acting में कमज़ोर हों, फिर भी दर्शकों को immersion, हँसी और भावनात्मक असर दे पाती हैं क्योंकि उनमें कुल मिलाकर quality consistency बनी रहती है
    इसके उलट AI video content में हर clip अपने-आप में polished हो सकता है, लेकिन कई clips को जोड़कर एक ही काम में immersion बनाए रखना अभी भी कठिन है
    intro या audio के सहारे story की 'red thread (सुसंगत आकर्षण)' बनाए रखने वाले content में AI video काम कर सकता है, लेकिन अभी Hollywood को घबराने की ज़रूरत नहीं है, ऐसा आकलन
    film grain जैसे तत्वों और 24p format के अब भी artistic choice बने रहने की वजह का भी उल्लेख

    • NeuralViz YouTube channel की सिफ़ारिश
      वह 1.8 लाख subscribers वाला AI video आधारित cinematic universe बना रहा है और शो काफ़ी दिलचस्प है
      “कई AI video clips को जोड़कर immersive बनाना अभी बहुत दूर की बात है” — यह दावा अब वास्तविकता में टूट चुका है, ऐसा तर्क
    • Hollywood पर AI video content का असर वैसा हो सकता है जैसा painting पर photography का हुआ था
      AI-native video मौजूदा Hollywood 3-act structure से बहुत अलग हो सकता है, लेकिन अगर दर्शक उधर चले गए, तो Hollywood भी अंततः उसी रास्ते पर जाएगा — ऐसा दृष्टिकोण
    • देखने लायक अच्छे content की कमी पहले से नहीं है
      असली समस्या content quality नहीं बल्कि distribution power है, और Google जैसे दुनिया के सबसे बड़े cultural distributors कला-जगत की असली पीड़ा को नज़रअंदाज़ करके कहीं और ताकत लगा रहे हैं — ऐसी आलोचना
  • अब हम शायद उस मोड़ पर पहुँच चुके हैं जहाँ लगभग हर किसी ने कम-से-कम एक AI-generated video देखकर उसे सच मान लिया होगा
    बहुत obvious उदाहरण पहचानना आसान है, लेकिन बार-बार देखने के साथ AI video धीरे-धीरे और स्वाभाविक रूप से हमारी दुनिया में घुलता जा रहा है

  • Google, Darren Aronofsky के AI studio Primordial Soup के साथ collaboration कर रहा है
    SAG-AFTRA strike के दौरान Hollywood में AI के इस्तेमाल पर रोक की बात हुई थी, तो यह जिज्ञासा है कि इस नए studio पर उसका असर क्यों नहीं पड़ा

    • क्योंकि Primordial Soup union से जुड़ी कंपनी नहीं है, इसलिए वह strike agreement से बंधी नहीं है
      इसलिए वह union actors को hire नहीं कर सकती, लेकिन कंपनी के स्वभाव को देखते हुए यह शायद बड़ी समस्या नहीं है
  • इस काम का technical level चौंकाने वाला है; audio और video का sync वाकई बेहतरीन है, और dialogue भी अलग voice model जितना अच्छा लग रहा है

  • owl video और old-man video में थोड़ा uncanny valley महसूस हुआ, और origami video में कुछ हद तक धमकी भरा और आक्रामक एहसास आया

    • पिछले 20 सालों में भारी प्रगति हुई है
      पहले ऐसा uncanny video बनाने के लिए विशाल dev team, artists, supercomputer clusters और लंबे rendering time की ज़रूरत होती थी, अब बड़े clusters और inference time काफ़ी हैं
    • पेज के नीचे knitted character version कहीं बेहतर लगा; यानी reality से थोड़ा हटते ही uncanny valley से बचना आसान हो जाता है — ऐसा insight
    • owl video में AI images वाली परिचित “gloss” थी, जबकि old-man video बहुत प्रभावशाली लगा
    • origami में video से ज़्यादा audio वास्तविक लगा; जैसे हर कोई उसमें अपनी ही छवि देख रहा हो
  • इस अद्भुत तकनीक के लिए dev team की दिल से सराहना
    साथ ही निराशा भी काफ़ी है
    उम्मीद है AI गैर-रचनात्मक कामों को ज़्यादा automate करे, और creators AI content की बाढ़ में दब न जाएँ

    • non-creative tasks का automation भी आएगा, लेकिन उसके लिए ज़्यादा accuracy चाहिए, इसलिए वह ज़्यादा कठिन है और ज़्यादा समय लेगा
      अभी AI accuracy लगभग 80% है, लेकिन बाकी 20% भरना ही असली कठिन यात्रा है
      जैसे तेज़ विमान (तकनीक) से पहुँच जाने पर भी आख़िरी कदम (completeness) ट्रैफ़िक जाम जैसी बाधाओं में फँस जाता है
    • ऐसी बातों पर बहुत gatekeeping दिखती है, लेकिन AI की वजह से ज़्यादा लोग creation तक पहुँच पाएँगे — यह सकारात्मक पक्ष है
      आगे AI जो नई रचनात्मक संभावनाएँ खोलेगा, उसका इंतज़ार है
    • एक राय यह भी कि non-creative work के लिए data, दूसरों की सहमति के बिना इकट्ठा करना ज़्यादा मुश्किल है
    • पहले कला-कृतियाँ, खासकर digital art, इतनी आसानी से distribute नहीं होती थीं
      संगीत भी ऐसा ही था; recording technology से पहले सिर्फ live performance ही असली था
      हो सकता है कि digital era, art history के नज़रिए से एक असामान्य दौर हो
    • कहा जाता है कि “AI creators को AI-made outputs के ढेर में दबा देगा”, लेकिन AI में prompt को बारीकी से डालना भी एक रचनात्मक काम है
      उल्टा, दर्जनों घंटे लगाकर हाथ से model बनाना और rigging करना ही शायद ज़्यादा non-creative labor है — ऐसा दृष्टिकोण
  • यह तर्क दिलचस्प लगा कि AI models creativity पैदा करते हैं और artists को अपनी creative vision साकार करने में मदद करते हैं
    इस नए युग में भूमिका ‘कुछ बनाना’ से बदलकर ‘उसे निकलवाना’ जैसी हो रही है
    text-prompt आधारित creation क्या सच में ‘vision’ है, क्या ‘process’ के बिना भी कला का रास्ता बचता है — ऐसे सवाल रचनात्मकता के मूल स्वभाव पर सोचने को मजबूर करते हैं
    ऐसा लगता है कि creation की अवधारणा खुद धीरे-धीरे फिर से परिभाषित हो रही है

    • इस पुनर्परिभाषा के दौरान 2-3 बड़े platforms production means पर कब्ज़ा जमा लेंगे — ऐसी आलोचना
      उनके लिए यह बहुत सुविधाजनक पुनर्परिभाषा है
    • अगर यह मानना है कि creative vision एक ही prompt में condensed हो सकती है, तो यह imagination की सीमित समझ है
      कला का सार, output, process और इनके बीच का रिश्ता — इन पर अंतहीन चर्चा भी कम पड़ेगी
      इसे data structure के pointer और actual data को गड़बड़ करने जैसी एक दिलचस्प उपमा दी गई
    • text prompt बहुत छोटा होता है, लेकिन जैसे-जैसे prompt-following बेहतर होगी, बदलाव बड़े होंगे
      जिस तरह software engineer source code के ज़रिए vision को साकार करता है, वैसे ही creative fields भी बदलेंगी — ऐसा अनुमान
    • LLM कंपनियों की रणनीति यह है कि लोग उनकी services पर निर्भर हो जाएँ, ताकि हर आर्थिक गतिविधि में वे बीच का हिस्सा ले सकें — ऐसी राय
    • opera/theatre/handmade arts भी इसी तरह की प्रक्रिया से गुज़रे, और अंततः लोग ज़्यादा आसान और consumption-friendly चीज़ों की ओर चले गए
      (digital music/TV/digital art)
      पुरानी शैली को high art मानने वाले केवल कुछ लोग ही बचे — ऐसा विश्लेषण
  • जिज्ञासा है कि क्या किसी ने वास्तव में Veo3 इस्तेमाल किया है
    demo videos प्रभावशाली हैं, लेकिन Sora के साथ निजी अनुभव काफ़ी frustrating रहा था और hit/miss बहुत ज़्यादा थे