1 पॉइंट द्वारा GN⁺ 2025-04-17 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Gemini और Whisk के ज़रिए टेक्स्ट-आधारित प्रॉम्प्ट को हाई-रेज़ोल्यूशन 8-सेकंड वीडियो में बदला जा सकता है
  • Veo 2 मॉडल का उपयोग करके यथार्थपूर्ण वीडियो बनाए जा सकते हैं, और यह Google One AI Premium सब्सक्राइबरों के लिए उपलब्ध है
  • Whisk Animate के माध्यम से इमेज को 8-सेकंड की एनिमेशन क्लिप में बदला जा सकता है
  • सुरक्षा के लिए, बनाए गए सभी वीडियो में SynthID डिजिटल वॉटरमार्क शामिल होता है

Gemini में वीडियो बनाने का तरीका

  • Veo 2 एक ऐसा मॉडल है जो हाई-रेज़ोल्यूशन, बारीक वीडियो बना सकता है, और यथार्थपूर्ण भौतिकी तथा मानव गतिविधियों को समझकर जीवंत कैरेक्टर मूवमेंट और वास्तविक दृश्य प्रदान करता है
  • उपयोगकर्ता Gemini में Veo 2 चुनकर 720p रेज़ोल्यूशन की 8-सेकंड वीडियो क्लिप बना सकते हैं
  • दृश्य का वर्णन करने पर Gemini विचारों को वीडियो में बदल देता है, और विवरण जितना अधिक होगा, अंतिम वीडियो पर उतना अधिक नियंत्रण संभव होगा
  • बनाए गए वीडियो को TikTok या YouTube Shorts जैसे प्लेटफ़ॉर्म पर आसानी से साझा किया जा सकता है

Whisk Animate के साथ इमेज में जान डालना

  • Whisk एक Google Labs प्रयोग है, जो टेक्स्ट और इमेज प्रॉम्प्ट का उपयोग करके नए विचारों को विज़ुअलाइज़ करने देता है
  • Whisk Animate के माध्यम से इमेज को जीवंत 8-सेकंड वीडियो में बदला जा सकता है, और यह Google One AI Premium सब्सक्राइबरों के लिए उपलब्ध है

सुरक्षा के लिए दृष्टिकोण

  • वीडियो जनरेशन की सुरक्षा के लिए Veo 2 से बनाए गए सभी वीडियो में SynthID डिजिटल वॉटरमार्क शामिल होता है
  • उपयोगकर्ता फीडबैक के आधार पर लगातार सुधार किए जाएंगे, और नीति-उल्लंघन करने वाली सामग्री के निर्माण को रोकने के लिए मूल्यांकन जारी है

2 टिप्पणियां

 
GN⁺ 2025-04-17
Hacker News राय
  • Whisk कुछ महीने पहले Imagen 3 के डेमो के रूप में चुपचाप लॉन्च हुआ था। हैरानी की बात है कि यह मज़ेदार है और इसका implementation मज़बूत है

    • यह uploaded images को text descriptions में बदलने वाली एक trick का उपयोग करता है
    • यह Imagen 3 के आधुनिक text encoder की ताकत का फायदा उठाता है, जो लंबे रूपांतरित descriptions का पालन कर सकता है
  • मैं Polymarket के उस event में "हाँ" वाले shares खरीदना चाहता हूँ कि 2027 तक एक व्यक्ति द्वारा बनाई गई फिल्म 100 million dollars से ज़्यादा कमाएगी

  • Veo2 में 8 सेकंड के 12 वीडियो बनाने पर GCP credits में 48 dollars खर्च हो गए। सावधानी ज़रूरी है

  • मैंने नहीं सोचा था कि 8 सेकंड के वीडियो बनाना paid API के बाहर संभव होगा

  • मैं इस क्षेत्र में तकनीकी रूप से बहुत दक्ष नहीं हूँ, लेकिन मुझे जिज्ञासा है कि सब कुछ text-to-X क्यों है

    • मुझे लगता है कि क्या ऐसा संभव नहीं है कि एक पारंपरिक keyframe-style editor का उपयोग करते हुए terrain का मोटा sketch बनाया जाए, character photos डाली जाएँ, और 3D splines खींची जाएँ ताकि बारीक creative control मिल सके
  • Ghibli style में विज्ञापन बनाना साहसिक है। मुझे लगा था कि अब तक वह style थक चुका होगा

  • Google Vids भी Veo 2 का उपयोग करता है। products को लेकर भ्रम है

  • content moderation बहुत निराशाजनक है। यह Veo2 और Gemini के आखिरकार असफल होने का मुख्य कारण हो सकता है

    • मैं एक बच्चे के superhero बनकर खेलने का मज़ेदार वीडियो बनाना चाहता हूँ, लेकिन यह बार-बार fail हो जाता है
  • यह सब तकनीकी रूप से चौंकाने वाला है, लेकिन इस क्षेत्र में गंभीर मेहनत करने वाले व्यक्ति के लिए यह एक बड़ी चेतावनी है

    • text-to-anything बहुत थका देने वाला है। नतीजे शानदार हों तब भी कोई भावनात्मक जुड़ाव नहीं होता, क्योंकि वह मैंने नहीं किया
    • 97% मामलों में नतीजा वह नहीं होता जो मैं चाहता हूँ। text में थोड़ा बदलाव करो तो एक और गलत नतीजा आ जाता है
    • यह पूरी प्रक्रिया मेरी wallet, patience और soul को चूस लेती है
    • मुझे समझ नहीं आता कि ये "tools" creators की मदद कैसे करेंगे। अभी तक इन tools से निकलने वाले products बस TikTok/सामान्य इंटरनेट spam companies ही लगते हैं
  • Krita से जुड़ा हुआ और img2img, masking, txt2img को मिलाने वाला Krita-ai-diffusion कलाकारों को सशक्त बनाने के सबसे करीब का tool है

  • एक साल पहले की तुलना में यह बहुत प्रभावशाली release है। अभी ML में सभी बड़ी कंपनियाँ एक-दूसरे से प्रतिस्पर्धा करते हुए तकनीक को आगे बढ़ा रही हैं, जो अच्छी स्थिति है। यह अमेरिका में (या सामान्य रूप से) दुर्लभ बात है