1 पॉइंट द्वारा GN⁺ 2025-10-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Character AI द्वारा विकसित Ovi एक AI मॉडल है जो टेक्स्ट या इमेज इनपुट से एक साथ ऑडियो और वीडियो जनरेट करता है
  • Ovi अपने स्वयं निर्मित 5B-स्केल ऑडियो ब्रांच और Wan2.2-आधारित वीडियो ब्रांच को जोड़कर उच्च-गुणवत्ता वाला सिंक्रोनाइज़्ड ऑडियो-विज़ुअल कंटेंट बनाता है
  • मॉडल को 720×720 रिज़ॉल्यूशन पर ट्रेन किया गया, लेकिन यह 960×960 या उससे अधिक रिज़ॉल्यूशन पर भी प्राकृतिक परिणाम देता है, और 9:16, 16:9 जैसे कई aspect ratio को सपोर्ट करता है
  • Gradio UI, ComfyUI इंटीग्रेशन (WIP), multi-GPU inference, qint8/fp8 quantization जैसी कई रनिंग ऑप्शन और efficiency फीचर उपलब्ध हैं
  • यह प्रोजेक्ट text-to-video generation (T2V) और image-to-video generation (I2V) तकनीक की प्रगति का नया उदाहरण है, और ऑडियो-वीडियो fusion generation के लिए एक नया मानक पेश करता है

Ovi का अवलोकन

  • Ovi Character AI और Yale University के शोधकर्ताओं द्वारा संयुक्त रूप से विकसित एक cross-modal generation model है, जो टेक्स्ट या टेक्स्ट+इमेज इनपुट से सिंक्रोनाइज़्ड ऑडियो और वीडियो को एक साथ जनरेट करता है
    • इसकी मॉडल आर्किटेक्चर को “Twin Backbone Cross-Modal Fusion” कहा गया है, जिसमें ऑडियो और वीडियो ब्रांच को समानांतर रूप से ट्रेन और fuse किया जाता है
    • प्रोजेक्ट लीड Weimin Wang हैं, और सह-योगदानकर्ताओं में Chetwin Low और Calder Katyal शामिल हैं
  • इसे Veo-3 जैसे मॉडल के रूप में पेश किया गया है, और Character AI के आंतरिक ऑडियो डेटासेट का उपयोग करके 5B parameters वाले ऑडियो ब्रांच को शुरुआत से pretrain किया गया
  • जनरेट किया गया वीडियो डिफ़ॉल्ट रूप से 5 सेकंड लंबा, 24FPS, 720×720 रिज़ॉल्यूशन का होता है, और 9:16, 16:9, 1:1 जैसे विभिन्न अनुपातों को सपोर्ट करता है

प्रमुख फीचर और विशेषताएं

  • 🎬 Video+Audio Generation: टेक्स्ट या इमेज इनपुट से एक साथ ऑडियो और वीडियो जनरेट करता है
  • 🎵 High-Quality Audio Branch: बड़े स्व-निर्मित ऑडियो डेटासेट पर ट्रेन किया गया ऑडियो ब्रांच उपलब्ध
  • 📝 Flexible Input: केवल टेक्स्ट और टेक्स्ट+इमेज, दोनों इनपुट सपोर्ट
  • ⏱️ 5 सेकंड वीडियो जनरेशन: 24FPS पर 5 सेकंड का छोटा वीडियो बनाता है
  • 🎯 हाई-रिज़ॉल्यूशन सपोर्ट: 960×960 या उससे अधिक रिज़ॉल्यूशन पर भी प्राकृतिक परिणाम संभव
    • उदाहरण के तौर पर 1280×704, 1504×608, 1344×704 जैसे विभिन्न अनुपातों वाले वीडियो दिए गए हैं
  • 🚀 Upscaling क्षमता: ट्रेनिंग 720×720 पर हुई, लेकिन उच्च रिज़ॉल्यूशन पर भी temporal और spatial consistency बनाए रखता है

उपलब्ध प्लेटफ़ॉर्म और डेमो

ट्रेनिंग और प्रदर्शन

  • ट्रेनिंग रिज़ॉल्यूशन: 720×720
  • inference के समय रिज़ॉल्यूशन विस्तार: 960×960 और कई aspect ratio सपोर्ट
  • temporal consistency बनाए रखना: फ्रेमों के बीच प्राकृतिक ट्रांज़िशन लागू
  • ऑडियो-वीडियो sync गुणवत्ता: audio guidance scale को समायोजित करके synchronization quality नियंत्रित की जा सकती है

रनिंग और कॉन्फ़िगरेशन

  • इंस्टॉलेशन प्रक्रिया
    • PyTorch 2.6.0, Flash Attention, requirements.txt dependencies इंस्टॉल करें
    • download_weights.py से checkpoint डाउनलोड करें (T5, VAE, MMAudio शामिल)
    • यदि GPU VRAM 24GB है तो fp8 या qint8 quantization version इस्तेमाल किया जा सकता है
  • inference कॉन्फ़िग फ़ाइल: ovi/configs/inference/inference_fusion.yaml
    • मुख्य सेटिंग आइटम:
      • num_steps: denoising स्टेप्स की संख्या (30~50)
      • audio_guidance_scale, video_guidance_scale: ऑडियो और वीडियो synchronization की तीव्रता
      • sp_size: sequence parallel size (GPU की संख्या के बराबर सेट करें)
      • cpu_offload: GPU VRAM बचत मोड
      • fp8: 24GB VRAM वातावरण में रन संभव
  • inference रन उदाहरण
    • single GPU: python3 inference.py --config-file ...
    • multi GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

प्रदर्शन और मेमोरी आवश्यकताएं

  • बेस मॉडल चलाने के लिए कम से कम 32GB VRAM आवश्यक, जबकि fp8 मोड में 24GB पर्याप्त है
  • FlashAttention-3 सक्षम करने पर प्रोसेसिंग स्पीड बेहतर होती है
  • sequence parallel processing के साथ 4~8 GPU उपयोग करने पर प्रोसेसिंग समय लगभग 40~55 सेकंड
  • CPU offloading से VRAM बचाई जा सकती है, लेकिन प्रोसेसिंग समय लगभग 20 सेकंड बढ़ जाता है

Gradio UI चलाना

  • सरल कमांड से Gradio-आधारित इंटरफ़ेस चलाया जा सकता है
    • python3 gradio_app.py
    • --cpu_offload, --use_image_gen, --qint8, --fp8 ऑप्शन से विभिन्न वातावरण सपोर्ट
  • I2V मोड में पहला फ्रेम बनाने के लिए इमेज जनरेशन मॉडल स्वतः सक्रिय हो जाता है

प्रॉम्प्ट संरचना और उदाहरण

  • Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
  • Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
  • विशेष टैग का उपयोग
    • ...: speech conversion के लिए टेक्स्ट
    • ...: बैकग्राउंड साउंड और sound effects का विवरण
  • GPT का उपयोग करके प्रॉम्प्ट जनरेशन
    • उदाहरण CSV के आधार पर GPT से किसी विशेष विषय (जैसे “AI और मानव का मुकाबला”) के लिए संवाद संशोधित करने को कहा जा सकता है
    • संशोधित प्रॉम्प्ट को Ovi में डालकर विषय-आधारित वीडियो जनरेट किया जा सकता है

आगे की योजना (Todo List)

  • शोध-पत्र और डेमो वेबसाइट जल्द जारी की जाएगी
  • 11B मॉडल checkpoint और multi-GPU inference code जारी किया जाएगा
  • fp8 weights, sequence parallel efficiency सुधार, FSDP sharded inference लागू किया जाएगा
  • high-resolution data fine-tuning और RL-आधारित प्रदर्शन सुधार पर शोध जारी
  • लंबे वीडियो जनरेशन, reference voice conditioning, और तेज़ inference के लिए distilled model विकसित किए जाएंगे

तकनीकी आभार और सहयोग

  • Wan2.2: वीडियो ब्रांच initialization के लिए उपयोग
  • MMAudio: ऑडियो VAE का पुन: उपयोग
  • योगदानकर्ता: @rkfg (fp8 efficiency), @gluttony-10 (qint8 quantization)
  • सहयोग प्रस्ताव और संपर्क: Weimin Wang से संपर्क किया जा सकता है

उद्धरण जानकारी

  • पेपर: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
  • arXiv: https://arxiv.org/abs/2510.01284
  • BibTeX उपलब्ध, शोध उपयोग के समय citation की सिफारिश

प्रोजेक्ट मेटाडेटा

  • लाइसेंस: Apache-2.0
  • भाषा संरचना: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
  • GitHub आँकड़े: ★955, फोर्क 92, इश्यू 20, PR 2
  • डेवलपर: Character AI टीम, Yale University शोधकर्ता

1 टिप्पणियां

 
GN⁺ 2025-10-24
Hacker News की राय
  • मैं कई महीनों से AI generation tools इस्तेमाल कर रहा हूँ, और यह देखना हैरान करने वाला है कि अलग-अलग टूल कितनी तेजी से एक में integrate हो रहे हैं और अब local machine पर भी चलाए जा सकते हैं
    मैंने पिछले हफ्ते से Ovi इस्तेमाल किया है और यह सच में मज़ेदार है। AI generated output कुछ हद तक slot machine जैसा लगता है, जहाँ अच्छा input देने पर भी नतीजा बेकार आ सकता है, लेकिन कई बार चलाने पर कुछ काम की चीज़ निकल आती है
    मैंने I2V और T2V से काफ़ी असली जैसे दिखने और सुनाई देने वाले वीडियो बनाए। T2V कभी-कभी 90s TV quality जैसा दिखता है, लेकिन उसी वजह से वह और ज़्यादा real लगता है
    अगर image source के लिए Flux SPRO इस्तेमाल करें तो काफ़ी realistic वीडियो मिलते हैं। मेरा GPU 5090 है, इसलिए 5 सेकंड की clip बनाने में लगभग 4–5 मिनट लगते हैं

  • लगता है कि वीडियो मॉडल Wan 2.2 पर आधारित है
    हाल में Wan से जुड़ी activity काफ़ी तेज़ रही है, और OpenAI या Runway जैसे बड़े पूँजी वाले closed models के मुकाबले flexible open models का आना अच्छा लग रहा है

    • VeniceAI द्वारा दिए गए privacy-focused open source video models इसकी मुख्य ताकत हैं। Ovi image→video को support करता है, Wan 2.1 image→video को, और Wan 2.2 text→video को support करता है
      Wan 2.5 भी है, लेकिन उसे official provider के ज़रिए anonymous routing के साथ चलाया जाता है। Kling, Veo, Sora जैसे routed options की तुलना में यह बहुत सस्ता है
    • इससे जुड़ी चर्चा Wan – Open-source alternative to VEO 3 थ्रेड में भी हुई थी
    • और Google भी किसी न किसी तरह इसमें जुड़ा हुआ है
  • मैं पहले Nokia के Ovi में काम करता था। उस समय Ovi, Nokia phones के लिए GSuite जैसी चीज़ थी, और आधिकारिक व्याख्या यह थी कि “Ovi” फ़िनिश में Door होता है, लेकिन अंदरूनी मज़ाक में हम उसे “Hungarian में Kindergarten” कहते थे। इस नए Ovi नाम की उत्पत्ति मैं नहीं ढूँढ पाया

    • मैंने भी Ovi से जुड़े एक प्रोजेक्ट पर काम किया था। Helsinki HQ की शुरुआती meetings में executives को Google को competitor मानकर बात करते सुना था, और वह काफ़ी bold attempt था
      लेकिन brand strategy की कमी और device software policy की विफलता के कारण वह आखिरकार ढह गया। शायद 2013 के आसपास पूरी तरह बंद हो गया। तब तक मैं कंपनी छोड़ चुका था
  • शायद मेरे कान AutoTune से पहले की पीढ़ी के हैं, इसलिए ऑडियो में अब भी पूरी तरह perfect pitch और compression (companding) के निशान महसूस होते हैं
    ख़ास तौर पर यह Invincible series के Machine Head character की आवाज़ जैसा लगता है
    फिर भी कुल मिलाकर यह शानदार काम है

  • प्रोजेक्ट अपने आप में दिलचस्प है, लेकिन generative audiovisual content की practical usefulness को लेकर मैं अभी भी आश्वस्त नहीं हूँ
    फिलहाल इसमें फ़ायदे से ज़्यादा झंझट नज़र आता है

  • जिस रफ़्तार से यह बढ़ रहा है, उससे लगता है कि कुछ महीनों में high-quality short films पूरी तरह generative बन सकती हैं

    • लेकिन उतनी ही संभावना यह भी है कि deepfake के दुरुपयोग से लोगों की ज़िंदगी बर्बाद करने वाले मामले सामने आएँगे
    • हो सकता है कि भविष्य में दोस्त इकट्ठा होकर अपने-अपने prompts लिखें, उन्हें जोड़कर बनी फिल्म साथ बैठकर देखें — एक तरह की prompt party। सिर्फ़ सोचकर ही हँसी आती है
    • फिर भी मुझे लगता है कि short film से पहले feature film आ सकती है, क्योंकि छोटे वीडियो में perfection हासिल करना और मुश्किल होता है
  • मुझे जिज्ञासा हुई कि क्या ये प्रोजेक्ट्स आपस में जुड़े हैं, इसलिए मैंने इस थ्रेड और इस थ्रेड की तुलना की

    • जब भी कोई नया open-weight model आता है, opportunists उसके नाम से domain register करके SEO से पैसा कमाने की कोशिश करते हैं
      आजकल AI coding tools की वजह से ऐसे landing page auto-generation करना बहुत आसान हो गया है
  • I2V के मामले में, अगर आपके पास NVIDIA 4070 या उससे ऊपर का GPU और पर्याप्त VRAM है, तो 440x440 resolution पर 1–2 मिनट में कामचलाऊ draft मिल सकता है
    T2V में quality अभी भी मुख्यतः trained resolution के आसपास ही स्थिर रहती है। फिर भी Wan की known resolutions पर बीच-बीच में अच्छे नतीजे मिल जाते हैं
    CUDA 12.8 या उससे ऊपर, Torch 2.8 या उससे ऊपर, और Flash 2 की जगह SageAttention इस्तेमाल करने पर quality साफ़ तौर पर बेहतर दिखती है

  • यह दिलचस्प प्रगति है, लेकिन CAI जैसी कंपनी के पास इसका पहुँचना निराशाजनक है
    जो AI का इस्तेमाल युवा और अकेले लोगों के ख़िलाफ़ करती है