1 पॉइंट द्वारा GN⁺ 2023-07-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • SoundStorm कुशल और non-autoregressive ऑडियो जनरेशन के लिए एक मॉडल है.
  • यह मॉडल ऑडियो टोकन जनरेट करने के लिए bidirectional attention और confidence-based parallel decoding का उपयोग करता है.
  • अन्य approaches की तुलना में, SoundStorm समान ऑडियो quality और consistency बनाए रखते हुए 100 गुना तेज़ है.
  • TPU-v4 पर SoundStorm केवल 0.5 सेकंड में 30 सेकंड का ऑडियो जनरेट कर सकता है.
  • यह मॉडल बोले गए कंटेंट, speaker voice, और speaker turn-taking को नियंत्रित करके उच्च-गुणवत्ता वाले प्राकृतिक संवाद synthesize कर सकता है.
  • SoundStorm voice prompt के साथ semantic tokens पर आधारित ऑडियो जनरेट कर सकता है.
  • यह मॉडल voice prompt से speaker की voice को बनाए रखते हुए high-fidelity ऑडियो जनरेट करता है.
  • SoundStorm अन्य मॉडलों की तुलना में अधिक उच्च-गुणवत्ता वाला ऑडियो जनरेट करता है.
  • यह मॉडल training data के bias से प्रभावित हो सकता है, इसलिए दुरुपयोग को रोकने के लिए सावधानी आवश्यक है.
  • SoundStorm को एक dedicated classifier द्वारा detect किया जा सकता है, जिससे दुरुपयोग का जोखिम कम होता है.
  • यह मॉडल ऑडियो जनरेशन रिसर्च को व्यापक समुदाय के लिए अधिक सुलभ बनाने हेतु विकसित किया गया है.

1 टिप्पणियां

 
GN⁺ 2023-07-18
Hacker News राय
  • CGI इंडस्ट्री ने यथार्थवादी विज़ुअल और ऑडियो बनाने में काफ़ी प्रगति की है।
  • speech synthesis तकनीक उस माइलस्टोन तक पहुँच गई है जहाँ मशीनें इंसानों से अलग न पहचानी जाने वाली आवाज़ें निकाल सकती हैं।
  • पहले TTS तकनीक कभी-कभी ख़राब सुनाई देती थी, लेकिन अब high-quality विकल्प उपलब्ध हैं।
  • लेखक सोचता है कि यह तकनीक Raspberry Pi जैसे डिवाइसों पर कब सुलभ होगी।
  • Bing और Bard उन्नत voice तकनीक का उपयोग करते हैं, लेकिन इच्छा है कि ये प्रगति public API और user interface के ज़रिए उपलब्ध हो।
  • तकनीकी प्रगति से पैदा होने वाले नए काम अक्सर कम वेतन वाले और कम प्रतिष्ठित होते हैं।
  • SoundStorm को ऐसे transcript का उपयोग करके बातचीत जनरेट करने के लिए train किया गया था, जिसमें voice change दिखाने के लिए '|' चिह्न होता है।
  • Bark मॉडल भी बातचीत जनरेट करता है, लेकिन कभी-कभी voice change छूट जाता है।
  • सिर्फ़ 3 सेकंड के source material से 30 सेकंड का TTS जनरेट करने की क्षमता प्रभावशाली है।
  • UpWork और Fiverr जैसे job marketplace को शायद ऐसे software की उपलब्धता के अनुसार ढलना पड़े, जो उनकी अपनी सेवाएँ कर सकता है।
  • Linux उपयोगकर्ता ऐसे TTS voice की तलाश में हैं जिसे आसानी से सेटअप किया जा सके।
  • टिप्पणी लिखने वाले को AI-जनरेटेड गेम्स में रुचि नहीं है, और वह इंसानों द्वारा लिखे गए NPC संवाद को प्राथमिकता देता है।
  • SoundStorm के output उदाहरण प्रभावशाली हैं, लेकिन उनमें कुछ सूक्ष्म खामियाँ हैं।
  • विज्ञापनों में बिना अनुमति AI-जनरेटेड voice का उपयोग करने पर कानूनी समस्याएँ हो सकती हैं।
  • SoundStorm PyTorch repository का GitHub लिंक दिया गया है।