- फ़िल्म, पॉडकास्ट, इंटरव्यू आदि में बैकग्राउंड शोर हटाकर सिर्फ़ आवाज़ को साफ़-सुथरे ढंग से निकालता है
- अधिकतम आकार 500MB है और 1 घंटे तक की ऑडियो को सपोर्ट करता है
- संगीत वोकल के लिए डिज़ाइन या ऑप्टिमाइज़ नहीं किया गया है (कॉन्टेंट के अनुसार सफल होना संभव है)
- अभी रियल-टाइम स्ट्रीमिंग के लिए API सार्वजनिक नहीं किया गया है, लेकिन जल्द जारी करने की योजना है
- उपयोग शुल्क ऑडियो के प्रति मिनट 1000 अक्षर है
6 टिप्पणियां
इसका क्या मतलब है? मुझे समझ नहीं आ रहा कि यहाँ characters क्यों दिए गए हैं।
क्या यह token जैसी ही अवधारणा नहीं है?
जैसे GPT में image भी text token की तरह गिने जाते हैं।
कंपनी की दूसरी सेवाओं को देखकर बात समझ में आती है। लगता है यह Speech to text to Speech तरीका है, इसलिए बीच के टेक्स्ट पर शुल्क लिया जा रहा है।
इसी बीच, कई open model के ज़रिए मुफ़्त और सशुल्क vocal separation देने वाले MVSep में भी कई तरह के voice/noise separation model उपलब्ध हैं.
https://mvsep.com
Adobe Podcast AI भी ऐसा ही फ़ीचर देता है। लगता है इसका एक मुफ़्त वर्ज़न भी है https://podcast.adobe.com/enhance
मुफ्त वर्ज़न के हिसाब से, लगा कि Korean के लिए यह ठीक से optimized नहीं है..