Omni SenseVoice - शब्द-स्तरीय टाइमस्टैम्प के साथ हाई-स्पीड स्पीच रिकग्निशन

xguru · 2024-11-10T09:31:01+09:00

स्वचालित स्पीच रिकग्निशन (ASR), स्पीच लैंग्वेज आइडेंटिफिकेशन (LID), स्पीच इमोशन रिकग्निशन (SER), ऑडियो इवेंट डिटेक्शन (AED) जैसी क्षमताओं वाला बहुभाषी स्पीच अंडरस्टैंडिंग मॉडल SenseVoice पर आधारित अल्ट्रा-फास्ट inference और सटीक टाइमस्टैम्प के लिए अनुकूलित, जिससे ऑडियो ट्रांसक्रिप्शन को अधिक स्मार्ट और तेज़ी से प्रोसेस किया जा सकता है मुख्य विकल्प --language: भाषा को स्वतः detect/निर्दिष्ट करें (auto, zh, en, yue, ja, ko) --textnorm: inverse text normalization लागू करना है या नहीं चुनें (inverse normalized के लिए withitn, raw text के लिए woitn) --device-id: किसी विशेष GPU पर चलाएँ (डिफ़ॉल्ट: CPU के लिए -1) --quantize: तेज़ प्रोसेसिंग के लिए quantized model का उपयोग

स्वचालित स्पीच रिकग्निशन (ASR), स्पीच लैंग्वेज आइडेंटिफिकेशन (LID), स्पीच इमोशन रिकग्निशन (SER), ऑडियो इवेंट डिटेक्शन (AED) जैसी क्षमताओं वाला बहुभाषी स्पीच अंडरस्टैंडिंग मॉडल SenseVoice पर आधारित
अल्ट्रा-फास्ट inference और सटीक टाइमस्टैम्प के लिए अनुकूलित, जिससे ऑडियो ट्रांसक्रिप्शन को अधिक स्मार्ट और तेज़ी से प्रोसेस किया जा सकता है
मुख्य विकल्प
- --language: भाषा को स्वतः detect/निर्दिष्ट करें (auto, zh, en, yue, ja, ko)
- --textnorm: inverse text normalization लागू करना है या नहीं चुनें (inverse normalized के लिए withitn, raw text के लिए woitn)
- --device-id: किसी विशेष GPU पर चलाएँ (डिफ़ॉल्ट: CPU के लिए -1)
- --quantize: तेज़ प्रोसेसिंग के लिए quantized model का उपयोग

1 टिप्पणियां

yangeok 2024-11-12

ऑप्शन में Korean है, तो इसे टेस्ट करके देखना चाहता हूँ ह

Omni SenseVoice - शब्द-स्तरीय टाइमस्टैम्प के साथ हाई-स्पीड स्पीच रिकग्निशन

संबंधित पढ़ाई

1 टिप्पणियां