- स्वचालित स्पीच रिकग्निशन (ASR), स्पीच लैंग्वेज आइडेंटिफिकेशन (LID), स्पीच इमोशन रिकग्निशन (SER), ऑडियो इवेंट डिटेक्शन (AED) जैसी क्षमताओं वाला बहुभाषी स्पीच अंडरस्टैंडिंग मॉडल SenseVoice पर आधारित
- अल्ट्रा-फास्ट inference और सटीक टाइमस्टैम्प के लिए अनुकूलित, जिससे ऑडियो ट्रांसक्रिप्शन को अधिक स्मार्ट और तेज़ी से प्रोसेस किया जा सकता है
- मुख्य विकल्प
--language: भाषा को स्वतः detect/निर्दिष्ट करें (auto, zh, en, yue, ja, ko)
--textnorm: inverse text normalization लागू करना है या नहीं चुनें (inverse normalized के लिए withitn, raw text के लिए woitn)
--device-id: किसी विशेष GPU पर चलाएँ (डिफ़ॉल्ट: CPU के लिए -1)
--quantize: तेज़ प्रोसेसिंग के लिए quantized model का उपयोग
1 टिप्पणियां
ऑप्शन में Korean है, तो इसे टेस्ट करके देखना चाहता हूँ ह