13 पॉइंट द्वारा xguru 2024-11-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • स्वचालित स्पीच रिकग्निशन (ASR), स्पीच लैंग्वेज आइडेंटिफिकेशन (LID), स्पीच इमोशन रिकग्निशन (SER), ऑडियो इवेंट डिटेक्शन (AED) जैसी क्षमताओं वाला बहुभाषी स्पीच अंडरस्टैंडिंग मॉडल SenseVoice पर आधारित
  • अल्ट्रा-फास्ट inference और सटीक टाइमस्टैम्प के लिए अनुकूलित, जिससे ऑडियो ट्रांसक्रिप्शन को अधिक स्मार्ट और तेज़ी से प्रोसेस किया जा सकता है
  • मुख्य विकल्प
    • --language: भाषा को स्वतः detect/निर्दिष्ट करें (auto, zh, en, yue, ja, ko)
    • --textnorm: inverse text normalization लागू करना है या नहीं चुनें (inverse normalized के लिए withitn, raw text के लिए woitn)
    • --device-id: किसी विशेष GPU पर चलाएँ (डिफ़ॉल्ट: CPU के लिए -1)
    • --quantize: तेज़ प्रोसेसिंग के लिए quantized model का उपयोग

1 टिप्पणियां

 
yangeok 2024-11-12

ऑप्शन में Korean है, तो इसे टेस्ट करके देखना चाहता हूँ ह