• पूरी processing on-device पर करने वाला real-time speech recognition framework
  • streaming-based model architecture के जरिए यूज़र के बोलते समय भी real-time में text generate करता है, और Whisper Large v3 से कम error rate (WER 6.65%) हासिल करता है
  • Python, iOS, Android, MacOS, Linux, Windows, Raspberry Pi सहित कई platforms पर एक ही API के साथ काम करता है, और C++ core तथा OnnxRuntime पर आधारित optimized implementation देता है
  • language-specific models (English, Korean, Japanese, Spanish आदि) और command recognition (Intent Recognition) फीचर शामिल हैं, जिससे developers आसानी से voice interfaces बना सकते हैं
  • Whisper की 30-second fixed input, cache की कमी, और language accuracy limitations को बेहतर बनाकर, edge environments में low-latency voice interfaces लागू करने के लिए उपयुक्त विकल्प के रूप में ध्यान आकर्षित कर रहा है

Moonshine Voice का overview

  • Moonshine Voice, real-time voice applications के development के लिए open source AI toolkit है
    • सभी computations local device पर होती हैं, जिससे fast response और privacy protection सुनिश्चित होती है
    • streaming processing के कारण यूज़र के बोलते समय भी text updates संभव हैं
  • मॉडल, in-house research पर आधारित scratch से trained architecture है, और Whisper Large v3 से बेहतर accuracy प्रदान करता है
  • 26MB ultra-compact model से 245M-parameter mid-size model तक कई sizes उपलब्ध हैं
  • English, Korean, Japanese, Chinese, Spanish, Vietnamese, Arabic, Ukrainian सहित multilingual support

Whisper की तुलना में मुख्य सुधार

  • Whisper की 30-second fixed input window हटाकर variable-length input support जोड़ा गया है
  • caching feature जोड़कर streaming के दौरान duplicate computation कम की गई है और latency को काफी घटाया गया है
  • language-specific single-model training के जरिए समान size पर अधिक accuracy हासिल की गई है
  • cross-platform C++ core library के माध्यम से Python, Swift, Java आदि में एक ही API इस्तेमाल किया जा सकता है
  • Whisper Large v3 (1.5B parameters) से छोटे 245M-parameter model के साथ कम error rate हासिल किया गया है

मुख्य फीचर्स और API structure

  • speech recognition pipeline को एक single library में integrate करके microphone input, voice activity detection (VAD), text conversion, speaker identification, command recognition को एक साथ process करता है
  • core classes:
    • Transcriber: audio input को text में बदलता है
    • MicTranscriber: microphone input को automatic तरीके से process करता है
    • IntentRecognizer: natural language आधारित command recognition
  • event-based architecture के साथ LineStarted / LineUpdated / LineCompleted जैसी state changes को real-time में detect किया जा सकता है

मॉडल और performance

  • Moonshine Medium Streaming (245M): WER 6.65%, Whisper Large v3 (7.44%) से बेहतर
  • Moonshine Small Streaming (123M): WER 7.84%
  • Moonshine Tiny Streaming (34M): WER 12.00%
  • Korean Tiny model का मूल्यांकन WER 6.46% के साथ किया गया है
  • सभी models OnnxRuntime-based .ort format में उपलब्ध हैं, और 8-bit quantization से lightweight बनाए गए हैं

development और deployment

  • Python (pip install moonshine-voice), Swift (SPM), Android (Maven), Windows (C++ headers) आदि प्रमुख environments में install किया जा सकता है
  • Raspberry Pi optimized package उपलब्ध है, जिससे USB microphone के साथ real-time recognition संभव है
  • MIT license (English models) और Moonshine Community License (अन्य language models) के तहत जारी
  • आगे की roadmap: mobile binaries को lightweight बनाना, अतिरिक्त भाषाएँ, बेहतर speaker identification, domain customization

benchmark और उपयोग

  • Whisper की तुलना में 5x से अधिक तेज processing speed के कारण real-time voice interfaces के लिए उपयुक्त
  • 200ms से कम response latency target के साथ design किया गया है, इसलिए conversational applications में उपयोग किया जा सकता है
  • command recognition example के जरिए “Turn on the lights” जैसी natural-language variation commands भी पहचानी जा सकती हैं
  • HuggingFace OpenASR Leaderboard पर public performance verification पूरा हो चुका है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.