- उच्च-निष्ठा (High Fidelity) रियल-टाइम स्ट्रीमिंग Speech-to-Speech Translation मॉडल
- सामान्य offline translation से अलग, यह उपयोगकर्ता के बोलते समय ही "रियल-टाइम में अनुवादित आवाज़ उत्पन्न" करता है
- टेक्स्ट अनुवाद भी प्रदान करता है, और मूल आवाज़ की शैली को बनाए रखने वाला voice conversion फ़ीचर भी शामिल है
आर्किटेक्चर
- यह एक "Decoder-only मॉडल" है, जिसे समकालिक speech translation के लिए डिज़ाइन किया गया है
- Moshi की multistream आर्किटेक्चर का उपयोग करके मूल और अनुवादित आवाज़ को एक साथ मॉडल करता है
- प्रति सेकंड 12.5Hz की स्थिर frame rate पर continuous output stream बनाता है, और timestamp सहित टेक्स्ट अनुवाद भी देता है
प्रशिक्षण विधि
- मूल और अनुवादित आवाज़ व टेक्स्ट के aligned data की आवश्यकता होती है, लेकिन व्यवहार में ऐसा डेटा बहुत कम है
- इसलिए synthetic data तैयार करके प्रशिक्षण किया गया
- MADLAD machine translation system का उपयोग करके मूल और अनुवादित टेक्स्ट को weakly supervised learning तरीके से align किया गया
- alignment rules लागू किए गए ताकि शब्द केवल उसी समय प्रकट हों जब अनुवाद मूल से अनुमानित किया जा सके
- तरीका 1: silence insertion
- तरीका 2: alignment-aware TTS
अनुमान (Inference)
- Hibiki रियल-टाइम में मूल आवाज़ को encode करता है और अनुवादित आवाज़ उत्पन्न करता है
- जटिल inference विधियों के बिना, temperature sampling का उपयोग करता है, इसलिए यह batch processing के साथ compatible है
- Classifier-Free Guidance गुणांक को समायोजित करके आवाज़ की समानता को नियंत्रित किया जा सकता है
- गुणांक जितना अधिक होगा, उत्पन्न आवाज़ उतनी ही मूल के समान होगी, लेकिन बहुत अधिक होने पर अनुवाद गुणवत्ता घट सकती है
- अभी Hibiki केवल French → English translation को support करता है
- हल्का मॉडल Hibiki-M स्मार्टफ़ोन पर भी चल सकता है
मॉडल चलाने का तरीका
- PyTorch, Rust, MLX(macOS), MLX-Swift(iOS) पर चलाया जा सकता है
- Hibiki का कोड Moshi प्रोजेक्ट के लगभग समान है, और वास्तविक implementation kyutai-labs/moshi repository में देखा जा सकता है
- फ़िलहाल French → English (FR → EN) translation को support करने वाले केवल दो मॉडल उपलब्ध हैं
- Hibiki 2B: अधिक गहरी Transformer संरचना, प्रति stream 16 RVQ
- Hibiki 1B: हल्का संस्करण, प्रति stream 8 RVQ, on-device execution संभव
2 टिप्पणियां
लगता है Rust deployment में candle का इस्तेमाल किया गया है। (Cargo.toml)
जिन भाषाओं का word order पूरी तरह अलग होता है, उनके लिए real-time translation थोड़ा मुश्किल लग सकता है, लेकिन पेपर एक बार देखना पड़ेगा।