13 पॉइंट द्वारा xguru 2025-02-11 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • उच्च-निष्ठा (High Fidelity) रियल-टाइम स्ट्रीमिंग Speech-to-Speech Translation मॉडल
  • सामान्य offline translation से अलग, यह उपयोगकर्ता के बोलते समय ही "रियल-टाइम में अनुवादित आवाज़ उत्पन्न" करता है
  • टेक्स्ट अनुवाद भी प्रदान करता है, और मूल आवाज़ की शैली को बनाए रखने वाला voice conversion फ़ीचर भी शामिल है

आर्किटेक्चर

  • यह एक "Decoder-only मॉडल" है, जिसे समकालिक speech translation के लिए डिज़ाइन किया गया है
  • Moshi की multistream आर्किटेक्चर का उपयोग करके मूल और अनुवादित आवाज़ को एक साथ मॉडल करता है
  • प्रति सेकंड 12.5Hz की स्थिर frame rate पर continuous output stream बनाता है, और timestamp सहित टेक्स्ट अनुवाद भी देता है

प्रशिक्षण विधि

  • मूल और अनुवादित आवाज़ व टेक्स्ट के aligned data की आवश्यकता होती है, लेकिन व्यवहार में ऐसा डेटा बहुत कम है
  • इसलिए synthetic data तैयार करके प्रशिक्षण किया गया
  • MADLAD machine translation system का उपयोग करके मूल और अनुवादित टेक्स्ट को weakly supervised learning तरीके से align किया गया
  • alignment rules लागू किए गए ताकि शब्द केवल उसी समय प्रकट हों जब अनुवाद मूल से अनुमानित किया जा सके
    • तरीका 1: silence insertion
    • तरीका 2: alignment-aware TTS

अनुमान (Inference)

  • Hibiki रियल-टाइम में मूल आवाज़ को encode करता है और अनुवादित आवाज़ उत्पन्न करता है
  • जटिल inference विधियों के बिना, temperature sampling का उपयोग करता है, इसलिए यह batch processing के साथ compatible है
  • Classifier-Free Guidance गुणांक को समायोजित करके आवाज़ की समानता को नियंत्रित किया जा सकता है
    • गुणांक जितना अधिक होगा, उत्पन्न आवाज़ उतनी ही मूल के समान होगी, लेकिन बहुत अधिक होने पर अनुवाद गुणवत्ता घट सकती है
  • अभी Hibiki केवल French → English translation को support करता है
  • हल्का मॉडल Hibiki-M स्मार्टफ़ोन पर भी चल सकता है

मॉडल चलाने का तरीका

  • PyTorch, Rust, MLX(macOS), MLX-Swift(iOS) पर चलाया जा सकता है
  • Hibiki का कोड Moshi प्रोजेक्ट के लगभग समान है, और वास्तविक implementation kyutai-labs/moshi repository में देखा जा सकता है
  • फ़िलहाल French → English (FR → EN) translation को support करने वाले केवल दो मॉडल उपलब्ध हैं
    • Hibiki 2B: अधिक गहरी Transformer संरचना, प्रति stream 16 RVQ
    • Hibiki 1B: हल्का संस्करण, प्रति stream 8 RVQ, on-device execution संभव

2 टिप्पणियां

 
sftblw 2025-02-11

लगता है Rust deployment में candle का इस्तेमाल किया गया है। (Cargo.toml)

 
dbs0829 2025-02-11

जिन भाषाओं का word order पूरी तरह अलग होता है, उनके लिए real-time translation थोड़ा मुश्किल लग सकता है, लेकिन पेपर एक बार देखना पड़ेगा।