- hertz-dev को 8.5B पैरामीटर वाले full-duplex, ऑडियो-विशेष बेस मॉडल के रूप में जारी किया गया है, जो ऐसी स्थितियों को भी संभालता है जहाँ दो लोग एक साथ बोलते हैं, और यह real-time voice agent research के लिए एक शुरुआती बिंदु बनता है
- इसका आर्किटेक्चर hertz-codec और hertz-ar में बंटा है; यह 16kHz speech को 8Hz latent representation में बदलता है, फिर पिछले latent values के आधार पर अगले audio latent value का autoregressive तरीके से अनुमान लगाता है
- एकल RTX 4090 पर वास्तविक औसत latency 120ms बेंचमार्क की गई, और सैद्धांतिक औसत latency 80ms बताई गई है, जो पिछले state of the art से 2 गुना कम है
- hertz-codec हर 125ms frame पर एक 32-dimensional latent value बनाता है, और hertz-ar 40-layer 8.4B parameter decoder-only transformer तथा लगभग 4.5 मिनट context का उपयोग करता है
- यह reinforcement learning tuning से response distribution को संकीर्ण करने वाला product-style model नहीं, बल्कि training data distribution का अनुमान लगाने वाला base model है, इसलिए researchers के लिए इसे conversational audio tasks के अनुसार fine-tune करना आसान है
Hertz-dev जिस conversational audio समस्या को लक्षित करता है
- स्वाभाविक interactive agents के लिए text की तुलना में त्वरित audio modality अधिक महत्वपूर्ण है
- generative audio approaches को broadly diffusion-based और autoregressive तरीकों में बांटा जा सकता है; music generation या छोटे samples में diffusion models मजबूत हैं, लेकिन वास्तविक conversational audio के लिए autoregressive approach अधिक उपयुक्त है
- conversational models को दो मुख्य कठिनाइयाँ हल करनी होती हैं
- इंसान जैसी सुनाई देने वाली audio generation और स्वाभाविक interruption handling
- सामान्य मानवीय बातचीत की तरह ऐसी स्थितियों को संभालना जहाँ दो real-time channels एक साथ जानकारी उत्पन्न करते हैं
जारी किया गया मॉडल और latency
- hertz-dev एक 8.5B parameter, full-duplex, audio-only base model है
- इसे two-speaker format के अनुरूप डिज़ाइन किया गया है, इसलिए यह overlapped two-speaker audio को parse और generate कर सकता है
- यह quantized phonetic bits का उपयोग करने वाले latent space में काम करता है, और हर timestep पर केवल एक latent value sample करता है
- latency इस प्रकार दी गई है
- सैद्धांतिक औसत latency: 80ms
- एकल RTX 4090 पर वास्तविक बेंचमार्क: 120ms
- पिछले state of the art से 2 गुना कम
मॉडल आर्किटेक्चर: hertz-codec और hertz-ar
- hertz-dev दो components में बंटा है
- hertz-codec: audio को latent values में encode करता है और फिर उसे वापस audio में reconstruct करता है
- hertz-ar: पिछले latent values को condition के रूप में लेकर भविष्य के latent values का अनुमान लगाता है
- audio latent values को कई downstream tasks में उपयोग होने वाली समृद्ध prior representation के रूप में देखा जाता है
-
hertz-codec
- hertz-codec mono 16kHz speech लेता है और उसे 8Hz latent representation में encode करने वाला convolutional audio VAE है
- यह KL-regularized 1kbps bitrate का उपयोग करता है
- streaming inference के लिए यह causal convolution का उपयोग करता है, और कार्यात्मक रूप से sequence के बाएँ तरफ padding जोड़ता है
- codec mean और variance के Gaussian parameters output करता है, और हर 125ms frame पर एकल 32-dimensional latent value sample करता है
- subjective evaluation में hertz-codec ने 6kbps Soundstream और Encodec को पीछे छोड़ा, और 8kbps DAC के समान स्तर पर आंका गया
- लोकप्रिय tokenizers की तुलना में इसमें प्रति सेकंड token count कम है, इसलिए यह language modeling के लिए लाभकारी है
- parameter configuration
- encoder: 5M parameters
- decoder: 95M parameters
- जारी checkpoints
- inference_apatosaurus_95000.pt: mixed reconstruction, adversarial loss, और KL regularization loss से प्रशिक्षित
hertz-codecweights - inference_volcano_3.pt: हर latent value से phonetically important 15 bits distill करने वाला
hertz-codec quantizer
- inference_apatosaurus_95000.pt: mixed reconstruction, adversarial loss, और KL regularization loss से प्रशिक्षित
-
hertz-ar
- hertz-ar एक 40-layer 8.4B parameter decoder-only transformer है
- input context 2048 tokens का है, जो लगभग 4.5 मिनट के बराबर है
- output latent values को hertz-codec में भेजा जा सकता है
- शुरुआती 32 layers latent history को input के रूप में लेकर अगले audio latent token के 15-bit quantized projected values का अनुमान लगाती हैं
- इस 32-layer भाग को
hertz-lmकहा जाता है, और इसे स्वतंत्र रूप से train किया जा सकता है या language model weights से initialize किया जा सकता है - अंतिम 8 layers latent history और 15-bit quantized latent values का उपयोग कर भविष्य के audio latent tokens का अनुमान लगाती हैं
- duplex audio को post-training task के रूप में संभाला जाता है
- दो projection heads को जोड़कर फिर अलग किया जाता है
- दोनों को उनके अपने residual पर condition करने वाली दो quantized projection pipelines से प्रोसेस किया जाता है
- जारी checkpoints
- inference_caraway_112000.pt: 2T tokens पर प्रशिक्षित language model से initialize किए गए
hertz-lmweights - inference_syrup_110000.pt: random initialization के बाद audio latent values पर पूरी तरह प्रशिक्षित
hertz-lmweights - inference_whip_72000.pt: अंतिम 8 layers के लिए
hertz-arweights - inference_care_50000.pt, inference_scion_54000.pt:
hertz-arके लिए duplex checkpoints
- inference_caraway_112000.pt: 2T tokens पर प्रशिक्षित language model से initialize किए गए
sample generation और training choices
- मॉडल की audio modeling क्षमता दिखाने के लिए single-channel generation, two-channel generation, और इंसान व मॉडल के बीच live conversation samples दिए गए हैं
- interactive samples में 9-second prompt शामिल है
- मुख्य training choices इस प्रकार हैं
- hertz-codec में parallel decoding और latent generation के अधिक सूक्ष्म नियंत्रण के लिए Causal ConvNets का उपयोग किया गया है
- 15-bit quantized latent values को phonetic information रखने के लिए शुरू में train किया गया, ताकि मॉडल syntactically correct utterances बना सके
- quantization, MLP projection को Finite Scalar Quantization layer में डालकर की जाती है
hertz-lmके लिए दो initialization strategies का ablation study किया गया, और यह बताया गया कि text model initialization हो या न हो, model ने linguistics को प्रभावी रूप से सीखा
real-time inference तरीका
- live inference के दौरान मॉडल प्रति सेकंड 8 बार forward pass चलाता है और लगातार autoregressive generation जारी रखता है
- input दो अलग channels हैं, लेकिन conversation में केवल एक channel लौटाया जाता है
- हर step पर इंसान की audio को latent values में tokenize किया जाता है, और मॉडल द्वारा पिछली बार generate की गई latent value के साथ जोड़कर
hertz-arमें input दिया जाता है - latency को user utterance और model response के बीच औसत समय के रूप में मापा जाता है
- computational average latency 62.5ms है, जिसमें किसी भी utterance और one-token termination के बीच औसत समय, forward pass time, और round-trip internet latency शामिल हैं
- local RTX 4090 पर चलाने पर वास्तविक औसत latency आमतौर पर 120ms होती है
- कम latency ऐसी शर्त है जिससे मॉडल delayed और टूटती हुई phone call जैसा महसूस न हो, बल्कि इंसान की तरह interact कर सके
open release का स्वरूप और उपयोग की स्थिति
- hertz-dev को conversational audio के लिए पहला सार्वजनिक base model बताया गया है
- यहाँ base model का अर्थ ऐसा model नहीं है जिसका generation distribution reinforcement learning tuning से बहुत संकीर्ण कर दिया गया हो, बल्कि ऐसा model है जो training data के distribution का सटीक अनुमान लगाता है
- इसी प्रकृति के कारण यह कई downstream tasks के लिए fine-tuning का अच्छा शुरुआती बिंदु है
- संबंधित resources
1 टिप्पणियां
Hacker News की राय
यह वाकई शानदार है। संदर्भ के लिए, मौजूदा open source speech synthesis engines इसके मुकाबले काफी कमजोर हैं, इसलिए अभी यह speech-to-speech है, लेकिन अगर इसे ऐसे multimodal रूप में बढ़ाया जाए जो text भी ले सके, तो इसकी काफी मांग होगी
असल में यह एक बेहतरीन speech-to-speech model के साथ-साथ बहुत अच्छा TTS model भी बन जाएगा। कोई Piper जैसे output को अधिक प्राकृतिक लय और intonation के साथ चलाने के लिए fine-tune करके workaround कर सकता है, लेकिन text LLM → Piper → Hertz-dev की pipeline जोड़ने की बजाय text को natively लेने की क्षमता कहीं ज्यादा उपयोगी लगेगी
हालांकि यह जरूरी नहीं कि यही टीम खुद करे
Hertz खुद को पहला कहता है, लेकिन इस साल की शुरुआत में आया Moshi भी इसी तरह काम करने वाला duplex speech model है और MacBook पर भी चलता है: https://github.com/kyutai-labs/moshi
Hertz में भी बस 3 inference notebooks और
no_gradसे भरा model code दिखता है, training code नहीं दिखता। paper भी नहीं है, इसलिए यह समझना मुश्किल है कि इसे कैसे train किया गया और architecture कैसा है; अगर मैंने कुछ miss नहीं किया है, तो इसे research-friendly कहना थोड़ा मुश्किल हैmoshi https://github.com/kyutai-labs/moshi latest streaming neural audio codec Mimi का उपयोग करने वाला speech-text आधारित model है, और Mini-Omni https://github.com/gpt-omni/mini-omni Qwen2 पर आधारित multimodal LLM है, जो speech input/output देता है। Ichigo https://github.com/homebrewltd/ichigo एक public research project है, जो early fusion technique के जरिए text-based LLM में native listening क्षमता जोड़ता है
Tesla का lidar और अन्य sensors को फिलहाल बाहर रखकर pure vision-based autonomous driving पर focus करना, technology को ज्यादा accessible और scalable बनाने की strategy लगता है
vision-only model पर focus करने से adoption तेज हो सकता है, बड़े पैमाने पर data इकट्ठा हो सकता है, और iterative improvements भी तेज हो सकते हैं। जब vision-based systems काफी mature हो जाएँ, तो Tesla lidar या radar जैसे sensor data को फिर से integrate करके अपने autonomous driving product lineup को और robust व polished बना सकती है
speech interaction systems के लिए भी मैंने इसी तरह का idea सोचा था। अभी ज्यादातर systems speech को text में बदलते हैं, text response बनाते हैं, फिर उसे वापस speech में बदलते हैं। लेकिन अगर text से गुज़रे बिना सीधे speech में response देना train किया जा सके, तो responses ज्यादा natural और spontaneous हो सकते हैं। natural speech में अपनी syntax और rhythm, dialects और tone के differences होते हैं, इसलिए pure speech training system ज्यादा human-like और interesting लगेगा
मुझे उत्सुकता है कि मौजूदा speech interaction models standard speech→text→speech process follow करते हैं, या speech-to-speech processing explore कर रहे हैं
वाकई शानदार। मैं अभी VUI (Voice User Interface) देख रहा हूँ, इसलिए यह उपयोगी हो सकता है
मैंने VUI लोगों को कैसे persuade करता है, इस पर research करके PhD की है, इसलिए शायद थोड़ा biased हूँ, लेकिन मुझे लगता है कि VUI computer interaction का future है। future न भी हो, तो भी यह बच्चों और बुजुर्गों जैसे नए user groups को खोल सकता है
अगर speech models बनाने वाले authors या related work करने वाले लोग हैं, तो जानना चाहूँगा कि क्या कभी system से निकलने वाली आवाज़ आपको डरावनी लगी है या उसका physiological effect महसूस हुआ है
क्या इसे एक तरह का LLM माना जा सकता है, बस audio LLM, जिसमें prompt भी audio है और generated output भी audio?
“generation distribution collapse” का idea research में studied topic है या नहीं, यह जानना चाहूँगा। अगर हाँ, तो इसे किस नाम से बुलाया जाता है
यह बात दिलचस्प है कि base model training data distribution को ठीक-ठीक model करता है, जबकि heavy reinforcement learning tuning से गुज़रे models की generation distribution fold हो जाती है, इसलिए कई tasks पर fine-tuning के starting point के रूप में base model बेहतर होता है। यह continual learning या सही fine-tuning methods से भी जुड़ा लगता है
hertz-dev base model को दूसरी languages में pretrain करना हो तो कैसे करें? इसके बारे में जानकारी कहाँ मिल सकती है, जानना चाहूँगा
आवाज़ थोड़ी distorted सुनाई देती है, और background में noise अक्सर होता है। खासकर जब आवाज़ रुकती है तो यह noise गायब होता साफ महसूस होता है
उत्सुकता है कि यह model limitation है या training data quality की समस्या
article में दिया यह sentence असल में क्या मतलब रखता है, क्या authors में से कोई समझा सकता है?
hertz-vae: audio VAE के learned prior की भूमिका निभाने वाला 1.8B-parameter transformer decoder। यह 8192 sampled latent representations, यानी 17 मिनट लंबे context का उपयोग करता है, और अगले encoded audio frame को Gaussian mixture के रूप में predict करता है। अगले token की 15-bit quantized जानकारी streaming-friendly तरीके से generation को guide करने वाला semantic scaffold बनती हैcodec16k sample-rate audio को convolutions से compress करके प्रति second 8 samples में बदलता है, फिर 128-bit में vector quantization करके codec हासिल करता हैये bits actual audio को represent करने के लिए बहुत कम हैं, और शायद phonemes जैसी चीज़ों को represent करने के उद्देश्य के करीब हैं।
vaecodec को prompt के रूप में इस्तेमाल करने वाला VAE-based diffusion model लगता है, औरdevअगला codec predict करने वाला model लगता हैपूरे flow में शायद prompt को
codecसे tokenize किया जाता है; अगर s seconds का और audio चाहिए, तोdevसे 8 * s और tokens predict किए जाते हैं, और फिरvaediffusion model से वापस audio में बदला जाता है