न्यूरल ऑडियो कोडेक: ऑडियो को LLM में कैसे फीड करें

(kyutai.org)

1 पॉइंट द्वारा GN⁺ 2025-10-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

न्यूरल ऑडियो कोडेक ऑडियो डेटा को लार्ज लैंग्वेज मॉडल (LLM) में प्रभावी रूप से फीड करने का एक मुख्य उपकरण है
अधिकांश मौजूदा LLM वॉयस इंटरफेस मुख्यतः टेक्स्ट-आधारित रैपर होते हैं, इसलिए वास्तविक वॉयस अंडरस्टैंडिंग और इमोशनल रिकॉग्निशन में सीमाएँ रहती हैं
टेक्स्ट की तुलना में ऑडियो मॉडलिंग में सैम्पल की बहुत अधिक संख्या और लंबे समय की consistency बनाए रखना कठिन होता है, इसलिए efficient compression और tokenization की जरूरत पड़ती है
Residual Vector Quantization (RVQ) जैसी आधुनिक न्यूरल ऑडियो कोडेक तकनीकों का उपयोग करके ऑडियो को LLM-friendly डिस्क्रीट टोकन में बदलकर प्रोसेस किया जाता है
Kyutai के Mimi जैसे अत्याधुनिक न्यूरल ऑडियो कोडेक अपनाने से ऑडियो LLM की expressivity और quality में निरंतर सुधार दिख रहा है

न्यूरल ऑडियो कोडेक और ऑडियो LLM की पृष्ठभूमि

अधिकतर LLM-आधारित वॉयस मॉडल वास्तविक ऑडियो को समझने से ज्यादा टेक्स्ट में कन्वर्ट करना–रिस्पॉन्ड करना–सिंथेसाइज़ करना का तरीका अपनाते हैं
सच्ची वॉयस अंडरस्टैंडिंग के लिए इमोशन, intonation, sarcasm और गैर-भाषिक nuances को पकड़ना अनिवार्य है
कुछ मॉडल (Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi) वॉयस इनपुट स्वीकार करते हैं, लेकिन व्यवहार में इन्हें गहरी वॉयस अंडरस्टैंडिंग क्षमता नहीं मिलती
टेक्स्ट LLM में केवल डेटा, एल्गोरिद्म और compute जोड़ने से तेज़ी से high performance हासिल हुआ, जबकि ऑडियो डेटा की प्रोसेसिंग कठिनाई कहीं अधिक है

टेक्स्ट और ऑडियो के टोकनाइज़ेशन अप्रोच में अंतर

टेक्स्ट में byte-pair encoding जैसे अपेक्षाकृत सरल fixed tokenizer से भी उत्कृष्ट परिणाम मिलते हैं
प्रारंभिक LSTM या RNN ने भी केवल सैम्पल-स्तर सिंगल-कैरेक्टर prediction से ही पर्याप्त परिणाम दिए
ऑडियो में एक सेकंड में हजारों सैम्पल होते हैं; सिर्फ 10 सेकंड के लिए भी लाखों टाइम-सीरीज़ predictions की जरूरत पड़ती है
WaveNet जैसी मॉडलिंग में जब सैम्पल-दर-सैम्पल ऑडियो निर्माण किया जाता है, तो ध्वनि गुणवत्ता अच्छी तो आती है, लेकिन अर्थ-प्रेषण कठिन हो जाता है

ऑडियो मॉडलिंग का bottleneck और सैम्पल-वार अनुमान की सीमा

सैम्पल-वार निर्माण व्यवहार में बहुत धीमी है और वास्तविक अर्थ-इकाइयों का पारस्परिक जुड़ाव भी सुनिश्चित नहीं कर पाती
एक उदाहरण प्रयोग (151M parameters, 1000 घंटे डेटा) में noise-mixed speech तथा coherence की कमी जैसी समस्याओं के कारण practical उपयोगिता कम हो गई
ऑडियो की उच्च sampling rate (16kHz के आधार पर, 2048 context = 128ms) से LLM में context processing की सीमा आती है
रियल-टाइम ऑडियो प्रोसेसिंग के लिए effective compression अनिवार्य है

न्यूरल ऑडियो कोडेक: ऑटोएन्कोडर और RVQ

ऑटोएन्कोडर और vector quantization (VQ-VAE) का मूल सिद्धांत

इनपुट (ऑडियो, इमेज आदि) को छोटे latent space में compress करके बाद में reconstruct करने वाली एक न्यूरल नेटवर्क संरचना
embedding को vector quantization (उदाहरण: k-means) से discrete token में बदलकर LLM में फीड करने के लिए डिज़ाइन किया गया है
straight-through estimator तकनीक से non-differentiable गुणों को अप्रत्यक्ष रूप से सीखने में मदद मिलती है
commitment loss जोड़कर embedding और cluster centroids के बीच दूरी को न्यूनतम करने की कोशिश की जाती है
VQ-VAE मॉडल स्ट्रक्चर मूलतः quantization-friendly बनी हुई autoencoder का रूप है

Residual Vector Quantization (RVQ) की अवधारणा

जब कई quantization स्तरों की जरूरत हो, और एकल बड़े क्लस्टर/कोडबुक को संभालने की सीमा आए, तब residual (Residual) token स्तर जोड़े जाते हैं
पहले embedding का 1st quantization किया जाता है, फिर residual हिस्सा अतिरिक्त quantize करके compression efficiency बढ़ाई जाती है
जरूरत पड़ने पर 2 या अधिक चरण वाला multi-level quantization संभव है; structure सरल है (for level in range(levels) वाला loop)
RVQ को SoundStream (2021) जैसे आधुनिक न्यूरल ऑडियो कोडेक में मुख्यतः लागू किया गया है

ऑडियो टोकनाइज़ेशन और LLM पर उपयोग

CNN-based autoencoder से ऑडियो को downsample करके (उदाहरण: 128x, 32-आयामी vector) प्रत्येक embedding पर independent RVQ quantization किया जाता है
RVQ कोड आउटपुट (उदाहरण: 8-level RVQ) को सीधे क्रमवार 1D token sequence में flatten करके LLM इनपुट के रूप में उपयोग किया जाता है
flattening तरीके में time compression का कुछ नुकसान होता है (उदाहरण: 128x downsampling→8x फिर expand)
codebook स्तर, स्तर संख्या और FLATTEN क्रम आदि गुणवत्ता तथा compression ratio दोनों पर असर डालते हैं

वास्तविक न्यूरल ऑडियो कोडेक ट्रेनिंग और गुणवत्ता सुधार

प्रयोगों से पता चलता है कि RVQ स्तर बढ़ने पर reconstruction loss घटता है और वॉयस की quality बेहतर होती है
फिर भी केवल अपनी बनाई सरल कोडेक से भी थोड़ा सा noise और timbre distortion अभी भी मौजूद रहता है
Kyutai के Mimi जैसे नवीनतम न्यूरल ऑडियो कोडेक GAN-based loss function, RVQ dropout आदि नवाचार लागू करके quality को अधिकतम करने का प्रयास करते हैं
- GAN discriminator से वास्तविक/नकली ऑडियो अलग पहचान कर model training होता है
- कई RVQ स्तरों पर यादृच्छिक रूप से कुछ स्तर ही उपयोग होते हैं (dropout), जिससे किसी भी compression स्तर पर quality बनी रहती है

Mimi कोडेक में वास्तविक LLM performance बदलाव

Mimi 24kHz sample rate, 12.5fps जैसी अधिक आक्रामक downsampling और प्रभावी compression संभव बनाता है
समान Libri-Light 10k घंटे के डेटा को Mimi से tokenize करने पर, storage लगभग 1/2 तक घटता है, जिससे training efficiency और quality दोनों सुधरते हैं
मॉडल जब गीत, कविता आदि अर्थ-आधारित ऑडियो निर्माण करता है, तो text consistency अधिक दिखती है

semantic token अवधारणा का परिचय

Mimi के top-level पर WavLM जैसे वॉयस BERT से निकाले गए semantic tokens होते हैं
semantic tokens ऑडियो के कंटेंट को संभालते हैं, जबकि नीचे के RVQ tokens आवाज़ की timbre, voice आदि acoustic info संभालते हैं
semantic tokens फिक्स करने के बाद बाकी tokens केवल LLM से regenerate करने पर, एक ही टेक्स्ट अलग आवाज़ में बोलने का परिणाम संभव है

semantic–acoustic quality trade-off

RVQ स्तर संख्या घटाने पर semantic tokens का अनुपात बढ़ता है, जिससे semantic match rate बढ़ती है और LLM की अर्थ-संगत वाक्य निर्माण क्षमता बेहतर होती है
वास्तव में, 'Librivox' गाइड लाइन जैसी training data की कुछ पंक्तियाँ लगभग सीधे याद करने की सीमा तक पहुँच जाती हैं
semantic-priority बनाम acoustic-priority loss weight के अनुसार अलग-अलग उपयोग केस बनते हैं (Moshi में semantic loss को 100x अधिक महत्व दिया जाता है)

नवीनतम ऑडियो LLM मॉडल और शोध प्रवृत्तियाँ

वर्षों की प्रगति के बाद Kyutai का Moshi, Sesame का CSM, Alibaba का Qwen3-Omni आदि voice-native LLM शोध का नेतृत्व कर रहे हैं
अधिकांश मॉडल अभी भी text stream parallel approach पर निर्भर हैं; context reasoning जैसी गतिविधियाँ मुख्यतः text से ही होती हैं
टेक्स्ट व वॉयस tokens को mix/cross-use करना या continuous latent space generation (diffusion, consistency models) जैसे अन्य विकल्पों पर भी सक्रिय शोध जारी है

निष्कर्ष और भविष्य दृष्टि

न्यूरल ऑडियो कोडेक ऑडियो LLM का मुख्य infrastructure है; यह semantic और acoustic जानकारी को संतुलित रूप से टोकनाइज़ करके वॉयस generation quality में बड़ा सुधार लाता है
फिर भी टेक्स्ट LLM की तुलना में reasoning और वॉयस-understanding में अभी भी modality gap मौजूद है
Kyutai Moshi आदि पहले end-to-end Voice AI प्रयासों से लेकर कई नवाचार आगे बढ़ा रहे हैं, और आने वाले समय में भी audio ML में आगे की प्रगति की अपेक्षा है

संदर्भ शोधपत्र और अतिरिक्त पढ़ने की सामग्री

WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020) आदि प्रमुख audio generation models की विकास यात्रा और key concepts का परिचय
Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio जैसे codec और मॉडल अनुप्रयोग शोध का परिचय
continuous audio generation तथा Diffusion/Consistency models के संभावित उपयोग पर संकेत दिए गए हैं

2025 तक के उदाहरण: ऑडियो-आधारित LLM

Moshi (Kyutai)
CSM (Sesame)
Qwen3-Omni (Alibaba)
MiMo-Audio (Xiaomi)
LFM2-Audio (Liquid AI)

1 टिप्पणियां

GN⁺ 2025-10-22

Hacker News टिप्पणी

किसी ने जब बहुत ऊँची पिच में यह पूछकर देखा कि "क्या मैं low-pitched आवाज़ में बोल रहा हूँ या high-pitched में?", कि LLM इसे ठीक से अलग नहीं कर पा रहा है, तो उन्होंने बताया। यह सीमा-model की है या केवल safety overfitting की वजह से, इस पर उन्होंने सवाल उठाया। उन्होंने यह भी कहा कि ChatGPT Voice mode में music generation blocking, accent-mimic न करने की restriction (जैसे इंडियन ऐक्सेंट को copy न करना), race या bias अनुमान को रोकने वाले कई सुरक्षा उपाय मौजूद हैं, और शायद ये सब चीज़ें मॉडल से हट भी सकती थीं।
- लेखक के नाते जवाब देते हुए उन्होंने कहा कि यह ज़्यादा संभावना है कि यह सुरक्षा समस्या नहीं, बल्कि model capacity की सीमा हो। ऑडियो ट्रेनिंग अभी भी टेक्स्ट ट्रेनिंग से कठिन है, इसलिए इसमें generalization उतना smooth नहीं होता। इसलिए कई audio models text और audio information को साथ में handle करते हैं, यानी एक ही मॉडल में दोनों को input/output बनाते हैं (जैसे text और audio token दोनों को पास करना/निकालना)। धीरे-धीरे audio tokens ही एक तरह का unified speech-to-text converter बन जाते हैं। Moshi में उनके साथ काम करने वालों का अनुभव भी यही था, और दूसरे मॉडल भी लगभग इसी तरह दिखे। उन्होंने synthetic data के असर की भी ओर इशारा किया—यदि TTS-generated data से fine-tune करें, तो उसमें pitch जानकारी नहीं रहती, इसलिए मॉडल उसे ignore करना सीख सकता है।
- "accent-matching (अगर सामने वाला इंडियन accent में बोले तो LLM भी ऐसा न निकले)" क्यों नहीं होता, इस पर उन्होंने वास्तविक अनुभव शेयर किया। लगभग मिलते-जुलते accent से mutual understanding में बड़ा सुधार दिखा। ऐसे cases में, जो इंसान accent बदल सकता है वह जब दूसरे व्यक्ति के हिसाब से नहीं बदल सकता, वहाँ भी अक्सर फायदा होता है। अगर उनके पास इंडियन इंग्लिश ऐक्सेंट बोलने की क्षमता होती, तो आउटसोर्सिंग सपोर्ट टीमों के customer support calls में यह सच में बहुत काम आता, ऐसा उन्होंने कहा।
- उन्होंने पूछा कि क्या किसी race के हिसाब से LLM अलग तरीके से react करता है? उनका कहना था कि अगर ट्रेनिंग डेटा ज्यादातर text conversations ही हो, तो इस तरह का bias सीखने की संभावना कम होनी चाहिए—फिर भी यह अजीब लगता है।
- Qwen3 omni transcriber पर उन्होंने यह साझा किया कि आवाज़ और emotion को वह बहुत अच्छे से explain कर देता है।
- उनका मानना था कि मामला सिर्फ सुरक्षा उपायों तक सीमित नहीं, बल्कि मॉडल को शायद pitch का एहसास ही सही से नहीं है। ChatGPT के advanced voice mode में जब humming पहचानने को कहा, तो उसने बार-बार सिर्फ Beethoven 5th ही जवाब दिया। उन्होंने अनुमान लगाया कि शायद मेरे humming को "डल-डल-डल-डल~" जैसा tokenize किया गया होगा।
ऑडियो डोमेन में long-range context शायद इतना critical नहीं होता, इसलिए शायद linear-space, constant-time मॉडल (RWKV, S4 आदि) बेहतर सूट करें। उनका अंदाज़ा था कि transformer लो-पिच/लो-frequency regime में parallel चलता है, जबकि linear मॉडल हर सेकंड एक summary token (जिसमें text + emotion आदि हो) भेजकर feedback ले सकता है। अगर दोनों मॉडल parallel train किए जाएँ, तो summary token का अर्थ पहले से hard-code नहीं होता, training के दौरान ही बनता है। यह पूरी तरह phonetic आधारित end-to-end तरीका है और इसमें text translation नहीं होता। जहाँ शब्द निरर्थक हों या सूचना कम हो, वहाँ छोटे token representation में compress किया जा सकता है। तर्क या code की तुलना में text LLM अभी पीछे लग सकता है, लेकिन इंसान भी नैचुरल लैंग्वेज में algorithm विस्तार से समझाने में आमतौर पर आसानी नहीं महसूस करते।
- उन्होंने कहा कि भले ही linear मॉडल पर पकड़ कम हो, लेकिन hierarchical मॉडलिंग का idea speech research में काफी common है। उदाहरण के लिए OpenAI का Jukebox (2020) तीन-स्तरीय audio codec की तरह काम करता है: language model पहले सबसे coarse level पर आगे क्या होगा predict करता है, फिर finer स्तरों को reconstruct करता है। हाल में MiMo-audio चार-time-step को एक साथ patch की तरह predict करता है। संदर्भ के लिए उन्होंने OpenAI Jukebox शोध-पत्र और MiMo-Audio तकनीकी रिपोर्ट लिंक शेयर किए।
- उन्होंने बताया कि Cartesia audio के लिए constant-time मॉडल पर काम कर रहा है, और इसके लिए उन्होंने वेबसाइट लिंक दिया।
- “इस पर ज़रूर पेपर लिखिए!” जैसी हौसला-अफ़ज़ाई भी की।
सामान्य ऑडियो codecs (JPEG, MP3) क्यों नहीं इस्तेमाल करते, इस पर जब पूछा गया तो उन्होंने explain किया कि MP3 में हर frame हरकत में लगभग स्वतंत्र रूप से कई tens milliseconds का audio लगभग पूरी तरह reconstruct कर सकता है। 128 kbps पर 26ms के लिए करीब 418 bytes लगता है, यानी raw के मुकाबले लगभग 10–11 गुना कम, और कई unnecessary details हट जाती हैं। अगर कोई transcoder इस्तेमाल हो, तो frame को token की तरह उपयोग किया जा सकता है—उनका यह अनुमान था।
- JPEG को deep learning input के रूप में सीधे use करने वाले पेपर का summary share किया। DCT coefficients पर CNN train करने से pixel reconstruction के बाद फिर से transform करने की जरूरत हटाई जा सकती है। ResNet-50 पर इसे आज़माने पर training speed करीब 1.77x तेज़ हुई और accuracy भी बेहतर रही। इस शोध-पत्र का लिंक भी दिया, और MP3 के लिए भी यह अच्छा idea लगता है, ऐसा कहा।
- लेखक होने के नाते उन्होंने बताया कि सबसे बड़ा कारण compression ratio का फर्क है। शुरुआती neural audio codec SoundStream भी 3 kbps पर decent quality देता है, जबकि MP3 लगभग 128 kbps चलता है। SoundStream मूलतः Google Meet की audio compression के लिए बना था, और नए neural codecs उससे कहीं ज्यादा efficient हैं। आधुनिक विकल्प Opus भी लगभग 12 kbps तक जा सकता है, लेकिन अभी भी neural audio codecs जितना efficient नहीं। हाँ, traditional codecs का एक फायदा यह है कि CPU load अपेक्षाकृत कम होता है।
- 400-byte MP3 frame को LLM embedding में बदलने वाला adapter train किया जा सकता है, लेकिन neural network में input ऐसा होना चाहिए जो digestible हो। नेटवर्क अक्सर redundant डेटा (जैसे tokenized text) पसंद करते हैं, जबकि ज्यादा compressed डेटा (GZIP आदि) अक्सर उन्हें पसंद नहीं आता। इसलिए यह प्रयास आसान है लेकिन सफल होगा या नहीं, स्पष्ट नहीं; कभी-कभी odd चीज़ें चल भी जाती हैं, यह भी उन्होंने जोड़ा।
- TFA approach 32D space में encoding करता है, जो psychoacoustic compression से कहीं बेहतर स्तर पर है। और जो information लगभग सुनाई नहीं दे सकती, उसे हटाना speech synthesis जैसे naye-generation उद्देश्य के लिए खास मायने नहीं रखता।
- इंसान फ्रीक्वेंसी घटकों से आवाज़ पहचानता है। inner ear में अलग-अलग resonant frequencies वाले फिल्टर बैंक (कंघी की तरह कई comb-like channels) होते हैं। speech perception में formants के आधार पर अंदाज़ा लगाया जाता है कि utterance में कौन-सा articulatory gesture हुआ। अगर MP3 frame को tokenize करें, तो quantization, Huffman encoding और frame structure के कारण यह एक black box बन सकता है। शायद फिर भी text prediction संभव हो, लेकिन जितनी अधिक महत्वपूर्ण जानकारी encode होकर छिप जाती है, काम उतना कठिन होता है। सीधे formant cues तक पहुँच न मिले तो generalization कठिन है; अगर LLM कुछ speakers पर ही trained हो, तो क्या वह बच्चे की आवाज़ या synthetic speech को ठीक से पहचान लेगा?
इस पोस्ट की visual explanation को उन्होंने सबसे अच्छी और साफ़ कहा। उन्होंने खुद भी VQ-VAE के साथ rendered text tokenization में काम किया था: 10pt font और PDF source लेकर document type व भाषा तक को latent representation में शामिल करने वाली diffusion model से final text images बनाईं। उन्होंने बहुत कुछ सीखा और लिखा कि यह article सच में beautifully explain करता है।
उन्होंने यह चिंता भी share की कि "अगर सीधे speech को tokenize करके LLM बनाया जा सकता है, तो हम हमेशा text transcript पर निर्भर क्यों रहें?" उनका ज़ोर था कि उपलब्ध audio data बहुत विशाल है।
- उन्होंने स्पष्ट किया कि यह पोस्ट उसी सवाल पर है—continuous speech signal को discrete tokens में बदलने के तरीके पर। एक audio window 10 से 100ms होती है, उसे एक token में भरना मुश्किल है। residual vector quantization में एक time-slice/window कई बार अलग dictionaries से गुज़रकर refine/quantize होता है। पोस्ट के अंतिम भाग में Mimi audio codec पर LLM train किए गए samples भी देखे जा सकते हैं, उन्होंने बताया।
- टेक्स्ट डेटा सफाई और standardization के कारण बहुत ज्यादा उपलब्ध है, जबकि speech में भाषा, बोली, accent, expression जैसे कई अतिरिक्त संकेत होते हैं। उसे text में बदलने पर ये side information हट जाती है और केवल linguistic meaning वाला clean token set मिलता है, जो efficient भी होता है और multilingual mapping के लिए robust भी।
- audio-token आधारित training महँगी है, लेकिन एक दिन यही mainstream हो सकता है। YouTube lectures के केवल transcripts पर training और raw audio पर training के बीच efficiency और output quality में बड़ा फर्क निश्चित दिखेगा, ऐसा अनुमान उन्होंने रखा।
- audio tokenization में tokens की मात्रा text की तुलना में कम से कम चार गुना बढ़ जाती है—efficiency की समस्या यहीं से शुरू हो जाती है। और दूसरा सवाल यह है कि क्या केवल pure audio से LLM train करने जितना पर्याप्त data उपलब्ध है?
- अभी तक audio-first transformer breakthrough नहीं आया, लेकिन उनका अनुमान है कि सिद्धांततः audio-first models काफी बेहतर हो सकते हैं।
- Kyutai नाम का company/project पहले नहीं जानते थे, और कहा कि यह उनके चल रहे project में बहुत अच्छी तरह fit बैठता है—थैंक्स भी कहा।
उन्होंने इसे सच में बहुत fascinating काम कहा। उल्टा, audio खुद text से कहीं कठिन है, पर LLM को सीधे speech से align करने का असली केंद्र शायद यही है कि सबसे efficient speech codec खोजा जाए। उन्होंने कल्पना की कि एक दिन सही voice codec शायद Fourier transform नहीं, बल्कि वास्तविक भौतिक parameters पर आधारित होगी—vocal cords, tongue, throat, lips आदि। मानव शरीररचना बहुत हद तक स्थिर रहती है, इसलिए शायद एक दिन ऐसा statistical/standard तरीका सच में settle हो जाए। उसी को वे formant speech encoding कहते हैं, और यह idea उन्होंने पहले speech synthesis में research के दौरान इस्तेमाल किया था।
- पहले के लेखक की तारीफ के लिए thanks स्वीकार करने के बाद उन्होंने कहा कि physics-based (vocal cords/tongue आदि) codecs modern ML दिशा से मेल नहीं खाते। आजकल ML trend यह है कि domain knowledge को कम से कम inject करके model (transformer) पर ज्यादा भरोसा किया जाए। जैसे-जैसे constraints बढ़ते हैं, representable ध्वनियों की range घटती और quality ceiling जल्दी आ जाती है। इसके उलट, जब model को proper constraints देते हैं, तो कई बार बहुत efficient और interesting शोध निकलते हैं—उदाहरण के लिए DDSP पेपर, जहाँ synthesizer को ML से control करके instrument synthesis की कोशिश की जाती है; वही approach speech में भी संभव है। quality थोड़ी गिरती है, लेकिन parameters बहुत कम लगते हैं। KokoroTTS की तरह सीधे consonant+vowel से voice बनाने वाला Tiny TTS भी इसी category में आता है, इसलिए उसके चलते parameters बेहद कम हैं। DDSP शोध-पत्र लिंक, KokoroTTS परियोजना लिंक
- उन्होंने कहा कि physical-speech वाले ऐसे प्रयास पहले से मौजूद हैं; कुछ experiments ने vocal tract और airflow तक recreate करके वास्तविक बोलने की कोशिश की थी। लेकिन यह तरीका गलती करता है क्योंकि speech को लिखने की प्रक्रिया से derive करने वाला model मान लेता है।
- speech coding और synthesis में source-filter model (source और vocal-tract filter parameterization) मूल मॉडल रहा है; यह FFT rediscovery से भी कहीं अधिक पुराना concept है।
100k घंटे training पर्याप्त हैं या नहीं—LLM perspective से यह बहुत ज्यादा नहीं लगता; उन्होंने इसे “Bitter Lesson” याद दिलाने वाला बताया, यानी data और computing का वज़न सबसे ज़्यादा होता है।
- उन्होंने बताया कि 1M steps (batch size 64, block size 2048) तक train किया, और इसे पर्याप्त मानते हुए convergence देख पाया। Parameters केवल 150M हैं, यानी LLM तुलना में छोटा मॉडल। लक्ष्य top-of-the-line score नहीं था, बल्कि केवल यह दिखाना था कि tokenizer बदलने से मॉडल behavior कितना बदल सकता है।
उन्होंने कहा कि यह पोस्ट बहुत अच्छी तरह लिखी गई है और टीम के साथ share करने लायक है। उनके AI उत्पाद में हाल में audio/voice add करना शुरू हुआ है, इसलिए यह article उनके लिए सच में practical reference बन गया है

न्यूरल ऑडियो कोडेक: ऑडियो को LLM में कैसे फीड करें

न्यूरल ऑडियो कोडेक और ऑडियो LLM की पृष्ठभूमि

टेक्स्ट और ऑडियो के टोकनाइज़ेशन अप्रोच में अंतर

ऑडियो मॉडलिंग का bottleneck और सैम्पल-वार अनुमान की सीमा

न्यूरल ऑडियो कोडेक: ऑटोएन्कोडर और RVQ

ऑटोएन्कोडर और vector quantization (VQ-VAE) का मूल सिद्धांत

Residual Vector Quantization (RVQ) की अवधारणा

ऑडियो टोकनाइज़ेशन और LLM पर उपयोग

वास्तविक न्यूरल ऑडियो कोडेक ट्रेनिंग और गुणवत्ता सुधार

Mimi कोडेक में वास्तविक LLM performance बदलाव

semantic token अवधारणा का परिचय

semantic–acoustic quality trade-off

नवीनतम ऑडियो LLM मॉडल और शोध प्रवृत्तियाँ

निष्कर्ष और भविष्य दृष्टि

संदर्भ शोधपत्र और अतिरिक्त पढ़ने की सामग्री

2025 तक के उदाहरण: ऑडियो-आधारित LLM

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणी