-
Standard Intelligence स्केलेबल cross-modality learning पर शोध कर रहा है और audio-only transformer base model
hertz-devको open source के रूप में जारी किया है। -
hertz-devमें 8.5 billion parameters हैं और यह audio modeling के लिए विशेष रूप से बनाया गया है। -
hertz-codec
- यह एक convolutional audio autoencoder है, जो mono, 16kHz speech को 8Hz latent representation में बदलता है।
- 1kbps bitrate पर यह Soundstream और Encodec से बेहतर है, और DAC जैसी performance दिखाता है।
- इसमें 5 million encoder parameters और 95 million decoder parameters हैं।
-
hertz-vae
- 1.8 billion parameters वाला transformer decoder, जो audio VAE के learned prior की भूमिका निभाता है।
- यह 8192 sampled latent representations का उपयोग करके अगले encoded audio frame की भविष्यवाणी करता है।
-
hertz-dev
- यह 6.6 billion parameters वाला transformer stack है।
- pretrained language model के कुछ weights से initialize करके इसे 500 billion tokens पर single epoch तक train किया गया।
- यह model researchers के लिए अलग-अलग tasks के अनुसार fine-tune करने हेतु एक उपयुक्त starting point है।
- RTX 4090 पर इसकी theoretical latency 65ms है, जबकि वास्तविक औसत latency 120ms है।
-
भविष्य की दिशा
- Hertz-dev ऐसा model है जो real-time voice interaction के भविष्य की झलक देता है, और researchers इसे आसानी से fine-tune व scale कर सकते हैं।
- Hertz का एक बड़ा version विकसित किया जा रहा है, जो reinforcement learning tuning के माध्यम से model की raw capability और final coherence को काफी बेहतर बनाएगा।
-
sample generation
hertz-devकी audio modeling क्षमता दिखाने के लिए single-channel और dual-channel generation के साथ model और human के बीच real-time conversation के sample दिए गए हैं।
-
Standard Intelligence का लक्ष्य
- इसका लक्ष्य general artificial intelligence बनाना है, और फिलहाल इसकी टीम में 4 लोग हैं।
- AGI बनाने में रुचि रखने वाले लोगों की भर्ती की जा रही है, और निवेश में रुचि रखने वालों से संपर्क का भी स्वागत है।
1 टिप्पणियां
Hacker News टिप्पणियाँ
voice model पर काम करने वाले लोग सोचते हैं कि क्या सिस्टम से निकलने वाली ध्वनि का शारीरिक प्रभाव पड़ता है
कहा जा रहा है कि Hertz पहला मॉडल है, लेकिन Moshi नाम का एक similar model भी है
Tesla का pure vision-based autonomous driving approach तकनीक को अधिक accessible और scalable बनाता है
voice interaction system के लिए ideas explore कर रहा/रही हूँ
model weights का license क्या है, यह जानना चाहता/चाहती हूँ
voice samples अक्सर अर्थहीन sounds निकालते हैं, लेकिन acoustic रूप से शानदार हैं
VUI(Voice User Interface) को explore कर रहा/रही हूँ और यह उपयोगी लग रहा है
codec parameters 2010 के military speech codec की याद दिलाते हैं
आवाज़ थोड़ी distorted सुनाई देती है और background noise है
Hertz-dev रिपॉजिटरी लिंक