2 पॉइंट द्वारा GN⁺ 2024-11-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Standard Intelligence स्केलेबल cross-modality learning पर शोध कर रहा है और audio-only transformer base model hertz-dev को open source के रूप में जारी किया है।

  • hertz-dev में 8.5 billion parameters हैं और यह audio modeling के लिए विशेष रूप से बनाया गया है।

  • hertz-codec

    • यह एक convolutional audio autoencoder है, जो mono, 16kHz speech को 8Hz latent representation में बदलता है।
    • 1kbps bitrate पर यह Soundstream और Encodec से बेहतर है, और DAC जैसी performance दिखाता है।
    • इसमें 5 million encoder parameters और 95 million decoder parameters हैं।
  • hertz-vae

    • 1.8 billion parameters वाला transformer decoder, जो audio VAE के learned prior की भूमिका निभाता है।
    • यह 8192 sampled latent representations का उपयोग करके अगले encoded audio frame की भविष्यवाणी करता है।
  • hertz-dev

    • यह 6.6 billion parameters वाला transformer stack है।
    • pretrained language model के कुछ weights से initialize करके इसे 500 billion tokens पर single epoch तक train किया गया।
    • यह model researchers के लिए अलग-अलग tasks के अनुसार fine-tune करने हेतु एक उपयुक्त starting point है।
    • RTX 4090 पर इसकी theoretical latency 65ms है, जबकि वास्तविक औसत latency 120ms है।
  • भविष्य की दिशा

    • Hertz-dev ऐसा model है जो real-time voice interaction के भविष्य की झलक देता है, और researchers इसे आसानी से fine-tune व scale कर सकते हैं।
    • Hertz का एक बड़ा version विकसित किया जा रहा है, जो reinforcement learning tuning के माध्यम से model की raw capability और final coherence को काफी बेहतर बनाएगा।
  • sample generation

    • hertz-dev की audio modeling क्षमता दिखाने के लिए single-channel और dual-channel generation के साथ model और human के बीच real-time conversation के sample दिए गए हैं।
  • Standard Intelligence का लक्ष्य

    • इसका लक्ष्य general artificial intelligence बनाना है, और फिलहाल इसकी टीम में 4 लोग हैं।
    • AGI बनाने में रुचि रखने वाले लोगों की भर्ती की जा रही है, और निवेश में रुचि रखने वालों से संपर्क का भी स्वागत है।

1 टिप्पणियां

 
GN⁺ 2024-11-04
Hacker News टिप्पणियाँ
  • voice model पर काम करने वाले लोग सोचते हैं कि क्या सिस्टम से निकलने वाली ध्वनि का शारीरिक प्रभाव पड़ता है

    • यह मौजूदा open source TTS engines से कहीं बेहतर मॉडल है
    • अगर इसमें multimodal क्षमता जोड़कर text भी स्वीकार कराया जा सके तो अच्छा होगा
    • Piper जैसे output ko aur adhik prakritik intonation ke saath chalane ke liye fine-tune kiya ja sakta hai
    • अगर text LLM को Piper से और Piper को Hertz-dev से जोड़ा जाए तो यह उपयोगी होगा
  • कहा जा रहा है कि Hertz पहला मॉडल है, लेकिन Moshi नाम का एक similar model भी है

  • Tesla का pure vision-based autonomous driving approach तकनीक को अधिक accessible और scalable बनाता है

    • यह बड़े datasets इकट्ठा करके तेज iteration संभव बनाता है
    • mature stage पर पहुँचने के बाद अतिरिक्त sensor data को फिर से integrate करने की संभावना हो सकती है
  • voice interaction system के लिए ideas explore कर रहा/रही हूँ

    • अभी अधिकांश voice interactions में speech को text में बदला जाता है और फिर वापस audio में
    • अगर text से गुज़रे बिना सीधे speech में जवाब देने वाला system विकसित किया जा सके, तो यह natural और spontaneous responses बना सकता है
    • यह जानने की जिज्ञासा है कि voice interaction model standard speech-to-text-to-speech process का पालन करता है या speech-to-speech processing explore kar raha hai
  • model weights का license क्या है, यह जानना चाहता/चाहती हूँ

  • voice samples अक्सर अर्थहीन sounds निकालते हैं, लेकिन acoustic रूप से शानदार हैं

    • SD और LLMs के साथ छोटे बदलावों पर प्रतिक्रिया का अध्ययन करके debugging की जा सकती है
    • Hertz-dev sound ko input ke roop mein istemal karta hai, isliye yah pahchanana mushkil hai ki kin tokens ko adjust kiya jae
    • real-time use के लिए fiddling संभव नहीं है
    • Hertz-dev के behavior ka systematic adhyayan kaise kiya jae, ise lekar jigyasa hai
  • VUI(Voice User Interface) को explore कर रहा/रही हूँ और यह उपयोगी लग रहा है

    • लगता है कि VUI computer interaction का future है
    • इससे बच्चों और बुज़ुर्गों को नए user groups के रूप में जोड़ा जा सकता है
  • codec parameters 2010 के military speech codec की याद दिलाते हैं

    • इसमें 120ms frames इस्तेमाल होते हैं और 16KHz audio में encode किया गया है
    • IEEE लिंक
  • आवाज़ थोड़ी distorted सुनाई देती है और background noise है

    • यह model की limitation है या training data की quality issue, यह जानने की जिज्ञासा है
  • Hertz-dev रिपॉजिटरी लिंक