9 पॉइंट द्वारा xguru 2024-03-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • वॉइस रिकग्निशन और प्राकृतिक भाषा कमांड्स को जोड़ने वाला आवाज़-आधारित दस्तावेज़ एडिटर
  • उपयोगकर्ता अगर कहे, "इसे सूची में बदल दो" या "इस किताब के पेज 86 पर inline citation जोड़ दो", तो यह संबंधित कमांड चलाता है
  • वॉइस रिकग्निशन सॉफ़्टवेयर अब भी असुविधाजनक और नाज़ुक अनुभव प्रदान करता है
    • सॉफ़्टवेयर सटीकता की प्रतिस्पर्धा करते हैं, लेकिन जनरेट किए गए टेक्स्ट की नाज़ुक प्रकृति को नहीं संभालते
    • विशेष कमांड्स सीखने पड़ते हैं, और यह कीबोर्ड के विकल्प के रूप में पर्याप्त नहीं है
  • Aqua Voice का समाधान
    • Aqua उपयोगकर्ता की बात को ज्यों का त्यों लिख सकता है, कमांड चला सकता है, या कही गई बात को इच्छित लेखन के रूप में परिष्कृत करके सुधार सकता है
    • अगर बोलते समय अटकन हो या वाक्य कई बार कहा जाए, तो Aqua केवल अंतिम संस्करण चुनकर उसे टेक्स्ट में बदलता है
  • Aqua Voice की विज़न और तकनीक
    • अधिक प्राकृतिक वॉइस रिकग्निशन अनुभव और सहयोगी AI लेखन अनुभव देने का लक्ष्य
    • रियल-टाइम में मॉडल से लगातार जुड़े रहने वाली streaming-आधारित सेवा प्रदान करता है
    • 6 मॉडल मिलकर इरादे के अनुसार दस्तावेज़ को ट्रांसक्राइब, इंटरप्रेट और री-राइट करते हैं
    • रियल-टाइम सटीकता बेहतर करने के लिए MoE(Mixture of Experts) transcription का उपयोग

1 टिप्पणियां

 
xguru 2024-03-29

Hacker News की राय

  • कमाल है! कुछ फ़ीडबैक:
    • '1000 tokens' जैसा शब्द non-technical users के लिए कोई मतलब नहीं रखता, और मेरे लिए भी लगभग बेकार है। बस यह बता दें कि मैं कितने शब्द बोल सकता हूँ
    • वह serif font वाला LaTeX error rate टेबल भी बहुत उबाऊ है। लोग 'macOS dictation की तुलना में 7x तक कम errors' जैसी चमकदार बात चाहते हैं। comparison table नहीं।
    • '0.05 word error rate' भी हट जाना चाहिए। इसका मतलब क्या है, यह समझाएँ और percentage का उपयोग करें।
    • 'नाम, शब्द, तथ्य, संख्याएँ भूल गए? Aqua से उन्हें भरने के लिए कहें।' अगर इस feature को बंद किया जा सके तो अच्छा होगा, और कम से कम जब document में वह चीज़ डाली जाए जो मैंने कही नहीं, तो उसका साफ़ संकेत होना चाहिए। जब मैं dictation करता हूँ, तो आम तौर पर मैं चाहता हूँ कि पेज पर सिर्फ़ वही शब्द हों जो मैंने बोले हैं।
  • जैसा कि दूसरों ने कहा, बहुत बढ़िया काम।
    • यह phone या watch पर खास तौर पर बहुत अच्छा लग रहा है। जहाँ keyboard experience कमज़ोर हो, वहाँ notes लेने की क्षमता के लिहाज़ से यह सच में game changer लगता है।
    • क्या आपने इसे code writing के लिए इस्तेमाल करके देखा है? यह IDE/text editor plugin के रूप में हैरान कर देने जितना शानदार हो सकता है।
    • यह देखकर अच्छा लगा कि आप AI के साथ कोई खेदजनक काम नहीं कर रहे। हम जो बहुत-सी applications देखते हैं, वे भयानक होती हैं। आपने जो बनाया है वह उत्कृष्ट है और उस शापित chocolate factory experience से बहुत दूर है।
  • 94/95 में मुझे RSI से जुड़ी चोट लगी थी और तब से मैं speech recognition का उपयोग कर रहा हूँ। मैं ऐसा solution चाहता हूँ जिससे मैं Windows से बाहर निकल सकूँ। मैं Firefox, Thunderbird, VS Code में आसानी से dictation कर सकने वाला solution चाहता हूँ। सबसे महत्वपूर्ण चीज़ है text editing/manipulation functionality, जिसे Nuance 'Select-and-Say' कहता था। मामूली edits, नए dictation से sentence replace करना, आदि—यह ज़्यादातर whisper apps की तरह केवल captured dictation की तुलना में voice का उपयोग बहुत आसान बना देता है। अगर यह यह कर सकता है, तो मैं जीवनभर का ग्राहक बन जाऊँगा।
    • इसके बाद सबसे महत्वपूर्ण चीज़ है grammar के लिए action routines लिख पाने की क्षमता। मेरी पसंद Python है, क्योंकि chatGPT के साथ code लिखवाने के लिए यह सबसे आसान target है। लेकिन मैं दूसरी भाषाएँ भी सीख सकता हूँ (JavaScript को छोड़कर, उससे मुझे नफ़रत है)। मैं Joel Gould के 'natPython' package का हवाला देता हूँ। यहाँ मूल presentation और लोगों द्वारा बनाई गई चीज़ें हैं।
    • अतीत से सीखने लायक बातें हैं। DragonDictate/NaturallySpeaking के शुरुआती दिनों में, जब Baker Dragon Systems चला रहे थे, वे नियमित रूप से कर्मचारियों को स्थानीय speech recognition user group meetings में भेजते थे ताकि वे हमसे बात करें कि क्या काम कर रहा है और क्या विफल हो रहा है। उन्हें पता था कि हम Crips को देखकर उन्हें यह समझने में किसी भी अन्य user community से ज़्यादा मदद मिलेगी कि बेहतर speech recognition environment कैसे बनाया जाए। हम किसी और से पहले corner cases पकड़ लेते थे। उन्होंने कुछ अच्छे काम किए। उदाहरण के लिए, उन्होंने कुछ speech recognition user group meetings को जगह और staff time देकर support किया।
    • लगता है Nuance वह सबक भूल गया।
    • खैर, मैं आज काम करने वाला था, लेकिन आपकी प्रस्तुति ने उसे दिमाग़ से उड़ा दिया। :-)
    • [बाद में जोड़ा गया] सच में प्रभावशाली है। मुझे साफ़ दिख रहा है कि मुझे इसमें और समय देना चाहिए। मैं देख सकता हूँ कि Naturally Speaking के अनुभव ने मेरी दृष्टि सीमित कर दी थी, और आपके पास इस बात की कहीं ज़्यादा व्यापक दृष्टि है कि user interface क्या हो सकता है।
  • मैं data entry के लिए ऐसी ही किसी चीज़ की तलाश में था। अक्सर मैं चीज़ें नाप रहा होता हूँ, हाथ भरे होते हैं, और मुझे notes लेने पड़ते हैं। क्या यह tabular data को output/format कर सकता है?
  • यह सच में शानदार है। मैं चाहता था कि कोई इसे बनाए:
    • मैं इसके लिए खुशी-खुशी $10/माह दूँगा। लेकिन मैं वास्तव में इनमें से एक चीज़ चाहता हूँ:
      • Raycast plugin या desktop app, ताकि यह मेरे environment के सभी editable text areas के साथ interact कर सके
      • एक API, जिसमें existing text/context + audio stream भेजा जा सके और बदले में full-document updates की heartbeat मिले। तब community, text input के बड़े दायरे के लिए Obsidian/VSCode/browser plugins बना सकती है
    • मैं आज दोपहर वैसे भी $10 देने वाला हूँ, और बधाई!
  • medical industry में dictation software बहुत महत्वपूर्ण है। हर doctor इसका उपयोग करता है, और आपकी तरह का solution उनके काम को बहुत अधिक efficient बना सकता है। क्या आपने इस market segment को explore किया है?
  • यह अद्भुत है! इसका उपयोग करना बहुत संतोषजनक है, और transcription + intent का संयोजन बहुत बड़ी क्षमता वाला लगता है।
    मैं patient letters आदि dictate करने के लिए इसका उपयोग करना चाहूँगा। local models/HIPAA compliance अभी बहुत दूर है क्या?
  • लॉन्च की बधाई!
    मैं, एक ऐसा neurodivergent व्यक्ति जो voice की तुलना में text के साथ कहीं बेहतर काम करता है, इस idea को बिल्कुल पसंद करता हूँ। मेरा एकमात्र फ़ीडबैक है... मैं इसे ज़्यादा control के साथ चलाना चाहूँगा। मैं पहले से ही LLMs को locally चला रहा हूँ (जैसे LM Studio), और whisper जैसी चीज़ें भी चला सकता हूँ। मैं समझता हूँ कि इसे open source करना (या source code उपलब्ध कराना) commercialize करने की कोशिशों के खिलाफ़ हो सकता है। फिर भी Red Hat जैसे कुछ विकल्प हो सकते हैं, जहाँ business use के लिए शुल्क लिया जाए और personal use के लिए local runs मुफ्त रखे जाएँ।
    एक तरफ़ आपके पास उस क्षेत्र में मज़बूत first-mover advantage है जहाँ बहुत से लोगों को लाभ हो सकता है और वे इसका उपयोग कर सकते हैं, लेकिन दूसरी तरफ़ कोई व्यक्ति कई LLM outputs की कई layers को जोड़कर प्रतिस्पर्धा दे सकता है (ऐसे projects अक्सर open source होते हैं, हालाँकि कभी-कभी कम 'polished' होते हैं)। अगर आप अच्छा सौदा पेश करें, तो बड़ी सफलता का मौका हो सकता है। शुभकामनाएँ!
  • यह बढ़िया है, शायद मैं subscribe करूँगा—बस मुझे अपनी दूसरी subscriptions कम करनी होंगी—हाल में बहुत सारे लुभावने AI products आ गए हैं।
  • यह स्पष्ट रूप से नहीं कहा गया, लेकिन मैं जानना चाहूँगा कि कौन-सा data cloud में जाता है - मेरा अनुमान है कि पूरा voice recording, सब कुछ सहित। या STT device पर होता है? साथ ही इस data के लिए आपकी privacy/retention policy क्या है? शानदार demo और बढ़िया product!