2 पॉइंट द्वारा GN⁺ 2026-01-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Handy एक पूरी तरह ऑफलाइन चलने वाला मुफ़्त ओपन सोर्स speech-to-text desktop ऐप है, जिसे privacy-केंद्रित डिज़ाइन के साथ बनाया गया है
  • यह Tauri(Rust + React/TypeScript) पर बना है, और इसकी संरचना ऐसी है कि shortcut key दबाकर बोलने पर आवाज़ सीधे text field में दर्ज हो जाती है
  • यह Whisper और Parakeet V3 मॉडल को सपोर्ट करता है, और GPU acceleration या CPU-आधारित लोकल speech recognition करता है
  • यह Windows, macOS, Linux सभी पर चलता है, और extensibility और आसान forking पर ज़ोर देने वाली संरचना के साथ बनाया गया है ताकि developers के contribution को प्रोत्साहन मिले
  • क्लाउड पर भेजे बिना लोकल में प्रोसेस होने वाला यह privacy-केंद्रित voice input tool है, जिसमें accessibility और customization की संभावना अधिक है

परिचय

  • Handy एक मुफ़्त·ओपन सोर्स·विस्तार योग्य speech recognition application है, जो इंटरनेट कनेक्शन के बिना पूरी तरह ऑफलाइन काम करता है
  • यह Tauri framework पर आधारित है और Rust backend को React/TypeScript frontend के साथ जोड़ता है
  • उपयोगकर्ता shortcut key दबाकर बोलते हैं, और हाथ हटाते ही Whisper या Parakeet V3 मॉडल आवाज़ को टेक्स्ट में बदलकर मौजूदा ऐप में paste कर देता है
  • सभी voice data लोकल में प्रोसेस होता है, इसलिए व्यक्तिगत जानकारी के लीक होने का जोखिम नहीं है

Handy का दर्शन

  • मुफ़्त: accessibility tools हर किसी के लिए उपलब्ध होने चाहिए
  • ओपन सोर्स: कोई भी फीचर को बढ़ा और बेहतर बना सकता है
  • प्राइवेसी की गारंटी: voice data क्लाउड पर नहीं भेजा जाता
  • सरलता: एक ही उद्देश्य पर फ़ोकस — आवाज़ को टेक्स्ट में बदलना
  • लक्ष्य “सबसे परफ़ेक्ट” ऐप बनाना नहीं, बल्कि “सबसे आसानी से fork किया जा सकने वाला” ऐप बनाना है

कैसे काम करता है

  • उपयोगकर्ता shortcut key से रिकॉर्डिंग शुरू/बंद कर सकते हैं या push-to-talk mode का उपयोग कर सकते हैं
  • Silero VAD से silent sections को फ़िल्टर किया जाता है, और Whisper या Parakeet V3 मॉडल से आवाज़ को बदला जाता है
    • Whisper मॉडल: Small, Medium, Turbo, Large वर्ज़न उपलब्ध, GPU acceleration सपोर्ट
    • Parakeet V3: CPU के लिए optimized, automatic language detection शामिल
  • बदला हुआ टेक्स्ट उपयोग में चल रहे application के input field में अपने-आप insert हो जाता है
  • Windows, macOS, Linux सभी समर्थित हैं

आर्किटेक्चर

  • Frontend: React + TypeScript + Tailwind CSS
  • Backend: Rust आधारित, audio processing और machine learning inference की ज़िम्मेदारी
  • मुख्य लाइब्रेरी
    • whisper-rs: Whisper मॉडल के लिए लोकल speech recognition
    • transcription-rs: Parakeet मॉडल के लिए CPU recognition
    • cpal: audio input/output
    • vad-rs: voice activity detection
    • rdev: global shortcut key और system event processing
    • rubato: audio resampling
  • Debug mode: Cmd+Shift+D(macOS) या Ctrl+Shift+D(Windows/Linux) से एक्सेस किया जा सकता है

ज्ञात समस्याएँ और सीमाएँ

  • Whisper मॉडल crash: कुछ Windows/Linux environments में मॉडल के crash होने की समस्या है
  • Wayland support सीमित: Linux Wayland environment में wtype या dotool इंस्टॉल करना ज़रूरी है
  • Text input tools
    • X11: xdotool
    • Wayland: wtype या dotool
    • अगर टूल इंस्टॉल नहीं हैं, तो enigo विकल्प के रूप में इस्तेमाल होता है, लेकिन compatibility सीमित है
  • Linux overlay डिफ़ॉल्ट रूप से disabled: focus conflict रोकने के लिए यह डिफ़ॉल्ट रूप से बंद रहता है

सिस्टम आवश्यकताएँ

  • Whisper मॉडल के लिए
    • macOS: M series या Intel Mac
    • Windows/Linux: Intel, AMD, NVIDIA GPU (Ubuntu 22.04/24.04 recommended)
  • Parakeet V3 मॉडल के लिए
    • केवल CPU, Intel Skylake(6वीं पीढ़ी) या उससे ऊपर recommended
    • mid-range hardware पर real-time की तुलना में लगभग 5 गुना गति
    • automatic language detection शामिल

डेवलपमेंट रोडमैप

  • प्रगति पर फीचर
    • debug log file जोड़ना
    • macOS shortcut में सुधार (Globe key support, global shortcut handling का पुनर्लेखन)
    • optional analytics feature: anonymous usage data collection, explicit consent के आधार पर
    • settings system का refactoring और abstraction में सुधार
    • Tauri command structure को व्यवस्थित करना और type safety बढ़ाना

समस्या समाधान और मैनुअल मॉडल इंस्टॉलेशन

  • नेटवर्क-सीमित environment में मॉडल को मैनुअल download और install किया जा सकता है
  • app data directory के भीतर models फ़ोल्डर बनाकर मॉडल फ़ाइलें रखें
    • Whisper मॉडल: .bin फ़ाइल सीधे कॉपी करें
    • Parakeet मॉडल: .tar.gz को extract करके तय फ़ोल्डर नाम बनाए रखें
  • इंस्टॉलेशन के बाद ऐप रीस्टार्ट करने पर मॉडल अपने-आप पहचाने जाते हैं

योगदान कैसे करें

  • GitHub issues देखकर fork करें और branch बनाएँ
  • लक्षित platform पर पर्याप्त testing के बाद Pull Request submit करें
  • email(contact@handy.computer) या Discord के माध्यम से community में भाग लिया जा सकता है
  • लक्ष्य सरल और अच्छी तरह संरचित codebase के ज़रिये community को आगे बढ़ाने के लिए आधार देना है

संबंधित प्रोजेक्ट और लाइसेंस

  • Handy CLI: Python आधारित command-line वर्ज़न
  • handy.computer: आधिकारिक वेबसाइट और demo उपलब्ध
  • MIT license के तहत वितरित
  • Whisper(OpenAI), Silero, Tauri जैसे ओपन सोर्स प्रोजेक्ट्स पर आधारित

उद्धरण

  • Handy आपके voice recognition tool की खोज इसलिए खत्म कर सकता है क्योंकि यह परफ़ेक्ट नहीं है, बल्कि इसलिए कि आप इसे परफ़ेक्ट बना सकते हैं।

1 टिप्पणियां

 
GN⁺ 2026-01-17
Hacker News की राय
  • मैंने कई STT ऐप्स आज़माए, लेकिन आखिरकार VoiceInk (लोकल, एकमुश्त भुगतान) पर आकर रुका
    Parakeet V3 के साथ इस्तेमाल करने पर यह लगभग तुरंत प्रतिक्रिया देता है और accuracy भी काफ़ी अच्छी है
    मैं अक्सर CLI agent से बात करता हूँ और कहता हूँ, “मुझे बताओ कि तुमने मेरी बात को कैसे समझा”
    इससे समझ की पुष्टि भी हो जाती है और एक तरह की specification का काम भी हो जाता है
    हाल में मैंने Handy + Parakeet v3 का कॉम्बिनेशन भी आज़माया, और यह बहुत अच्छा चला, इसलिए कुछ दिनों तक इसे ही इस्तेमाल करने वाला हूँ
    Cmd‑Shift‑D से “debug” UI खोलो तो post‑processing या spaces जोड़ने जैसे अतिरिक्त options भी दिखते हैं
    • अच्छा होगा अगर ऐसे किसी model को programming के लिए optimize किया गया हो
      मैं “cd ~/projects” या “git push --force” जैसे commands बोलकर चलाना चाहता हूँ
  • मुझे dystonia है, इसलिए जब बाँहें अकड़ जाती हैं तो मैं keyboard नहीं चला पाता
    इसलिए SuperWhisper जैसे TTS apps मेरे लिए बहुत मददगार रहे हैं
    उम्मीद है कि Handy भी ऐसा ही अनुभव देगा
    लेकिन मुझे लगता है कि अगले चरण तक जाने के लिए सिर्फ speech-to-text से आगे बढ़कर context-based expansion की ज़रूरत है
    जैसे, IDE के अंदर code बोलो और वह सचमुच code में बदल जाए
    आखिरकार दिशा TTS और computer use को जोड़ने की है
    • मैंने ultraplan नाम का एक CLI tool बनाया है
      यह local Whisper से speech record करता है और screenshots, clipboard content वगैरह को timeline के रूप में save करता है
      उसके बाद Claude Code जैसे agents इस timeline को पढ़कर काम आगे बढ़ाते हैं
      “marco” बोलने पर screenshot लेना जैसी hands-free control भी संभव है
      अगर चाहो तो मैं इसे GitHub पर व्यवस्थित करके डाल सकता हूँ
    • मैं तुम्हारी बात से सहमत हूँ। इसलिए मैंने Handy को open source के रूप में जारी किया
      छोटे local models (moondream, qwen आदि) से computer context समझने के experiments भी चल रहे हैं
      पहले जब मेरी उँगली टूट गई थी, तब मैंने shortcuts को Handy में map करके basic context control बनाया था
    • “voice से coding” पर LLM से पहले भी काफ़ी research हुई है
      उदाहरण के लिए Using Voice to Code Faster than Keyboard जैसा 2013 का उदाहरण है
      हाल की research में यह paper भी है
    • जो feature तुमने कहा, वह पहले से संभव है
      STT output को LLM में डालो तो वह intent समझकर command set बना सकता है
      CLI में voice commands को सीधे shell commands में बदलना आसान है
      GUI में screen state जाननी पड़ती है, इसलिए थोड़ा जटिल है
      macOS का MacWhisper transcribed text को OpenAI-compatible endpoint पर भेज सकता है
  • कई voice transcription apps इस्तेमाल करने के बाद यह छोटा-सा review है
    Superwhisper paid है, लेकिन इसमें lifetime subscription option है और features बहुत हैं। इसे एक ही developer maintain करता है, इसलिए कभी-कभी bugs आते हैं
    Hex सबसे हल्का और साफ-सुथरा free option है
    Fluid Voice में एक अनोखा feature है जो बोलते समय real-time में text दिखाता है
    Handy का pink UI काफ़ी प्यारा है और इसका history window मुझे पसंद आया। clipboard restore setting थोड़ी अलग लगी
    कई apps को बारी-बारी install करने पर कुछ conflicts भी हुए
    Nvidia ने Parakeet को open source किया है, इसी वजह से सबकी speed बहुत तेज़ है
    मुझे real-time transcription streaming पसंद है। quality थोड़ी कम हो तब भी तुरंत दिखे, और बाद में उसे high-quality version से replace कर दिया जाए, यह तरीका अच्छा लगता है
  • कई हफ़्तों तक STT app ढूँढने के बाद मुझे Handy मिला
    ज़्यादातर paid या subscription-based थे, इसलिए मैं खुद बनाने की सोच रहा था, लेकिन Handy तेज़, simple और unobtrusive है
    ऊपर से इसे लगातार updates मिल रहे हैं, इसलिए मैं सचमुच बहुत संतुष्ट हूँ
    post‑processing feature भी काफ़ी शानदार लग रहा है
  • मैं Wispr Flow इस्तेमाल कर रहा हूँ, लेकिन switch करने के लिए मुझे अक्सर गलत पहचाने जाने वाले शब्दों—जैसे company names, लोगों के नाम, library names—के लिए user dictionary feature चाहिए
    • “Custom Words” नाम का एक feature है, शायद उसी की बात हो रही है। अभी ठीक से test नहीं कर पाया हूँ
    • इससे जुड़ा PR जल्द merge होने वाला है, इसलिए चाहो तो पहले से build करके इस्तेमाल कर सकते हो
    • कुछ models हर शब्द के लिए confidence दिखाते हैं
      manually words जोड़ना भी अच्छा है, लेकिन अगर uncertain words mark कर दिए जाएँ तो उन्हें ठीक करना आसान होगा
  • एक बात का ध्यान रखें
    default shortcut Ctrl+Space है, और key छोड़ते ही transcription insert हो जाती है
    उस समय अगर Ctrl अभी भी दबा हुआ हो, तो transcribed text को Ctrl character input की तरह treat किया जाता है
    test environment Linux x64, X11, Emacs था
  • मैं Parakeet v3 के साथ Handy इस्तेमाल कर रहा हूँ और यह सचमुच शानदार है
    मैंने Monologue, Superwhisper, Aqua भी आज़माए, लेकिन Handy locally चलता है और subscription fee भी नहीं है
    ज़ोरदार सिफारिश है
  • क्या किसी ने इसे OpenWhispr से compare किया है?
    description से दोनों काफ़ी similar लगते हैं। Handy की पहली release जून 2025 में थी, और OpenWhispr एक महीने बाद आया
    Handy के GitHub stars 11k हैं, जबकि OpenWhispr के लगभग 730 हैं
    • मैंने दोनों इस्तेमाल किए हैं, और Handy कहीं ज़्यादा आसान लगा क्योंकि इसे macOS app की तरह सीधे install किया जा सकता था
      उस समय OpenWhispr में Parakeet model नहीं था और UI भी उतना smooth नहीं था
      Handy का minimal UI इस्तेमाल को intuitive बनाता है
      advanced features कम हैं, लेकिन मैं इसे दो महीने से इस्तेमाल कर रहा हूँ और किसी दूसरे STT app की तलाश नहीं है
  • मेरे MacBook M1 Air पर Handy बहुत तेज़ है और macOS के default STT से ज़्यादा accurate है
    settings भी काफ़ी simple हैं, इसलिए इस्तेमाल करना आसान है
    मैं सोच रहा था कि “discharging the model” option क्या करता है, लेकिन लगता है कि RAM या CPU पर इसका कोई असर नहीं है
    • यह model को RAM में resident रखता है ताकि उसे जल्दी access किया जा सके
      discharge करने पर वह memory से उतर जाता है, इसलिए startup speed धीमी हो जाती है
  • Parakeet V3 model सचमुच शानदार है