Handy – मुफ़्त ओपन सोर्स speech recognition ऐप
(github.com/cjpais)- Handy एक पूरी तरह ऑफलाइन चलने वाला मुफ़्त ओपन सोर्स speech-to-text desktop ऐप है, जिसे privacy-केंद्रित डिज़ाइन के साथ बनाया गया है
- यह Tauri(Rust + React/TypeScript) पर बना है, और इसकी संरचना ऐसी है कि shortcut key दबाकर बोलने पर आवाज़ सीधे text field में दर्ज हो जाती है
- यह Whisper और Parakeet V3 मॉडल को सपोर्ट करता है, और GPU acceleration या CPU-आधारित लोकल speech recognition करता है
- यह Windows, macOS, Linux सभी पर चलता है, और extensibility और आसान forking पर ज़ोर देने वाली संरचना के साथ बनाया गया है ताकि developers के contribution को प्रोत्साहन मिले
- क्लाउड पर भेजे बिना लोकल में प्रोसेस होने वाला यह privacy-केंद्रित voice input tool है, जिसमें accessibility और customization की संभावना अधिक है
परिचय
- Handy एक मुफ़्त·ओपन सोर्स·विस्तार योग्य speech recognition application है, जो इंटरनेट कनेक्शन के बिना पूरी तरह ऑफलाइन काम करता है
- यह Tauri framework पर आधारित है और Rust backend को React/TypeScript frontend के साथ जोड़ता है
- उपयोगकर्ता shortcut key दबाकर बोलते हैं, और हाथ हटाते ही Whisper या Parakeet V3 मॉडल आवाज़ को टेक्स्ट में बदलकर मौजूदा ऐप में paste कर देता है
- सभी voice data लोकल में प्रोसेस होता है, इसलिए व्यक्तिगत जानकारी के लीक होने का जोखिम नहीं है
Handy का दर्शन
- मुफ़्त: accessibility tools हर किसी के लिए उपलब्ध होने चाहिए
- ओपन सोर्स: कोई भी फीचर को बढ़ा और बेहतर बना सकता है
- प्राइवेसी की गारंटी: voice data क्लाउड पर नहीं भेजा जाता
- सरलता: एक ही उद्देश्य पर फ़ोकस — आवाज़ को टेक्स्ट में बदलना
- लक्ष्य “सबसे परफ़ेक्ट” ऐप बनाना नहीं, बल्कि “सबसे आसानी से fork किया जा सकने वाला” ऐप बनाना है
कैसे काम करता है
- उपयोगकर्ता shortcut key से रिकॉर्डिंग शुरू/बंद कर सकते हैं या push-to-talk mode का उपयोग कर सकते हैं
- Silero VAD से silent sections को फ़िल्टर किया जाता है, और Whisper या Parakeet V3 मॉडल से आवाज़ को बदला जाता है
- Whisper मॉडल: Small, Medium, Turbo, Large वर्ज़न उपलब्ध, GPU acceleration सपोर्ट
- Parakeet V3: CPU के लिए optimized, automatic language detection शामिल
- बदला हुआ टेक्स्ट उपयोग में चल रहे application के input field में अपने-आप insert हो जाता है
- Windows, macOS, Linux सभी समर्थित हैं
आर्किटेक्चर
- Frontend: React + TypeScript + Tailwind CSS
- Backend: Rust आधारित, audio processing और machine learning inference की ज़िम्मेदारी
- मुख्य लाइब्रेरी
whisper-rs: Whisper मॉडल के लिए लोकल speech recognitiontranscription-rs: Parakeet मॉडल के लिए CPU recognitioncpal: audio input/outputvad-rs: voice activity detectionrdev: global shortcut key और system event processingrubato: audio resampling
- Debug mode:
Cmd+Shift+D(macOS) याCtrl+Shift+D(Windows/Linux) से एक्सेस किया जा सकता है
ज्ञात समस्याएँ और सीमाएँ
- Whisper मॉडल crash: कुछ Windows/Linux environments में मॉडल के crash होने की समस्या है
- Wayland support सीमित: Linux Wayland environment में
wtypeयाdotoolइंस्टॉल करना ज़रूरी है - Text input tools
- X11:
xdotool - Wayland:
wtypeयाdotool - अगर टूल इंस्टॉल नहीं हैं, तो
enigoविकल्प के रूप में इस्तेमाल होता है, लेकिन compatibility सीमित है
- X11:
- Linux overlay डिफ़ॉल्ट रूप से disabled: focus conflict रोकने के लिए यह डिफ़ॉल्ट रूप से बंद रहता है
सिस्टम आवश्यकताएँ
- Whisper मॉडल के लिए
- macOS: M series या Intel Mac
- Windows/Linux: Intel, AMD, NVIDIA GPU (Ubuntu 22.04/24.04 recommended)
- Parakeet V3 मॉडल के लिए
- केवल CPU, Intel Skylake(6वीं पीढ़ी) या उससे ऊपर recommended
- mid-range hardware पर real-time की तुलना में लगभग 5 गुना गति
- automatic language detection शामिल
डेवलपमेंट रोडमैप
- प्रगति पर फीचर
- debug log file जोड़ना
- macOS shortcut में सुधार (Globe key support, global shortcut handling का पुनर्लेखन)
- optional analytics feature: anonymous usage data collection, explicit consent के आधार पर
- settings system का refactoring और abstraction में सुधार
- Tauri command structure को व्यवस्थित करना और type safety बढ़ाना
समस्या समाधान और मैनुअल मॉडल इंस्टॉलेशन
- नेटवर्क-सीमित environment में मॉडल को मैनुअल download और install किया जा सकता है
- app data directory के भीतर
modelsफ़ोल्डर बनाकर मॉडल फ़ाइलें रखें- Whisper मॉडल:
.binफ़ाइल सीधे कॉपी करें - Parakeet मॉडल:
.tar.gzको extract करके तय फ़ोल्डर नाम बनाए रखें
- Whisper मॉडल:
- इंस्टॉलेशन के बाद ऐप रीस्टार्ट करने पर मॉडल अपने-आप पहचाने जाते हैं
योगदान कैसे करें
- GitHub issues देखकर fork करें और branch बनाएँ
- लक्षित platform पर पर्याप्त testing के बाद Pull Request submit करें
- email(contact@handy.computer) या Discord के माध्यम से community में भाग लिया जा सकता है
- लक्ष्य सरल और अच्छी तरह संरचित codebase के ज़रिये community को आगे बढ़ाने के लिए आधार देना है
संबंधित प्रोजेक्ट और लाइसेंस
- Handy CLI: Python आधारित command-line वर्ज़न
- handy.computer: आधिकारिक वेबसाइट और demo उपलब्ध
- MIT license के तहत वितरित
- Whisper(OpenAI), Silero, Tauri जैसे ओपन सोर्स प्रोजेक्ट्स पर आधारित
उद्धरण
- “Handy आपके voice recognition tool की खोज इसलिए खत्म कर सकता है क्योंकि यह परफ़ेक्ट नहीं है, बल्कि इसलिए कि आप इसे परफ़ेक्ट बना सकते हैं।”
1 टिप्पणियां
Hacker News की राय
Parakeet V3 के साथ इस्तेमाल करने पर यह लगभग तुरंत प्रतिक्रिया देता है और accuracy भी काफ़ी अच्छी है
मैं अक्सर CLI agent से बात करता हूँ और कहता हूँ, “मुझे बताओ कि तुमने मेरी बात को कैसे समझा”
इससे समझ की पुष्टि भी हो जाती है और एक तरह की specification का काम भी हो जाता है
हाल में मैंने Handy + Parakeet v3 का कॉम्बिनेशन भी आज़माया, और यह बहुत अच्छा चला, इसलिए कुछ दिनों तक इसे ही इस्तेमाल करने वाला हूँ
Cmd‑Shift‑D से “debug” UI खोलो तो post‑processing या spaces जोड़ने जैसे अतिरिक्त options भी दिखते हैं
मैं “cd ~/projects” या “git push --force” जैसे commands बोलकर चलाना चाहता हूँ
इसलिए SuperWhisper जैसे TTS apps मेरे लिए बहुत मददगार रहे हैं
उम्मीद है कि Handy भी ऐसा ही अनुभव देगा
लेकिन मुझे लगता है कि अगले चरण तक जाने के लिए सिर्फ speech-to-text से आगे बढ़कर context-based expansion की ज़रूरत है
जैसे, IDE के अंदर code बोलो और वह सचमुच code में बदल जाए
आखिरकार दिशा TTS और computer use को जोड़ने की है
ultraplanनाम का एक CLI tool बनाया हैयह local Whisper से speech record करता है और screenshots, clipboard content वगैरह को timeline के रूप में save करता है
उसके बाद Claude Code जैसे agents इस timeline को पढ़कर काम आगे बढ़ाते हैं
“marco” बोलने पर screenshot लेना जैसी hands-free control भी संभव है
अगर चाहो तो मैं इसे GitHub पर व्यवस्थित करके डाल सकता हूँ
छोटे local models (moondream, qwen आदि) से computer context समझने के experiments भी चल रहे हैं
पहले जब मेरी उँगली टूट गई थी, तब मैंने shortcuts को Handy में map करके basic context control बनाया था
उदाहरण के लिए Using Voice to Code Faster than Keyboard जैसा 2013 का उदाहरण है
हाल की research में यह paper भी है
STT output को LLM में डालो तो वह intent समझकर command set बना सकता है
CLI में voice commands को सीधे shell commands में बदलना आसान है
GUI में screen state जाननी पड़ती है, इसलिए थोड़ा जटिल है
macOS का MacWhisper transcribed text को OpenAI-compatible endpoint पर भेज सकता है
Superwhisper paid है, लेकिन इसमें lifetime subscription option है और features बहुत हैं। इसे एक ही developer maintain करता है, इसलिए कभी-कभी bugs आते हैं
Hex सबसे हल्का और साफ-सुथरा free option है
Fluid Voice में एक अनोखा feature है जो बोलते समय real-time में text दिखाता है
Handy का pink UI काफ़ी प्यारा है और इसका history window मुझे पसंद आया। clipboard restore setting थोड़ी अलग लगी
कई apps को बारी-बारी install करने पर कुछ conflicts भी हुए
Nvidia ने Parakeet को open source किया है, इसी वजह से सबकी speed बहुत तेज़ है
मुझे real-time transcription streaming पसंद है। quality थोड़ी कम हो तब भी तुरंत दिखे, और बाद में उसे high-quality version से replace कर दिया जाए, यह तरीका अच्छा लगता है
ज़्यादातर paid या subscription-based थे, इसलिए मैं खुद बनाने की सोच रहा था, लेकिन Handy तेज़, simple और unobtrusive है
ऊपर से इसे लगातार updates मिल रहे हैं, इसलिए मैं सचमुच बहुत संतुष्ट हूँ
post‑processing feature भी काफ़ी शानदार लग रहा है
manually words जोड़ना भी अच्छा है, लेकिन अगर uncertain words mark कर दिए जाएँ तो उन्हें ठीक करना आसान होगा
default shortcut Ctrl+Space है, और key छोड़ते ही transcription insert हो जाती है
उस समय अगर Ctrl अभी भी दबा हुआ हो, तो transcribed text को Ctrl character input की तरह treat किया जाता है
test environment Linux x64, X11, Emacs था
मैंने Monologue, Superwhisper, Aqua भी आज़माए, लेकिन Handy locally चलता है और subscription fee भी नहीं है
ज़ोरदार सिफारिश है
description से दोनों काफ़ी similar लगते हैं। Handy की पहली release जून 2025 में थी, और OpenWhispr एक महीने बाद आया
Handy के GitHub stars 11k हैं, जबकि OpenWhispr के लगभग 730 हैं
उस समय OpenWhispr में Parakeet model नहीं था और UI भी उतना smooth नहीं था
Handy का minimal UI इस्तेमाल को intuitive बनाता है
advanced features कम हैं, लेकिन मैं इसे दो महीने से इस्तेमाल कर रहा हूँ और किसी दूसरे STT app की तलाश नहीं है
settings भी काफ़ी simple हैं, इसलिए इस्तेमाल करना आसान है
मैं सोच रहा था कि “discharging the model” option क्या करता है, लेकिन लगता है कि RAM या CPU पर इसका कोई असर नहीं है
discharge करने पर वह memory से उतर जाता है, इसलिए startup speed धीमी हो जाती है