• Handy एक पूरी तरह ऑफलाइन चलने वाला मुफ़्त ओपन सोर्स speech-to-text desktop ऐप है, जिसे privacy-केंद्रित डिज़ाइन के साथ बनाया गया है
  • यह Tauri(Rust + React/TypeScript) पर बना है, और इसकी संरचना ऐसी है कि shortcut key दबाकर बोलने पर आवाज़ सीधे text field में दर्ज हो जाती है
  • यह Whisper और Parakeet V3 मॉडल को सपोर्ट करता है, और GPU acceleration या CPU-आधारित लोकल speech recognition करता है
  • यह Windows, macOS, Linux सभी पर चलता है, और extensibility और आसान forking पर ज़ोर देने वाली संरचना के साथ बनाया गया है ताकि developers के contribution को प्रोत्साहन मिले
  • क्लाउड पर भेजे बिना लोकल में प्रोसेस होने वाला यह privacy-केंद्रित voice input tool है, जिसमें accessibility और customization की संभावना अधिक है

परिचय

  • Handy एक मुफ़्त·ओपन सोर्स·विस्तार योग्य speech recognition application है, जो इंटरनेट कनेक्शन के बिना पूरी तरह ऑफलाइन काम करता है
  • यह Tauri framework पर आधारित है और Rust backend को React/TypeScript frontend के साथ जोड़ता है
  • उपयोगकर्ता shortcut key दबाकर बोलते हैं, और हाथ हटाते ही Whisper या Parakeet V3 मॉडल आवाज़ को टेक्स्ट में बदलकर मौजूदा ऐप में paste कर देता है
  • सभी voice data लोकल में प्रोसेस होता है, इसलिए व्यक्तिगत जानकारी के लीक होने का जोखिम नहीं है

Handy का दर्शन

  • मुफ़्त: accessibility tools हर किसी के लिए उपलब्ध होने चाहिए
  • ओपन सोर्स: कोई भी फीचर को बढ़ा और बेहतर बना सकता है
  • प्राइवेसी की गारंटी: voice data क्लाउड पर नहीं भेजा जाता
  • सरलता: एक ही उद्देश्य पर फ़ोकस — आवाज़ को टेक्स्ट में बदलना
  • लक्ष्य “सबसे परफ़ेक्ट” ऐप बनाना नहीं, बल्कि “सबसे आसानी से fork किया जा सकने वाला” ऐप बनाना है

कैसे काम करता है

  • उपयोगकर्ता shortcut key से रिकॉर्डिंग शुरू/बंद कर सकते हैं या push-to-talk mode का उपयोग कर सकते हैं
  • Silero VAD से silent sections को फ़िल्टर किया जाता है, और Whisper या Parakeet V3 मॉडल से आवाज़ को बदला जाता है
    • Whisper मॉडल: Small, Medium, Turbo, Large वर्ज़न उपलब्ध, GPU acceleration सपोर्ट
    • Parakeet V3: CPU के लिए optimized, automatic language detection शामिल
  • बदला हुआ टेक्स्ट उपयोग में चल रहे application के input field में अपने-आप insert हो जाता है
  • Windows, macOS, Linux सभी समर्थित हैं

आर्किटेक्चर

  • Frontend: React + TypeScript + Tailwind CSS
  • Backend: Rust आधारित, audio processing और machine learning inference की ज़िम्मेदारी
  • मुख्य लाइब्रेरी
    • whisper-rs: Whisper मॉडल के लिए लोकल speech recognition
    • transcription-rs: Parakeet मॉडल के लिए CPU recognition
    • cpal: audio input/output
    • vad-rs: voice activity detection
    • rdev: global shortcut key और system event processing
    • rubato: audio resampling
  • Debug mode: Cmd+Shift+D(macOS) या Ctrl+Shift+D(Windows/Linux) से एक्सेस किया जा सकता है

ज्ञात समस्याएँ और सीमाएँ

  • Whisper मॉडल crash: कुछ Windows/Linux environments में मॉडल के crash होने की समस्या है
  • Wayland support सीमित: Linux Wayland environment में wtype या dotool इंस्टॉल करना ज़रूरी है
  • Text input tools
    • X11: xdotool
    • Wayland: wtype या dotool
    • अगर टूल इंस्टॉल नहीं हैं, तो enigo विकल्प के रूप में इस्तेमाल होता है, लेकिन compatibility सीमित है
  • Linux overlay डिफ़ॉल्ट रूप से disabled: focus conflict रोकने के लिए यह डिफ़ॉल्ट रूप से बंद रहता है

सिस्टम आवश्यकताएँ

  • Whisper मॉडल के लिए
    • macOS: M series या Intel Mac
    • Windows/Linux: Intel, AMD, NVIDIA GPU (Ubuntu 22.04/24.04 recommended)
  • Parakeet V3 मॉडल के लिए
    • केवल CPU, Intel Skylake(6वीं पीढ़ी) या उससे ऊपर recommended
    • mid-range hardware पर real-time की तुलना में लगभग 5 गुना गति
    • automatic language detection शामिल

डेवलपमेंट रोडमैप

  • प्रगति पर फीचर
    • debug log file जोड़ना
    • macOS shortcut में सुधार (Globe key support, global shortcut handling का पुनर्लेखन)
    • optional analytics feature: anonymous usage data collection, explicit consent के आधार पर
    • settings system का refactoring और abstraction में सुधार
    • Tauri command structure को व्यवस्थित करना और type safety बढ़ाना

समस्या समाधान और मैनुअल मॉडल इंस्टॉलेशन

  • नेटवर्क-सीमित environment में मॉडल को मैनुअल download और install किया जा सकता है
  • app data directory के भीतर models फ़ोल्डर बनाकर मॉडल फ़ाइलें रखें
    • Whisper मॉडल: .bin फ़ाइल सीधे कॉपी करें
    • Parakeet मॉडल: .tar.gz को extract करके तय फ़ोल्डर नाम बनाए रखें
  • इंस्टॉलेशन के बाद ऐप रीस्टार्ट करने पर मॉडल अपने-आप पहचाने जाते हैं

योगदान कैसे करें

  • GitHub issues देखकर fork करें और branch बनाएँ
  • लक्षित platform पर पर्याप्त testing के बाद Pull Request submit करें
  • email(contact@handy.computer) या Discord के माध्यम से community में भाग लिया जा सकता है
  • लक्ष्य सरल और अच्छी तरह संरचित codebase के ज़रिये community को आगे बढ़ाने के लिए आधार देना है

संबंधित प्रोजेक्ट और लाइसेंस

  • Handy CLI: Python आधारित command-line वर्ज़न
  • handy.computer: आधिकारिक वेबसाइट और demo उपलब्ध
  • MIT license के तहत वितरित
  • Whisper(OpenAI), Silero, Tauri जैसे ओपन सोर्स प्रोजेक्ट्स पर आधारित

उद्धरण

  • Handy आपके voice recognition tool की खोज इसलिए खत्म कर सकता है क्योंकि यह परफ़ेक्ट नहीं है, बल्कि इसलिए कि आप इसे परफ़ेक्ट बना सकते हैं।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.