Whispering - ओपन सोर्स वॉइस ट्रांसक्रिप्शन ऐप

(github.com/epicenter-so)

21 पॉइंट द्वारा GN⁺ 2025-08-19 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Whispering एक लोकल-फर्स्ट वॉइस ट्रांसक्रिप्शन टूल है, जो शॉर्टकट दबाने के बाद वॉइस → टेक्स्ट कन्वर्ज़न करके टेक्स्ट को तुरंत क्लिपबोर्ड में पेस्ट कर देता है
जहाँ कई मौजूदा टूल क्लोज़्ड और पेड सर्विसेज़ थे, वहीं Whispering पारदर्शी डेटा प्रोसेसिंग और ओपन सोर्स एक्सेसिबिलिटी प्रदान करता है
उपयोगकर्ता लोकल (Whisper C++, Speaches आदि) या क्लाउड (Groq, OpenAI, ElevenLabs आदि) तरीका चुन सकते हैं, और अपनी पसंद के AI ट्रांसफॉर्मेशन फीचर्स सेट कर सकते हैं
ऐप 22MB के हल्के आकार और तेज़ लॉन्च को सपोर्ट करता है, और इसमें कस्टम शॉर्टकट, वॉइस एक्टिवेशन मोड, टेक्स्ट ऑटो-फॉर्मैटिंग जैसे एडवांस्ड फीचर्स शामिल हैं
यह डेटा ओनरशिप और लागत बचत दोनों को संभव बनाता है, इसलिए क्लोज़्ड ट्रांसक्रिप्शन SaaS के विकल्प के रूप में एक महत्वपूर्ण प्रोजेक्ट है

Whispering का अवलोकन

Whispering एक फ्री और ओपन सोर्स वॉइस ट्रांसक्रिप्शन ऐप है, जिसमें शॉर्टकट दबाकर आवाज़ इनपुट देने पर उसे टेक्स्ट में बदलकर अपने-आप कॉपी कर दिया जाता है
- व्यक्तिगत डेटा डिफ़ॉल्ट रूप से लोकल में स्टोर होता है और बाहर नहीं भेजा जाता
- चाहें तो OpenAI, Groq, ElevenLabs जैसी बाहरी API को सीधे कनेक्ट किया जा सकता है
यह पारदर्शिता और डेटा ओनरशिप की गारंटी को अपने मुख्य मूल्यों के रूप में प्रस्तुत करता है

मुख्य फीचर्स और विशेषताएँ

वॉइस एक्टिविटी डिटेक्शन (Voice Activity Detection, VAD) सपोर्ट
- उपयोगकर्ता के बोलते ही रिकॉर्डिंग अपने-आप शुरू होती है, और रुकते ही अपने-आप बंद हो जाती है
AI-आधारित ट्रांसफॉर्मेशन (Transformations) फीचर
- ग्रामर सुधार, अनुवाद, सारांश, फ़ॉर्मैटिंग आदि के लिए अलग-अलग AI वर्कफ़्लो सेट किए जा सकते हैं
- OpenAI, Anthropic, Google Gemini, Groq जैसे विभिन्न LLM प्रोवाइडर चुने जा सकते हैं
कस्टम शॉर्टकट सपोर्ट, जिससे उपयोगकर्ता अपने अनुसार माहौल तैयार कर सकते हैं
लो-कॉस्ट स्ट्रक्चर: अपनी API key का उपयोग करके प्रोवाइडर को सीधे भुगतान
- उदाहरण: Groq मॉडल इस्तेमाल करने पर 0.02$/घंटा → लगभग 0.20$/महीना (पारंपरिक SaaS की तुलना में 100 गुना सस्ता)

इंस्टॉलेशन और उपयोग

macOS, Windows, Linux के लिए बाइनरी उपलब्ध
- macOS: Apple Silicon/Intel के अलग-अलग वर्ज़न उपलब्ध
- Windows: MSI/EXE इंस्टॉल विकल्प उपलब्ध
- Linux: AppImage, DEB, RPM सपोर्ट
अगर इंस्टॉल करना असुविधाजनक हो, तो वेब ऐप वर्ज़न भी उपलब्ध है (हालाँकि, global shortcut सपोर्ट नहीं है)

डेटा प्रोसेसिंग का तरीका

सभी रिकॉर्डिंग और ट्रांसक्रिप्शन परिणाम IndexedDB में स्टोर होते हैं और लोकल रूप से मैनेज किए जाते हैं
यदि बाहरी ट्रांसक्रिप्शन सर्विस चुनी जाती है, तो केवल API key के ज़रिए direct call किया जाता है
- न कोई server relay, न कोई डेटा कलेक्शन
ट्रांसफॉर्मेशन सर्विस भी केवल उपयोगकर्ता द्वारा चुने गए LLM प्रोवाइडर को ही डेटा भेजती है
- ट्रांसफॉर्मेशन वर्कफ़्लो, प्रॉम्प्ट और सेटिंग वैल्यू लोकल में स्टोर रहती हैं

अंतर और फायदे

मौजूदा ट्रांसक्रिप्शन ऐप्स अक्सर बीच में सर्वर का उपयोग करते हैं और 15~30 डॉलर प्रति माह शुल्क लेते हैं
Whispering की बिना मध्यस्थ वाली संरचना लागत कम करने के लिए प्रोवाइडर से सीधे कनेक्ट होने देती है
लोकल विकल्प चुनने पर पूरी तरह ऑफ़लाइन, फ्री और अनलिमिटेड उपयोग संभव है

डेवलपमेंट और आर्किटेक्चर

यह Svelte 5 + Tauri पर बना है, इसलिए डेस्कटॉप और वेब दोनों को सपोर्ट करता है
- लगभग 22MB आकार, तेज़ लॉन्च, और न्यूनतम resource उपयोग
कोडबेस service layer, query layer, UI layer में विभाजित 3-layer architecture पर आधारित है
- वेब और डेस्कटॉप वर्ज़न के बीच 97% code sharing
ब्राउज़र एक्सटेंशन (React + shadcn/ui) फिलहाल अस्थायी रूप से रुका हुआ है, और डेस्कटॉप ऐप को स्थिर किया जा रहा है

योगदान और कम्युनिटी

कोई भी सोर्स कोड की समीक्षा कर सकता है, फीचर योगदान दे सकता है, और नए ट्रांसक्रिप्शन/AI सर्विस अडैप्टर जोड़ सकता है
डेवलपमेंट गाइडलाइन: TypeScript/Svelte पैटर्न बनाए रखना, WellCrafted लाइब्रेरी-आधारित error handling
Discord कम्युनिटी और GitHub Issues के ज़रिए यूज़र फ़ीडबैक और सहयोग जारी है
MIT लाइसेंस के तहत इसे स्वतंत्र रूप से fork, modify और redistribute किया जा सकता है

FAQ के मुख्य उत्तर

ऑफ़लाइन उपयोग संभव है या नहीं: Speaches लोकल मोड के साथ पूरी तरह ऑफ़लाइन सपोर्ट
वास्तविक लागत: Groq पर 0.2~3$/महीना, OpenAI पर 1.8~16.2$/महीना, लोकल पर फ्री
सुरक्षा/प्राइवेसी: रिकॉर्डिंग लोकल में स्टोर होती है, और बाहरी ट्रांसमिशन केवल उपयोगकर्ता द्वारा चुने गए प्रोवाइडर API तक होता है
सपोर्टेड प्लेटफ़ॉर्म: macOS, Windows, Linux डेस्कटॉप + वेब ब्राउज़र

2 टिप्पणियां

wedding 2025-08-21

मैं बंद नेटवर्क में speech recognition फ़ीचर लागू करने के लिए whisper से STT करने वाला एक हल्का web server बनाकर इस्तेमाल कर रहा हूँ.
वे इसे ऐसे समझा रहे हैं मानो सब कुछ offline में हो जाता है, लेकिन transcription फ़ीचर के अलावा transformation जैसी चीज़ों के लिए तो cloud पर निर्भर रहना पड़ता है, तो फिर इसमें अंतर और फ़ायदे का मतलब क्या है, यही समझ नहीं आता।

GN⁺ 2025-08-19

Hacker News टिप्पणियाँ

यह जानना चाहता हूँ कि क्या Parakeet मॉडल को लोकल में इस्तेमाल किया जा सकता है। मैं MacWhisper इस्तेमाल करता हूँ, और Parakeet on-device transcription performance में Whisper से कहीं ज़्यादा तेज़ और सटीक है, इसलिए मैं उससे बहुत संतुष्ट हूँ। मैं लंबे समय से MacWhisper + Parakeet के साथ push-to-transcribe इस्तेमाल कर रहा हूँ, और यह सचमुच जादुई अनुभव है
- अभी इसका समर्थन नहीं है, लेकिन यह फीचर मैं भी ज़रूर चाहता हूँ। मैंने leaderboard पर Parakeet के शानदार नतीजे देखे हैं, और फिलहाल whisper.cpp integration को stable करने के बाद Parakeet support जोड़ने का इरादा है। अगर कोई PR के रूप में connector बना दे, तो मैं उसे तुरंत merge करने के लिए तैयार हूँ
- Parakeet सच में कमाल है। A100 GPU पर यह real-time से 3000 गुना तेज़ है, और laptop CPU पर भी real-time से 5 गुना तेज़ है। यह whisper-large-v3 से भी ज़्यादा सटीक है। huggingface ASR leaderboard देख सकते हैं। हालांकि NeMo framework थोड़ा झंझट वाला हो सकता है। Mac पर इसका लोकल चलना (MacWhisper के साथ) वाकई हैरान करने वाला है
आज सुबह repo देखने वालों के लिए सूचना: मैं whisper C++ support जोड़ने वाली release तैयार कर रहा हूँ। प्रगति के लिए PR लिंक देख सकते हैं। यह सार्वजनिक होते ही हम कहीं ज़्यादा शक्तिशाली लोकल transcription support दे पाएँगे। बस कुछ छोटे fixes बाकी हैं
काश हर तरह के open source आधारित local-first app मौजूद हों, और वे एक-दूसरे के साथ अच्छी तरह काम करें। Epicenter का विचार यह है कि सारा डेटा text और SQLite के रूप में folders में store किया जाए, ताकि सब कुछ पारदर्शी और भरोसेमंद रहे। उसके ऊपर interoperable local-first tools की परत बनाई जाए। यही पारदर्शिता मुझे बेहद भरोसेमंद लगती है। मुझे TTS का ज़्यादा अनुभव नहीं है, लेकिन जब इस क्षेत्र में गहराई से देखूँगा तो Epicenter की वजह से Whispering से शुरुआत करूँगा। मैंने repo को star कर दिया है और यह भी सोचूँगा कि किस तरह के app ideas में योगदान दे सकता हूँ। YC में जाने पर बधाई और धन्यवाद
- समर्थन के लिए बहुत-बहुत धन्यवाद, ऐसी प्रतिक्रिया हमारे लिए बेहद मूल्यवान है। open source और अपने डेटा पर मालिकाना हक़ की अहमियत साझा करने वाले व्यक्ति से जुड़कर खुशी हुई। YC के दौरान हम और ज़्यादा OSS developers को support देने की दिशा में पूरी मेहनत करेंगे। आगे भी जुड़े रहें तो अच्छा लगेगा
- मेरा ख़याल है यहाँ TTS (speech synthesis) नहीं, बल्कि STT (speech recognition) की बात हो रही है
- अगर बाद में आपको cloud version भी चाहिए, तो AgentDB API का इस्तेमाल करके सिर्फ वही डेटा upload कर सकते हैं, और सिर्फ queries को cloud में चला सकते हैं
इतना शानदार product साझा करने के लिए धन्यवाद। पिछले हफ़्ते commercial products के धीमे होने की वजह से मैंने खुद एक ऐसा मिलता-जुलता app बनाया जो लोकल में चलता है। उसमें एक बटन से सारी आवाज़ रिकॉर्ड होकर transcribe होकर app में चली जाती है। मैंने एक दूसरा mode भी बनाया जिसमें अगर आप अपनी मातृभाषा में बोलें तो वह अपने-आप अंग्रेज़ी में translate हो जाता है। comma या quotation marks जैसे formatting को बनाए रखना भी सही तरह से implement किया। हैरानी होती है कि MacOS के default dictation app में अभी तक यह नहीं है
- समर्थन के लिए बहुत धन्यवाद, और यह जानकर खुशी हुई कि इससे translation में भी मदद मिली। यह सच में अजीब है कि MacOS का default dictation इतना आगे नहीं बढ़ पाया; उस खाली जगह को OSS भर रहा है
क्या iOS पर भी यह सुविधा है? मुझे Parakeet या Whisper को wrap करने वाला एक custom iOS keyboard app चाहिए, ताकि मैं dictation keyboard पर switch करूँ, बटन दबाऊँ, और हर app में (1st, 3rd party सहित) सीधे transcription डाल सकूँ। MacOS पर MacWhisper सच में शानदार है, लेकिन iOS पर अभी वैसी functionality नहीं है। iOS का default dictation ठीक है, लेकिन technical terms या acronyms को Whisper cpp कहीं बेहतर समझता है
- superwhisper यह सुविधा देता है
मैं लंबे समय से ऐसे dictation में दिलचस्पी रखता हूँ जो audio को लोकल में process करे। remote API पर audio भेजना पसंद नहीं है; सब कुछ बिना exposure के पूरी तरह लोकल में ही होना चाहिए। FUTO Keyboard में इस्तेमाल होने वाले मॉडल सहित कुछ चीज़ें आज़माई हैं, लेकिन अभी भी कमी महसूस होती है। खासकर noise handling, या "उम्...", "ए..." जैसे fillers, और बोलते समय बीच में self-correction जैसी चीज़ों को ठीक से नहीं पकड़ पाते। उम्मीद है कि कोई open model इन समस्याओं को अच्छी तरह हल करेगा। यह app की समस्या है या मॉडल की सीमा, अभी कहना मुश्किल है, लेकिन जानना चाहता हूँ कि क्या इस बारे में कोई नए मॉडल आए हैं। तब तक शायद असुविधाजनक होने के बावजूद notes लेने के लिए typing ही जारी रखनी पड़ेगी
- क्या आपने खुद Whisper इस्तेमाल किया है? मैं उसे recommend करना चाहूँगा। उसके weights खुले हैं, और ऊपर बताए गए Epicenter के features में एक "transcription transform" फीचर भी है। टेक्स्ट को LLM में देकर और साफ़-सुथरा किया जा सकता है। अगर token cost संभाल सकते हैं, तो सिर्फ fillers हटाने ही नहीं बल्कि meaning units के हिसाब से sentences को अपने-आप ठीक भी किया जा सकता है
इस क्षेत्र में local-first approach और self-backup tools के संयोजन का विचार मुझे लगातार और पसंद आ रहा है। हाल ही में hyprnote ने Hacker News पर लोकप्रियता पाई, और वह सच में बहुत अच्छी तरह बनाया गया है। local-first होने के बावजूद उसे अपनी पसंद के tools के साथ भी इस्तेमाल किया जा सकता है
- मैं भी Hyprnote का बड़ा प्रशंसक हूँ। दोनों products थोड़ा अलग हैं, लेकिन tech stack में काफ़ी overlap है और mission भी बहुत मिलता-जुलता है
मैं एक साल से ज़्यादा समय से whispering इस्तेमाल कर रहा हूँ, और इसने कंप्यूटर के साथ इंटरैक्ट करने का मेरा तरीका ही बदल दिया है। programmable keys वाला mouse और keyboard ज़रूर खरीदें और उनमें whispering shortcut सेट करें। अब तो सामान्य typing पर लौटना मुश्किल लगता है, क्योंकि key input बहुत अक्षम महसूस होता है
- हौसला बढ़ाने के लिए बहुत धन्यवाद, ऐसी प्रतिक्रिया सच में बहुत ताकत देती है। आगे भी कोई समस्या आए तो बेझिझक संपर्क करें
जानना चाहता हूँ कि क्या यह तकनीक बच्चों की आवाज़ पर भी अच्छी तरह काम करेगी। educational apps में privacy-अहम local models की काफी मांग है। लेकिन जहाँ तक मुझे पता है, मौजूदा Whisper कम उम्र के बच्चों की आवाज़ अच्छी तरह नहीं समझ पाता
- सही है, Whisper बच्चों की आवाज़ के मामले में कुछ कमजोर है। Parakeet या दूसरे models को अभी टेस्ट नहीं किया है, लेकिन education use case में privacy का महत्व बहुत बड़ा है, इसलिए यह अच्छा उदाहरण है। मैं Hyprnote की भी सिफारिश करना चाहूँगा। वे हाल में OWhisper जैसे model विस्तार पर काम कर रहे हैं। Hyprnote परिचय, OWhisper के बारे में विस्तार से देख सकते हैं
मैं local-first open source software को लेकर जुनूनी हूँ। मेरा मानना है कि सबको ऐसा ही करना चाहिए
- पूरी तरह सहमत हूँ