Whispering - ओपन सोर्स वॉइस ट्रांसक्रिप्शन ऐप
(github.com/epicenter-so)- Whispering एक लोकल-फर्स्ट वॉइस ट्रांसक्रिप्शन टूल है, जो शॉर्टकट दबाने के बाद वॉइस → टेक्स्ट कन्वर्ज़न करके टेक्स्ट को तुरंत क्लिपबोर्ड में पेस्ट कर देता है
- जहाँ कई मौजूदा टूल क्लोज़्ड और पेड सर्विसेज़ थे, वहीं Whispering पारदर्शी डेटा प्रोसेसिंग और ओपन सोर्स एक्सेसिबिलिटी प्रदान करता है
- उपयोगकर्ता लोकल (Whisper C++, Speaches आदि) या क्लाउड (Groq, OpenAI, ElevenLabs आदि) तरीका चुन सकते हैं, और अपनी पसंद के AI ट्रांसफॉर्मेशन फीचर्स सेट कर सकते हैं
- ऐप 22MB के हल्के आकार और तेज़ लॉन्च को सपोर्ट करता है, और इसमें कस्टम शॉर्टकट, वॉइस एक्टिवेशन मोड, टेक्स्ट ऑटो-फॉर्मैटिंग जैसे एडवांस्ड फीचर्स शामिल हैं
- यह डेटा ओनरशिप और लागत बचत दोनों को संभव बनाता है, इसलिए क्लोज़्ड ट्रांसक्रिप्शन SaaS के विकल्प के रूप में एक महत्वपूर्ण प्रोजेक्ट है
Whispering का अवलोकन
- Whispering एक फ्री और ओपन सोर्स वॉइस ट्रांसक्रिप्शन ऐप है, जिसमें शॉर्टकट दबाकर आवाज़ इनपुट देने पर उसे टेक्स्ट में बदलकर अपने-आप कॉपी कर दिया जाता है
- व्यक्तिगत डेटा डिफ़ॉल्ट रूप से लोकल में स्टोर होता है और बाहर नहीं भेजा जाता
- चाहें तो OpenAI, Groq, ElevenLabs जैसी बाहरी API को सीधे कनेक्ट किया जा सकता है
- यह पारदर्शिता और डेटा ओनरशिप की गारंटी को अपने मुख्य मूल्यों के रूप में प्रस्तुत करता है
मुख्य फीचर्स और विशेषताएँ
- वॉइस एक्टिविटी डिटेक्शन (Voice Activity Detection, VAD) सपोर्ट
- उपयोगकर्ता के बोलते ही रिकॉर्डिंग अपने-आप शुरू होती है, और रुकते ही अपने-आप बंद हो जाती है
- AI-आधारित ट्रांसफॉर्मेशन (Transformations) फीचर
- ग्रामर सुधार, अनुवाद, सारांश, फ़ॉर्मैटिंग आदि के लिए अलग-अलग AI वर्कफ़्लो सेट किए जा सकते हैं
- OpenAI, Anthropic, Google Gemini, Groq जैसे विभिन्न LLM प्रोवाइडर चुने जा सकते हैं
- कस्टम शॉर्टकट सपोर्ट, जिससे उपयोगकर्ता अपने अनुसार माहौल तैयार कर सकते हैं
- लो-कॉस्ट स्ट्रक्चर: अपनी API key का उपयोग करके प्रोवाइडर को सीधे भुगतान
- उदाहरण: Groq मॉडल इस्तेमाल करने पर 0.02$/घंटा → लगभग 0.20$/महीना (पारंपरिक SaaS की तुलना में 100 गुना सस्ता)
इंस्टॉलेशन और उपयोग
- macOS, Windows, Linux के लिए बाइनरी उपलब्ध
- macOS: Apple Silicon/Intel के अलग-अलग वर्ज़न उपलब्ध
- Windows: MSI/EXE इंस्टॉल विकल्प उपलब्ध
- Linux: AppImage, DEB, RPM सपोर्ट
- अगर इंस्टॉल करना असुविधाजनक हो, तो वेब ऐप वर्ज़न भी उपलब्ध है (हालाँकि, global shortcut सपोर्ट नहीं है)
डेटा प्रोसेसिंग का तरीका
- सभी रिकॉर्डिंग और ट्रांसक्रिप्शन परिणाम IndexedDB में स्टोर होते हैं और लोकल रूप से मैनेज किए जाते हैं
- यदि बाहरी ट्रांसक्रिप्शन सर्विस चुनी जाती है, तो केवल API key के ज़रिए direct call किया जाता है
- न कोई server relay, न कोई डेटा कलेक्शन
- ट्रांसफॉर्मेशन सर्विस भी केवल उपयोगकर्ता द्वारा चुने गए LLM प्रोवाइडर को ही डेटा भेजती है
- ट्रांसफॉर्मेशन वर्कफ़्लो, प्रॉम्प्ट और सेटिंग वैल्यू लोकल में स्टोर रहती हैं
अंतर और फायदे
- मौजूदा ट्रांसक्रिप्शन ऐप्स अक्सर बीच में सर्वर का उपयोग करते हैं और 15~30 डॉलर प्रति माह शुल्क लेते हैं
- Whispering की बिना मध्यस्थ वाली संरचना लागत कम करने के लिए प्रोवाइडर से सीधे कनेक्ट होने देती है
- लोकल विकल्प चुनने पर पूरी तरह ऑफ़लाइन, फ्री और अनलिमिटेड उपयोग संभव है
डेवलपमेंट और आर्किटेक्चर
- यह Svelte 5 + Tauri पर बना है, इसलिए डेस्कटॉप और वेब दोनों को सपोर्ट करता है
- लगभग 22MB आकार, तेज़ लॉन्च, और न्यूनतम resource उपयोग
- कोडबेस service layer, query layer, UI layer में विभाजित 3-layer architecture पर आधारित है
- वेब और डेस्कटॉप वर्ज़न के बीच 97% code sharing
- ब्राउज़र एक्सटेंशन (React + shadcn/ui) फिलहाल अस्थायी रूप से रुका हुआ है, और डेस्कटॉप ऐप को स्थिर किया जा रहा है
योगदान और कम्युनिटी
- कोई भी सोर्स कोड की समीक्षा कर सकता है, फीचर योगदान दे सकता है, और नए ट्रांसक्रिप्शन/AI सर्विस अडैप्टर जोड़ सकता है
- डेवलपमेंट गाइडलाइन: TypeScript/Svelte पैटर्न बनाए रखना, WellCrafted लाइब्रेरी-आधारित error handling
- Discord कम्युनिटी और GitHub Issues के ज़रिए यूज़र फ़ीडबैक और सहयोग जारी है
- MIT लाइसेंस के तहत इसे स्वतंत्र रूप से fork, modify और redistribute किया जा सकता है
FAQ के मुख्य उत्तर
- ऑफ़लाइन उपयोग संभव है या नहीं: Speaches लोकल मोड के साथ पूरी तरह ऑफ़लाइन सपोर्ट
- वास्तविक लागत: Groq पर 0.2~3$/महीना, OpenAI पर 1.8~16.2$/महीना, लोकल पर फ्री
- सुरक्षा/प्राइवेसी: रिकॉर्डिंग लोकल में स्टोर होती है, और बाहरी ट्रांसमिशन केवल उपयोगकर्ता द्वारा चुने गए प्रोवाइडर API तक होता है
- सपोर्टेड प्लेटफ़ॉर्म: macOS, Windows, Linux डेस्कटॉप + वेब ब्राउज़र
2 टिप्पणियां
मैं बंद नेटवर्क में speech recognition फ़ीचर लागू करने के लिए whisper से STT करने वाला एक हल्का web server बनाकर इस्तेमाल कर रहा हूँ.
वे इसे ऐसे समझा रहे हैं मानो सब कुछ offline में हो जाता है, लेकिन transcription फ़ीचर के अलावा transformation जैसी चीज़ों के लिए तो cloud पर निर्भर रहना पड़ता है, तो फिर इसमें अंतर और फ़ायदे का मतलब क्या है, यही समझ नहीं आता।
Hacker News टिप्पणियाँ