- Whispering एक लोकल-फर्स्ट वॉइस ट्रांसक्रिप्शन टूल है, जो शॉर्टकट दबाने के बाद वॉइस → टेक्स्ट कन्वर्ज़न करके टेक्स्ट को तुरंत क्लिपबोर्ड में पेस्ट कर देता है
- जहाँ कई मौजूदा टूल क्लोज़्ड और पेड सर्विसेज़ थे, वहीं Whispering पारदर्शी डेटा प्रोसेसिंग और ओपन सोर्स एक्सेसिबिलिटी प्रदान करता है
- उपयोगकर्ता लोकल (Whisper C++, Speaches आदि) या क्लाउड (Groq, OpenAI, ElevenLabs आदि) तरीका चुन सकते हैं, और अपनी पसंद के AI ट्रांसफॉर्मेशन फीचर्स सेट कर सकते हैं
- ऐप 22MB के हल्के आकार और तेज़ लॉन्च को सपोर्ट करता है, और इसमें कस्टम शॉर्टकट, वॉइस एक्टिवेशन मोड, टेक्स्ट ऑटो-फॉर्मैटिंग जैसे एडवांस्ड फीचर्स शामिल हैं
- यह डेटा ओनरशिप और लागत बचत दोनों को संभव बनाता है, इसलिए क्लोज़्ड ट्रांसक्रिप्शन SaaS के विकल्प के रूप में एक महत्वपूर्ण प्रोजेक्ट है
Whispering का अवलोकन
- Whispering एक फ्री और ओपन सोर्स वॉइस ट्रांसक्रिप्शन ऐप है, जिसमें शॉर्टकट दबाकर आवाज़ इनपुट देने पर उसे टेक्स्ट में बदलकर अपने-आप कॉपी कर दिया जाता है
- व्यक्तिगत डेटा डिफ़ॉल्ट रूप से लोकल में स्टोर होता है और बाहर नहीं भेजा जाता
- चाहें तो OpenAI, Groq, ElevenLabs जैसी बाहरी API को सीधे कनेक्ट किया जा सकता है
- यह पारदर्शिता और डेटा ओनरशिप की गारंटी को अपने मुख्य मूल्यों के रूप में प्रस्तुत करता है
मुख्य फीचर्स और विशेषताएँ
- वॉइस एक्टिविटी डिटेक्शन (Voice Activity Detection, VAD) सपोर्ट
- उपयोगकर्ता के बोलते ही रिकॉर्डिंग अपने-आप शुरू होती है, और रुकते ही अपने-आप बंद हो जाती है
- AI-आधारित ट्रांसफॉर्मेशन (Transformations) फीचर
- ग्रामर सुधार, अनुवाद, सारांश, फ़ॉर्मैटिंग आदि के लिए अलग-अलग AI वर्कफ़्लो सेट किए जा सकते हैं
- OpenAI, Anthropic, Google Gemini, Groq जैसे विभिन्न LLM प्रोवाइडर चुने जा सकते हैं
- कस्टम शॉर्टकट सपोर्ट, जिससे उपयोगकर्ता अपने अनुसार माहौल तैयार कर सकते हैं
- लो-कॉस्ट स्ट्रक्चर: अपनी API key का उपयोग करके प्रोवाइडर को सीधे भुगतान
- उदाहरण: Groq मॉडल इस्तेमाल करने पर 0.02$/घंटा → लगभग 0.20$/महीना (पारंपरिक SaaS की तुलना में 100 गुना सस्ता)
इंस्टॉलेशन और उपयोग
- macOS, Windows, Linux के लिए बाइनरी उपलब्ध
- macOS: Apple Silicon/Intel के अलग-अलग वर्ज़न उपलब्ध
- Windows: MSI/EXE इंस्टॉल विकल्प उपलब्ध
- Linux: AppImage, DEB, RPM सपोर्ट
- अगर इंस्टॉल करना असुविधाजनक हो, तो वेब ऐप वर्ज़न भी उपलब्ध है (हालाँकि, global shortcut सपोर्ट नहीं है)
डेटा प्रोसेसिंग का तरीका
- सभी रिकॉर्डिंग और ट्रांसक्रिप्शन परिणाम IndexedDB में स्टोर होते हैं और लोकल रूप से मैनेज किए जाते हैं
- यदि बाहरी ट्रांसक्रिप्शन सर्विस चुनी जाती है, तो केवल API key के ज़रिए direct call किया जाता है
- न कोई server relay, न कोई डेटा कलेक्शन
- ट्रांसफॉर्मेशन सर्विस भी केवल उपयोगकर्ता द्वारा चुने गए LLM प्रोवाइडर को ही डेटा भेजती है
- ट्रांसफॉर्मेशन वर्कफ़्लो, प्रॉम्प्ट और सेटिंग वैल्यू लोकल में स्टोर रहती हैं
अंतर और फायदे
- मौजूदा ट्रांसक्रिप्शन ऐप्स अक्सर बीच में सर्वर का उपयोग करते हैं और 15~30 डॉलर प्रति माह शुल्क लेते हैं
- Whispering की बिना मध्यस्थ वाली संरचना लागत कम करने के लिए प्रोवाइडर से सीधे कनेक्ट होने देती है
- लोकल विकल्प चुनने पर पूरी तरह ऑफ़लाइन, फ्री और अनलिमिटेड उपयोग संभव है
डेवलपमेंट और आर्किटेक्चर
- यह Svelte 5 + Tauri पर बना है, इसलिए डेस्कटॉप और वेब दोनों को सपोर्ट करता है
- लगभग 22MB आकार, तेज़ लॉन्च, और न्यूनतम resource उपयोग
- कोडबेस service layer, query layer, UI layer में विभाजित 3-layer architecture पर आधारित है
- वेब और डेस्कटॉप वर्ज़न के बीच 97% code sharing
- ब्राउज़र एक्सटेंशन (React + shadcn/ui) फिलहाल अस्थायी रूप से रुका हुआ है, और डेस्कटॉप ऐप को स्थिर किया जा रहा है
योगदान और कम्युनिटी
- कोई भी सोर्स कोड की समीक्षा कर सकता है, फीचर योगदान दे सकता है, और नए ट्रांसक्रिप्शन/AI सर्विस अडैप्टर जोड़ सकता है
- डेवलपमेंट गाइडलाइन: TypeScript/Svelte पैटर्न बनाए रखना, WellCrafted लाइब्रेरी-आधारित error handling
- Discord कम्युनिटी और GitHub Issues के ज़रिए यूज़र फ़ीडबैक और सहयोग जारी है
- MIT लाइसेंस के तहत इसे स्वतंत्र रूप से fork, modify और redistribute किया जा सकता है
FAQ के मुख्य उत्तर
- ऑफ़लाइन उपयोग संभव है या नहीं: Speaches लोकल मोड के साथ पूरी तरह ऑफ़लाइन सपोर्ट
- वास्तविक लागत: Groq पर 0.2~3$/महीना, OpenAI पर 1.8~16.2$/महीना, लोकल पर फ्री
- सुरक्षा/प्राइवेसी: रिकॉर्डिंग लोकल में स्टोर होती है, और बाहरी ट्रांसमिशन केवल उपयोगकर्ता द्वारा चुने गए प्रोवाइडर API तक होता है
- सपोर्टेड प्लेटफ़ॉर्म: macOS, Windows, Linux डेस्कटॉप + वेब ब्राउज़र
अभी कोई टिप्पणी नहीं है.