• Whispering एक लोकल-फर्स्ट वॉइस ट्रांसक्रिप्शन टूल है, जो शॉर्टकट दबाने के बाद वॉइस → टेक्स्ट कन्वर्ज़न करके टेक्स्ट को तुरंत क्लिपबोर्ड में पेस्ट कर देता है
  • जहाँ कई मौजूदा टूल क्लोज़्ड और पेड सर्विसेज़ थे, वहीं Whispering पारदर्शी डेटा प्रोसेसिंग और ओपन सोर्स एक्सेसिबिलिटी प्रदान करता है
  • उपयोगकर्ता लोकल (Whisper C++, Speaches आदि) या क्लाउड (Groq, OpenAI, ElevenLabs आदि) तरीका चुन सकते हैं, और अपनी पसंद के AI ट्रांसफॉर्मेशन फीचर्स सेट कर सकते हैं
  • ऐप 22MB के हल्के आकार और तेज़ लॉन्च को सपोर्ट करता है, और इसमें कस्टम शॉर्टकट, वॉइस एक्टिवेशन मोड, टेक्स्ट ऑटो-फॉर्मैटिंग जैसे एडवांस्ड फीचर्स शामिल हैं
  • यह डेटा ओनरशिप और लागत बचत दोनों को संभव बनाता है, इसलिए क्लोज़्ड ट्रांसक्रिप्शन SaaS के विकल्प के रूप में एक महत्वपूर्ण प्रोजेक्ट है

Whispering का अवलोकन

  • Whispering एक फ्री और ओपन सोर्स वॉइस ट्रांसक्रिप्शन ऐप है, जिसमें शॉर्टकट दबाकर आवाज़ इनपुट देने पर उसे टेक्स्ट में बदलकर अपने-आप कॉपी कर दिया जाता है
    • व्यक्तिगत डेटा डिफ़ॉल्ट रूप से लोकल में स्टोर होता है और बाहर नहीं भेजा जाता
    • चाहें तो OpenAI, Groq, ElevenLabs जैसी बाहरी API को सीधे कनेक्ट किया जा सकता है
  • यह पारदर्शिता और डेटा ओनरशिप की गारंटी को अपने मुख्य मूल्यों के रूप में प्रस्तुत करता है

मुख्य फीचर्स और विशेषताएँ

  • वॉइस एक्टिविटी डिटेक्शन (Voice Activity Detection, VAD) सपोर्ट
    • उपयोगकर्ता के बोलते ही रिकॉर्डिंग अपने-आप शुरू होती है, और रुकते ही अपने-आप बंद हो जाती है
  • AI-आधारित ट्रांसफॉर्मेशन (Transformations) फीचर
    • ग्रामर सुधार, अनुवाद, सारांश, फ़ॉर्मैटिंग आदि के लिए अलग-अलग AI वर्कफ़्लो सेट किए जा सकते हैं
    • OpenAI, Anthropic, Google Gemini, Groq जैसे विभिन्न LLM प्रोवाइडर चुने जा सकते हैं
  • कस्टम शॉर्टकट सपोर्ट, जिससे उपयोगकर्ता अपने अनुसार माहौल तैयार कर सकते हैं
  • लो-कॉस्ट स्ट्रक्चर: अपनी API key का उपयोग करके प्रोवाइडर को सीधे भुगतान
    • उदाहरण: Groq मॉडल इस्तेमाल करने पर 0.02$/घंटा → लगभग 0.20$/महीना (पारंपरिक SaaS की तुलना में 100 गुना सस्ता)

इंस्टॉलेशन और उपयोग

  • macOS, Windows, Linux के लिए बाइनरी उपलब्ध
    • macOS: Apple Silicon/Intel के अलग-अलग वर्ज़न उपलब्ध
    • Windows: MSI/EXE इंस्टॉल विकल्प उपलब्ध
    • Linux: AppImage, DEB, RPM सपोर्ट
  • अगर इंस्टॉल करना असुविधाजनक हो, तो वेब ऐप वर्ज़न भी उपलब्ध है (हालाँकि, global shortcut सपोर्ट नहीं है)

डेटा प्रोसेसिंग का तरीका

  • सभी रिकॉर्डिंग और ट्रांसक्रिप्शन परिणाम IndexedDB में स्टोर होते हैं और लोकल रूप से मैनेज किए जाते हैं
  • यदि बाहरी ट्रांसक्रिप्शन सर्विस चुनी जाती है, तो केवल API key के ज़रिए direct call किया जाता है
    • न कोई server relay, न कोई डेटा कलेक्शन
  • ट्रांसफॉर्मेशन सर्विस भी केवल उपयोगकर्ता द्वारा चुने गए LLM प्रोवाइडर को ही डेटा भेजती है
    • ट्रांसफॉर्मेशन वर्कफ़्लो, प्रॉम्प्ट और सेटिंग वैल्यू लोकल में स्टोर रहती हैं

अंतर और फायदे

  • मौजूदा ट्रांसक्रिप्शन ऐप्स अक्सर बीच में सर्वर का उपयोग करते हैं और 15~30 डॉलर प्रति माह शुल्क लेते हैं
  • Whispering की बिना मध्यस्थ वाली संरचना लागत कम करने के लिए प्रोवाइडर से सीधे कनेक्ट होने देती है
  • लोकल विकल्प चुनने पर पूरी तरह ऑफ़लाइन, फ्री और अनलिमिटेड उपयोग संभव है

डेवलपमेंट और आर्किटेक्चर

  • यह Svelte 5 + Tauri पर बना है, इसलिए डेस्कटॉप और वेब दोनों को सपोर्ट करता है
    • लगभग 22MB आकार, तेज़ लॉन्च, और न्यूनतम resource उपयोग
  • कोडबेस service layer, query layer, UI layer में विभाजित 3-layer architecture पर आधारित है
    • वेब और डेस्कटॉप वर्ज़न के बीच 97% code sharing
  • ब्राउज़र एक्सटेंशन (React + shadcn/ui) फिलहाल अस्थायी रूप से रुका हुआ है, और डेस्कटॉप ऐप को स्थिर किया जा रहा है

योगदान और कम्युनिटी

  • कोई भी सोर्स कोड की समीक्षा कर सकता है, फीचर योगदान दे सकता है, और नए ट्रांसक्रिप्शन/AI सर्विस अडैप्टर जोड़ सकता है
  • डेवलपमेंट गाइडलाइन: TypeScript/Svelte पैटर्न बनाए रखना, WellCrafted लाइब्रेरी-आधारित error handling
  • Discord कम्युनिटी और GitHub Issues के ज़रिए यूज़र फ़ीडबैक और सहयोग जारी है
  • MIT लाइसेंस के तहत इसे स्वतंत्र रूप से fork, modify और redistribute किया जा सकता है

FAQ के मुख्य उत्तर

  • ऑफ़लाइन उपयोग संभव है या नहीं: Speaches लोकल मोड के साथ पूरी तरह ऑफ़लाइन सपोर्ट
  • वास्तविक लागत: Groq पर 0.2~3$/महीना, OpenAI पर 1.8~16.2$/महीना, लोकल पर फ्री
  • सुरक्षा/प्राइवेसी: रिकॉर्डिंग लोकल में स्टोर होती है, और बाहरी ट्रांसमिशन केवल उपयोगकर्ता द्वारा चुने गए प्रोवाइडर API तक होता है
  • सपोर्टेड प्लेटफ़ॉर्म: macOS, Windows, Linux डेस्कटॉप + वेब ब्राउज़र

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.