oTranscribe: मुफ़्त ओपन सोर्स ऑडियो इंटरव्यू ट्रांसक्रिप्शन टूल

(otranscribe.com)

2 पॉइंट द्वारा GN⁺ 2024-08-10 | 3 टिप्पणियां | WhatsApp पर शेयर करें

oTranscribe एक मुफ़्त वेब ऐप है जो रिकॉर्ड किए गए इंटरव्यू को ट्रांसक्राइब करते समय मीडिया प्लेयर और डॉक्यूमेंट एडिटर के बीच बार-बार जाने की असुविधा को कम करता है
यह एक ही स्क्रीन पर प्लेबैक और टाइपिंग संभालता है, और केवल कीबोर्ड से pause·rewind·fast-forward को नियंत्रित किया जा सकता है
ट्रांसक्रिप्ट में interactive timestamp जोड़कर किसी खास समय बिंदु पर तुरंत जाया जा सकता है, और काम हर सेकंड ब्राउज़र स्टोरेज में अपने-आप सेव होता है
ऑडियो फ़ाइलें और ट्रांसक्रिप्ट कंप्यूटर के बाहर नहीं जाते, यानी यह private तरीके से काम करता है, और Markdown·plain text·Google Docs में export किया जा सकता है
यह mp3/ogg/webm/wav ऑडियो और mp4/ogg/webm वीडियो को सपोर्ट करता है, लेकिन इसका उपयोग-प्रवाह डेस्कटॉप कंप्यूटर को ध्यान में रखकर बनाया गया है

एक स्क्रीन में पूरा होने वाला ट्रांसक्रिप्शन वर्कफ़्लो

oTranscribe रिकॉर्ड किए गए इंटरव्यू के ट्रांसक्रिप्शन के लिए एक मुफ़्त वेब ऐप है
इसे केवल डेस्कटॉप कंप्यूटर पर इस्तेमाल किया जा सकता है
QuickTime और Word के बीच स्विच करने की ज़रूरत न पड़े, इसलिए यह ट्रांसक्रिप्शन इनपुट और मीडिया प्लेबैक को एक ही स्क्रीन पर संभालता है
कीबोर्ड शॉर्टकट से प्लेबैक और फ़ॉर्मैटिंग नियंत्रित की जा सकती है
- ESC से play/pause
- कीबोर्ड से pause, rewind, fast-forward, speed control
- Ctrl+J से वर्तमान timestamp डालें
- Ctrl+I से italic, Ctrl+B से bold फ़ॉर्मैट लागू करें
ट्रांसक्रिप्ट के अंदर interactive timestamp पर क्लिक करने से उसी समय बिंदु पर जाया जा सकता है

फ़ाइल प्रोसेसिंग, सेविंग, एक्सपोर्ट

ऑडियो फ़ाइलें और ट्रांसक्रिप्ट कंप्यूटर के बाहर नहीं जाते, इसलिए प्रोसेसिंग private तरीके से होती है
काम हर सेकंड ब्राउज़र स्टोरेज में अपने-आप सेव होता है
ट्रांसक्रिप्शन हिस्ट्री हर 5 मिनट में कॉपी के रूप में सेव होती है, और अधिकतम 100 बैकअप रखे जाते हैं
Ctrl+S से कभी भी मैन्युअल सेव किया जा सकता है
समर्थित फ़ॉर्मैट
- ऑडियो: mp3, ogg, webm, wav
- वीडियो: mp4, ogg, webm
- वीडियो फ़ाइलें integrated player में चलाई जा सकती हैं
- YouTube वीडियो URL दर्ज करने की सुविधा है
एक्सपोर्ट
- Markdown .md
- plain text .txt
- oTranscribe format
- Google Docs
- oTranscribe MIT लाइसेंस वाला open source प्रोजेक्ट है
- मदद के लिए Help देखें

3 टिप्पणियां

xguru 2024-08-11

हूँ? मैंने सोचा था कि यह ब्राउज़र में कैसे संभव है... लेकिन यह तो AI के बिना सिर्फ सुनकर मैन्युअल ट्रांसक्राइब करने वाला टूल है।
आजकल Whisper से कोरियन पहचान भी अच्छी हो जाती है, तो ऐसा कुछ ज़रूर इस्तेमाल करने की वजह क्या है..

znjadong 2024-08-14

जब बोलने वाले लोग ज़्यादा हों, उच्चारण अस्पष्ट हो, या रिकॉर्डिंग की गुणवत्ता अच्छी न हो, तब AI की मदद लेना मुश्किल हो सकता है। और कई बार ऐसी गुणवत्ता की ज़रूरत होती है जो सिर्फ़ 'काफ़ी अच्छी तरह' काम करने से भी आगे हो।

GN⁺ 2024-08-10

Hacker News की रायें

इस हफ्ते मुझे कई speakers वाले एक interview का speaker diarization transcription करना था, इसलिए मैंने https://github.com/MahmoudAshraf97/whisper-diarization इस्तेमाल किया, और यह बहुत अच्छा चला
यह हर बिना टूटे utterance पर speaker number लगाई हुई एक file, और subtitles में इस्तेमाल हो सकने वाली timestamps वाली file—दोनों बना देता है
- Spectropic [1] नाम की hosted Whisper speaker diarization API को platform की तरह इस्तेमाल किया और अच्छे results मिले
  M1 पर whisper-diarization setup करके इस्तेमाल करने से यह सस्ता, बहुत आसान और तेज था। Audiogest [2] Spectropic के ऊपर बनाई गई web service है, लेकिन मैंने अभी तक इसे इस्तेमाल नहीं किया है
  मेरा उनसे कोई संबंध नहीं है, बस एक संतुष्ट customer हूं; bug report के बाद इन tools को बनाने वाले, शायद solo developer, से मेरी अच्छी email बातचीत हुई थी
  [1] https://spectropic.ai/
  [2] https://audiogest.app/
- पुराने और बहुत कम जाने-पहचाने foreign-language films या overseas Telegram/Twitter channels पर मिले छोटे videos में मैं अक्सर Whisper से subtitles जोड़ता हूं
  translation के लिए GPT के साथ इस्तेमाल करने पर यह काफी अच्छा काम करता है
  पर्याप्त (V)RAM हो तो local पर भी संभव है, लेकिन आमतौर पर spare नहीं होता, इसलिए मैं OpenAI API को prefer करता हूं। कई Llama-family models GPT-4 की quality तक नहीं पहुंचते
  अगर सिर्फ Whisper चाहिए और translation नहीं चाहिए, तो local run करना भी पूरी तरह practical है; high-quality Whisper भी 4GB (V)RAM में fit हो जाता है
- OpenAI Whisper की समस्या यह है कि CPU-only machines पर यह बहुत slow है
  Whisper.CPP, Whisper की तुलना में बहुत तेज है, इसलिए अच्छा होगा अगर उसके ऊपर बेहतर speaker diarization feature बनाया जाए
- whisper-dia में कभी-कभी कुछ अजीब issues आते थे जिन्हें वह solve नहीं कर पाया, इसलिए व्यक्तिगत रूप से whisperX मेरे लिए ज्यादा ठीक रहा: https://github.com/m-bain/whisperX
- यह देखना दिलचस्प है कि पारंपरिक रूप से बहुत complex और difficult रहे machine learning problems AI की वजह से धीरे-धीरे generic commodity जैसे बनते जा रहे हैं
  transcription, machine translation, OCR, image recognition जैसी चीजें इसी तरह हैं
थोड़ा unclear हो सकता है, लेकिन OTranscribe automatic speech-to-text tool नहीं, बल्कि manual transcription में मदद करने वाला UI है
इसलिए इसमें AI नहीं है
- सही, यह manual transcription assistance के लिए design किया गया tool है
क्या कोई open source/paid app/shareware/freeware है जो recording के दौरान word-level real-time transcription करता हो, पूरी तरह local चलता हो, और अपेक्षाकृत recent open source local models इस्तेमाल करता हो?
अभी मैं real-time meeting transcription के लिए otter.ai इस्तेमाल कर रहा हूं। multitasking करते हुए अगर मुझसे सवाल पूछा जाए तो मैं पिछले कुछ seconds का transcript scan करके तुरंत catch up कर सकता हूं, यह अच्छा है; लेकिन यह perfect नहीं है, कभी-कभी real-time service में transcription delay काफी ज्यादा होता है, और internet connection भी चाहिए
दूसरी ओर, ज्यादातर Whisper-based apps और, आखिरी बार जब मैंने check किया था, whisper.cpp demo code में पूरी recording एक बार में देनी पड़ती थी। कुछ अन्य tools Apple dictation framework वगैरह पर निर्भर करते हैं, लेकिन उनकी current functionality थोड़ी outdated लगती है
जानना चाहता हूं कि क्या कोई ऐसा है जिसे लोग वास्तव में इस्तेमाल कर रहे हों
- सुनने में दिक्कत होने जैसी एक अलग जरूरत के कारण, मैंने खुद एक local-first solution बनाया जो पूरी तरह local पर word-level real-time transcription करता है
  meetings, interviews आदि transcribe करने के लिए मैं इसे रोज इस्तेमाल करता हूं। सारा data मेरी machine पर रहता है, इसलिए work meetings transcribe करते समय privacy की चिंता नहीं करनी पड़ती
  यह Otter.ai जितना तेज है, लेकिन user experience और speed के मामले में सुधार की गुंजाइश साफ है। हालांकि, यह केवल Apple silicon वाले MacBook पर चलता है
  दिलचस्पी हो तो email पर बात कर सकते हैं (HN profile देखें)
- Android/GrapheneOS पर मैं Transcribro[0] इस्तेमाल कर रहा हूं
  यह free open source software है और पूरी तरह local-only चलता है। word-level real-time नहीं है, लेकिन काम शुरू करने के लिए पूरा audio upload होने का इंतजार करने की जरूरत नहीं पड़ती। मैं इसे Pixel 5a पर इस्तेमाल कर रहा हूं, यानी कोई बहुत powerful hardware भी नहीं है
  typing न करने का मन हो तो Telegram के जरिए Linux machine पर message भेजने के लिए भी यह इतना अच्छा चलता है। polished hack नहीं है, लेकिन काम कर देता है
  Linux native alternative खोजने या Waydroid में चलाने की कोशिश में मैंने कुछ घंटे लगाए, लेकिन इतना अच्छा कुछ नहीं मिला, इसलिए मैंने तय किया कि “smoothness” को “good enough to use” का दुश्मन नहीं बनने दूंगा
  [0] https://github.com/soupslurpr/Transcribro
- Google Pixel phones में यह feature है, और यह बहुत अच्छी तरह काम करता है
- मैंने oTranscribe+ [0] code करने में मदद की थी, जो आपकी मांग जैसी चीज करता है
  यह ElectronJS और उस समय के oTranscribe version का इस्तेमाल करने वाला desktop app है, और web version तथा PWA [1] भी हैं
  उस समय language model BSC(Barcelona Supercomputing Center) का model था, और transcription Vosk [2] based होकर WASM में की जाती थी
  [0] https://github.com/projecte-aina/oTranscribe-plus
  [1] https://otranscribe.bsc.es/
  [2] https://github.com/alphacep/vosk-api
- संभव है। WhisperKit का TestFlight app Apple Silicon पर तीनों चीजें support करता है: https://www.takeargmax.com/blog/whisperkit
  speaker diarization भी हो तो अच्छा होगा, लेकिन मैं इसे upstream Whisper में add होने का इंतजार कर रहा हूं: https://github.com/argmaxinc/WhisperKit/issues/31
AI इंटीग्रेशन न होना थोड़ा अप्रत्याशित है
अगर publication-quality परिणाम चाहिए, तो AI के नतीजों में भी अभी correction और quality check की ज़रूरत होती है। किसने कब बोला यह mark करना, या कम-से-कम वह speaker identification करना जो Whisper नहीं कर पाता, या असामान्य surnames आदि सुधारने पड़ते हैं
इसलिए AI इस्तेमाल करने वालों को भी correction/finishing/proofreading के लिए अच्छे tool की ज़रूरत होती है, और यह बिना-सहायता वाले transcription tool जैसा ही लगता है
- यह tool बहुत पहले Elliot Bentley ने बनाया था, जो पहले WSJ Graphics के journalist थे और अब Datawrapper में हैं
  अब इसे Muckrock चलाता है और काफी समय से इसमें कोई बदलाव नहीं हुआ
  इसलिए इसमें ऐसा integration नहीं है। उस समय यह technology ही मौजूद नहीं थी
FAQ के मुताबिक, “क्या oTranscribe audio को अपने आप text में बदलता है?” का जवाब “नहीं” है
oTranscribe audio transcription जैसे manual काम को कहीं कम तकलीफ़देह बनाता है, लेकिन transcription खुद ही करना पड़ता है
अभी Aiko का free iOS app इस्तेमाल कर रहा/रही हूँ, जो OpenAI के Whisper model से offline transcription करता है
अब तक यह काफी अच्छा चला है, और SRT, TXT, CSV, JSON, timestamp वाले text जैसे formats में export कर सकता है
https://sindresorhus.com/aiko
अगर आपको audio/video files की transcript चाहिए, तो मेरी service TurboScribe https://turboscribe.ai/ भी कभी भी try कर सकते हैं
दिन में 3 files तक, हर file 30 मिनट की limit के साथ 100% free है, और paid plan unlimited है तथा प्रति file अधिकतम 10 घंटे तक transcription करता है
speaker recognition, आम export formats (TXT, DOCX, PDF, SRT, CSV), और transcripts पर काम करने के लिए AI tools भी support करता है
- TurboScribe के paid plan से अच्छे results मिले, और यह service के रूप में उपलब्ध है यह पसंद आया
  आम तौर पर इसे कई speakers वाली 2–3 घंटे की video recordings के लिए इस्तेमाल करता/करती हूँ, और export करने से पहले साफ़-सफाई करने के लिए editing tool उपयोगी है
- अच्छा दिखता है। जानना चाहूँगा/चाहूँगी कि क्या कोई API है या उसे public करने की योजना है
अभी शायद सबसे अच्छे multimodal LLM Gemini-1.5-Pro-Experiment-0801 से transcription कितना अच्छा होता है यह जानने की उत्सुकता थी, इसलिए आज आए Ezra Klein और Nancy Pelosi interview के 5 मिनट transcribe करवाए
result यहाँ है: https://www.gally.net/temp/20240809geminitranscription/index...
मामूली punctuation और capitalization issues छोड़ दें, तो Gemini का transcription लगभग perfect लगा। गलत सुने गए शब्द शायद एक-दो ही थे, और अगर मैंने खुद transcribe किया होता तो शायद उससे ज़्यादा गलतियाँ होतीं
खास तौर पर यह हिस्सा ध्यान खींचता है: “And then he comes up with "weird," which becomes viral and the rest, and here he is.”
Gemini ने “weird” को quotes में कैसे रखा, और यह ठीक से कैसे दिखाया कि speaker Walz द्वारा इस्तेमाल किए गए शब्द को ही refer कर रहा है? Politico के मुताबिक, उस context में media में Walz ने यह शब्द पहली बार 23 जुलाई को इस्तेमाल किया था
https://www.politico.com/news/2024/07/26/trump-vance-weird-0...
- quotes तक सही handle करने वाले इस impressive result के पीछे शायद दो factors हो सकते हैं: auditory cues, और यह कि quotes न हों तो sentence grammatically अजीब और meaning में गलत लगता है
  सिर्फ़ अनुमान है, लेकिन LLM या दूसरे speech recognition systems को अलग-अलग words और punctuation पहचानने के लिए sentence context का use करना पड़ता होगा, और यह उसका अच्छा example लगता है
  human listening भी वैसी ही है। context हो तो बहुत बुदबुदाकर या तेज़ बोले गए words भी समझ आ जाते हैं
  आखिरकार हम words नहीं, phrases के स्तर पर सुनते हैं
- model quotes के आसपास के linguistic cues पकड़ सकता है, इसकी संभावना ज़्यादा है
  अगर audio या video file हो, तो उसे हमारे AI video editor में डालकर देखना चाहूँगा/चाहूँगी कि transcript में punctuation कैसे लगाता है
browser में Whisper और WASM से video/audio files transcribe करके .txt, .srt, .vtt files लेने वाला transcription tool भी है
आगे चलकर शायद Whisper Turbo support भी संभव हो
https://video2srt.ccextractor.org/
reference के लिए, मैं इस project पर काम कर रहा/रही हूँ
इसे बहुत इस्तेमाल करता/करती हूँ। अच्छा, simple और ज़रूरी tool है—यानी playback speed control और आसान pause/play—बस यही है, इससे ज़्यादा कुछ नहीं
उन automatic transcription tools से इसे कहीं ज़्यादा पसंद करता/करती हूँ जो ‘um’, ‘ah’ जैसी आवाज़ों से 40 pages बना देते हैं, जिन्हें फिर छाँटना और edit करना पड़ता है
- transcript को LLM में डालकर um, ah जैसे filler हटवाए नहीं जा सकते?

oTranscribe: मुफ़्त ओपन सोर्स ऑडियो इंटरव्यू ट्रांसक्रिप्शन टूल

एक स्क्रीन में पूरा होने वाला ट्रांसक्रिप्शन वर्कफ़्लो

फ़ाइल प्रोसेसिंग, सेविंग, एक्सपोर्ट

समर्थित फ़ॉर्मैट

एक्सपोर्ट

संबंधित पढ़ाई

3 टिप्पणियां

Hacker News की रायें