2 पॉइंट द्वारा GN⁺ 2024-08-10 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • रिकॉर्ड किए गए इंटरव्यू को आसानी से ट्रांसक्राइब करने के लिए मुफ़्त "web app"
  • मुख्य फीचर्स
    • वीडियो प्लेयर और डॉक्यूमेंट एडिटर के बीच स्विच करने की ज़रूरत नहीं। सीधे ब्राउज़र में काम करें
    • कीबोर्ड से हाथ हटाए बिना pause, rewind और fast-forward कर सकते हैं
    • इंटरैक्टिव timestamp की मदद से ट्रांसक्रिप्ट में आसानी से नेविगेट किया जा सकता है
    • हर सेकंड ब्राउज़र storage में ऑटो-सेव होता है
    • प्राइवेसी सुरक्षा - ऑडियो फ़ाइलें और ट्रांसक्रिप्ट आपके कंप्यूटर से बाहर नहीं जाते
    • Markdown, plain text और Google Docs में export किया जा सकता है
    • इंटीग्रेटेड प्लेयर के ज़रिए वीडियो फ़ाइल सपोर्ट
    • MIT license के तहत ओपन सोर्स

GN⁺ की संक्षिप्त जानकारी

  • oTranscribe इंटरव्यू रिकॉर्डिंग को ट्रांसक्राइब करने की प्रक्रिया को आसान बनाने वाला एक मुफ़्त web app है
  • यूज़र कीबोर्ड से हाथ हटाए बिना ऑडियो को कंट्रोल कर सकते हैं, और ट्रांसक्रिप्ट हर सेकंड ऑटो-सेव होता है
  • यह ऐप प्राइवेसी पर ज़ोर देता है, और ऑडियो फ़ाइलें व ट्रांसक्रिप्ट कंप्यूटर से बाहर नहीं जाते
  • यह Markdown, plain text और Google Docs में export की सुविधा देता है, जिससे ट्रांसक्रिप्ट को अलग-अलग फ़ॉर्मैट में इस्तेमाल किया जा सकता है
  • इसी तरह की सुविधाएँ देने वाले अन्य प्रोजेक्ट्स में Express Scribe और TranscribeMe शामिल हैं

3 टिप्पणियां

 
xguru 2024-08-11

हूँ? मैंने सोचा था कि यह ब्राउज़र में कैसे संभव है... लेकिन यह तो AI के बिना सिर्फ सुनकर मैन्युअल ट्रांसक्राइब करने वाला टूल है।
आजकल Whisper से कोरियन पहचान भी अच्छी हो जाती है, तो ऐसा कुछ ज़रूर इस्तेमाल करने की वजह क्या है..

 
znjadong 2024-08-14

जब बोलने वाले लोग ज़्यादा हों, उच्चारण अस्पष्ट हो, या रिकॉर्डिंग की गुणवत्ता अच्छी न हो, तब AI की मदद लेना मुश्किल हो सकता है। और कई बार ऐसी गुणवत्ता की ज़रूरत होती है जो सिर्फ़ 'काफ़ी अच्छी तरह' काम करने से भी आगे हो।

 
GN⁺ 2024-08-10
Hacker News राय
  • MahmoudAshraf97 के Whisper-diarization का उपयोग करके इंटरव्यू ट्रांसक्राइब किया

    • कई वक्ताओं की बातों को speaker number से अलग करके फ़ाइल बनाई
    • timestamp वाली फ़ाइल भी बनती है, जिसे subtitle के रूप में इस्तेमाल किया जा सकता है
  • OTranscribe कोई automatic speech recognition टूल नहीं है, बल्कि manual transcription में मदद करने वाला UI है

  • ऐसा ऐप ढूंढ रहे हैं जो real-time में word-level transcription करे, local पर चले, और latest open source models का उपयोग कर सके

    • otter.ai इस्तेमाल कर रहे हैं, लेकिन इसमें internet connection चाहिए और transcription delay की समस्या है
    • Whisper आधारित ऐप्स को पूरी recording एक बार में process करनी पड़ती है
    • Apple का speech recognition framework फिलहाल कुछ कमज़ोर है
  • इसमें AI integration न होना हैरान करने वाला है

    • publish quality के लिए AI के नतीजों की भी review और QA ज़रूरी है
    • speaker identification, असामान्य surname सुधारने जैसे काम करने पड़ते हैं
  • oTranscribe अपने-आप audio को text में convert नहीं करता

    • यह manual transcription को कम तकलीफ़देह बनाने वाला टूल है
  • TurboScribe सेवा की सिफारिश

    • दिन में अधिकतम 3 फ़ाइलें (प्रति फ़ाइल 30 मिनट) मुफ्त transcription
    • paid plan में प्रति फ़ाइल अधिकतम 10 घंटे तक transcription संभव
    • speaker recognition, कई export formats का समर्थन, और AI tools शामिल
  • Gemini-1.5-Pro-Experiment-0801 का उपयोग करके इंटरव्यू transcription का प्रयोग

    • नतीजे लगभग परफेक्ट हैं
    • कुछ खास शब्दों को quotation marks में दिखाना प्रभावशाली लगा
  • Aiko का मुफ्त iOS ऐप इस्तेमाल कर रहे हैं

    • OpenAI के Whisper model का उपयोग करता है
    • SRT, TXT, CSV, JSON जैसे formats में export किया जा सकता है
  • Whisper और pyannote का उपयोग करने वाला macOS open source ऐप विकसित कर रहे हैं

    • फीचर्स हैं, लेकिन गति धीमी है
    • Pyannote को CoreML में convert करने में कठिनाई हो रही है
    • योगदान का स्वागत है
  • AI शामिल करने वाला टूल विकसित कर रहे हैं

    • YouTube से download, Vosk से transcription, pyannote से speaker separation
    • transcription सामग्री को search engine में स्टोर करना है, web app लागू करना बाकी है
    • सहयोग की उम्मीद है