- Apple के SpeechAnalyzer और SpeechTranscriber real-time speech-to-text transcription को OpenAI के Whisper की तुलना में काफी बेहतर speed और उसी quality के साथ सपोर्ट करते हैं
- 34 मिनट की 7GB वीडियो फ़ाइल को Yap command-line tool से बदलने पर सिर्फ 45 सेकंड में SRT फ़ाइल में बदला गया, जो MacWhisper से 2.2 गुना तेज़ परिणाम है
- MacWhisper, VidCap जैसे अन्य टूल्स की तुलना में quality का फ़र्क लगभग नहीं है, लेकिन सभी में proper nouns और compound words को संभालने में हल्की त्रुटियाँ दिखती हैं
- लंबे developer videos, lectures, podcasts जैसी दोहराई जाने वाली processing में कुल समय की बचत बहुत बड़ी हो सकती है
- macOS Tahoe beta (developer account आवश्यक) में Yap इंस्टॉल करने के बाद इसे तुरंत इस्तेमाल किया जा सकता है, और भविष्य में पूरे Apple platform (iPhone, iPad, Mac, Vision Pro) पर Whisper के विकल्प के रूप में उभरने की उम्मीद है
Apple Speech API vs Whisper: speed में नया breakthrough
- हाल की WWDC में पेश किए गए SpeechAnalyzer और SpeechTranscriber macOS, iOS, iPadOS और Vision Pro के नवीनतम beta में शामिल हैं
- लेखक पहले के Whisper-आधारित टूल्स की धीमी speed से काफ़ी असंतुष्ट थे, लेकिन नया API वास्तविक उपयोग में game-changer स्तर का performance दिखाता है
- साधारण command-line tool (Yap) से audio/video files को SRT, TXT में तेज़ी से बदला जा सकता है
- 34 मिनट, 7GB 4K वीडियो → Yap: 45 सेकंड / MacWhisper(V3 Turbo): 1 मिनट 41 सेकंड / VidCap: 1 मिनट 55 सेकंड / MacWhisper(V2): 3 मिनट 55 सेकंड
- CamelCase (जैसे: AppStories) और proper noun recognition की समस्याएँ सभी में लगभग समान रूप से दिखती हैं (post-processing से आसानी से सुधारी जा सकती हैं)
वास्तविक speed comparison और workflow उपयोग
- एकल वीडियो में 1–2 मिनट का फ़र्क छोटा लग सकता है, लेकिन कई घंटों की वीडियो processing में यह बचत जुड़कर बहुत बड़ी हो जाती है
- YouTube वीडियो जैसी बड़े पैमाने की batch conversion में yt-dlp जैसे टूल्स के साथ जोड़कर प्रभावी automation किया जा सकता है
- creators, YouTubers, students सहित कई तरह के users को subtitles, lectures, summaries के लिए तेज़ workflow मिलता है
- SpeechAnalyzer/SpeechTranscriber संयोजन के Whisper को तेज़ी से replace करने की उम्मीद है
वास्तविक उपयोग और install करने का तरीका
- macOS Tahoe beta (फ़िलहाल developer account आवश्यक) इंस्टॉल करें
- Yap GitHub repository से command-line tool डाउनलोड और इंस्टॉल करें
- Yap चलाने के बाद audio/video file इनपुट करें → SRT/TXT conversion file तुरंत बन जाती है
- Apple की आधिकारिक Speech API docs और WWDC video (277) में अतिरिक्त technical जानकारी देखी जा सकती है
निष्कर्ष और आगे की संभावनाएँ
- Apple Speech API, Whisper की तुलना में speed में दबदबे वाली बढ़त दिखाता है और quality भी समान स्तर पर बनाए रखता है
- Apple platform पर speech recognition/transcription workflow का अधिक उपयोग करने वाले users के लिए इसके standard model बनने की संभावना काफ़ी अधिक है
- बार-बार होने वाले automation tasks में कुल efficiency को अधिकतम करने और productivity बढ़ाने की उम्मीद है
6 टिप्पणियां
बाद में Korean को भी एक बार टेस्ट करना होगा।
Apple platform खुद ही इतनी बंद सोच वाला है कि उसमें दिलचस्पी ही नहीं होती
अनौपचारिक लहजे वाली टिप्पणियां देखना पसंद नहीं, लेकिन उन्हें ब्लॉक करने का विकल्प भी नहीं है।
उस हिसाब से देखें तो आपका लिखा हुआ कमेंट भी अनौपचारिक भाषा में है;;
Apple की आलोचना करना आपको पसंद न आए, यह अलग बात है, लेकिन वह अनौपचारिक भाषा नहीं है।
वह
음슴체है, और GeekNews के डिफ़ॉल्ट सारांश भी मूल रूप से음슴체में होते हैं, तो आप पोस्ट्स को आखिर कैसे देख रहे हैं...