OpenAI मिनट के हिसाब से शुल्क लेता है, इसलिए ऑडियो की स्पीड बढ़ाकर समय घटाइए

(george.mand.is)

16 पॉइंट द्वारा GN⁺ 2025-06-26 | 2 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI की ऑडियो ट्रांसक्रिप्शन pricing इनपुट ऑडियो की लंबाई के आधार पर तय होती है
ffmpeg जैसे टूल से ऑडियो को 2–3x स्पीड में बदलकर अपलोड करने पर ट्रांसक्रिप्शन quality घटाए बिना processing time और cost दोनों कम किए जा सकते हैं
वास्तविक 40 मिनट के ऑडियो को 2x और 3x स्पीड में बदलने पर लागत 23–33% तक कम हुई
gpt-4o-transcribe मॉडल केवल 25 मिनट से छोटे ऑडियो को सपोर्ट करता है, इसलिए स्पीड बढ़ाना एक उपयोगी workaround है
2–3x तक result quality बनी रहती है, लेकिन 4x स्पीड पर ट्रांसक्रिप्शन accuracy बहुत गिर जाती है

संक्षिप्त परिचय

OpenAI की ट्रांसक्रिप्शन और ऑडियो pricing policy को अधिक कुशलता से इस्तेमाल करने का एक सरल तरीका
ऑडियो conversion speed बढ़ाकर वही सामग्री कम समय में प्रोसेस कराना, ताकि शुल्क और समय दोनों बचें
ffmpeg जैसे open source टूल से ऑडियो फ़ाइल को 2–3x तेज़ करके OpenAI API पर अपलोड करने से quality loss के बिना price और processing time कम किए जा सकते हैं
यह तरीका खास तौर पर लंबे ऑडियो के लिए अधिक प्रभावी है, विशेषकर जब input length पर सीमा हो (जैसे gpt-4o-transcribe मॉडल की 25 मिनट सीमा)

ट्रांसक्रिप्शन speed/cost बचाने का मुख्य तरीका

OpenAI की ऑडियो ट्रांसक्रिप्शन सेवा ऑडियो की लंबाई के आधार पर शुल्क लेती है
इसलिए अगर voice file को ffmpeg आदि से पहले से 2–3x तेज़ करके अपलोड किया जाए, तो input token count काफी घट सकता है और ट्रांसक्रिप्शन processing time भी कम हो जाता है
इसे वास्तव में लागू करने पर 40 मिनट के ऑडियो के आधार पर input token cost में 33% से अधिक की बचत हुई (3x पर $0.07, 2x पर $0.09)
output token cost ऑडियो की स्पीड से लगभग अप्रभावित रही (यह input summary length के आधार पर auto-allocation का परिणाम है)
2x और 3x स्पीड पर ट्रांसक्रिप्शन accuracy स्थिर रहती है, लेकिन 4x स्पीड पर मॉडल सामग्री को ठीक से पहचान नहीं पाता

इस्तेमाल की script का उदाहरण

निम्न open source टूल की आवश्यकता है:

yt-dlp : YouTube आदि से ऑडियो निकालने के लिए
ffmpeg : ऑडियो conversion और स्पीड नियंत्रण के लिए
llm : टेक्स्ट summary automation के लिए

संदर्भ के लिए पूरा workflow:

yt-dlp से ऑडियो extract करें,
ffmpeg से ऑडियो को 2–3x में बदलकर mp3 के रूप में सेव करें
OpenAI API(gpt-4o-transcribe) पर mp3 अपलोड करके ट्रांसक्रिप्शन टेक्स्ट प्राप्त करें
उस result text को llm में देकर मनचाहा summary text अपने आप बनाएं

वास्तविक अनुभव और trial-and-error

शुरुआत में YouTube की auto-transcription लेने की कोशिश की गई, लेकिन yt-dlp का पुराना version (2025.04.03) होने से download error आया
प्रोग्राम update करने के बाद वह सामान्य रूप से चलने लगा, लेकिन तब तक manual extraction + ffmpeg acceleration → OpenAI API processing वाला तरीका आज़माया जा चुका था
M3 MacBook Air पर local Whisper चलाने पर battery load और execution speed की समस्या आई, इसलिए cloud (OpenAI API) पर offload करना ज्यादा तेज़ और कुशल साबित हुआ

ट्रांसक्रिप्शन quality और algorithm की विशेषताएँ

ऑडियो स्पीड को 2x–3x तक बढ़ाने पर, जैसे कोई इंसान मूल आवाज़ को तेज़ चलाकर सुन लेता है, वैसे ही AI मॉडल भी मूल जानकारी को लगभग सही पहचान लेता है
यह image file size optimization (lossy/lossless format) जैसा है; सुनने योग्य सूचना का थोड़ा नुकसान (जैसे अधिक स्पीड पर कुछ शब्द छूट जाना) हो भी जाए, तो summary और समझ पर बड़ा असर नहीं पड़ता
जैसे दिमाग गलत spelling या कुछ शब्द छूटे हुए टेक्स्ट को भी पूरा करके समझ लेता है, वैसे ही ट्रांसक्रिप्शन algorithm तेज़ किए गए ऑडियो से भी अधिकांश मुख्य जानकारी निकाल लेता है

वास्तविक pricing तुलना और बचत की मात्रा

OpenAI के gpt-4o-transcribe के आधार पर, ऑडियो स्पीड के अनुसार लागत इस प्रकार निकली
- 2x स्पीड (1,186 सेकंड): $0.09
- 3x स्पीड (791 सेकंड): $0.07
- यदि input audio लंबा हो (उदाहरण: 2,372 सेकंड मूल फ़ाइल), तो मॉडल की शर्तों के अनुसार प्रोसेस नहीं किया जा सकता
- Whisper-1 मॉडल के हिसाब से $0.006/मिनट, और इस तरीके से कुल मिलाकर अधिकतम लगभग 67% लागत बचत संभव है
output token cost इनपुट स्पीड से लगभग समान रहती है (मॉडल की context window और summary method का प्रभाव)
4x स्पीड लागू करने पर output गंभीर रूप से खराब हो जाता है, जैसे दोहराए गए वाक्य

सिफारिशें और निष्कर्ष

OpenAI की voice transcription को तेज़ और सस्ता बनाना हो, तो ऑडियो को 2–3x accelerate करना सबसे प्रभावी है
बहुत अधिक स्पीड (4x) पर accuracy घटने की समस्या है
यह सरल और आसानी से लागू होने वाला तरीका है, और quality बनाए रखते हुए cost कम करने में उपयोगी है
सामान्य business audio summary, meeting notes आदि जैसी लंबी voice data processing की ज़रूरत वाले startup और IT पेशेवरों के लिए यह समय और लागत बचाने का सीधा साधन हो सकता है

सारांश (TL;DR)

OpenAI ऑडियो की लंबाई या input/output token के आधार पर शुल्क लेता है
ffmpeg से आवाज़ को 2–3x तेज़ करके इनपुट देने पर समय और लागत दोनों बचाए जा सकते हैं
input token (या समय) कम होने से शुल्क घटता है
2x और 3x सबसे उपयुक्त स्पीड हैं, जबकि 4x या उससे अधिक पर ट्रांसक्रिप्शन quality गिरने लगती है

2 टिप्पणियां

mbsahg 2025-06-27

क्या आप gpt-4o-transcribe इस्तेमाल कर सकते हैं?
मैंने कल OpenAI से पूछा था, और उन्होंने मुझे बताया कि API key का इस्तेमाल करके सिर्फ़ Whisper model को ही कॉल किया जा सकता है।
मैं Whisper को एक तेज़ सेटिंग के साथ आज़माने की सोच रहा हूँ, ताकि देख सकूँ कि क्या quality अब भी बनी रह सकती है।

GN⁺ 2025-06-26

Hacker News राय

ऐसा लगा कि Andrej के व्याख्यान की गति मूल रूप से आम लोगों की तुलना में कम-से-कम 1.5x तेज़, फिर भी स्वाभाविक है, इसलिए उसे फॉलो करने के लिए YouTube playback speed को ज़रूर 1x पर लाना पड़ता है। अगर OpenAI minute को ज़्यादा efficient बनाना है, तो चुप्पी वाले हिस्सों को पूरी तरह हटाकर प्रोसेस करने का तरीका सुझाया गया।
ffmpeg कमांड के उदाहरण के रूप में, -50dB से नीचे की 20ms से लंबी हर silence को 20ms pause से बदलकर 39 मिनट 31 सेकंड के वीडियो को 31 मिनट 34 सेकंड तक छोटा करने का अनुभव साझा किया गया। मूल पोस्ट के आशय के अनुसार केवल लंबाई नापकर असर मापा गया, छोटे किए गए वर्ज़न की quality अलग से जाँची नहीं गई
- मैं हमेशा सभी वीडियो 2x speed पर देखता हूँ, और Andrej का व्याख्यान भी 2x पर स्वाभाविक लगता है। लेकिन मेरे बनाए वीडियो के बारे में आस-पास के लोग अक्सर कहते हैं कि वे इतने तेज़ हैं कि उन्हें 0.75x पर देखना पड़ेगा। मेरी नज़र में 2x के बिना सब कुछ बहुत धीमा लगता है। वैसे John Carmack की बोलने की गति 2x पर भी पूरी तरह स्वाभाविक लगती है। अगर मेरे हाल के वीडियो देखने हों तो यहाँ देख सकते हैं; ज़्यादातर में मैं बस विषय तय करके तुरंत रिकॉर्ड कर देता हूँ, और ऐसे 250~300 से ज़्यादा कर चुका हूँ। जिज्ञासा है कि क्या मेरे वीडियो सच में बहुत तेज़ लगते हैं, या फिर काफ़ी सामान्य speed पर हैं
- अगर quality की जाँच की ही नहीं गई, तो दोनों versions के output को diffchecker जैसी किसी चीज़ से compare करना आसान रहता
- काश आम लोगों के लिए 2.25x YouTube speed भी होती। मैं हमेशा shortcut keys इस्तेमाल करता हूँ और लगभग 90% चीज़ें 2x पर सुनता हूँ, लेकिन Andrej के व्याख्यान को 1.25x से तेज़ चलाना भी मुश्किल लगता है
- Andrej आम लोगों से 1.5x से ज़्यादा तेज़ बोलते हैं, इस बात से मैं भी सहमत हूँ, इसलिए YouTube speed को सामान्य पर लौटाने वाली बात समझ में आती है। उत्सुकता है कि क्या इंसानी speech rate को अपने-आप detect करने का कोई तरीका हो सकता है। speed व्यक्तिपरक है और हर व्यक्ति के लिए अलग है, लेकिन अगर OP के आज़माए तरीके के fail होने को detect किया जा सके तो दिलचस्प होगा। (जैसे x4 speed पर quality पूरी तरह बिगड़ जाना)
- ffmpeg के इस जादू को और इस्तेमाल किया जा सकता है, यह सोचकर उत्साह हो रहा है। बाद में ज़रूर आज़माऊँगा, आइडिया के लिए धन्यवाद
ऊपर-ऊपर देख लेने और समय निकालकर ठीक से पढ़ने/समझने के बारे में एक विचार।
जब मैंने Andrej के व्याख्यान का transcript और summary ही पढ़ा था, तो वह सामान्य लगा और मैं आगे बढ़ गया। लेकिन YouTube पर पूरा वीडियो देखने के बाद मुझे बहुत तरह के विचार, सोच और फैसलों की दिशा में जाने वाला अनुभव हुआ। दूसरे विषयों में भी ऐसा अक्सर होता है। किसी conference में सीधे जाकर सुनना, ऑनलाइन व्याख्यान से कहीं ज़्यादा उपयोगी होता है। ऑनलाइन देखना भी सिर्फ summary पढ़ने से बहुत ज़्यादा फ़ायदेमंद है। यहाँ तक कि 10 मिनट में सरसरी तौर पर सोचकर छोड़ देने की तुलना में, टहलते हुए गहराई से सोचना कहीं बेहतर लगता है। सोचने के लिए आम तौर पर धीरे चलना ही बेहतर होता है
- यह सच में अजीब तरह से रोचक लगता है। एक ऐसे developer के रूप में जिसे स्कूल में एकसार तरीके से ज्ञान ठूँसना पसंद नहीं था, अब उसी तरह के अनुभव के लिए खुशी-खुशी पैसे देना मुझे अजीब लगता है। पढ़ना अपने-आप में आनंद है, और व्याख्यान देखते हुए विचारों का जुड़ना भी शानदार लगता है। दुनिया के अर्थ पर खुद विचार करना ही इंसानियत का हिस्सा है, ऐसा मानता हूँ। लेकिन उल्टा, यह रुझान सबको मूर्ख बनाने वाली दिशा लगता है, इसलिए इससे बिल्कुल सहमत नहीं हो पाता
- ऊपर की बात से पूरी तरह सहमत हूँ। मुझे लगता है कि व्याख्यान की असली value, सार्वजनिक तथ्यों या ideas से ज़्यादा, उससे पैदा होने वाली अतिरिक्त प्रेरणाओं में होती है। दुनिया में बेहिसाब जानकारी है, और context ही सब कुछ है। अगर थोड़ा और ठोस context होता, तो शायद मैं समय निकालकर देखता; लेकिन बिना context के सिर्फ link मिलने पर मैं बस जल्दी से 'core' समझकर प्रतिक्रिया देने की मुद्रा में आ जाता हूँ। खैर, इस बार उसी की वजह से रुचि जगी है, तो शायद फिर से देखूँ। “धीरे सोचना आम तौर पर बेहतर है” — इस बात से फिर सहमत हूँ
- धीरे सोचना ज़रूरी है, लेकिन यह तरीका भी काफ़ी उपयोगी हो सकता है कि पहले व्याख्यान का थोड़ा हिस्सा सुन लिया जाए और बाद में वापस आकर उसे अधिक गहराई से सोचा जाए
- सवाल यह है कि क्या सचमुच वीडियो की speed महत्वपूर्ण थी, या वीडियो और ऑडियो से मिलने वाली अतिरिक्त जानकारी। अच्छा वक्ता वही संदेश audio/video में कहीं बेहतर ढंग से पहुँचा देता है। audio खास हिस्सों पर ज़ोर दे सकता है, और video gestures या facial expressions से भी संदेश को मजबूत कर सकता है
- मैं उल्टा, जब लोगों को podcast या audiobook 2~3x पर सुनते देखता हूँ, तो लगता है कि मेरे लिए 0.8x पर धीमा करके सुनना ज़्यादा केंद्रित रहने और सोचने का समय देने में मदद करता है। पता नहीं मैं कोई अपवाद हूँ या नहीं
OpenAI की transcription API से 40 मिनट के व्याख्यान का summary बनाने की कोशिश की, लेकिन लंबाई ज़्यादा होने के कारण ffmpeg से 3x speed compression करके 25 मिनट की limit के भीतर चलाया। इससे वास्तव में फ़ायदा हुआ, और cost व time दोनों बचे, इसलिए पोस्ट लिखकर साझा किया गया। पूरी script और लागत का ब्योरा भी शामिल है
- मज़ाक में कहा गया कि ऐसी trick चुपचाप इस्तेमाल करके OpenAI से भी सस्ता transcription business शुरू किया जा सकता था
“Accuracy कैसी है?” “पता नहीं, मूल बात वह नहीं थी” — मूल लेखक के इस भाव के साथ, काम काफ़ी शानदार लगा, लेकिन साथ ही यह भविष्य कुछ बेचैन करने वाला भी लगता है
- इंसानों द्वारा बनाई गई speech transcripts भी कभी पूरी तरह accuracy की गारंटी नहीं देती थीं। ऐसे conversion process में हमेशा errors रहे हैं और आगे भी रहेंगे। बल्कि ज़्यादा चिंता इस बात की है कि generative AI किसी बात की factual interpretation कर दे, या समाज में यह धारणा बन जाए कि ‘AI ज़्यादा भरोसेमंद है’। यह लोकप्रिय सोच भी ख़तरनाक है कि AI, इंसानों, experts या journalists से ज़्यादा reliable/fair है
Gemini 2.0 से पहले के versions में एक तरीका था जहाँ एक image पर 258 tokens का fixed charge लगता था, इसलिए image में बहुत अधिक text ठूँस देने पर उसे तुलनात्मक रूप से सस्ते में process किया जा सकता था
मैंने एक Chrome extension बनाया है, जिसमें huggingface/transformers.js में OpenAI Whisper model को WebGPU पर चलाकर browser में सीधे audio को text में बदला जा सकता है। example list देखें। उदाहरण के लिए, राष्ट्रपति के social media वीडियो को देखना या सुनना पसंद नहीं, लेकिन जब अर्थव्यवस्था पर असर डालने वाली कोई बड़ी बकवास सामने आए तो उसे जल्दी detect करना ज़रूरी है; इसलिए हर 1 मिनट में नए posts crawl करके OCR और audio transcription को local में अपने-आप चलाना, फिर text analysis करना, और केवल आर्थिक रूप से महत्वपूर्ण होने पर notification देना। project link
- इसे कमाल का implementation बताया गया
OpenAI Whisper API की जगह Groq की भी सिफारिश की गई (सस्ते में distil-large-v3 $0.02/hr, whisper-large-v3-turbo $0.04, जबकि OpenAI $0.36/hr)। अंदरूनी तौर पर, जब city council meetings YouTube पर अपलोड होती हैं, तो उन्हें अपने-आप Groq, Replicate, Deepgram आदि से transcribe किया जाता है
- एक टिप यह भी कि Hugging Face की Inference API इस्तेमाल करने पर कई API providers के बीच आसानी से switch किया जा सकता है। उदाहरण यहाँ सीधे देखा जा सकता है
- $0.02~$0.04 प्रति घंटा की दर होने पर शायद किसी optimization की ज़रूरत ही न पड़े, लेकिन फिर भी जिज्ञासा है कि audio को और तेज़ चलाकर cost और घटाई जा सकती है या नहीं। साथ ही यह सवाल भी कि YouTube तो ज़्यादातर मामलों में एक दिन के भीतर auto captions दे ही देता है
- नए MacBook users के लिए यह बात ज़ोर देकर कही गई कि Whisper models को local में पूरी तरह free चलाया जा सकता है। ऐसा लगता है कि लोग अक्सर यह नहीं समझते कि उनके अपने hardware की computing power पहले से ही कितनी सस्ती है
- cloudflare workers ai में भी whisper-large-v3-turbo model लगभग $0.03/hr पर इस्तेमाल करने का विकल्प बताया गया (link)
Google AI studio में सिर्फ YouTube link देने पर speaker labels सहित transcription और visual cues extraction अपने-आप हो जाता है, इस पर ज़ोर दिया गया। वीडियो के लिए multimodal support का भी उल्लेख है
मैं OpenAI में API-संबंधित काम करता हूँ, और यह देखकर हैरानी हुई कि 2~3x speed पर भी results काफ़ी अच्छे आते हैं। वास्तव में फोन channels के लिए 8khz audio को 24khz तक upsample करके अच्छी तरह इस्तेमाल किया जाता है। हालांकि 1x से दूर जाने पर accuracy में गिरावट साफ़ तौर पर मौजूद है, और लंबे समय में लंबी files upload करने का support ज़रूरी होगा
- feedback दिया गया कि अंदरूनी तौर पर ऐसी speed optimizations पर research करके ऐसे multiplier points खोजे जा सकते हैं जहाँ accuracy loss न्यूनतम हो। इससे यह भी संकेत मिलता है कि साधारण preprocessing से API price प्रभावी रूप से घट सकती है
सीधे मुद्दे पर आने वाली writing style पसंद आई। बहुत-सी writing बेवजह लंबी हो जाती है, इसलिए यह approach ताज़गीभरी लगी। शायद आधे authors को इससे यह एहसास भी हो जाए कि उनके पास वास्तव में कोई core message है ही नहीं