-
सांस्कृतिक संदर्भ
- StarCraft: Brood War (आगे BW) कोरिया में बेहद महत्वपूर्ण गेम है, और अधिकांश प्रो खिलाड़ी, टीमें और टूर्नामेंट कोरिया पर आधारित हैं.
- BW, शतरंज की तरह, एक रणनीति गेम है जिसमें सिर्फ खेलना ही नहीं बल्कि उसका अध्ययन करना भी महत्वपूर्ण है.
- शतरंज की opening की तरह BW में भी खास रणनीतियाँ और build होते हैं, और यह समुदाय के भीतर विकसित एक domain-specific language है.
-
विदेशी समुदाय की ज्ञान-संबंधी समस्या
- विदेशी समुदाय का अधिकांश हिस्सा कोरियाई भाषा में प्रवीण नहीं है.
- जो विदेशी कोरियाई धाराप्रवाह बोलते हैं वे बहुत कम हैं, और इसी कारण विदेशी समुदाय की जानकारी तक पहुँच कोरियाई समुदाय की तुलना में सीमित है.
- machine translation की domain-specific language का अनुवाद करने में सीमाएँ हैं, और यही वजहों में से एक है कि विदेशी समुदाय कोरियाई समुदाय से पीछे रह गया.
-
नई अनुवाद प्रक्रिया
- एक नई machine translation प्रक्रिया के ज़रिए अब अधिक सटीक अनुवाद देना संभव हो गया.
- प्रतिदिन लगभग 7 वीडियो का अनुवाद किया जा सका, जो पहले की तुलना में काफी तेज़ गति है.
-
टेक स्टैक
- यह subtitles को generate करने और consume करने, इन दो हिस्सों में बँटा है.
- yt-dlp और OpenAI Whisper का उपयोग करके वीडियो का audio track डाउनलोड किया जाता है, और उससे subtitles बनाए जाते हैं.
- Google Colab का उपयोग करके Whisper चलाया जाता है, और वीडियो URL इनपुट लेकर कोरियाई SRT फ़ाइल बनाई जाती है.
- LLM और slang dictionary का उपयोग करके अनुवाद की सटीकता बढ़ाई जाती है.
-
subtitle consumption
- TamperMonkey का उपयोग करके YouTube वीडियो में एक बटन जोड़ा जाता है, जिससे अनूदित subtitles डाउनलोड किए जा सकें.
- Pastebin और Google Sheets + Apps Script का उपयोग subtitles को साझा और प्रबंधित करने के लिए किया जाता है.
-
सुधार बिंदु
- कई भाषाओं का समर्थन जोड़ने की संभावना है.
- तकनीकी सुधार के रूप में सिर्फ खास वीडियो पर ही बटन दिखाने की सुविधा जोड़ी जा सकती है.
-
अंतिम विचार
- performance, scalability, latency आदि महत्वपूर्ण नहीं थे; पहले से मौजूद समाधानों को जोड़कर इस प्रोजेक्ट को पूरा किया गया.
- user script और Colab notebook का Python code छोटा है और maintain करना आसान है.
- यह प्रोजेक्ट सबसे सरल CRUD system है, और इसकी complexity के बहुत बढ़ने का कोई खास कारण नहीं है.
1 टिप्पणियां
Hacker News राय
एक कोरियाई BW खिलाड़ी और speech recognition researcher के रूप में, यह लेख मुझे मज़ेदार लगा। मूल कोरियाई transcription में कई गलतियाँ थीं, लेकिन LLMs ने उन्हें प्रभावशाली ढंग से ठीक किया। उदाहरण के लिए, "12 anmadang build" वास्तव में "12 apmadang build" था। tuecheori build को tuhaecheori build के रूप में transcribe किया जाना चाहिए था।
शीर्षक से भ्रमित मत होइए। यह लेख StarCraft commentary का अनुवाद करने और accessibility बढ़ाने का बहुत ही thorough और creative approach है।
एक non-English user के रूप में, यह लेख पढ़ते हुए मुझे computer articles और software development translation की कठिनाइयाँ याद आईं।
मैं Google Translate version को अच्छी तरह समझ सका, क्योंकि मैं BW और zerg 12hatch opener से परिचित हूँ।
अनुवाद पर लिखे गए लेख में signal-to-noise ratio को पूरी तरह उल्टा समझा गया, यह मुझे मज़ेदार लगा। high signal-to-noise ratio अच्छी चीज़ होती है.
bandwidth बचाने के लिए आप yt-dlp का उपयोग करके low-quality video डाउनलोड कर सकते हैं।
yt-dlp -f "bv[height<=720]" <url>बचपन में donmaep खेलने वाले व्यक्ति के रूप में, मैं सोचता था कि इमारतों के आगे लिखे नंबरों का क्या मतलब है।
Google Translate बेहतर हो गया है, लेकिन यह Go game से जुड़े Chinese या Japanese text का प्रभावी translation नहीं कर पाया।
मुझे यह लेख पसंद आया। जब मैंने World Cyber Games की अमेरिकी regional matches में कोशिश की थी, तो मैं यह देखकर हैरान रह गया कि दूसरे लोग कितने तेज़ थे।
"natural expansion" का "courtyard" के रूप में translation "गलत" है, लेकिन फिर भी मुझे यह पसंद आया।