4 पॉइंट द्वारा GN⁺ 2025-01-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • सांस्कृतिक संदर्भ

    • StarCraft: Brood War (आगे BW) कोरिया में बेहद महत्वपूर्ण गेम है, और अधिकांश प्रो खिलाड़ी, टीमें और टूर्नामेंट कोरिया पर आधारित हैं.
    • BW, शतरंज की तरह, एक रणनीति गेम है जिसमें सिर्फ खेलना ही नहीं बल्कि उसका अध्ययन करना भी महत्वपूर्ण है.
    • शतरंज की opening की तरह BW में भी खास रणनीतियाँ और build होते हैं, और यह समुदाय के भीतर विकसित एक domain-specific language है.
  • विदेशी समुदाय की ज्ञान-संबंधी समस्या

    • विदेशी समुदाय का अधिकांश हिस्सा कोरियाई भाषा में प्रवीण नहीं है.
    • जो विदेशी कोरियाई धाराप्रवाह बोलते हैं वे बहुत कम हैं, और इसी कारण विदेशी समुदाय की जानकारी तक पहुँच कोरियाई समुदाय की तुलना में सीमित है.
    • machine translation की domain-specific language का अनुवाद करने में सीमाएँ हैं, और यही वजहों में से एक है कि विदेशी समुदाय कोरियाई समुदाय से पीछे रह गया.
  • नई अनुवाद प्रक्रिया

    • एक नई machine translation प्रक्रिया के ज़रिए अब अधिक सटीक अनुवाद देना संभव हो गया.
    • प्रतिदिन लगभग 7 वीडियो का अनुवाद किया जा सका, जो पहले की तुलना में काफी तेज़ गति है.
  • टेक स्टैक

    • यह subtitles को generate करने और consume करने, इन दो हिस्सों में बँटा है.
    • yt-dlp और OpenAI Whisper का उपयोग करके वीडियो का audio track डाउनलोड किया जाता है, और उससे subtitles बनाए जाते हैं.
    • Google Colab का उपयोग करके Whisper चलाया जाता है, और वीडियो URL इनपुट लेकर कोरियाई SRT फ़ाइल बनाई जाती है.
    • LLM और slang dictionary का उपयोग करके अनुवाद की सटीकता बढ़ाई जाती है.
  • subtitle consumption

    • TamperMonkey का उपयोग करके YouTube वीडियो में एक बटन जोड़ा जाता है, जिससे अनूदित subtitles डाउनलोड किए जा सकें.
    • Pastebin और Google Sheets + Apps Script का उपयोग subtitles को साझा और प्रबंधित करने के लिए किया जाता है.
  • सुधार बिंदु

    • कई भाषाओं का समर्थन जोड़ने की संभावना है.
    • तकनीकी सुधार के रूप में सिर्फ खास वीडियो पर ही बटन दिखाने की सुविधा जोड़ी जा सकती है.
  • अंतिम विचार

    • performance, scalability, latency आदि महत्वपूर्ण नहीं थे; पहले से मौजूद समाधानों को जोड़कर इस प्रोजेक्ट को पूरा किया गया.
    • user script और Colab notebook का Python code छोटा है और maintain करना आसान है.
    • यह प्रोजेक्ट सबसे सरल CRUD system है, और इसकी complexity के बहुत बढ़ने का कोई खास कारण नहीं है.

1 टिप्पणियां

 
GN⁺ 2025-01-19
Hacker News राय
  • एक कोरियाई BW खिलाड़ी और speech recognition researcher के रूप में, यह लेख मुझे मज़ेदार लगा। मूल कोरियाई transcription में कई गलतियाँ थीं, लेकिन LLMs ने उन्हें प्रभावशाली ढंग से ठीक किया। उदाहरण के लिए, "12 anmadang build" वास्तव में "12 apmadang build" था। tuecheori build को tuhaecheori build के रूप में transcribe किया जाना चाहिए था।

    • Whisper की inference process में सीधे slang dictionary इनपुट करना मददगार हो सकता है। सबसे सरल तरीका है final prediction layer में dictionary के slang शब्दों की probability को एक निश्चित अनुपात से बढ़ाना। इसे HuggingFace की library का उपयोग करके आसानी से implement किया जा सकता है.
  • शीर्षक से भ्रमित मत होइए। यह लेख StarCraft commentary का अनुवाद करने और accessibility बढ़ाने का बहुत ही thorough और creative approach है।

    • गेम commentary 27 सालों में एक specific domain language बन गई है।
    • automatic scripting और AI का उपयोग करके इसे मोटे तौर पर समझने योग्य और consistent बनाने का तरीका बहुत शानदार है.
  • एक non-English user के रूप में, यह लेख पढ़ते हुए मुझे computer articles और software development translation की कठिनाइयाँ याद आईं।

    • कई ऐसे terms हैं जिनका अनुवाद करना मुश्किल है। एकमात्र समाधान है कि भाषा के अनुसार terms को adopt किया जाए।
    • जब software development के बारे में Spanish में बात की जाती है, तो English से आए हुए terms बहुत होते हैं।
    • मुझे जिज्ञासा है कि automatic translation इसे कैसे handle करेगा, और सामाजिक रूप से दोनों भाषाओं को मिलाने की प्रक्रिया ज़रूरी लगती है.
  • मैं Google Translate version को अच्छी तरह समझ सका, क्योंकि मैं BW और zerg 12hatch opener से परिचित हूँ।

    • ChatGPT और Claude ने कोरियाई text के translation का शानदार काम किया।
    • Claude के translation का उदाहरण: यह 12 hatchery build के बारे में समझाता है और Protoss तथा Terran के खिलाफ build order बताता है.
  • अनुवाद पर लिखे गए लेख में signal-to-noise ratio को पूरी तरह उल्टा समझा गया, यह मुझे मज़ेदार लगा। high signal-to-noise ratio अच्छी चीज़ होती है.

  • bandwidth बचाने के लिए आप yt-dlp का उपयोग करके low-quality video डाउनलोड कर सकते हैं।

    • उदाहरण command: yt-dlp -f "bv[height<=720]" <url>
  • बचपन में donmaep खेलने वाले व्यक्ति के रूप में, मैं सोचता था कि इमारतों के आगे लिखे नंबरों का क्या मतलब है।

    • लगता है कि 12 hatchery जैसे नंबर build order में उनकी position को दर्शाते हैं.
  • Google Translate बेहतर हो गया है, लेकिन यह Go game से जुड़े Chinese या Japanese text का प्रभावी translation नहीं कर पाया।

    • modern LLMs का उपयोग करके Go terminology शामिल करते हुए translation request की जा सकती है.
  • मुझे यह लेख पसंद आया। जब मैंने World Cyber Games की अमेरिकी regional matches में कोशिश की थी, तो मैं यह देखकर हैरान रह गया कि दूसरे लोग कितने तेज़ थे।

    • कोरिया में live streaming देखकर मैं उनकी speed से प्रभावित हुआ।
    • मुझे एहसास हुआ कि strategic point of view से मैं बुनियादी बातें चूक रहा था.
  • "natural expansion" का "courtyard" के रूप में translation "गलत" है, लेकिन फिर भी मुझे यह पसंद आया।