कोरिया-चीन-जापान कंप्यूटर साइंस शब्दावली तुलना
(cjk-compsci-terms.netlify.app)नमस्ते। GeekNews पर खाता बनाने के बाद से मैं अब तक बस इसे अच्छी तरह पढ़ता ही आ रहा था, लेकिन हंगुल दिवस आते ही मुझे इस साल की शुरुआत में बनाई गई 《कोरिया-चीन-जापान कंप्यूटर साइंस शब्दावली तुलना》 तालिका याद आ गई, इसलिए इसे Show GN में साझा कर रहा हूँ.
हर विशेषज्ञता वाले क्षेत्र में ऐसी प्रवृत्ति होती है, लेकिन आजकल सुविधा के लिए कंप्यूटर साइंस की शब्दावली में पहले से स्थापित अनुवादित शब्दों का उपयोग करने के बजाय अंग्रेज़ी को विदेशी शब्द की तरह सीधे इस्तेमाल करने के मामले बहुत हैं। उदाहरण के लिए, आजकल “मान” को भी बस “value” कहकर बोलते हैं और लिखते भी हैं.
खैर, कोरियाई में भी कई अच्छे कंप्यूटर साइंस अनुवादित शब्द हैं जो पहले से कई दशकों से स्थापित हैं। इनमें से काफ़ी शब्द जापान या ताइवान जैसे उसी चीनी-अक्षर सांस्कृतिक क्षेत्र वाले देशों के साथ साझा किए जाते हैं, यह जानकर मैंने मज़े-मज़े में यह तुलना तालिका बनाई थी। हंगुल दिवस के उपलक्ष्य में आप इसे एक बार देखकर जाएँ तो अच्छा लगेगा.
स्रोत कोड < https://github.com/dahlia/cjk-compsci-terms > पर है। हर शब्द tables/ डायरेक्टरी के अंदर वर्गीकरण के अनुसार YAML फ़ाइलों में व्यवस्थित है, इसलिए शब्द जोड़ने या त्रुटि सुधारने वाले PR भी स्वागतयोग्य हैं.
पढ़ने के लिए धन्यवाद!
13 टिप्पणियां
मेरा एक प्रश्न है।
YAML में दी गई चीनी और जापानी अभिव्यक्तियों को देखकर मैंने पाया कि कोरिया में इस्तेमाल होने वाली Hanja अभिव्यक्ति का उपयोग किया गया है, और उसके नीचे
termके रूप में पारंपरिक, सरलीकृत और जापानी संक्षिप्त रूप दिए गए हैं।यह किस उद्देश्य से विकसित किया गया, यह जानने की जिज्ञासा है।
उदाहरण के लिए, Source Code के बारे में,
कहा गया है कि मुख्यभूमि चीन (zh-CN) में कोरियाई Hanja अभिव्यक्ति "源代碼" और "源程序" का उपयोग किया जाता है,
लेकिन
termमें सरलीकृत रूप सही तरीके से दिए गए हैं, इसलिए यह थोड़ा असंगत लगता है।संदर्भ के लिए, Source Code के लिए
मुख्यभूमि चीन में आम तौर पर 源代码、源码、源程序 का उपयोग होता है,
ताइवान में 原始碼、原始程式碼 का उपयोग होता है।
और मैंने सुना है कि हांगकांग में 原始碼, 源碼 का उपयोग होता है।
और Computer के मामले में,
मुख्यभूमि चीन में आधिकारिक रूप से "电子计算机" है, और कई किताबों व दस्तावेज़ों में Computer के लिए "计算机" लिखा जाता है,
लेकिन ताइवान और हांगकांग के प्रभाव के कारण लोग "电脑" भी मिलाकर बहुत इस्तेमाल करते हैं।
संदर्भ 1: https://zh.wikipedia.org/wiki/…
संदर्भ 2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5
JD.com CPU सेक्शन: https://pcdiy.jd.com/
JD.com लैपटॉप सेक्शन: https://list.jd.com/list.html?cat=670,671,672
इसलिए, ऐसा लगता है कि इस हिस्से में यह जांचने के लिए बहुत कुछ है कि क्या इसे सरकारी आधिकारिक अभिव्यक्तियों के आधार पर आगे बढ़ाया जाएगा।
चीनी-भाषी क्षेत्र में इस्तेमाल होने वाली अभिव्यक्तियाँ एक जैसी नहीं हैं, और अलग-अलग लोगों के बीच उनके उपयोग की आवृत्ति भी अलग हो सकती है, इसलिए विचार करने के लिए बहुत से पहलू होंगे।
आपकी बहुमूल्य राय के लिए धन्यवाद.
सबसे पहले, अगर आप पहले वेब पर प्रकाशित पेज देखेंगे, तो आप यह पुष्टि कर सकेंगे कि Mainland Chinese शब्दावली में ऐसे कोई आइटम नहीं हैं जो simplified characters के बजाय Korean-style Hanja notation में दिखाए गए हों। क्योंकि YAML डेटा में केवल
termफ़ील्ड ही वास्तव में स्क्रीन पर दिखाई देने वाली सामग्री है, इसलिए जैसा आपने कहा, केवलtermमें ही प्रत्येक क्षेत्र में उपयोग होने वाली लिखावट रखी गई है (हालाँकि, Korean के मामले में Hangul के बजाय Korean-style Hanja notation का उपयोग किया गया है)।तो फिर उसके ऊपर लिखी
Kangxi Dictionaryशैली की स्ट्रिंग क्या है? वह बस डेटा के भीतर अलग-अलग भाषाओं (या बोलियों) के बीच cognates को समूहित करने के लिए एक मनमाना group identifier है। चूँकि यह मनमाना है, इसलिए इसका Hanja होना भी ज़रूरी नहीं है; केवल संख्या या hash भी इस्तेमाल किए जा सकते हैं। लेकिन, उदाहरण के लिए, Japanese科学और Taiwan Chinese科學को एक ही cognate के रूप में जोड़कर दिखाया जाना चाहिए, इसलिए उन्हें एक ही group identifier साझा करना चाहिए। इसी तरह Korean컴퓨터और Japaneseコンピュータको भी उसी group identifier में बाँधा जाना चाहिए।बिल्कुल
foobarजैसी किसी मनमानी और निरर्थक स्ट्रिंग को identifier बनाया जा सकता था, लेकिन मुझे लगा कि सुविधा के लिए ऐसा रखना बेहतर होगा जिससे सामग्री का आभास हो और जो एक सुसंगत नियम के अनुसार नामित हो, ताकि रखरखाव आसान रहे। इसलिए, English-origin शब्दों को Roman letters में और Sino-Xenic शब्दों को Hanja में लिखना सबसे सहज नियम लगा। हालाँकि, Hanja notation के भी कई तरीके हो सकते हैं, इसलिए कई variant forms और alternate characters को normalize करना पड़ा (क्योंकि यह group identifier है, इसलिए इन्हें एक में समेटना पड़ता है), और इस प्रक्रिया में स्वाभाविक रूप से China's simplified characters और Japan's shinjitai विकल्पों से बाहर हो गए। कारण यह है कि क्षेत्रीय मानक उच्चारण समान होने के आधार पर कई अलग-अलग अक्षरों को आपस में मिला दिया गया है, इसलिए वे normalization के लिए उपयुक्त नहीं हैं (वर्गीकरण संबंधी जानकारी का नुकसान)। इसलिए विकल्प Hong Kong traditional forms, Taiwan standard forms, Korean-style Hanja आदि में से चुनने तक सीमित थे, और मैंनेKangxi Dictionaryशैली को आधार बनाया क्योंकि इसे किसी मौजूदा राजनीतिक orthography से जुड़ी हुई अर्थछाया वाला नहीं माना जा सकता।ऊपर बताई गई बातें repository के
CONTRIBUTING.mdफ़ाइल में पहले से लिखी हुई हैं। उसमें अन्य हिस्से भी दर्ज हैं, इसलिए चाहें तो आप उन्हें भी देख सकते हैं.एक ही अर्थ को बताने वाले कई शब्दों में से कौन-सा शब्द भाषिक समुदाय सबसे अधिक उपयोग करता है—अर्थात शब्दावली के वितरण को व्यापक रूप से समझना—यह काम किसी विशेषज्ञ शोधकर्ता के बजाय एक साधारण व्यक्ति के लिए जाँचने में लागत और समय, दोनों के लिहाज़ से बहुत कठिन है। अगर computer science research या software development से जुड़े लोगों के बीच शब्द-प्रयोग के वितरण पर कोई पूर्व अध्ययन हो, तो मैं भी उसे सक्रिय रूप से उपयोग करना चाहूँगा; लेकिन अगर ऐसा कुछ विशेष रूप से उपलब्ध नहीं है, तो मेरे लिए कई योगदानकर्ताओं की मदद, विशेषकर प्रत्येक भाषा के native speakers के सुझाव, बेहद आवश्यक हैं। स्वाभाविक रूप से, अब तक मैंने यह जाँच अकेले की है, इसलिए मुझे Chinese Wikipedia या Baidu Baike जैसी स्रोतों पर मुख्यतः निर्भर रहना पड़ा.
आपके बताए गए ठोस उदाहरणों के बारे में, अगर आप pull request भेज दें तो शायद उन्हें और जल्दी शामिल किया जा सकेगा.
इतनी लंबी टिप्पणी पढ़ने के लिए धन्यवाद.
हांगकांग सरकार द्वारा प्रकाशित English-Chinese Glossary of IT Terms को देखें, तो हांगकांग में इस्तेमाल होने वाले शब्दों का अच्छा संकलन मिल जाएगा.
https://ogcio.gov.hk/en/our_work/…
शानदार है :D
अच्छा संकलन है, धन्यवाद।
बाद में मौका मिले तो उत्तर कोरिया की कंप्यूटिंग शब्दावली पर सामग्री भी देखना चाहूँगा। मुझे नहीं पता कि Ministry of Unification के North Korea Information Center में उपयुक्त सामग्री होगी या नहीं।
यह पहले से ही एकीकरण मंत्रालय की साइट पर मौजूद है
उत्तर और दक्षिण कोरिया के IT शब्दों की तुलना: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do
उत्तर कोरिया के Linux distribution Red Star जैसी चीज़ों को खोलकर देखें तो शायद कुछ सामग्री मिल सकती है। लगता है उसमें 《Joseonmal Daesajeon》 भी था… समय मिलने पर मैं उत्तर कोरियाई भाषा को भी जोड़ने की कोशिश करूंगा!
उत्तर और दक्षिण कोरिया के IT शब्दों की तुलना: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do
इसे scrape किया जाए तो लगता है कि इसे जल्दी जोड़ा जा सकता है।
ध्यान से देखने पर पता चलता है कि scraping की ज़रूरत भी नहीं है, क्योंकि वे यह पूरी सामग्री xls फ़ॉर्मेट की फ़ाइल के रूप में उपलब्ध करा रहे हैं।
अगर
koकोko-krऔरko-kpमें अलग किया जाए, तो उत्तर कोरिया के कंप्यूटर शब्द भी जोड़ना अच्छा रहेगा।मैंने सोचा था कि Markdown की तरह
<>में घेरने से URL की सीमा पहचान ली जाएगी, लेकिन ऐसा नहीं था। 😅 रिपॉज़िटरी लिंक यहाँ है: https://github.com/dahlia/cjk-compsci-termsमुझे Markdown support का काम करना है, लेकिन अभी तक कर नहीं पाया हूँ, उफ़
मैंने URL को clickable बनाने के लिए उसके आगे-पीछे सिर्फ खाली जगह जोड़कर उसे ठीक कर दिया है.
लेकिन यह सच में Korean Alphabet Day पर बिल्कुल फिट बैठने वाला Show है. मज़े से देखूंगा!
मुख्य पाठ भी ठीक कर देने के लिए धन्यवाद!