15 पॉइंट द्वारा hongminhee 2021-10-09 | 13 टिप्पणियां | WhatsApp पर शेयर करें

नमस्ते। GeekNews पर खाता बनाने के बाद से मैं अब तक बस इसे अच्छी तरह पढ़ता ही आ रहा था, लेकिन हंगुल दिवस आते ही मुझे इस साल की शुरुआत में बनाई गई 《कोरिया-चीन-जापान कंप्यूटर साइंस शब्दावली तुलना》 तालिका याद आ गई, इसलिए इसे Show GN में साझा कर रहा हूँ.

हर विशेषज्ञता वाले क्षेत्र में ऐसी प्रवृत्ति होती है, लेकिन आजकल सुविधा के लिए कंप्यूटर साइंस की शब्दावली में पहले से स्थापित अनुवादित शब्दों का उपयोग करने के बजाय अंग्रेज़ी को विदेशी शब्द की तरह सीधे इस्तेमाल करने के मामले बहुत हैं। उदाहरण के लिए, आजकल “मान” को भी बस “value” कहकर बोलते हैं और लिखते भी हैं.

खैर, कोरियाई में भी कई अच्छे कंप्यूटर साइंस अनुवादित शब्द हैं जो पहले से कई दशकों से स्थापित हैं। इनमें से काफ़ी शब्द जापान या ताइवान जैसे उसी चीनी-अक्षर सांस्कृतिक क्षेत्र वाले देशों के साथ साझा किए जाते हैं, यह जानकर मैंने मज़े-मज़े में यह तुलना तालिका बनाई थी। हंगुल दिवस के उपलक्ष्य में आप इसे एक बार देखकर जाएँ तो अच्छा लगेगा.

स्रोत कोड < https://github.com/dahlia/cjk-compsci-terms > पर है। हर शब्द tables/ डायरेक्टरी के अंदर वर्गीकरण के अनुसार YAML फ़ाइलों में व्यवस्थित है, इसलिए शब्द जोड़ने या त्रुटि सुधारने वाले PR भी स्वागतयोग्य हैं.

पढ़ने के लिए धन्यवाद!

13 टिप्पणियां

 
dhsung 2021-10-10

मेरा एक प्रश्न है।

YAML में दी गई चीनी और जापानी अभिव्यक्तियों को देखकर मैंने पाया कि कोरिया में इस्तेमाल होने वाली Hanja अभिव्यक्ति का उपयोग किया गया है, और उसके नीचे term के रूप में पारंपरिक, सरलीकृत और जापानी संक्षिप्त रूप दिए गए हैं।

यह किस उद्देश्य से विकसित किया गया, यह जानने की जिज्ञासा है।

उदाहरण के लिए, Source Code के बारे में,

कहा गया है कि मुख्यभूमि चीन (zh-CN) में कोरियाई Hanja अभिव्यक्ति "源代碼" और "源程序" का उपयोग किया जाता है,

लेकिन term में सरलीकृत रूप सही तरीके से दिए गए हैं, इसलिए यह थोड़ा असंगत लगता है।

संदर्भ के लिए, Source Code के लिए

मुख्यभूमि चीन में आम तौर पर 源代码、源码、源程序 का उपयोग होता है,

ताइवान में 原始碼、原始程式碼 का उपयोग होता है।

और मैंने सुना है कि हांगकांग में 原始碼, 源碼 का उपयोग होता है।

और Computer के मामले में,

मुख्यभूमि चीन में आधिकारिक रूप से "电子计算机" है, और कई किताबों व दस्तावेज़ों में Computer के लिए "计算机" लिखा जाता है,

लेकिन ताइवान और हांगकांग के प्रभाव के कारण लोग "电脑" भी मिलाकर बहुत इस्तेमाल करते हैं।

संदर्भ 1: https://zh.wikipedia.org/wiki/…

संदर्भ 2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5

JD.com CPU सेक्शन: https://pcdiy.jd.com/

JD.com लैपटॉप सेक्शन: https://list.jd.com/list.html?cat=670,671,672

इसलिए, ऐसा लगता है कि इस हिस्से में यह जांचने के लिए बहुत कुछ है कि क्या इसे सरकारी आधिकारिक अभिव्यक्तियों के आधार पर आगे बढ़ाया जाएगा।

चीनी-भाषी क्षेत्र में इस्तेमाल होने वाली अभिव्यक्तियाँ एक जैसी नहीं हैं, और अलग-अलग लोगों के बीच उनके उपयोग की आवृत्ति भी अलग हो सकती है, इसलिए विचार करने के लिए बहुत से पहलू होंगे।

 
hongminhee 2021-10-10

आपकी बहुमूल्य राय के लिए धन्यवाद.

सबसे पहले, अगर आप पहले वेब पर प्रकाशित पेज देखेंगे, तो आप यह पुष्टि कर सकेंगे कि Mainland Chinese शब्दावली में ऐसे कोई आइटम नहीं हैं जो simplified characters के बजाय Korean-style Hanja notation में दिखाए गए हों। क्योंकि YAML डेटा में केवल term फ़ील्ड ही वास्तव में स्क्रीन पर दिखाई देने वाली सामग्री है, इसलिए जैसा आपने कहा, केवल term में ही प्रत्येक क्षेत्र में उपयोग होने वाली लिखावट रखी गई है (हालाँकि, Korean के मामले में Hangul के बजाय Korean-style Hanja notation का उपयोग किया गया है)।

तो फिर उसके ऊपर लिखी Kangxi Dictionary शैली की स्ट्रिंग क्या है? वह बस डेटा के भीतर अलग-अलग भाषाओं (या बोलियों) के बीच cognates को समूहित करने के लिए एक मनमाना group identifier है। चूँकि यह मनमाना है, इसलिए इसका Hanja होना भी ज़रूरी नहीं है; केवल संख्या या hash भी इस्तेमाल किए जा सकते हैं। लेकिन, उदाहरण के लिए, Japanese 科学 और Taiwan Chinese 科學 को एक ही cognate के रूप में जोड़कर दिखाया जाना चाहिए, इसलिए उन्हें एक ही group identifier साझा करना चाहिए। इसी तरह Korean 컴퓨터 और Japanese コンピュータ को भी उसी group identifier में बाँधा जाना चाहिए।

बिल्कुल foobar जैसी किसी मनमानी और निरर्थक स्ट्रिंग को identifier बनाया जा सकता था, लेकिन मुझे लगा कि सुविधा के लिए ऐसा रखना बेहतर होगा जिससे सामग्री का आभास हो और जो एक सुसंगत नियम के अनुसार नामित हो, ताकि रखरखाव आसान रहे। इसलिए, English-origin शब्दों को Roman letters में और Sino-Xenic शब्दों को Hanja में लिखना सबसे सहज नियम लगा। हालाँकि, Hanja notation के भी कई तरीके हो सकते हैं, इसलिए कई variant forms और alternate characters को normalize करना पड़ा (क्योंकि यह group identifier है, इसलिए इन्हें एक में समेटना पड़ता है), और इस प्रक्रिया में स्वाभाविक रूप से China's simplified characters और Japan's shinjitai विकल्पों से बाहर हो गए। कारण यह है कि क्षेत्रीय मानक उच्चारण समान होने के आधार पर कई अलग-अलग अक्षरों को आपस में मिला दिया गया है, इसलिए वे normalization के लिए उपयुक्त नहीं हैं (वर्गीकरण संबंधी जानकारी का नुकसान)। इसलिए विकल्प Hong Kong traditional forms, Taiwan standard forms, Korean-style Hanja आदि में से चुनने तक सीमित थे, और मैंने Kangxi Dictionary शैली को आधार बनाया क्योंकि इसे किसी मौजूदा राजनीतिक orthography से जुड़ी हुई अर्थछाया वाला नहीं माना जा सकता।

ऊपर बताई गई बातें repository के CONTRIBUTING.md फ़ाइल में पहले से लिखी हुई हैं। उसमें अन्य हिस्से भी दर्ज हैं, इसलिए चाहें तो आप उन्हें भी देख सकते हैं.

एक ही अर्थ को बताने वाले कई शब्दों में से कौन-सा शब्द भाषिक समुदाय सबसे अधिक उपयोग करता है—अर्थात शब्दावली के वितरण को व्यापक रूप से समझना—यह काम किसी विशेषज्ञ शोधकर्ता के बजाय एक साधारण व्यक्ति के लिए जाँचने में लागत और समय, दोनों के लिहाज़ से बहुत कठिन है। अगर computer science research या software development से जुड़े लोगों के बीच शब्द-प्रयोग के वितरण पर कोई पूर्व अध्ययन हो, तो मैं भी उसे सक्रिय रूप से उपयोग करना चाहूँगा; लेकिन अगर ऐसा कुछ विशेष रूप से उपलब्ध नहीं है, तो मेरे लिए कई योगदानकर्ताओं की मदद, विशेषकर प्रत्येक भाषा के native speakers के सुझाव, बेहद आवश्यक हैं। स्वाभाविक रूप से, अब तक मैंने यह जाँच अकेले की है, इसलिए मुझे Chinese Wikipedia या Baidu Baike जैसी स्रोतों पर मुख्यतः निर्भर रहना पड़ा.

आपके बताए गए ठोस उदाहरणों के बारे में, अगर आप pull request भेज दें तो शायद उन्हें और जल्दी शामिल किया जा सकेगा.

इतनी लंबी टिप्पणी पढ़ने के लिए धन्यवाद.

 
dhsung 2021-10-10

हांगकांग सरकार द्वारा प्रकाशित English-Chinese Glossary of IT Terms को देखें, तो हांगकांग में इस्तेमाल होने वाले शब्दों का अच्छा संकलन मिल जाएगा.

https://ogcio.gov.hk/en/our_work/…

 
alstjr7375 2021-10-09

शानदार है :D

 
kunggom 2021-10-09

अच्छा संकलन है, धन्यवाद।

बाद में मौका मिले तो उत्तर कोरिया की कंप्यूटिंग शब्दावली पर सामग्री भी देखना चाहूँगा। मुझे नहीं पता कि Ministry of Unification के North Korea Information Center में उपयुक्त सामग्री होगी या नहीं।

 
dhsung 2021-10-10

यह पहले से ही एकीकरण मंत्रालय की साइट पर मौजूद है

उत्तर और दक्षिण कोरिया के IT शब्दों की तुलना: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

 
hongminhee 2021-10-09

उत्तर कोरिया के Linux distribution Red Star जैसी चीज़ों को खोलकर देखें तो शायद कुछ सामग्री मिल सकती है। लगता है उसमें 《Joseonmal Daesajeon》 भी था… समय मिलने पर मैं उत्तर कोरियाई भाषा को भी जोड़ने की कोशिश करूंगा!

 
dhsung 2021-10-10

उत्तर और दक्षिण कोरिया के IT शब्दों की तुलना: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

इसे scrape किया जाए तो लगता है कि इसे जल्दी जोड़ा जा सकता है।

 
kunggom 2021-10-10

ध्यान से देखने पर पता चलता है कि scraping की ज़रूरत भी नहीं है, क्योंकि वे यह पूरी सामग्री xls फ़ॉर्मेट की फ़ाइल के रूप में उपलब्ध करा रहे हैं।

 
luavis 2021-10-09

अगर ko को ko-kr और ko-kp में अलग किया जाए, तो उत्तर कोरिया के कंप्यूटर शब्द भी जोड़ना अच्छा रहेगा।

 
hongminhee 2021-10-09

मैंने सोचा था कि Markdown की तरह <> में घेरने से URL की सीमा पहचान ली जाएगी, लेकिन ऐसा नहीं था। 😅 रिपॉज़िटरी लिंक यहाँ है: https://github.com/dahlia/cjk-compsci-terms

 
xguru 2021-10-09

मुझे Markdown support का काम करना है, लेकिन अभी तक कर नहीं पाया हूँ, उफ़

मैंने URL को clickable बनाने के लिए उसके आगे-पीछे सिर्फ खाली जगह जोड़कर उसे ठीक कर दिया है.

लेकिन यह सच में Korean Alphabet Day पर बिल्कुल फिट बैठने वाला Show है. मज़े से देखूंगा!

 
hongminhee 2021-10-09

मुख्य पाठ भी ठीक कर देने के लिए धन्यवाद!