AI कोरियाई-अंग्रेज़ी/अंग्रेज़ी-कोरियाई अनुवादक Dodari
(github.com/vEduardovich)आप अपने कंप्यूटर पर बिना किसी सीमा के कोरियाई-अंग्रेज़ी और अंग्रेज़ी-कोरियाई AI अनुवाद कर सकते हैं.
- सामान्य मशीन अनुवाद की तुलना में गुणवत्ता बेहतर है.
txtऔरepubफ़ाइलों का अनुवाद किया जा सकता है.- आउटपुट दो तरह की फ़ाइलों में मिलता है: अनूदित पाठ (मूल पाठ सहित) फ़ाइल और केवल अनूदित पाठ फ़ाइल. यदि अनुवाद अजीब लगे, तो आप तुरंत मूल पाठ से तुलना कर सकते हैं.
- इसका उपयोग बहुत आसान है. जिन फ़ाइलों का अनुवाद चाहिए उन्हें ड्रैग करें और फिर केवल अनुवाद चलाने वाले बटन पर क्लिक करें. यह अपने आप कोरियाई↔अंग्रेज़ी में अनुवाद कर देता है.
- इसे दूसरे AI मॉडल से बदला जा सकता है. फिलहाल किफायती NHNDQ का उपयोग किया जाता है.
14 टिप्पणियां
नमस्ते, बात यह है कि इंस्टॉल करते समय मैंने cmd बंद कर दिया था, और उसके बाद फ़ोल्डर हटाकर दोबारा नया इंस्टॉल करने पर भी इंस्टॉलेशन आगे नहीं बढ़ रहा है,,, क्या इसका कोई समाधान हो सकता है?T_T
बिलकुल। इसे हल करना होगा.
लेकिन पहले यह समझना ज़रूरी है कि अभी ठीक से क्या काम नहीं कर रहा है।
https://github.com/vEduardovich/dodari/issues
ऊपर दिए गए Dodari GitHub पर
new issuesबटन दबाकर एक नया issue बनाइए, फिरक्या काम नहीं कर रहा है, उसका screenshot या स्थिति थोड़ी और विस्तार से समझा सकते हैं?
मैं इसे ज़रूर हल करूँगा।
वाह, यह तो कमाल है।
मैं अभी deepL इस्तेमाल कर रहा हूँ, लेकिन तुलना करते हुए इसे ध्यान से देखूँगा।
खासकर, अंग्रेज़ी साहित्य के टेक्स्ट्स को जल्दी से तुलना करके देखना चाहता हूँ।
आपने जो बात कही, वही इस समय मुझे सबसे ज़्यादा खलने वाला हिस्सा लगती है.
अभी Dodari में जो मॉडल इस्तेमाल हो रहा है, वह NHNDQ मॉडल है, जो
facebook-nllbनाम के 200-भाषाओं वाले multilingual translation मॉडल को Korean के लिए विशेष रूप से fine-tuning करके बनाया गया है. लेकिन यह Google Translate से बेहतर होने के बावजूद DeepL की तुलना में काफ़ी पीछे है.इसे हल करने के लिए मैंने कई मॉडल टेस्ट किए, और इसी दौरान Korean में टॉप-टियर माने जाने वाले
yanolja-eeveमॉडल को चलाकर देखा, तो मैं सचमुच हैरान रह गया. मेरे अनुभव में यह DeepL के लगभग 80~90% स्तर तक पहुँचता हुआ लगा.लेकिन इस मॉडल का इस्तेमाल करने के लिए यूज़र के कंप्यूटर में 23GB या उससे ज़्यादा VRAM होना चाहिए. साथ ही translation speed कई दर्जन गुना धीमी हो जाती है, इसलिए acceleration के लिए
vllmतकनीक लागू करनी पड़ती है. ऐसा करने पर speed काफ़ी हद तक तेज़ हो जाती है, लेकिन फिर Linux OS अनिवार्य हो जाता है. यानी केवल '4090 और Linux OS चलाने वाले डेवलपर' ही Yanolja मॉडल चला सकते हैं.यही वह हिस्सा है जिस पर मैं अभी सोच-विचार कर रहा हूँ. अफ़सोस है.
अब और किसी व्याख्या की ज़रूरत है?
NHNDQ का parent model
facebook-nllbहै, जो 200 भाषाओं वाला multilingual translation model है।इस वजह से यह कभी-कभी ऐसी एलियन जैसी भाषा भी बोल देता है।
चूंकि ऐसा लगा कि उत्पाद का नाम Prigate saken के मुख्य पात्र
Dodeoriके निकनेम पर रखा गया था, क्योंकि इसकी कोरियाई अनुवाद गुणवत्ता अभी भी थोड़ी कमजोर थी, इसलिए उस घटना में सामने आई अनुवादक के इस्तेमाल की ऐतिहासिक गलती “必要韓紙” का ज़िक्र किए बिना रहना मुश्किल था।ज़रूरत है? इसकी ऐसी दुखद इतिहास रहा है..
लगता है कोई काफ़ी जटिल मामला हुआ था। पढ़ने के बाद भी मुझे ठीक से समझ नहीं आया, जैसे रोना आ जाए।
Dodariनाम mixtral-7bx8 मॉडल के साथ बातचीत करके बनाया गया था।शुरुआत में AI ने
Eoneodariनाम सुझाया था, लेकिन मुझे कुछ ऐसा चाहिए था जिसकी एक साफ़, आसानी से चित्रित की जा सकने वाली छवि हो, इसलिए मैंने मज़ाक में पूछा किDodariकैसा रहेगा। क्योंकि मुझे खुद भी यह कुछ अटपटा ही लगा था।लेकिन AI ने जवाब दिया कि
Dodariका मतलब 'मदद देने वाला पुल' होता है, इसलिए यह बहुत अच्छा है। यह ऐसा अर्थ था जिसके बारे में मैंने सोचा भी नहीं था, इसलिए मुझे यह काफ़ी नया और दिलचस्प लगा। इसी तरह यह नामDodariबना।यह काफ़ी पुरानी घटना है, लेकिन उस समय कोरियाई इंटरनेट कम्युनिटी में यह अपने आप में काफ़ी मशहूर मामला था.
मोटे तौर पर इसका सार इस प्रकार है.
도더리ने 70,000 won में एक limited edition जापानी music CD की group purchase की घोषणा पोस्ट की도더리ने उसे कैफ़े से निकाल दिया और मामला बढ़ गया도더리ने जापानी कंपनी के साथ आदान-प्रदान किए गए ईमेल बताकर जो मेल सार्वजनिक किए, उनमें “必要韓紙” जैसी हास्यास्पद machine translation गलती सामने आई, और इसी से यह बाहरी लोगों में भी मशहूर हो गया도더리तथाकथित रूप से बहुत गंभीर झूठी डींगें हाँकने वाला व्यक्ति था, और इंटरनेट पर उसके द्वारा लिखे गए अधिकांश निजी दावे बेहूदा शेख़ी और झूठ से भरे हुए थेवैसे, large language models कभी-कभी बिल्कुल अप्रत्याशित व्याख्या दे देते हैं, और जब वह काफ़ी plausible लगती है, तो ऐसा मैंने भी कभी-कभी अनुभव किया है.
लगता है कि लोगों के साथ बातचीत में जो बातें इंसान अकेले सोच नहीं पाता, उन्हें पकड़ लेने वाली घटना अब हम मशीन के साथ बातचीत में भी अनुभव कर रहे हैं.
वाह, कमाल है। लेकिन लगता है कि उसे पकड़ा नहीं गया।
मुझे व्यक्तिगत रूप से chatGPT थोड़ा ज़्यादा शरीफ-सा लगता है, इसलिए उतना मज़ेदार नहीं है, लेकिन Mixtral में शायद censorship नहीं है, इसलिए उससे बातचीत काफ़ी दिलचस्प लगती है
Wiki की जानकारी के मुताबिक, उन पर मुकदमा भी हुआ था, लेकिन शायद उन्होंने बहुत माफ़ी मांगी, इसलिए नरमी बरती गई और मामला वहीं खत्म हो गया। मुकदमा चलने के समय उनकी हैसियत एक public service worker की थी.
मेरे personal PC की performance की वजह से मैंने अभी तक local LLM सीधे इस्तेमाल नहीं किया है। फिलहाल मैं सिर्फ GPT-4 तक ही इस्तेमाल कर रहा हूँ, लेकिन Claude-3 के लिए अतिरिक्त subscription लेने का सोच रहा हूँ।
Huggingface मॉडल चलाने से लेकर venv सेटअप और वेब सर्विस इम्प्लीमेंटेशन तक, यह एक पूरा और उपयोगी उदाहरण था। साझा करने के लिए धन्यवाद।
यह जानकर मुझे बहुत खुशी हुई कि यह मददगार हो सका। मैं ही आपका और अधिक आभारी हूँ।