40 पॉइंट द्वारा tominam2 2024-04-13 | 14 टिप्पणियां | WhatsApp पर शेयर करें

आप अपने कंप्यूटर पर बिना किसी सीमा के कोरियाई-अंग्रेज़ी और अंग्रेज़ी-कोरियाई AI अनुवाद कर सकते हैं.

  1. सामान्य मशीन अनुवाद की तुलना में गुणवत्ता बेहतर है.
  2. txt और epub फ़ाइलों का अनुवाद किया जा सकता है.
  3. आउटपुट दो तरह की फ़ाइलों में मिलता है: अनूदित पाठ (मूल पाठ सहित) फ़ाइल और केवल अनूदित पाठ फ़ाइल. यदि अनुवाद अजीब लगे, तो आप तुरंत मूल पाठ से तुलना कर सकते हैं.
  4. इसका उपयोग बहुत आसान है. जिन फ़ाइलों का अनुवाद चाहिए उन्हें ड्रैग करें और फिर केवल अनुवाद चलाने वाले बटन पर क्लिक करें. यह अपने आप कोरियाई↔अंग्रेज़ी में अनुवाद कर देता है.
  5. इसे दूसरे AI मॉडल से बदला जा सकता है. फिलहाल किफायती NHNDQ का उपयोग किया जाता है.

14 टिप्पणियां

 
upkit2 2024-04-16

नमस्ते, बात यह है कि इंस्टॉल करते समय मैंने cmd बंद कर दिया था, और उसके बाद फ़ोल्डर हटाकर दोबारा नया इंस्टॉल करने पर भी इंस्टॉलेशन आगे नहीं बढ़ रहा है,,, क्या इसका कोई समाधान हो सकता है?T_T

 
tominam2 2024-04-17

बिलकुल। इसे हल करना होगा.
लेकिन पहले यह समझना ज़रूरी है कि अभी ठीक से क्या काम नहीं कर रहा है।

https://github.com/vEduardovich/dodari/issues
ऊपर दिए गए Dodari GitHub पर new issues बटन दबाकर एक नया issue बनाइए, फिर

क्या काम नहीं कर रहा है, उसका screenshot या स्थिति थोड़ी और विस्तार से समझा सकते हैं?
मैं इसे ज़रूर हल करूँगा।

 
illuza 2024-04-15

वाह, यह तो कमाल है।
मैं अभी deepL इस्तेमाल कर रहा हूँ, लेकिन तुलना करते हुए इसे ध्यान से देखूँगा।
खासकर, अंग्रेज़ी साहित्य के टेक्स्ट्स को जल्दी से तुलना करके देखना चाहता हूँ।

 
tominam2 2024-04-15

आपने जो बात कही, वही इस समय मुझे सबसे ज़्यादा खलने वाला हिस्सा लगती है.
अभी Dodari में जो मॉडल इस्तेमाल हो रहा है, वह NHNDQ मॉडल है, जो facebook-nllb नाम के 200-भाषाओं वाले multilingual translation मॉडल को Korean के लिए विशेष रूप से fine-tuning करके बनाया गया है. लेकिन यह Google Translate से बेहतर होने के बावजूद DeepL की तुलना में काफ़ी पीछे है.

इसे हल करने के लिए मैंने कई मॉडल टेस्ट किए, और इसी दौरान Korean में टॉप-टियर माने जाने वाले yanolja-eeve मॉडल को चलाकर देखा, तो मैं सचमुच हैरान रह गया. मेरे अनुभव में यह DeepL के लगभग 80~90% स्तर तक पहुँचता हुआ लगा.

लेकिन इस मॉडल का इस्तेमाल करने के लिए यूज़र के कंप्यूटर में 23GB या उससे ज़्यादा VRAM होना चाहिए. साथ ही translation speed कई दर्जन गुना धीमी हो जाती है, इसलिए acceleration के लिए vllm तकनीक लागू करनी पड़ती है. ऐसा करने पर speed काफ़ी हद तक तेज़ हो जाती है, लेकिन फिर Linux OS अनिवार्य हो जाता है. यानी केवल '4090 और Linux OS चलाने वाले डेवलपर' ही Yanolja मॉडल चला सकते हैं.

यही वह हिस्सा है जिस पर मैं अभी सोच-विचार कर रहा हूँ. अफ़सोस है.

 
kunggom 2024-04-15

अब और किसी व्याख्या की ज़रूरत है?

 
tominam2 2024-04-15

NHNDQ का parent model facebook-nllb है, जो 200 भाषाओं वाला multilingual translation model है।
इस वजह से यह कभी-कभी ऐसी एलियन जैसी भाषा भी बोल देता है।

 
kunggom 2024-04-15

चूंकि ऐसा लगा कि उत्पाद का नाम Prigate saken के मुख्य पात्र Dodeori के निकनेम पर रखा गया था, क्योंकि इसकी कोरियाई अनुवाद गुणवत्ता अभी भी थोड़ी कमजोर थी, इसलिए उस घटना में सामने आई अनुवादक के इस्तेमाल की ऐतिहासिक गलती “必要韓紙” का ज़िक्र किए बिना रहना मुश्किल था।

 
roxie 2025-06-14

ज़रूरत है? इसकी ऐसी दुखद इतिहास रहा है..

 
tominam2 2024-04-15

लगता है कोई काफ़ी जटिल मामला हुआ था। पढ़ने के बाद भी मुझे ठीक से समझ नहीं आया, जैसे रोना आ जाए।

Dodari नाम mixtral-7bx8 मॉडल के साथ बातचीत करके बनाया गया था।
शुरुआत में AI ने Eoneodari नाम सुझाया था, लेकिन मुझे कुछ ऐसा चाहिए था जिसकी एक साफ़, आसानी से चित्रित की जा सकने वाली छवि हो, इसलिए मैंने मज़ाक में पूछा कि Dodari कैसा रहेगा। क्योंकि मुझे खुद भी यह कुछ अटपटा ही लगा था।

लेकिन AI ने जवाब दिया कि Dodari का मतलब 'मदद देने वाला पुल' होता है, इसलिए यह बहुत अच्छा है। यह ऐसा अर्थ था जिसके बारे में मैंने सोचा भी नहीं था, इसलिए मुझे यह काफ़ी नया और दिलचस्प लगा। इसी तरह यह नाम Dodari बना।

 
kunggom 2024-04-15

यह काफ़ी पुरानी घटना है, लेकिन उस समय कोरियाई इंटरनेट कम्युनिटी में यह अपने आप में काफ़ी मशहूर मामला था.
मोटे तौर पर इसका सार इस प्रकार है.

  1. किसी Naver कैफ़े के एडमिन 도더리 ने 70,000 won में एक limited edition जापानी music CD की group purchase की घोषणा पोस्ट की
  2. इसके बाद पहली group purchase में भाग लेने वालों की सूची अपलोड हुई, लेकिन नाम और पते कुछ अजीब लगे, जिससे लोगों को शक होने लगा
  3. कैफ़े के एक सदस्य ने पता लगाया कि वह CD न तो limited edition थी और न ही उसकी कीमत इतनी थी, बल्कि वह केवल 30,000 won के आसपास थी; इस पर सवाल उठाने पर 도더리 ने उसे कैफ़े से निकाल दिया और मामला बढ़ गया
  4. 도더리 ने जापानी कंपनी के साथ आदान-प्रदान किए गए ईमेल बताकर जो मेल सार्वजनिक किए, उनमें “必要韓紙” जैसी हास्यास्पद machine translation गलती सामने आई, और इसी से यह बाहरी लोगों में भी मशहूर हो गया
  5. बाद में जो सामने आया, उसके अनुसार 도더리 तथाकथित रूप से बहुत गंभीर झूठी डींगें हाँकने वाला व्यक्ति था, और इंटरनेट पर उसके द्वारा लिखे गए अधिकांश निजी दावे बेहूदा शेख़ी और झूठ से भरे हुए थे

वैसे, large language models कभी-कभी बिल्कुल अप्रत्याशित व्याख्या दे देते हैं, और जब वह काफ़ी plausible लगती है, तो ऐसा मैंने भी कभी-कभी अनुभव किया है.
लगता है कि लोगों के साथ बातचीत में जो बातें इंसान अकेले सोच नहीं पाता, उन्हें पकड़ लेने वाली घटना अब हम मशीन के साथ बातचीत में भी अनुभव कर रहे हैं.

 
tominam2 2024-04-15

वाह, कमाल है। लेकिन लगता है कि उसे पकड़ा नहीं गया।
मुझे व्यक्तिगत रूप से chatGPT थोड़ा ज़्यादा शरीफ-सा लगता है, इसलिए उतना मज़ेदार नहीं है, लेकिन Mixtral में शायद censorship नहीं है, इसलिए उससे बातचीत काफ़ी दिलचस्प लगती है

 
kunggom 2024-04-15

Wiki की जानकारी के मुताबिक, उन पर मुकदमा भी हुआ था, लेकिन शायद उन्होंने बहुत माफ़ी मांगी, इसलिए नरमी बरती गई और मामला वहीं खत्म हो गया। मुकदमा चलने के समय उनकी हैसियत एक public service worker की थी.

मेरे personal PC की performance की वजह से मैंने अभी तक local LLM सीधे इस्तेमाल नहीं किया है। फिलहाल मैं सिर्फ GPT-4 तक ही इस्तेमाल कर रहा हूँ, लेकिन Claude-3 के लिए अतिरिक्त subscription लेने का सोच रहा हूँ।

 
savvykang 2024-04-14

Huggingface मॉडल चलाने से लेकर venv सेटअप और वेब सर्विस इम्प्लीमेंटेशन तक, यह एक पूरा और उपयोगी उदाहरण था। साझा करने के लिए धन्यवाद।

 
tominam2 2024-04-14

यह जानकर मुझे बहुत खुशी हुई कि यह मददगार हो सका। मैं ही आपका और अधिक आभारी हूँ।