4 पॉइंट द्वारा GN⁺ 2026-03-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Meta AI द्वारा विकसित Omnilingual Machine Translation(OMT) 1,600 से अधिक भाषाओं को सपोर्ट करने वाला पहला machine translation सिस्टम है, जो पहले के NLLB प्रोजेक्ट की 200-भाषा सीमा से आगे जाता है
  • पब्लिक corpus·backtranslation·data mining को मिलाकर low-resource और अल्पसंख्यक भाषाओं तक को कवर करने वाला बड़े पैमाने का multilingual dataset बनाया गया
  • BLASER 3·OmniTOX·BOUQuET·Met-BOUQuET जैसे कई quality और toxicity evaluation tools को एकीकृत कर भरोसेमंद translation performance को मापा गया
  • LLaMA3-आधारित decoder-only मॉडल और encoder–decoder संरचना वाले OMT-NLLB को साथ में उपयोग कर कम compute वाले माहौल में भी high-quality translation हासिल की गई
  • 1,600 भाषाओं में सुसंगत sentence generation और cross-lingual transfer में सुधार हासिल करते हुए इसे वैश्विक भाषाई समावेशन के विस्तार की एक महत्वपूर्ण प्रगति माना गया

Omnilingual MT का अवलोकन

  • Omnilingual Machine Translation (OMT) 1,600 से अधिक भाषाओं को सपोर्ट करने वाला पहला machine translation सिस्टम है, जिसे Meta AI ने विकसित किया है
  • यह पहले के No Language Left Behind (NLLB) प्रोजेक्ट की 200 भाषाओं तक विस्तार वाली उपलब्धि पर आधारित है, लेकिन उससे कहीं अधिक भाषाओं को कवर करता है
  • मौजूदा large language model(LLM)-आधारित translation में गुणवत्ता तो ऊंची थी, लेकिन भाषा कवरेज सीमित था; खासकर low-resource और अल्पसंख्यक भाषाओं में generation क्षमता की कमी एक बड़ी समस्या मानी जाती थी
  • OMT ने इन सीमाओं को दूर करने के लिए data strategy, model architecture और evaluation framework को व्यापक रूप से विस्तार दिया

डेटा रणनीति और भाषा कवरेज का विस्तार

  • OMT ने पब्लिक multilingual corpus और नए बनाए गए datasets को मिलाकर भाषा कवरेज को काफी बढ़ाया
    • MeDLEY bitext (मैन्युअली क्यूरेटेड parallel data), synthetic backtranslation, और data mining तकनीकों को जोड़ा गया
    • इसके जरिए long-tail languages के साथ-साथ अलग-अलग domain और register को भी कवर किया गया
  • यह data strategy उन करीब 7,000 भाषाओं में से बड़ी संख्या को अभिव्यक्त करने की नींव बनती है, जिन्हें मौजूदा सिस्टम संभाल नहीं पाते थे

मूल्यांकन ढांचा और गुणवत्ता मापन

  • विश्वसनीयता और scalability के लिए standard metrics के साथ कई evaluation tools को जोड़ा गया
    • BLASER 3**: reference sentence के बिना quality का अनुमान लगाने वाला** reference-free evaluation model

      • OmniTOX: translation output की toxicity पहचानने वाला classifier
      • BOUQuET: कई भाषा परिवारों को शामिल करने वाला बड़े पैमाने का multilingual evaluation dataset, जिसे मैन्युअली बनाया गया है
      • Met-BOUQuET: बड़े पैमाने पर multilingual quality estimation के लिए विस्तारणीय dataset
      • ये datasets लगातार अपडेट होने वाले public leaderboard के साथ उपलब्ध हैं, ताकि शोधकर्ता इन्हें स्वतंत्र रूप से उपयोग कर सकें

मॉडल संरचना और प्रशिक्षण दृष्टिकोण

  • OMT translation के लिए LLM को दो तरीकों से विशेषीकृत करता है
    • OMT-LLaMA

      • LLaMA3 पर आधारित decoder-only मॉडल
      • multilingual continual pretraining और retrieval-augmented translation के जरिए inference के समय adaptability बढ़ाई गई
    • OMT-NLLB

      • encoder–decoder संरचना पर आधारित, जिसे OmniSONAR नामक multilingual alignment space पर बनाया गया है
      • non-parallel data का उपयोग करने वाली training method अपनाई गई
      • decoder-only pretraining data को encoder–decoder training में भी एकीकृत किया जा सकता है
      • 1B~8B parameter models ने 70B LLM baseline models के बराबर या बेहतर translation performance हासिल की, जिससे कम compute वाले वातावरण में भी high-quality translation की संभावना साबित हुई

प्रदर्शन और भाषा generation क्षमता

  • English→1,600 languages translation evaluation में मौजूदा models कई बार low-resource भाषाओं को समझ तो लेते थे, लेकिन अर्थपूर्ण वाक्य generate करने में विफल रहते थे
  • OMT-LLaMA मॉडल ने ऐसी भाषाओं के लिए coherent generation को काफी विस्तार दिया
  • cross-lingual transfer प्रदर्शन भी बेहतर हुआ, जिससे 1,600 भाषाओं में understanding से जुड़ी समस्याएं लगभग हल हो गईं
  • finetuning और RAG के जरिए कुछ खास भाषाओं या domains में अतिरिक्त गुणवत्ता सुधार संभव है

सार्वजनिक संसाधन और शोध विस्तार

  • BOUQuET और Met-BOUQuET datasets मुफ्त में सार्वजनिक हैं और Omnilinguality की दिशा में लगातार विस्तार किए जा रहे हैं
  • शोध टीम का लक्ष्य low-resource भाषाओं की accessibility बढ़ाना और multilingual AI research की बुनियाद स्थापित करना है
  • OMT को बड़े पैमाने की भाषाई विविधता को कवर करने वाला पहला व्यावहारिक translation सिस्टम माना गया है, और इसे वैश्विक भाषाई समावेशन की दिशा में एक महत्वपूर्ण प्रगति के रूप में देखा जा रहा है

1 टिप्पणियां

 
GN⁺ 2026-03-22
Hacker News की राय
  • मुझे लगा कि Meta की translation quality दूसरी services की तुलना में काफी कमजोर है
    खासकर कम-ज्ञात भाषाओं में यह और भी खराब है
    Google Translate डिफ़ॉल्ट रूप से ठीक-ठाक है, लेकिन LLM-आधारित translation context समझने और सांस्कृतिक बारीकियाँ पहुँचाने में कहीं बेहतर है
    मैं कंबोडिया में रहता हूँ, इसलिए Khmer translation quality की अक्सर तुलना करता हूँ

    • Siem Reap से नमस्ते! आप जैसे कंबोडियाई tech enthusiast से मिलकर अच्छा लगा
      मेरे अनुभव में Facebook translation, Google की तुलना में लंबे वाक्यों में ज़्यादा स्वाभाविक लगती है
      Khmer एक context-dependent और verbose भाषा है, इसलिए लगता है LLM बहुत मददगार होगा
      उल्टा, English से Khmer में translate करते समय स्थानीय लोग कहते हैं कि शैली औपचारिक और रोबोट जैसी हो जाती है, जो दिलचस्प है
    • Kagi Translate वाकई शानदार है
      मुझे लगता है कि multilingual support, LLMs के सबसे बढ़िया फ़ायदों में से एक है
    • यह दिलचस्प है कि Khmer translation में LLM, Google से बेहतर है
      सोचता हूँ Google अंदरूनी तौर पर Gemini का इस्तेमाल क्यों नहीं करता, शायद hallucination problems की वजह से
      मैं कई LLMs और translation APIs की तुलना करने वाला quantitative test देखना चाहूँगा
    • Chinese translation भी खास अच्छी नहीं है
    • टाइपो की ओर इशारा है (they're)
  • कहा जाता है कि यह 1600 भाषाओं का अनुवाद कर सकता है, लेकिन English abstract के पहले वाक्य में ही subject-verb agreement सही नहीं है
    दावा किया गया है कि NLLB(No Language Left Behind) project के ज़रिए 200 भाषाओं तक विस्तारित high-quality translation हासिल की गई

  • मैंने इसी तरह का काम करने वाली एक company शुरू की है — 6k.ai
    फ़ोकस low-resource language data collection पर है
    Common Crawl, finepdfs, fineweb जैसे datasets को देखें तो (1) अच्छी quality वाला data लगभग नहीं है, और (2) processing बहुत ही कच्चे ढंग से की गई है
    उदाहरण के लिए finepdfs हर PDF page को single language के रूप में classify करता है, जबकि वास्तव में वहाँ language-pair data बहुत होता है

    • मैं भी इसी तरह low-resource languages, खासकर Mayan language family पर फ़ोकस करके research कर रहा हूँ
      मैंने wikilangs.org, omneitylabs.com, संबंधित ब्लॉग पर सामग्री साझा की है
      सबसे बड़ा bottleneck text collection नहीं, बल्कि language identification accuracy है
      Common Crawl या Fineweb जैसे datasets में भाषाओं के बीच भेद अस्पष्ट है
      मैंने Fineweb 2 में अपनी मातृभाषा से जुड़े सुधारों पर काम किया है, शायद यह प्रेरणा दे सके
      ऐसे ही मुद्दे कई क्षेत्रों में दोहराए जा रहे हैं, इसलिए आगे चलकर collaborate करना अच्छा रहेगा
    • Common Crawl भी डेढ़ साल से low-resource language project चला रहा है, यह सच में बहुत मुश्किल समस्या है
    • कई national agencies भी इस समस्या पर research कर रही हैं
      जानना चाहूँगा कि क्या आपने ऐसे public datasets की समीक्षा की है, और किन भाषाओं को प्राथमिकता दे रहे हैं
  • model weights download link ढूँढने में मुझे काफ़ी समय लगा
    अगर यह open-weight है, तो सीधे उपलब्ध link क्यों नहीं है, यह समझ नहीं आता

    • इस model के लिए open-weight होने का कोई उल्लेख नहीं है (पहला NLLB public था)
      लेकिन leaderboard और evaluation dataset सार्वजनिक हैं
      paper में सिर्फ इतना लिखा है कि “our translation models are built on top of freely available models”
  • यह 2026 है, फिर भी समझ नहीं आता कि अभी तक voice message auto-transcription feature क्यों नहीं है

  • 1600 भाषाओं का अनुवाद करने का दावा है, लेकिन बुनियादी paragraph separation भी सही नहीं है

    • paper abstract को मूल रूप से एक ही paragraph में लिखना नियम होता है
  • 1600 भाषाएँ बहुत हैं, लेकिन इसे “Omni” कहना अभी भी जल्दबाज़ी है
    आम तौर पर भाषाओं की संख्या 4,000~8,000 मानी जाती है, और पहली 1,000 भाषाएँ कवर करना सबसे कठिन होता है

    • marketing में “frontier”, “edge” जैसे शब्द इस्तेमाल करने से pro-level feel आती है
  • पुरानी research (Lauscher 2020) में कहा गया था कि भाषाओं की संख्या बढ़ने पर translation quality गिरती है, यानी curse of multilinguality होता है
    लेकिन लगता है Meta ने इसे पार कर लिया है
    paper abstract के अनुसार training data quality improvements और नए evaluation tools लाए गए
    साथ ही दावा है कि OMT-LLaMA, मौजूदा models की तुलना में text generation quality में बेहतर है

  • एक दिलचस्प बात यह है कि Meta ने BOUQuET benchmark पेश किया है
    यह translation quality को cross-linguistically evaluate करने के लिए एक open initiative है
    huggingface.co/spaces/facebook/bouquet

  • AI boom के बाद MS documentation translation बुरी तरह खराब हो गई है
    उदाहरण के लिए try/catch को German में “versuchen/fangen” के रूप में translate कर दिया जाता है

    • ऐसी translations का तो value negative है
      खासकर company environment में locale settings बदलना मुश्किल होता है, इसलिए और असुविधा होती है
      “shortly” को “short” की तरह translate कर देने जैसी बुनियादी गलतियाँ भी बहुत हैं