3 पॉइंट द्वारा GN⁺ 2025-10-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • EuroLLM यूरोप के शोध संस्थानों द्वारा संयुक्त रूप से विकसित EU की 24 आधिकारिक भाषाओं को सपोर्ट करने वाला large language model (LLM) है, जिसका लक्ष्य यूरोप की AI संप्रभुता और तकनीकी आत्मनिर्भरता है
  • यह 9B पैरामीटर मॉडल है, जिसे 35 भाषाओं में 4 ट्रिलियन से अधिक टोकन्स पर प्रशिक्षित किया गया है, और यह प्रश्नोत्तर, सारांश, अनुवाद जैसे भाषा कार्यों में मजबूत प्रदर्शन दिखाता है
  • EuroLLM 9B Base को fine-tuning के लिए जारी किया गया है, जबकि EuroLLM 9B Instruct संवादात्मक निर्देशों का पालन करने वाली version है, जो Hugging Face पर उपलब्ध है
  • इस प्रोजेक्ट में Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe जैसे यूरोप के प्रमुख संस्थान शामिल हैं और प्रशिक्षण MareNostrum 5 सुपरकंप्यूटर पर किया गया
  • मल्टीमॉडल विस्तार (इमेज·वॉइस) और पूरी तरह open source रिलीज़ नीति की घोषणा करते हुए, इसका लक्ष्य यूरोप के AI innovation ecosystem की मुख्य अवसंरचना बनना है

EuroLLM अवलोकन

  • EuroLLM यूरोप में विकसित large language model (Local LLM) है, जो EU की सभी 24 आधिकारिक भाषाओं को सपोर्ट करता है
    • इसे public infrastructure type AI model के रूप में डिज़ाइन किया गया है, ताकि यूरोपीय नागरिक, कंपनियाँ और शोधकर्ता बिना भाषा बाधा के इसका उपयोग कर सकें
  • इसे यूरोपीय संघ के Horizon Europe, European Research Council, EuroHPC के समर्थन से विकसित किया गया है
    • प्रशिक्षण MareNostrum 5 सुपरकंप्यूटर पर किया गया

तकनीकी विशेषताएँ

  • EuroLLM 9B: 9 अरब पैरामीटर, 35 भाषाओं के 4 ट्रिलियन टोकन डेटा पर प्रशिक्षित
    • Base मॉडल उपयोगकर्ता fine-tuning के लिए है, जबकि Instruct मॉडल संवादात्मक निर्देश पालन क्षमता रखता है
  • प्रमुख फीचर्स:
    • प्रश्नोत्तर, सारांश, अनुवाद जैसे बहुभाषी natural language processing प्रदर्शन के लिए अनुकूलित
    • मल्टीमॉडल विस्तार निर्धारित — भविष्य में इमेज और वॉइस समझने की क्षमता जोड़ी जाएगी
    • open source वितरण के माध्यम से शोधकर्ता, संस्थान और आम नागरिक इसे स्वतंत्र रूप से उपयोग कर सकेंगे

भागीदार संस्थान और सहयोग नेटवर्क

  • भागीदार संस्थान:
    • Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
  • प्रमुख शोधकर्ता:
    • André Martins (Unbabel, Lisbon इंजीनियरिंग संस्थान के प्रोफेसर) — machine learning और natural language processing विशेषज्ञ
    • Alexandra Birch (Aveni.ai, Edinburgh प्रोफेसर) — बहुभाषी अनुवाद और ethical AI research की अग्रणी शोधकर्ता
    • Pierre Colombo (Université Paris-Saclay) — AI safety और legal AI applications पर शोध

मिशन और विज़न

  • EuroLLM का लक्ष्य यूरोप की AI संप्रभुता सुनिश्चित करना और बहुभाषी तकनीक के विकास को बढ़ावा देना है
    • यूरोप में स्वतंत्र रूप से विकसित LLM के माध्यम से innovation का virtuous cycle (flywheel for innovation) बनाना
    • शोधकर्ताओं और कंपनियों को यूरोपीय AI मॉडल के आधार पर नई सेवाएँ और शोध का विस्तार करने में समर्थन देना
  • यूरोप भाषाई विविधता पर आधारित तकनीकी नेतृत्व को मजबूत करते हुए,
    वैश्विक AI ecosystem में आत्मनिर्भर innovation model बनाने का लक्ष्य रखता है

1 टिप्पणियां

 
GN⁺ 2025-10-29
Hacker News राय
  • यूरोपीय संघ की कुल 24 आधिकारिक भाषाएँ हैं: Bulgarian, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hungarian, Irish, Italian, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovenian, Spanish, और Swedish
    Maltese इकलौती Afro-Asiatic भाषा है, और Hungarian, Finnish, तथा Estonian Uralic language family में आती हैं। बाकी भाषाएँ Indo-European हैं; Greek Hellenic है, और Irish Celtic language family में आती है

    • सख्ती से कहें तो Maltese एक Semitic भाषा है। Wikipedia देखें
    • कल नीदरलैंड के आम चुनाव में दो पार्टियों ने Frisian को आधिकारिक भाषाओं की सूची में जोड़ने का प्रस्ताव रखा। संबंधित लेख
      शायद मॉडल को फिर से train करना पड़े
    • मैं Maltese पढ़, लिख और बोल सकता हूँ। भाषा के बारे में कुछ भी पूछना हो तो पूछें
    • Lithuanian और Latvian Baltic language family की भाषाएँ हैं। इनका Slavic भाषाओं से संबंध नहीं है
    • पेपर देखें तो मॉडल सिर्फ इन 24 भाषाओं तक सीमित नहीं है। इसमें Arabic, Catalan, Chinese, Hindi, Japanese, Korean, Norwegian, Russian, Turkish, Ukrainian आदि भी शामिल हैं। पेपर PDF
      training data के sources को बारीकी से संभालना इस research का मुख्य योगदान लगता है
  • लगता है यूरोपीय policy makers को technology-intensive industries को बढ़ावा देना बिल्कुल नहीं आता। 'winners चुनने' वाली subsidy approach का फेल होना तय है। यूरोपीय supercomputer access वाली बात भी दिलचस्प है। संबंधित ट्वीट

    • EU की subsidy process मज़ेदार तो नहीं है, लेकिन Levels में थोड़ा overconfidence लगता है। influencer के रूप में monetization वह अच्छी तरह करता है, लेकिन state-backed supercomputer पर ad-based browser game चलाना मुझे उचित नहीं लगता
    • असली अहम बात यह है कि यूरोप को AI startup-friendly environment बनाना चाहिए। regulation ढीला करना और tax incentives देना प्राथमिकता होनी चाहिए।
      लेकिन वास्तव में यूरोपीय कंपनियों की सबसे बड़ी बाधा regulation नहीं बल्कि capital access है।
      चीन में इससे भी कड़ा regulation होने के बावजूद software industry फली-फूली है। South Korea ने भी protectionism का फायदा देखा है।
      यूरोप को और अधिक tech protectionism सीखने की ज़रूरत है। Pieter Levels आखिरकार सिर्फ एक influencer है, कोई गंभीर founder नहीं
    • यह 'winners चुनने' वाली strategy वास्तव में क्या नतीजे देती है, यह जानना दिलचस्प होगा
    • यह भी सवाल है कि ऐसी policies का मकसद सचमुच 'winners चुनना' है, या founders की क्षमता बढ़ाना और अर्थव्यवस्था को stimulate करना।
      अमेरिका में FAANG background वाले founders बहुत हैं, लेकिन यूरोप में ऐसा ecosystem कमज़ोर है।
      supercomputer project फेल भी हो जाए, तब भी secondary economic effects लक्ष्य हो सकते हैं
    • लोग उसके प्रति कुछ ज़्यादा ही उदार हैं। बहुत से लोग यह भी नहीं जानते होंगे कि 'levelsio' कौन है, फिर भी सब ऐसे बात करते हैं जैसे सब जानते हों
  • शीर्षक में “(2024)” गायब है। 9B मॉडल पिछले साल दिसंबर में जारी हुआ था। आधिकारिक पेज

  • EuroLLM टीम में Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs जैसी यूरोप की प्रमुख संस्थाएँ शामिल हैं।
    यूरोप EuroHPC JU के ज़रिए public supercomputer network चला रहा है, और access मिलते ही उन्होंने मॉडल development शुरू कर दिया था। आधिकारिक स्टोरी
    यानी physics simulation के लिए बने computing resources का reuse हुआ

  • क्या आजकल ज़्यादातर frontier models पहले से multilingual support नहीं देते? मुझे नहीं लगता कि अलग से language-specific support जोड़ने की ज़रूरत है

    • लेकिन इस मॉडल की खास बात यह है कि इसे EU-certified data पर train किया गया है
    • सिर्फ language examples होना काफी नहीं है; हर भाषा का data proportion अहम है। English data बहुत ज़्यादा होने से दूसरी भाषाओं की performance गिरती है
    • training method अलग है। Japanese में अक्सर tokenization issues की वजह से performance कम हो जाती है
    • English के अलावा दूसरी भाषाओं में अक्सर ऐसा tone होता है जैसे awkward translation हो। French users अक्सर ungrammatical वाक्यों की ओर इशारा करते हैं
    • यूरोपीय सरकारों के पास विशाल digital materials और cultural data है। ऐसे cultural differences मॉडल की values को भी प्रभावित कर सकते हैं
  • अफसोस है कि वास्तव में इस्तेमाल किया गया corpus public नहीं है। Irish जैसी minority languages शायद ज़्यादातर legal documents पर आधारित होंगी, जबकि colloquial data लगभग नहीं होगा।
    अगर language-specific evaluation native speakers के मानक पर की जाए तो काफ़ी दिलचस्प होगा।
    LLMs ऐसी endangered languages पर सकारात्मक असर डाल सकते हैं, लेकिन उससे पहले जोखिम भी हैं (जैसे Scottish Gaelic Wikipedia वाला मामला)।
    फिर भी कुल मिलाकर यह एक अच्छी कोशिश लगती है

  • EuroLLM-9B दिसंबर 2024 का रिलीज़ मॉडल है, और MMLU-Pro में 17.6% के साथ random से थोड़ा ही बेहतर है।
    दूसरे EU मॉडलों की तुलना तालिका यहाँ देखी जा सकती है

  • समझ नहीं आता कि बेहतरीन मॉडल सिर्फ अमेरिका और चीन ही क्यों निकालते हैं। फ्रांस की Mistral के अलावा यूरोप से मुश्किल से कोई मॉडल दिखता है। भारत, जापान और South Korea की स्थिति भी कुछ ऐसी ही है

    • यह चौंकाने वाली बात नहीं है। यूरोप लगातार technological competitiveness में पीछे रहा है।
      इसकी आबादी अमेरिका से 1.3 गुना और GDP 75% है, लेकिन tech industry का आकार अमेरिका की तुलना में बहुत छोटा है।
      अमेरिका की top 7 big tech कंपनियाँ यूरोप की top 7 कंपनियों से 20 गुना बड़ी हैं, और उनका revenue 10 गुना ज़्यादा है। संदर्भ लिंक
    • यूरोप में capital access कम है और market fragmented है।
      इसलिए वह Horizon जैसी academic-centric funding पर निर्भर रहता है, लेकिन ऐसे collaborations को productization तक ले जाना मुश्किल होता है
    • frontier model training के लिए भारी capital structure चाहिए। अरबों डॉलर सिर्फ अमेरिका और चीन ही जुटा सकते हैं
    • EU ने 900-page का AI Act बनाकर खुद को बधाई दी, जबकि चीन इससे पहले ही दो पेज का कानून लागू कर चुका था
    • सच कहें तो ऐसे मॉडलों की commercial value अभी साबित नहीं हुई है। ज़्यादातर government contracts या investment money पर चल रहे हैं
  • Hugging Face पर EuroLLM-9B डाउनलोड करने के लिए contact information share करने की सहमति देनी पड़ती है। क्या यह आम बात है?

    • मैंने भी कुछ मॉडलों में ऐसा देखा है। उदाहरण के लिए Llama 3.1-8B-Instruct में भी ऐसी प्रक्रिया है
    • हाँ, यह काफ़ी common procedure है
  • यह दिलचस्प है कि 9B मॉडल को इतना ध्यान मिल रहा है। लेकिन दो महीने पहले जारी TildeOpen-30B मॉडल (19 यूरोपीय भाषाओं का समर्थन) की लगभग चर्चा ही नहीं हुई। मॉडल पेज
    base performance कम है, लेकिन यह fine-tuning potential वाला एक मज़बूत open model है