- EuroLLM यूरोप के शोध संस्थानों द्वारा संयुक्त रूप से विकसित EU की 24 आधिकारिक भाषाओं को सपोर्ट करने वाला large language model (LLM) है, जिसका लक्ष्य यूरोप की AI संप्रभुता और तकनीकी आत्मनिर्भरता है
- यह 9B पैरामीटर मॉडल है, जिसे 35 भाषाओं में 4 ट्रिलियन से अधिक टोकन्स पर प्रशिक्षित किया गया है, और यह प्रश्नोत्तर, सारांश, अनुवाद जैसे भाषा कार्यों में मजबूत प्रदर्शन दिखाता है
- EuroLLM 9B Base को fine-tuning के लिए जारी किया गया है, जबकि EuroLLM 9B Instruct संवादात्मक निर्देशों का पालन करने वाली version है, जो Hugging Face पर उपलब्ध है
- इस प्रोजेक्ट में Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe जैसे यूरोप के प्रमुख संस्थान शामिल हैं और प्रशिक्षण MareNostrum 5 सुपरकंप्यूटर पर किया गया
- मल्टीमॉडल विस्तार (इमेज·वॉइस) और पूरी तरह open source रिलीज़ नीति की घोषणा करते हुए, इसका लक्ष्य यूरोप के AI innovation ecosystem की मुख्य अवसंरचना बनना है
EuroLLM अवलोकन
- EuroLLM यूरोप में विकसित large language model (Local LLM) है, जो EU की सभी 24 आधिकारिक भाषाओं को सपोर्ट करता है
- इसे public infrastructure type AI model के रूप में डिज़ाइन किया गया है, ताकि यूरोपीय नागरिक, कंपनियाँ और शोधकर्ता बिना भाषा बाधा के इसका उपयोग कर सकें
- इसे यूरोपीय संघ के Horizon Europe, European Research Council, EuroHPC के समर्थन से विकसित किया गया है
- प्रशिक्षण MareNostrum 5 सुपरकंप्यूटर पर किया गया
तकनीकी विशेषताएँ
- EuroLLM 9B: 9 अरब पैरामीटर, 35 भाषाओं के 4 ट्रिलियन टोकन डेटा पर प्रशिक्षित
- Base मॉडल उपयोगकर्ता fine-tuning के लिए है, जबकि Instruct मॉडल संवादात्मक निर्देश पालन क्षमता रखता है
- प्रमुख फीचर्स:
- प्रश्नोत्तर, सारांश, अनुवाद जैसे बहुभाषी natural language processing प्रदर्शन के लिए अनुकूलित
- मल्टीमॉडल विस्तार निर्धारित — भविष्य में इमेज और वॉइस समझने की क्षमता जोड़ी जाएगी
- open source वितरण के माध्यम से शोधकर्ता, संस्थान और आम नागरिक इसे स्वतंत्र रूप से उपयोग कर सकेंगे
भागीदार संस्थान और सहयोग नेटवर्क
- भागीदार संस्थान:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
- प्रमुख शोधकर्ता:
- André Martins (Unbabel, Lisbon इंजीनियरिंग संस्थान के प्रोफेसर) — machine learning और natural language processing विशेषज्ञ
- Alexandra Birch (Aveni.ai, Edinburgh प्रोफेसर) — बहुभाषी अनुवाद और ethical AI research की अग्रणी शोधकर्ता
- Pierre Colombo (Université Paris-Saclay) — AI safety और legal AI applications पर शोध
मिशन और विज़न
- EuroLLM का लक्ष्य यूरोप की AI संप्रभुता सुनिश्चित करना और बहुभाषी तकनीक के विकास को बढ़ावा देना है
- यूरोप में स्वतंत्र रूप से विकसित LLM के माध्यम से innovation का virtuous cycle (flywheel for innovation) बनाना
- शोधकर्ताओं और कंपनियों को यूरोपीय AI मॉडल के आधार पर नई सेवाएँ और शोध का विस्तार करने में समर्थन देना
- यूरोप भाषाई विविधता पर आधारित तकनीकी नेतृत्व को मजबूत करते हुए,
वैश्विक AI ecosystem में आत्मनिर्भर innovation model बनाने का लक्ष्य रखता है
1 टिप्पणियां
Hacker News राय
यूरोपीय संघ की कुल 24 आधिकारिक भाषाएँ हैं: Bulgarian, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hungarian, Irish, Italian, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovenian, Spanish, और Swedish
Maltese इकलौती Afro-Asiatic भाषा है, और Hungarian, Finnish, तथा Estonian Uralic language family में आती हैं। बाकी भाषाएँ Indo-European हैं; Greek Hellenic है, और Irish Celtic language family में आती है
शायद मॉडल को फिर से train करना पड़े
training data के sources को बारीकी से संभालना इस research का मुख्य योगदान लगता है
लगता है यूरोपीय policy makers को technology-intensive industries को बढ़ावा देना बिल्कुल नहीं आता। 'winners चुनने' वाली subsidy approach का फेल होना तय है। यूरोपीय supercomputer access वाली बात भी दिलचस्प है। संबंधित ट्वीट
लेकिन वास्तव में यूरोपीय कंपनियों की सबसे बड़ी बाधा regulation नहीं बल्कि capital access है।
चीन में इससे भी कड़ा regulation होने के बावजूद software industry फली-फूली है। South Korea ने भी protectionism का फायदा देखा है।
यूरोप को और अधिक tech protectionism सीखने की ज़रूरत है। Pieter Levels आखिरकार सिर्फ एक influencer है, कोई गंभीर founder नहीं
अमेरिका में FAANG background वाले founders बहुत हैं, लेकिन यूरोप में ऐसा ecosystem कमज़ोर है।
supercomputer project फेल भी हो जाए, तब भी secondary economic effects लक्ष्य हो सकते हैं
शीर्षक में “(2024)” गायब है। 9B मॉडल पिछले साल दिसंबर में जारी हुआ था। आधिकारिक पेज
EuroLLM टीम में Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs जैसी यूरोप की प्रमुख संस्थाएँ शामिल हैं।
यूरोप EuroHPC JU के ज़रिए public supercomputer network चला रहा है, और access मिलते ही उन्होंने मॉडल development शुरू कर दिया था। आधिकारिक स्टोरी
यानी physics simulation के लिए बने computing resources का reuse हुआ
क्या आजकल ज़्यादातर frontier models पहले से multilingual support नहीं देते? मुझे नहीं लगता कि अलग से language-specific support जोड़ने की ज़रूरत है
अफसोस है कि वास्तव में इस्तेमाल किया गया corpus public नहीं है। Irish जैसी minority languages शायद ज़्यादातर legal documents पर आधारित होंगी, जबकि colloquial data लगभग नहीं होगा।
अगर language-specific evaluation native speakers के मानक पर की जाए तो काफ़ी दिलचस्प होगा।
LLMs ऐसी endangered languages पर सकारात्मक असर डाल सकते हैं, लेकिन उससे पहले जोखिम भी हैं (जैसे Scottish Gaelic Wikipedia वाला मामला)।
फिर भी कुल मिलाकर यह एक अच्छी कोशिश लगती है
EuroLLM-9B दिसंबर 2024 का रिलीज़ मॉडल है, और MMLU-Pro में 17.6% के साथ random से थोड़ा ही बेहतर है।
दूसरे EU मॉडलों की तुलना तालिका यहाँ देखी जा सकती है
समझ नहीं आता कि बेहतरीन मॉडल सिर्फ अमेरिका और चीन ही क्यों निकालते हैं। फ्रांस की Mistral के अलावा यूरोप से मुश्किल से कोई मॉडल दिखता है। भारत, जापान और South Korea की स्थिति भी कुछ ऐसी ही है
इसकी आबादी अमेरिका से 1.3 गुना और GDP 75% है, लेकिन tech industry का आकार अमेरिका की तुलना में बहुत छोटा है।
अमेरिका की top 7 big tech कंपनियाँ यूरोप की top 7 कंपनियों से 20 गुना बड़ी हैं, और उनका revenue 10 गुना ज़्यादा है। संदर्भ लिंक
इसलिए वह Horizon जैसी academic-centric funding पर निर्भर रहता है, लेकिन ऐसे collaborations को productization तक ले जाना मुश्किल होता है
Hugging Face पर EuroLLM-9B डाउनलोड करने के लिए contact information share करने की सहमति देनी पड़ती है। क्या यह आम बात है?
यह दिलचस्प है कि 9B मॉडल को इतना ध्यान मिल रहा है। लेकिन दो महीने पहले जारी TildeOpen-30B मॉडल (19 यूरोपीय भाषाओं का समर्थन) की लगभग चर्चा ही नहीं हुई। मॉडल पेज
base performance कम है, लेकिन यह fine-tuning potential वाला एक मज़बूत open model है