Apertus, संप्रभु AI के लिए एक ओपन फाउंडेशन मॉडल
(apertvs.ai)- स्विट्ज़रलैंड के AI इकोसिस्टम ने संप्रभु AI को लक्ष्य बनाकर अपना फाउंडेशन मॉडल Apertus पेश किया है, और EPFL·ETH Zurich·CSCS के सहयोगी आधार को सामने रखा है
- इसकी मुख्य खासियत open weights·open data·open science है, जिसमें training data, code, weights, methodology और alignment principles तक का documentation करके reproducibility पर ज़ोर दिया गया है
- regulation और trust के पहलू में EU AI Act की आवश्यकताओं को ध्यान में रखा गया है, और opt-out का सम्मान, PII हटाना, तथा memorization रोकने जैसी शर्तें शामिल हैं
- प्रदर्शन के मामले में कंपनी का कहना है कि 8B और 70B parameters के स्तर पर यह समान श्रेणी के शीर्ष open models से प्रतिस्पर्धा कर सकता है, और इसे शुरू से ही 1000 से अधिक भाषाओं पर train किया गया है
- Swisscom strategic partner के रूप में शामिल है, और आगे की releases, research, और community updates newsletter के ज़रिए साझा किए जाएंगे
विकास संस्थाएँ और सार्वजनिक दायरा
- Apertus Swiss AI Initiative द्वारा विकसित एक foundation model है
- Swiss AI Initiative EPFL, ETH Zurich, और CSCS के सहयोग से चलाया जा रहा है
- सार्वजनिक दायरे में training data, code, weights, methodology, और alignment principles शामिल हैं
- इन सार्वजनिक तत्वों को document किया गया है और इन्हें reproducible रूप में उपलब्ध कराने का लक्ष्य है
- Apertus “AI में Open, Source के समान है” इस वाक्य के माध्यम से खुद को एक खुले मॉडल के रूप में रेखांकित करता है
नियामकीय अनुपालन और मॉडल की विशेषताएँ
- मॉडल को EU AI Act की आवश्यकताओं को पूरा करने के लिए बनाया गया है
- opt-out का सम्मान किया जाता है
- PII हटाया जाता है
- memorization को रोका जाता है
- 8B और 70B parameters के आकार में यह शीर्ष open models के साथ प्रतिस्पर्धी प्रदर्शन का दावा करता है
- multilingual support शुरू से शामिल है, और इसे 1000 से अधिक भाषाओं पर train किया गया है
साझेदारी और कम्युनिटी अपडेट
- Swisscom Swiss AI Initiative का strategic partner है
- newsletter में Apertus releases, टीम research, और community updates दिए जाएंगे
1 टिप्पणियां
Hacker News की राय
पूरी तरह open LLM में Allen AI का OLMo 3.1 और MBZUAI का K2 Think V2 भी हैं, और दोनों ने पूरा training pipeline और dataset सार्वजनिक किया है
Nvidia Nemotron भी open training source model है, लेकिन dataset का कुछ हिस्सा proprietary है
lambda की टिप्पणी को उद्धृत करें तो, Nemotron model आम तौर पर Olmo और K2 Think V2 से ज़्यादा मजबूत है (Artificial Analysis benchmark के अनुसार), और datasets भी काफ़ी overlap करते हैं। कई datasets एक ही source से आए हैं, बस filtering अलग है, और Olmo तथा K2 Think V2 ने भी कुछ Nemotron datasets का उपयोग किया है
Nemotron एक आधुनिक और काफ़ी सक्षम LLM है, और 122b model भी ज़्यादातर benchmarks में Deepseek R1 (671b model) से मजबूत है, और हाल में 550b Ultra भी आया है
https://news.ycombinator.com/item?id=48492439
अगर frontier companies ने यह approach अपनाया होता तो शुरुआत काफ़ी धीमी होती, लेकिन 2035 तक शायद हम आज से बहुत आगे होते। इसके बजाय अब हालत यह है कि समाज का बड़ा हिस्सा चाहता है कि AI असफल हो
मुझे यह idea पसंद है, और अमेरिका के बाहर सबको technological sovereignty पर सोचने की ज़रूरत भी और बढ़ गई है। क्योंकि अमेरिका अब data रखने के लिए सुरक्षित जगह नहीं रह गया है
लेकिन Apertus ऐसा लगता है जैसे committee की रफ़्तार से चल रहा हो, इसलिए उससे competitive model आने की उम्मीद नहीं है। कम से कम मौजूदा models से टक्कर लेना मुश्किल दिखता है, शायद 1 साल पुराने models से प्रतिस्पर्धा कर सके, लेकिन अभी वह भी नहीं लगता
व्यक्तिगत रूप से मुझे EU का data protection approach पसंद है, लेकिन क्या आपके मन में कोई और region या protection mechanism है जो data को “सुरक्षित” रख सके?
मुझे नहीं लगता कि Linux की उपमा यहाँ भी फिट बैठती है। यह उससे भी बड़ा है, और commercial AI labs तथा उनके business model के लिए सीधा ख़तरा है
ये labs कई सालों से कई foundational papers को दोहराते आ रहे हैं और अब उनका अंत क़रीब लगता है
आगे चलकर open source, public data, और open recipe models केंद्र में आ सकते हैं, और कभी न कभी inference ही नहीं बल्कि training भी BitTorrent-style crowdsourcing के ज़रिए हो सकती है
आख़िर में, Chinese models (GLM, Deepseek, MiMax) भी वाकई बहुत अच्छा काम करते हैं, और जो लोग ऐसे models इस्तेमाल करते हैं वे कहेंगे कि उन्हें OpenAI/Anthropic/Gemini की ज़रा भी कमी महसूस नहीं होती। ऐसे में, अगर ऐसे public models मौजूद हों, तो Chinese models की भी उतनी ज़रूरत महसूस नहीं होगी—यह मानने की पर्याप्त वजह है
कई भाषाओं पर ध्यान देने का दावा करने वाले model के लिए यह “X को Y language में कैसे कहते हैं” या “Y language में verb X को कैसे conjugate करते हैं” जैसे सरल सवालों पर काफ़ी अस्थिर है
यह बार-बार ऐसे शब्द hallucinate करता है जो मौजूद ही नहीं हैं, और सुधारने पर भी नई झूठी बातें बना देता है
ऐसा नहीं लगता कि इसमें language-labeled training data बहुत डाला गया हो
“X को Y language में कैसे कहते हैं” पूछना, X को Y language में कहना, इन दोनों से अलग task है
इनका instruction model पिछले साल के Llama3.1 fine-tuning जैसा लगता है। जानना चाहता हूँ कि नए model में कोई प्रगति है या नहीं
sovereign AI के लिए आख़िरी उम्मीद Chinese public models में ही दिखती है
अगर आप इस तरह models को मिलाना चाहते हैं, तो https://github.com/deepbluedynamics/nemesis8 देख सकते हैं
Apretus project का सबसे प्रभावशाली output निस्संदेह लोग हैं। Dominique Paul(https://www.thisiscrispin.com/) की एक यादगार पंक्ति उद्धृत करूँ तो, ज़्यादातर लोग जिस बात को चूक जाते हैं वह यह है कि यह team लगभग हर दूसरे LLM provider की तरह एक ही काम चौथी बार करने वाली team नहीं है, और न ही यह ऐसी team है जो अपने पिछले अनुभव से सीख सकी हो
मेरा मानना है कि अगर यह team एक बार और model training करे, तो लागत चौथाई हो सकती है और नतीजे काफ़ी बेहतर हो सकते हैं
license काफ़ी दिलचस्प है, लेकिन लंबे समय में कौन इस approach का पालन करेगा, पता नहीं
training data और Apertus LLM ऐसी जानकारी शामिल या उत्पन्न कर सकते हैं जो पहचाने जा सकने वाले व्यक्तियों की ओर सीधे या परोक्ष रूप से इशारा करती हो (personal data)। user लागू data protection laws के तहत एक independent processor के रूप में personal data process करता है
Apertus LLM के developer के रूप में SNAI, प्राप्त data protection deletion requests को दर्शाने वाली hashed value files नियमित रूप से download के लिए उपलब्ध कराएगा, और users इन्हें output filter के रूप में लागू कर सकते हैं। इससे model output में शामिल personal data हटाया जा सकेगा, और model release के बाद हर 6 महीने पर SNAI से यह output filter डाउनलोड करके लागू करने की ज़ोरदार सिफारिश की जाती है
इस model का पिछला version काफ़ी खराब था, लेकिन उसने दावा किया था कि वह copyright law का पालन करता है। लेकिन मैंने खुद test किया और वह भी सच नहीं निकला, इसलिए मेरे हिसाब से यह पूरी तरह बेकार है
पूरी तरह open model: open weights + open data + पूरा training detail, जिसमें सारा data और training recipe शामिल हो
जानना चाहता हूँ कि दुनिया भर के देशों द्वारा फंड किए जाने वाले sovereign AI को community कैसे देखती है
“sovereign” पर इतना ज़ोर क्यों दिया जा रहा है? अगर open हो, तो क्या वह काफ़ी नहीं है?