- ETH Zurich और EPFL के नेतृत्व में सार्वजनिक इन्फ्रास्ट्रक्चर पर पूरी तरह खुले तरीके से विकसित किया गया एक large language model (LLM) जल्द जारी किया जाएगा
- यह मॉडल पारदर्शिता, multilingual performance, और व्यापक accessibility पर केंद्रित है, ताकि इसका उपयोग विज्ञान, सरकार और निजी क्षेत्र सहित कई क्षेत्रों में किया जा सके
- source code और weights के साथ training data भी सार्वजनिक किए जाएंगे, और पूरी प्रक्रिया को reproducible बनाया गया है ताकि open research और regulatory compliance को बढ़ावा मिले
- इसे नवीनतम supercomputer Alps (CSCS) पर पर्यावरण-अनुकूल ऊर्जा से train किया गया है, और इसका लक्ष्य बड़े पैमाने, उच्च performance और जिम्मेदार data use को साधना है
- यह LLM Apache 2.0 license के तहत गर्मियों के अंत में जारी किया जाएगा, और उम्मीद है कि यह दुनिया भर में innovation और research को बढ़ावा देगा
ओपन LLM निर्माण के लिए अंतरराष्ट्रीय सहयोग और पृष्ठभूमि
- जिनेवा में आयोजित International Open-Source LLM Builders Summit में global open source LLM और trustworthy AI से जुड़ी 50 से अधिक संस्थाएँ एकत्र हुईं
- EPFL और ETH Zurich के AI Center द्वारा आयोजित यह कार्यक्रम open foundation model ecosystem को सक्रिय करने और सहयोग बढ़ाने का एक महत्वपूर्ण अवसर बना
- ओपन LLM को अमेरिका, चीन आदि में बंद तरीके से विकसित किए जा रहे commercial systems के विकल्प के रूप में धीरे-धीरे देखा जा रहा है
नए सार्वजनिक LLM की विशेषताएँ और रिलीज़ योजना
- EPFL, ETH Zurich, अन्य स्विस विश्वविद्यालयों के शोधकर्ताओं और CSCS इंजीनियरों के सहयोग से पूरी तरह खुला और सार्वजनिक रूप से विकसित LLM जल्द जारी किया जाएगा
- यह फिलहाल अंतिम testing चरण में है और जल्द ही open license के तहत download के लिए उपलब्ध होगा
- यह मॉडल पारदर्शिता, बहुभाषी performance और व्यापक accessibility को अपने मुख्य मूल्यों के रूप में अपनाता है
पूर्ण openness और transparency के सिद्धांत
- मॉडल का source code और weights दोनों सार्वजनिक किए जाएंगे
- training data भी पारदर्शी रूप से सार्वजनिक किया जाएगा और इसे reproducible तरीके से डिज़ाइन किया गया है, ताकि विज्ञान, सरकार, शिक्षा और निजी क्षेत्र में अपनाने को समर्थन मिल सके
- इस तरह का दृष्टिकोण innovation को बढ़ावा देने और accountability को मजबूत करने के उद्देश्य से अपनाया गया है
विशेषज्ञों की राय
- ETH AI Center के शोधकर्ता Imanol Schlag ने जोर देकर कहा कि “पूरी तरह खुला मॉडल भरोसेमंद applications और AI risks/opportunities पर research को आगे बढ़ाने के लिए आवश्यक है”
- पारदर्शी process से regulatory compliance भी आसान हो जाती है
multilingual डिज़ाइन
- मॉडल की प्रमुख विशेषताओं में से एक 1,000 से अधिक भाषाओं का समर्थन है
- प्रोफेसर Antoine Bosselut ने कहा कि उन्होंने शुरुआत से ही व्यापक multilingual support पर ध्यान केंद्रित किया
- 1,500 से अधिक भाषाओं के बड़े dataset (60% English, 40% non-English), code और mathematics data के साथ foundational training की गई
- यह दुनिया भर की विविध भाषाओं और संस्कृतियों की content को दर्शाता है, जिससे इसकी global usability बढ़ती है
scalability और inclusivity
- मॉडल 8 billion (8B) और 70 billion (70B) parameters के दो आकारों में जारी किया जाएगा
- 70B संस्करण दुनिया के सबसे शक्तिशाली पूरी तरह खुले मॉडलों में से एक है
- इसे 15 trillion से अधिक उच्च-गुणवत्ता tokens (टेक्स्ट की छोटी इकाइयाँ) पर train किया गया है, जिससे उच्च reliability और general-purpose उपयोगिता हासिल होती है
जिम्मेदार data use
- इसका विकास स्विस data protection law, copyright law, और EU AI Act द्वारा अपेक्षित transparency obligations का पालन करते हुए किया जा रहा है
- हालिया research से यह साबित हुआ है कि web crawling opt-out (robots exclusion standard) का सम्मान करने पर भी LLM performance में लगभग कोई गिरावट नहीं आती
supercomputer-आधारित विकास और sustainability
- मॉडल training लुगानो स्थित CSCS के Alps supercomputer पर की गई
- इसमें 10,000 NVIDIA Grace Hopper Superchip लगे हैं, जो विश्व-स्तरीय AI infrastructure प्रदान करते हैं
- 100% carbon-neutral बिजली के साथ efficient training संभव है
- Alps का सफल implementation NVIDIA, HPE/Cray के साथ 15 वर्षों के strategic collaboration की बदौलत संभव हुआ
- Alps बड़े पैमाने के AI workloads, जिनमें जटिल LLM की pretraining भी शामिल है, की आवश्यकताओं को पूरा करने में प्रमुख भूमिका निभाता है
- प्रोफेसर Thomas Schulthess ने जोर देकर कहा कि सार्वजनिक research institutions और industry के संयुक्त प्रयास यह साबित करते हैं कि sovereign AI infrastructure और open innovation दुनिया भर के science और society में योगदान दे सकते हैं
ओपन access और global उपयोग
- गर्मियों के अंत में, Apache 2.0 license के तहत यह LLM जारी किया जाएगा
- मॉडल architecture, training methods, usage guidelines जैसी documentation भी साथ दी जाएगी, ताकि पारदर्शी reuse और आगे के development को समर्थन मिल सके
- प्रोफेसर Antoine Bosselut ने कहा कि वे चाहते हैं कि सार्वजनिक शोधकर्ता “open models के विकास में अग्रणी भूमिका निभाएँ, और विभिन्न संगठन इनके आधार पर अपने applications विकसित करें”
- प्रोफेसर Martin Jaggi ने कहा कि “पूर्ण openness स्विट्ज़रलैंड, यूरोप और अंतरराष्ट्रीय सहयोग के जरिए innovation को बढ़ावा देने और श्रेष्ठ प्रतिभाओं को आकर्षित करने में एक महत्वपूर्ण कारक है”
1 टिप्पणियां
Hacker News राय
इससे अच्छे नतीजों की उम्मीद है। मेरी जानकारी में ETH और EPFL नवीनतम LLaMA models नहीं, बल्कि पुराने versions को train या fine-tune कर रहे हैं, इसलिए SOTA performance की तुलना में ये थोड़ा पीछे रह सकते हैं। लेकिन सबसे अहम बात यह है कि ETH और EPFL बड़े पैमाने पर training का अनुभव हासिल करें। सुना है कि नया बना AI cluster अभी शुरुआती दौर में काफी trial and error से गुजर रहा है। लोग अक्सर इस बात को कम करके आंकते हैं कि इस scale पर अपनी infrastructure पर model train करना कितना मुश्किल काम है.<br>संदर्भ के लिए, मेरा जन्म Switzerland में हुआ था और मैंने ETH में पढ़ाई की है। दिमाग की कमी नहीं है, लेकिन large-scale training का अनुभव अभी कम है। और निजी तौर पर मुझे लगता है कि LLM का काफी "जादू" असल में infrastructure से आता है.
सच कहूं तो काफी जादू dataset से आता है, खासकर SFT और दूसरे fine-tuning/RLHF data से। वही असल में उन models को अलग करता है जिन्हें लोग सच में इस्तेमाल करते हैं और जिन्हें नहीं। अनुभव जुटाने वाली बात से मैं पूरी तरह सहमत हूं, और मुझे लगता है कि infrastructure बनाना sovereign LLM supply chain का एक मुख्य हिस्सा है। लेकिन data पर भी शुरुआत से पर्याप्त ध्यान देना होगा, तभी model वास्तव में उपयोगी बनेगा.
SOTA LLM train करने के लिए infrastructure भी काफी जटिल हो जाता है। बहुत से लोग सोचते हैं कि architecture और dataset अपलोड करके Ray जैसा कुछ इस्तेमाल कर लो और काम खत्म, लेकिन असल में dataset design, evaluation pipeline बनाना, training method, hardware का अधिकतम उपयोग, nodes के बीच latency, error recovery जैसी बहुत सारी चीजें चाहिए होती हैं। फिर भी, इस क्षेत्र में और players आना अच्छी बात है.
"from scratch" शब्द देखकर मैंने अंदाजा लगाया कि वे fine-tuning नहीं बल्कि pretraining कर रहे हैं। अगर किसी की अलग राय हो तो जानना चाहूंगा। और यह भी जानना दिलचस्प होगा कि क्या वे सामान्य Llama architecture के साथ आगे बढ़ रहे हैं। benchmark results भी देखना चाहूंगा.
<i>वेब crawling opt-out का सम्मान करने पर भी performance में लगभग कोई गिरावट नहीं आती</i> — यह पंक्ति देखकर बहुत अच्छा लगा.
सोच रहा हूं कि क्या यह dataset transparency के मामले में नया benchmark सेट करने वाला उदाहरण है। अगर ऐसा होता है तो यह एक महत्वपूर्ण प्रगति होगी। हालांकि, अगर उन्होंने machine का नाम AIps (AI Petaflops Supercomputer) रखा होता तो और मजेदार होता.
Allen Institute for Artificial Intelligence का OLMo model भी पूरी तरह open है.<br><i>OLMo is fully open</i><br>AI2 का मानना है कि असली openness का मतलब data, model और code — सबका खुला होना है.<br>OLMo के बारे में और देखें
मेरी जानकारी में Smollm भी पूरी तरह open model है.
Open training data ही असली differentiator है। सोच रहा हूं कि क्या इस scale का वास्तव में open dataset पहली बार आ रहा है। The Pile जैसी पिछली कोशिशें भी मूल्यवान थीं, लेकिन उनकी सीमाएं थीं। training reproducibility कैसे सुनिश्चित की जाएगी, यह देखने की भी उत्सुकता है.
"Model पूरी तरह open होगा: source code और weights उपलब्ध होंगे, training data पारदर्शी और reproducible होगा" — इस पंक्ति से मुझे लगता है कि जोर training data को पूरी तरह public करने पर नहीं, बल्कि उसे "reproducible" बनाने पर है। शायद वे वास्तव में training में इस्तेमाल किए गए page URLs की सूची जैसी reference material साझा कर सकते हैं, लेकिन जरूरी नहीं कि उसका content भी दें.
सही है, पारंपरिक copyright issues अभी भी मौजूद हैं, इसलिए शायद इसे packaged dataset के रूप में सीधे उपलब्ध नहीं कराया जाएगा.
यही तो "AI का लोकतंत्रीकरण" कहलाता है.
Press release में इस बात पर बहुत चर्चा है कि इसे कैसे बनाया गया, लेकिन दूसरे open models की तुलना में इसकी वास्तविक क्षमता क्या है, इस पर लगभग कुछ नहीं है.
universities के लिए 'इसे कैसे बनाया गया' सिखाना ही मुख्य बात होती है, इसलिए इस हिस्से पर फोकस करना स्वाभाविक है.
कहा गया है कि <i>model 8B (8 अरब) और 70B (70 अरब) के दो versions में जारी किया जाएगा, और 70B version दुनिया के सबसे शक्तिशाली open models में से एक होगा; इसे इस summer के अंत में Apache 2.0 license के तहत जारी किया जाएगा</i>। तो असल स्थिति सितंबर में देखी जा सकेगी.
एक Swiss होने के नाते, HN के शीर्ष पर यह खबर देखकर गर्व महसूस हो रहा है। इन दोनों universities ने world-class founders, researchers और engineers बड़ी संख्या में दिए हैं, फिर भी वे हमेशा US की छाया में रहे हैं। लेकिन बेहतरीन public infrastructure, education और political stability (+ neutrality) की वजह से, मुझे लगता है कि open LLM क्षेत्र में इनके पास एक खास मौका हो सकता है.
लेख में कहा गया है कि<br>"open LLMs को धीरे-धीरे एक भरोसेमंद alternative के रूप में देखा जा रहा है, जबकि अधिकांश commercial systems US या China में बंद तरीके से विकसित किए जा रहे हैं।"<br>अभी बड़े LLM बनाने वाली कंपनियों के पास subscription की ओर धकेलने, products का विज्ञापन करने आदि के जरिए monetization करने की वजह से quality गिराने तक की प्रोत्साहना रहती है। कुछ में तो पहले से political bias भी दिखता है। अगर Europe में academia और government मिलकर public-interest search/AI services दें और user-centric दिशा में आगे बढ़ें, तो यह बहुत मायने रखेगा.
इसे जल्दी से real-world test में आजमाने की इच्छा है.
समझ नहीं आता कि release से पहले ही इस तरह घोषणा क्यों की जा रही है। मुझे लगता है कि इस बारे में ईमानदारी से बात होनी चाहिए.
यह घोषणा Switzerland में इस हफ्ते हुए International Open-Source LLM Builders Summit में की गई थी। schedule और plans साझा करना मुझे इतना असामान्य नहीं लगता.
funding जुटाने का उद्देश्य हो सकता है। और European users के मन में यह बात गहराई से बैठाने के लिहाज से भी इसका महत्व है कि यह Europe में public रूप से विकसित LLM है, यानी कम से कम US या China का नहीं। (शायद यह इतना तार्किक है कि Brussels से मंजूरी ही न मिले।)
Switzerland में किसी भी काम को बहुत आराम से करना एक तरह का cliché है.