वास्तव में ओपन LLM, Hello OLMo का आगमन

(blog.allenai.org)

7 पॉइंट द्वारा GN⁺ 2024-04-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

AI2 ने OLMo 7B मॉडल जारी किया है। यह सही मायने में एक open source large language model है, क्योंकि इसके साथ pretraining data और training code भी सार्वजनिक किए गए हैं.
- इससे शोधकर्ता और डेवलपर सर्वश्रेष्ठ open model का उपयोग करके सामूहिक रूप से language model science को आगे बढ़ा सकते हैं.
- Meta के AI वैज्ञानिक Yann LeCun ने कहा कि open source community ही AI का भविष्य सबसे तेज़ और सबसे प्रभावी तरीके से बना सकती है.
OLMo framework की प्रमुख विशेषताएँ:
- पूर्ण pretraining data: इसमें AI2 का Dolma dataset उपयोग किया गया है, और training data तैयार करने वाला code भी शामिल है.
- training code और model weights: 7B scale के 4 model variants के लिए पूरे model weights, inference code, training metrics, training logs आदि उपलब्ध कराए गए हैं.
- evaluation: Catwalk project के तहत 500 से अधिक checkpoints, evaluation code और development में उपयोग किए गए evaluation tools सार्वजनिक किए गए हैं.
OLMo के माध्यम से AI शोधकर्ता और डेवलपर निम्नलिखित अनुभव कर सकते हैं:
- अधिक सटीक analysis: training data पर पूर्ण visibility के आधार पर वे अधिक तेज़ी से काम कर सकते हैं.
- carbon emissions में कमी: पूरे training और evaluation ecosystem को सार्वजनिक करने से duplicate development कम किया जा सकता है.
- लगातार परिणाम: model और dataset को सार्वजनिक करके पिछले models से सीखना और उन पर आगे निर्माण करना संभव होता है.
AMD, CSC(Lumi Supercomputer), University of Washington, Databricks आदि के साथ सहयोग के माध्यम से OLMo का विकास संभव हुआ.

GN⁺ की राय

AI models की transparency बढ़ाने के लिए training data और code को सार्वजनिक करना बहुत महत्वपूर्ण कदम लगता है। हालांकि data bias जैसी समस्याएँ हो सकती हैं, इसलिए इस पर समीक्षा भी ज़रूरी होगी.
open source language model ecosystem के सक्रिय होने से तकनीकी प्रगति तेज़ होने की संभावना है। लेकिन बड़े IT उद्यमों के closed AI models के साथ प्रतिस्पर्धा में यह कितना सफल होगा, यह देखना होगा.
AI विकास के लिए आवश्यक विशाल computing resources सुनिश्चित करने में विभिन्न संस्थानों के साथ सहयोग बेहद महत्वपूर्ण दिखता है। यह academia-industry collaboration model के रूप में एक अच्छा उदाहरण बन सकता है.
उम्मीद है कि OLMo के जरिए language models के काम करने के सिद्धांतों पर वैज्ञानिक शोध और सक्रिय होगा। इससे अधिक सुरक्षित और भरोसेमंद AI के विकास को बढ़ावा मिल सकता है.

1 टिप्पणियां

GN⁺ 2024-04-09

Hacker News राय

LLM का उपयोग करते समय लेखक को बताना होगा कि इसका उपयोग किस उद्देश्य के लिए किया जा रहा है। यह लाइसेंस में स्पष्ट रूप से लिखा है।
यदि आप कोई derivative बनाते हैं, तो आपको AI2 को Derivative Impact Report जमा करनी होगी या समान जानकारी लिखित रूप में देनी होगी। AI2 इस जानकारी को सार्वजनिक कर सकता है।
derivative के उपयोग के उद्देश्य के बारे में पारदर्शी रूप से खुलासा करना होगा।
Derivative Impact Report का उद्देश्य सद्भावना के साथ किए गए खुलासे को दंडित करना नहीं है। यदि इससे संबंधित मुकदमा दायर किया जाता है, तो अनुबंध तुरंत समाप्त हो जाएगा।
यह वास्तव में true open source मॉडलों में से एक है। अधिकांश मॉडल केवल weights जारी करते हैं, जबकि यह end-to-end खुला है।
यह हैरानी की बात है कि Mistral 7b के साथ तुलना का उल्लेख नहीं किया गया।
लगता है कि The Pile को training data में शामिल नहीं किया गया। कानूनी दृष्टि से यह अन्य "open" LLMs की तुलना में अधिक सुरक्षित हो सकता है।
dataset पर लागू risk classification का वास्तविक अर्थ क्या है? लाइसेंस पेज पर इसकी पर्याप्त व्याख्या नहीं है। क्या इसका मतलब यह है कि training dataset के रूप में उपयोग करने पर लाइसेंस की दृष्टि से असंगत होने का जोखिम है?
छोटे आकार के बावजूद इसकी गति आश्चर्यजनक रूप से तेज है।
क्या यह AMD GPU पर सफलतापूर्वक train किया गया पहला उल्लेखनीय LLMs में से एक है? यह जानना दिलचस्प होगा कि प्रक्रिया कितनी सुचारु थी और क्या कोई कठिनाई आई।
इस मॉडल और इसी तरह के मॉडलों में inference के दौरान "repeated token" समस्या होती है। यह अक्सर तब होती है जब context window मध्यम रूप से लंबी होती है।
लगता है कि training के दौरान यह किसी प्रकार के local minimum में फंस जाता है। temperature का कुछ प्रभाव दिखता है, लेकिन यह समस्या पूरी तरह हल नहीं होती।
यह अफसोस की बात है कि ब्लॉग पोस्ट में comparison table नहीं है।
व्यक्तिगत रूप से यह मुझे सबसे दिलचस्प LLM लगता है। यह search की जगह ले सकता है और यहां तक कि research करके अंतिम उत्तर भी दे सकता है। OpenAI, Anthropic जैसे closed models का audit नहीं किया जा सकता।
ऐसे वास्तविक उदाहरण मौजूद हैं जहां LLM में bias inject किया गया है (जैसे Google Gemini के secret meta prompt के कारण ऐतिहासिक रूप से गलत छवियां बनना)।
मुझे AI2 का दृष्टिकोण पसंद है। यह सिर्फ weights ही नहीं, बल्कि training source code, data, evaluation tools आदि भी Apache license के तहत साझा करता है।
Llama जैसे open weight models, OpenAI जैसी closed models के करीब पहुंच रहे हैं। उम्मीद है कि OLMo जैसे true open models भी लगातार आगे बढ़ेंगे।
आशा है कि open source AI development को regulation के जरिए नहीं रोका जाएगा। भविष्य में यह समाज का एक तरह का मीडिया माध्यम बन सकता है, इसलिए इस पर regulation लगाना अभिव्यक्ति की स्वतंत्रता पर रोक जैसा हो सकता है। प्रतिस्पर्धी दबाव में कमी innovation को नुकसान पहुंचाएगी।
यह 2 महीने पुरानी पोस्ट है।

वास्तव में ओपन LLM, Hello OLMo का आगमन

GN⁺ की राय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय