- 314B (3140 अरब) पैरामीटर वाले Mixture-of-Experts मॉडल के weights और architecture रिलीज़ किए गए
- अक्टूबर 2023 में समाप्त हुए Grok-1 pre-training चरण का raw base model
- इसका मतलब है कि मॉडल को बातचीत जैसे किसी विशेष task के लिए fine-tune नहीं किया गया है
- मॉडल विवरण
- बड़े पैमाने के text data पर प्रशिक्षित base model, जिसे किसी विशेष task के लिए fine-tune नहीं किया गया
- 314B पैरामीटर वाला expert mixture model, जिसमें दिए गए token के लिए 25% weights सक्रिय होते हैं
- अक्टूबर 2023 में xAI द्वारा JAX और Rust के ऊपर custom training stack का उपयोग करके शुरुआत से प्रशिक्षित किया गया
Grok-1 repository का उपयोग कैसे करें
- JAX example code शामिल करने वाली Grok-1 repository का उपयोग Grok-1 open-weight model को लोड और चलाने के लिए किया जाता है।
- checkpoint डाउनलोड करें और
checkpoint directory के अंदर ckpt-0 directory रखें, फिर pip install -r requirements.txt और python run.py चलाकर code को test करें।
- script checkpoint को लोड करती है और test input पर model से sample generate करती है।
- मॉडल का आकार बहुत बड़ा होने के कारण (314B पैरामीटर), पर्याप्त GPU memory वाली machine की आवश्यकता होती है।
- इस repository में MoE (Mixture of Experts) layer implementation efficient नहीं है, और मॉडल की accuracy verify करने के लिए custom kernel से बचने हेतु इसे चुना गया है।
Weights डाउनलोड
- torrent client और नीचे दिए गए लिंक का उपयोग करके weights डाउनलोड किए जा सकते हैं:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
License
- इस रिलीज़ में शामिल code और Grok-1 weights, Apache 2.0 license के तहत licensed हैं।
- यह license केवल इस repository की source files और Grok-1 model के weights पर लागू होता है।
GN⁺ की राय
- Grok-1 बड़े पैमाने के पैरामीटर वाला मॉडल है, जो machine learning researchers और engineers को high-performance computing resources का उपयोग करके प्रयोग करने का अच्छा अवसर देता है।
- Apache 2.0 जैसे open source license के उपयोग से community मॉडल को स्वतंत्र रूप से उपयोग, संशोधित और वितरित कर सकती है, जिससे collaboration और innovation को बढ़ावा मिल सकता है।
- मॉडल का आकार बहुत बड़ा होने के कारण, इस मॉडल पर वास्तव में प्रयोग करने के लिए काफी computing resources की ज़रूरत होगी, जो accessibility को सीमित कर सकती है।
- MoE layer का inefficient implementation research उद्देश्यों के लिए उपयोगी हो सकता है, लेकिन वास्तविक product या service में लागू करते समय optimized implementation ढूँढ़नी होगी।
- समान capabilities देने वाले अन्य open source projects में Google का TensorFlow और Facebook का PyTorch शामिल हैं, जिनका उपयोग भी बड़े मॉडलों पर प्रयोग के लिए किया जा सकता है।
1 टिप्पणियां
Hacker News राय
8x86B मॉडल अब तक का सबसे बड़ा ओपन मॉडल लगता है। यह जानना दिलचस्प होगा कि इस मॉडल को कितने tokens पर train किया गया था.
Mistral जैसे open source alternatives की जगह कोई इस मॉडल का इस्तेमाल क्यों करना चाहेगा?
क्या यह native FP8 support करने वाला पहला बड़ा मॉडल है? अगर hardware इसे support करे तो यह बड़ा फायदा लग रहा है, इसलिए यह सोचकर हैरानी होती है कि लोगों ने अब तक ऐसा क्यों नहीं किया.
यह मॉडल किन languages को support करता है?
ब्लॉग पोस्ट: Grok-OS
पिछले साल की ब्लॉग पोस्ट: Grok
parameters की संख्या और mixture of experts के लिहाज़ से हम ऊपरी सीमा या diminishing returns के बिंदु पर कब पहुँचते हैं?
क्या कहीं model card है? मैं जानना चाहता हूँ कि इस मॉडल को किस पर train किया गया था.
एक सूक्ष्म बात: Musk ने "open source" कहा था, लेकिन असल में हमें "open weights" मिले हैं (फिर भी, कुछ न मिलने से यह बहुत बेहतर है, इसलिए इसके लिए काफी आभारी हूँ).
दूसरा repository सिर्फ Qdrant का fork है.