6 पॉइंट द्वारा GN⁺ 2024-03-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 314B (3140 अरब) पैरामीटर वाले Mixture-of-Experts मॉडल के weights और architecture रिलीज़ किए गए
  • अक्टूबर 2023 में समाप्त हुए Grok-1 pre-training चरण का raw base model
    • इसका मतलब है कि मॉडल को बातचीत जैसे किसी विशेष task के लिए fine-tune नहीं किया गया है
  • मॉडल विवरण
    • बड़े पैमाने के text data पर प्रशिक्षित base model, जिसे किसी विशेष task के लिए fine-tune नहीं किया गया
    • 314B पैरामीटर वाला expert mixture model, जिसमें दिए गए token के लिए 25% weights सक्रिय होते हैं
    • अक्टूबर 2023 में xAI द्वारा JAX और Rust के ऊपर custom training stack का उपयोग करके शुरुआत से प्रशिक्षित किया गया

Grok-1 repository का उपयोग कैसे करें

  • JAX example code शामिल करने वाली Grok-1 repository का उपयोग Grok-1 open-weight model को लोड और चलाने के लिए किया जाता है।
  • checkpoint डाउनलोड करें और checkpoint directory के अंदर ckpt-0 directory रखें, फिर pip install -r requirements.txt और python run.py चलाकर code को test करें।
  • script checkpoint को लोड करती है और test input पर model से sample generate करती है।
  • मॉडल का आकार बहुत बड़ा होने के कारण (314B पैरामीटर), पर्याप्त GPU memory वाली machine की आवश्यकता होती है।
  • इस repository में MoE (Mixture of Experts) layer implementation efficient नहीं है, और मॉडल की accuracy verify करने के लिए custom kernel से बचने हेतु इसे चुना गया है।

Weights डाउनलोड

  • torrent client और नीचे दिए गए लिंक का उपयोग करके weights डाउनलोड किए जा सकते हैं: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

License

  • इस रिलीज़ में शामिल code और Grok-1 weights, Apache 2.0 license के तहत licensed हैं।
  • यह license केवल इस repository की source files और Grok-1 model के weights पर लागू होता है।

GN⁺ की राय

  • Grok-1 बड़े पैमाने के पैरामीटर वाला मॉडल है, जो machine learning researchers और engineers को high-performance computing resources का उपयोग करके प्रयोग करने का अच्छा अवसर देता है।
  • Apache 2.0 जैसे open source license के उपयोग से community मॉडल को स्वतंत्र रूप से उपयोग, संशोधित और वितरित कर सकती है, जिससे collaboration और innovation को बढ़ावा मिल सकता है।
  • मॉडल का आकार बहुत बड़ा होने के कारण, इस मॉडल पर वास्तव में प्रयोग करने के लिए काफी computing resources की ज़रूरत होगी, जो accessibility को सीमित कर सकती है।
  • MoE layer का inefficient implementation research उद्देश्यों के लिए उपयोगी हो सकता है, लेकिन वास्तविक product या service में लागू करते समय optimized implementation ढूँढ़नी होगी।
  • समान capabilities देने वाले अन्य open source projects में Google का TensorFlow और Facebook का PyTorch शामिल हैं, जिनका उपयोग भी बड़े मॉडलों पर प्रयोग के लिए किया जा सकता है।

1 टिप्पणियां

 
GN⁺ 2024-03-18
Hacker News राय
  • 8x86B मॉडल अब तक का सबसे बड़ा ओपन मॉडल लगता है। यह जानना दिलचस्प होगा कि इस मॉडल को कितने tokens पर train किया गया था.

    • यह बड़े पैमाने के text data पर train किया गया base model है, और किसी खास task के लिए fine-tune नहीं किया गया है.
    • माना जा रहा है कि Twitter पर पहले दिखाया गया version raw weights से अलग व्यवहार करने वाला instruction-tuned model होगा.
  • Mistral जैसे open source alternatives की जगह कोई इस मॉडल का इस्तेमाल क्यों करना चाहेगा?

  • क्या यह native FP8 support करने वाला पहला बड़ा मॉडल है? अगर hardware इसे support करे तो यह बड़ा फायदा लग रहा है, इसलिए यह सोचकर हैरानी होती है कि लोगों ने अब तक ऐसा क्यों नहीं किया.

  • यह मॉडल किन languages को support करता है?

  • ब्लॉग पोस्ट: Grok-OS

    • 314B parameters में से 86B सक्रिय होते हैं.
    • 8 experts के mixture में से 2 सक्रिय होते हैं.
    • weights और architecture Apache 2.0 license के तहत हैं.
  • पिछले साल की ब्लॉग पोस्ट: Grok

    • इसमें Claude 2, GPT-3.5, GPT-4 के साथ benchmark comparison शामिल है.
    • इसकी क्षमता GPT-3.5, Mixtral, Qwen-1.5-72B जैसी है, लेकिन यह open weights models से काफी बड़ा है.
  • parameters की संख्या और mixture of experts के लिहाज़ से हम ऊपरी सीमा या diminishing returns के बिंदु पर कब पहुँचते हैं?

  • क्या कहीं model card है? मैं जानना चाहता हूँ कि इस मॉडल को किस पर train किया गया था.

  • एक सूक्ष्म बात: Musk ने "open source" कहा था, लेकिन असल में हमें "open weights" मिले हैं (फिर भी, कुछ न मिलने से यह बहुत बेहतर है, इसलिए इसके लिए काफी आभारी हूँ).

  • दूसरा repository सिर्फ Qdrant का fork है.