GPT4All - LLaMA आधारित 800k instruction set पर प्रशिक्षित chatbot
(github.com/nomic-ai)- assistant-शैली का large language model
- एकत्रित डेटा, data collection procedure, training code, final model weights आदि सब कुछ सार्वजनिक
- GPT 3.5 Turbo से जनरेट किए गए 800k डेटा (code/story/conversation) पर प्रशिक्षण
- LAION OIG, Stack Overflow के coding प्रश्न, Big-Science/P3 के instruction tuning आदि को base dataset के रूप में उपयोग
- Stanford Alpaca आदि को संदर्भित किया गया, और डेटा को ATLAS पर अपलोड करके curation और cleaning किया गया
अभी कोई टिप्पणी नहीं है.