- दुनिया का पहला वास्तविक रूप से खुला Instruction-Tuned LLM
- पूरा training code, dataset और model weights सभी सार्वजनिक। यानी कोई भी व्यक्ति/कंपनी अपना शक्तिशाली LLM बना और उसका स्वामित्व रख सकता है
- मानव-निर्मित निर्देशों वाले
databricks-dolly-15k dataset से fine-tuning
- 15,000 prompt/response pairs। कोई भी इन्हें बदल/विस्तारित कर सकता है और व्यावसायिक उपयोग भी कर सकता है
- (Alpaca, Koala, GPT4All, Vicuna आदि सभी का व्यावसायिक उपयोग संभव नहीं है)
- यह डेटा Databricks के 5,000 कर्मचारियों ने सीधे लिखा है
- EleutherAI pythia 12B parameter language model पर आधारित
1 टिप्पणियां
कंपनी के कर्मचारियों के लिए LLM ट्रेनिंग हेतु प्रश्न सेट बनाने के लिए बातचीत खोली गई थी, लेकिन उम्मीद से कहीं ज़्यादा लोगों ने हिस्सा लिया, इसलिए काम में बाधा पड़ने की चिंता से उसे जल्दी बंद करना पड़ा — यह बात काफ़ी मज़ेदार लगी।
खैर, ऐसी बड़ी कंपनी ने साहसिक निवेश के ज़रिए उच्च-गुणवत्ता वाला डेटा सेट पूरी तरह open source (CC BY-SA 3.0) के रूप में जारी किया, यह बात सचमुच तारीफ़ के काबिल है।
ऐसी कंपनियाँ अगर धीरे-धीरे और बढ़ें और भागीदारी भी बढ़ती जाए, तो क्या कभी GPT-4 स्तर का ऐसा open source मॉडल नहीं आएगा जिसे commercial use के लिए इस्तेमाल किया जा सके?