Databricks ने ChatGPT जैसे Dolly 2.0 को ओपन सोर्स के रूप में जारी किया

xguru · 2023-04-14T10:03:01+09:00

दुनिया का पहला वास्तविक रूप से खुला Instruction-Tuned LLM पूरा training code, dataset और model weights सभी सार्वजनिक। यानी कोई भी व्यक्ति/कंपनी अपना शक्तिशाली LLM बना और उसका स्वामित्व रख सकता है मानव-निर्मित निर्देशों वाले databricks-dolly-15k dataset से fine-tuning 15,000 prompt/response pairs। कोई भी इन्हें बदल/विस्तारित कर सकता है और व्यावसायिक उपयोग भी कर सकता है (Alpaca, Koala, GPT4All, Vicuna आदि सभी का व्यावसायिक उपयोग संभव नहीं है) यह डेटा Databricks के 5,000 कर्मचारियों ने सीधे लिखा है EleutherAI pythia 12B parameter language model पर आधारित

(databricks.com)

35 पॉइंट द्वारा xguru 2023-04-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

दुनिया का पहला वास्तविक रूप से खुला Instruction-Tuned LLM
पूरा training code, dataset और model weights सभी सार्वजनिक। यानी कोई भी व्यक्ति/कंपनी अपना शक्तिशाली LLM बना और उसका स्वामित्व रख सकता है
मानव-निर्मित निर्देशों वाले databricks-dolly-15k dataset से fine-tuning
- 15,000 prompt/response pairs। कोई भी इन्हें बदल/विस्तारित कर सकता है और व्यावसायिक उपयोग भी कर सकता है
  - (Alpaca, Koala, GPT4All, Vicuna आदि सभी का व्यावसायिक उपयोग संभव नहीं है)
- यह डेटा Databricks के 5,000 कर्मचारियों ने सीधे लिखा है
EleutherAI pythia 12B parameter language model पर आधारित

1 टिप्पणियां

kuroneko 2023-04-14

कंपनी के कर्मचारियों के लिए LLM ट्रेनिंग हेतु प्रश्न सेट बनाने के लिए बातचीत खोली गई थी, लेकिन उम्मीद से कहीं ज़्यादा लोगों ने हिस्सा लिया, इसलिए काम में बाधा पड़ने की चिंता से उसे जल्दी बंद करना पड़ा — यह बात काफ़ी मज़ेदार लगी।

खैर, ऐसी बड़ी कंपनी ने साहसिक निवेश के ज़रिए उच्च-गुणवत्ता वाला डेटा सेट पूरी तरह open source (CC BY-SA 3.0) के रूप में जारी किया, यह बात सचमुच तारीफ़ के काबिल है।
ऐसी कंपनियाँ अगर धीरे-धीरे और बढ़ें और भागीदारी भी बढ़ती जाए, तो क्या कभी GPT-4 स्तर का ऐसा open source मॉडल नहीं आएगा जिसे commercial use के लिए इस्तेमाल किया जा सके?

Databricks ने ChatGPT जैसे Dolly 2.0 को ओपन सोर्स के रूप में जारी किया

संबंधित पढ़ाई

1 टिप्पणियां