24 पॉइंट द्वारा xguru 2023-04-20 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • 3B/7B मॉडल जारी किए गए हैं, 15B/30B/65B मॉडल भी जारी किए जाने वाले हैं और 175B तक की योजना है
  • मॉडल CC BY-SA-4.0 लाइसेंस के तहत हैं, इसलिए attribution देने पर commercial उपयोग संभव है
  • यह ओपन dataset The Pile पर आधारित है, लेकिन 3 गुना बड़े 1.5T tokens वाले नए dataset पर train किया गया है
  • context length 4096 tokens है
  • PoC के रूप में Alpaca procedure का पालन करके fine-tune किया गया StableLM-Tuned-Alpha-7B मॉडल भी जारी किया गया है
    • 5 conversational datasets का उपयोग: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
    • chatbot demo Hugging Face पर उपलब्ध है

2 टिप्पणियां

 
laeyoung 2023-04-20

अच्छा-अच्छा!

 
xguru 2023-04-20

जैसे Stable Diffusion के सार्वजनिक होने से बाज़ार में तेजी आई थी, वैसे ही अब language models के लिए भी सार्वजनिक रूप से इस्तेमाल किए जा सकने वाले data और use cases की बाढ़ आने वाली है।