33 पॉइंट द्वारा xguru 2023-03-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Stanford के Alpaca मॉडल की training method के समान तरीके से train किया गया
  • backbone model के रूप में Polyglot-ko 5.8B और LLaMA 7B का उपयोग
    • LLaMA में Korean dataset training कम होने के कारण Korean performance कम है, इसलिए Korean model को अतिरिक्त रूप से train किया गया
  • LLaMA के 52k instruction dataset को DeepL API से अनुवादित किया गया

1 टिप्पणियां

 
luckydaun 2023-03-19

ओ... सच में यह ecosystem बहुत ही तेज़ गति से आगे बढ़ रहा है। मौजूदा Transformer models में भी Korean-localized models और general-purpose models के बीच performance का फ़र्क बहुत बड़ा होता है, यह एक बढ़िया open source है।