- शुद्ध C में छोटे Llama 2 मॉडल पर inference चलाया जा सकता है.
- यह कोड PyTorch में Llama 2 LLM आर्किटेक्चर को train करने और weights को raw binary फ़ाइलों में save करने की सुविधा देता है.
- इसके बाद उन weights को C फ़ाइल में load किया जा सकता है.
- C फ़ाइल काफ़ी बड़े मॉडल को बहुत तेज़ी से चला सकती है.
- यह प्रोजेक्ट एक weekend project के रूप में बनाया गया है, production library नहीं है.
- आप pre-trained मॉडल डाउनलोड करके उसे C में चला सकते हैं.
- C कोड raw tokens को stream करता है, जिन्हें एक सरल wrapper की मदद से text में बदला जा सकता है.
- C कोड M1 MacBook Air पर लगभग 100 tokens/second की गति से चलता है.
- C कोड का output मॉडल के आधार पर जनरेट किया गया text होता है.
- यह प्रोजेक्ट एक विशेष application पर फ़ोकस करता है और उसी आर्किटेक्चर को scratch से train करता है.
- आप source dataset डाउनलोड करके, उसे pre-tokenize करके, फिर मॉडल को train कर सकते हैं.
- hyperparameter को adjust करके बेहतर मॉडल बनाया जा सकता है.
- तुलना के लिए PyTorch inference script भी चलाई जा सकती है.
- दिए गए test script का उपयोग करके विस्तृत test किए जा सकते हैं.
- इस प्रोजेक्ट में PyTorch training से
model.bin फ़ाइल और model.ckpt फ़ाइल की आवश्यकता होती है.
- text में कुछ TODOs और सवालों का भी उल्लेख है.
- यह प्रोजेक्ट MIT license के तहत उपलब्ध है.
1 टिप्पणियां
Hacker News राय