1 पॉइंट द्वारा GN⁺ 2023-07-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • शुद्ध C में छोटे Llama 2 मॉडल पर inference चलाया जा सकता है.
  • यह कोड PyTorch में Llama 2 LLM आर्किटेक्चर को train करने और weights को raw binary फ़ाइलों में save करने की सुविधा देता है.
  • इसके बाद उन weights को C फ़ाइल में load किया जा सकता है.
  • C फ़ाइल काफ़ी बड़े मॉडल को बहुत तेज़ी से चला सकती है.
  • यह प्रोजेक्ट एक weekend project के रूप में बनाया गया है, production library नहीं है.
  • आप pre-trained मॉडल डाउनलोड करके उसे C में चला सकते हैं.
  • C कोड raw tokens को stream करता है, जिन्हें एक सरल wrapper की मदद से text में बदला जा सकता है.
  • C कोड M1 MacBook Air पर लगभग 100 tokens/second की गति से चलता है.
  • C कोड का output मॉडल के आधार पर जनरेट किया गया text होता है.
  • यह प्रोजेक्ट एक विशेष application पर फ़ोकस करता है और उसी आर्किटेक्चर को scratch से train करता है.
  • आप source dataset डाउनलोड करके, उसे pre-tokenize करके, फिर मॉडल को train कर सकते हैं.
  • hyperparameter को adjust करके बेहतर मॉडल बनाया जा सकता है.
  • तुलना के लिए PyTorch inference script भी चलाई जा सकती है.
  • दिए गए test script का उपयोग करके विस्तृत test किए जा सकते हैं.
  • इस प्रोजेक्ट में PyTorch training से model.bin फ़ाइल और model.ckpt फ़ाइल की आवश्यकता होती है.
  • text में कुछ TODOs और सवालों का भी उल्लेख है.
  • यह प्रोजेक्ट MIT license के तहत उपलब्ध है.

1 टिप्पणियां

 
GN⁺ 2023-07-24
Hacker News राय
  • आंद्रेज OpenAI से वेतन लेते हुए Apple, Facebook और open source आंदोलन की भी मदद कर रहे हैं।
  • मूल checkpoint MacBook Air M1 पर उम्मीद से ज़्यादा तेज़ चलता है।
  • नया 44M मॉडल training में है।
  • Llama मॉडल Emscripten के ज़रिए browser में चलता है।
  • local-आधारित LLM, local inference के लिए webapp बनाने की एक दिलचस्प तकनीक है।
  • कोड WASI SDK के साथ साफ़-सुथरे तरीके से build होता है और Wasm runtime में चलता है।
  • अधिक जानकारी आंद्रेज के Twitter पर देखी जा सकती है।
  • neural network चलाने के लिए ज़रूरी memory requirements पर चर्चा की गई है।
  • यह सामने आया कि Llama-2 का उपयोग creative कामों के लिए नहीं किया जा सकता।
  • संभव है कि उद्योग हर जारी किए गए मॉडल के लिए अलग source code की ओर बढ़े।
  • "एक ही फ़ाइल में" या "header-only" के आकर्षण पर चर्चा हुई।
  • yolo को कम करने के लिए बेहतर tests बनाने पर एक मज़ेदार टिप्पणी है।