- यह लेख Petals नाम की एक नई तकनीक का परिचय देता है, जो BitTorrent की तरह उपयोगकर्ताओं को घर पर बड़े language models (LLMs) चलाने में सक्षम बनाती है.
- Petals कई LLMs और उनके derivatives को support करता है, जिनमें Llama 2 (70B), Falcon (180B), BLOOM (176B) शामिल हैं.
- यह तकनीक उपयोगकर्ता के डिवाइस पर मॉडल का एक हिस्सा लोड करती है, फिर बाकी हिस्सा उपलब्ध कराने वाले अन्य उपयोगकर्ताओं के नेटवर्क से जुड़कर काम करती है.
- यह Llama 2 के लिए 6 tokens/second और Falcon के लिए 4 tokens/second की single-batch inference speed देता है. यह speed chatbots और interactive apps के लिए पर्याप्त है.
- Petals पारंपरिक LLM API से आगे जाता है, क्योंकि यह उपयोगकर्ताओं को किसी भी fine-tuning और sampling method का उपयोग करने, मॉडल के माध्यम से custom path चलाने, या hidden states देखने की सुविधा देता है.
- Petals PyTorch और 🤗 Transformers की flexibility को API की सुविधा के साथ जोड़ता है.
- उपयोगकर्ता Google Colab में Petals को आज़मा सकते हैं और GitHub पर documentation देख सकते हैं.
- लेख परियोजना के प्रमुख contributors की सूची देता है और GPU contribute करने के लिए एक लिंक भी प्रदान करता है.
- उपयोगकर्ता Discord या email subscription के माध्यम से Petals के development को follow कर सकते हैं.
- यह project BigScience research workshop का हिस्सा है.
1 टिप्पणियां
Hacker News राय