2 पॉइंट द्वारा GN⁺ 2023-09-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • यह लेख Petals नाम की एक नई तकनीक का परिचय देता है, जो BitTorrent की तरह उपयोगकर्ताओं को घर पर बड़े language models (LLMs) चलाने में सक्षम बनाती है.
  • Petals कई LLMs और उनके derivatives को support करता है, जिनमें Llama 2 (70B), Falcon (180B), BLOOM (176B) शामिल हैं.
  • यह तकनीक उपयोगकर्ता के डिवाइस पर मॉडल का एक हिस्सा लोड करती है, फिर बाकी हिस्सा उपलब्ध कराने वाले अन्य उपयोगकर्ताओं के नेटवर्क से जुड़कर काम करती है.
  • यह Llama 2 के लिए 6 tokens/second और Falcon के लिए 4 tokens/second की single-batch inference speed देता है. यह speed chatbots और interactive apps के लिए पर्याप्त है.
  • Petals पारंपरिक LLM API से आगे जाता है, क्योंकि यह उपयोगकर्ताओं को किसी भी fine-tuning और sampling method का उपयोग करने, मॉडल के माध्यम से custom path चलाने, या hidden states देखने की सुविधा देता है.
  • Petals PyTorch और 🤗 Transformers की flexibility को API की सुविधा के साथ जोड़ता है.
  • उपयोगकर्ता Google Colab में Petals को आज़मा सकते हैं और GitHub पर documentation देख सकते हैं.
  • लेख परियोजना के प्रमुख contributors की सूची देता है और GPU contribute करने के लिए एक लिंक भी प्रदान करता है.
  • उपयोगकर्ता Discord या email subscription के माध्यम से Petals के development को follow कर सकते हैं.
  • यह project BigScience research workshop का हिस्सा है.

1 टिप्पणियां

 
GN⁺ 2023-09-18
Hacker News राय
  • BitTorrent जैसे तरीके से घर पर बड़े language models (LLMs) चलाने के एक नए तरीके पर लेख
  • मॉडल weights को कई मशीनों में layers के रूप में बांटकर सहयोग से inference या fine-tuning किया जाता है
  • Ollama नाम का एक प्रोजेक्ट विकसित किया जा रहा है, जो Docker registry में मॉडल weights होस्ट करता है ताकि हर बार सही weights डाउनलोड होना सुनिश्चित हो
  • quantization/QLORA के उपयोग से बड़े models को consumer hardware पर स्वीकार्य गति से चलाया जा सकता है, और अलग-अलग servers के बीच parallelism से होने वाली latency से बचा जा सकता है
  • 70B जैसे बड़े models की fine-tuning चुनौतीपूर्ण है और महंगे संसाधन मांगती है; "llama training horde" जैसी सामूहिक योगदान की एक पेशकश
  • सिस्टम की कमजोरियों को लेकर चिंता, जहां दुर्भावनापूर्ण प्रतिभागी outputs बदल सकते हैं या बेकार परिणाम लौटाकर सिस्टम को बाधित कर सकते हैं
  • प्रोजेक्ट का एक हिस्सा Petals है, जो उपयोगकर्ताओं को GPU साझा करने और code में योगदान देने की सुविधा देता है, जिससे एक सामान्य coding अनुभव मिलता है
  • सिस्टम वितरित tokens की एक निश्चित संख्या उपलब्ध करा सकता है, जिससे कम-क्षमता वाले devices उपयोग करने वालों को फायदा मिल सकता है
  • यह प्रोजेक्ट संभावित रूप से game changer दिखता है और इस क्षेत्र में अधिक developers के लिए पहुंच आसान बना सकता है
  • Petals, AI Horde kudos जैसी एक केंद्रीकृत incentive system चलाता है, जबकि बाकी पहलुओं में यह एक distributed system है. incentives को पैसे में बदला नहीं जा सकता और इन्हें सिस्टम के भीतर उपयोग के लिए बनाया गया है
  • कुछ उपयोगकर्ताओं को GPU साझा करने की कोशिश करते समय dependency version से जुड़ी समस्याएं हुईं
  • GPU cycles के लिए "tokens" इस्तेमाल करने का सुझाव, साथ ही solar PV energy के उपयोग को अधिकतम करने के लिए सूरज के साथ चलने का विचार प्रस्तुत किया गया