Petals - 100B+ भाषा मॉडलों को घर पर BitTorrent-स्टाइल में चलाना
(github.com/bigscience-workshop)- BLOOM-176B जैसे बेहद बड़े भाषा मॉडलों को "मिलकर" चलाना
- अपनी GPU को Petals से कनेक्ट करें
- हर व्यक्ति मॉडल का एक हिस्सा लोड करता है और दूसरों के साथ मिलकर inference और fine-tuning चलाता है
- inference लगभग 1 सेकंड प्रति step (token) पर चलता है, जो offloading की तुलना में 10 गुना तेज है, इसलिए chatbot और अन्य interactive apps के लिए पर्याप्त है
- parallel inference में प्रति सेकंड सैकड़ों tokens संभव हैं
- GPU समय उपलब्ध कराने वालों के लिए स्पष्ट incentive (Bloom points) जोड़ने पर काम चल रहा है
3 टिप्पणियां
अच्छा!!
अरे, यह वह लेख नहीं है...
काफी छोटे BLOOM-7B वर्ज़न को भी अगर लोकल में सीधे चलाएँ, तो Ryzen(16-कोर) + 32GB RAM पर करीब 90 सेकंड लगते हैं, ऐसा कहा जा रहा है.
अगर दावे के मुताबिक यह ठीक से चल जाए, तो काफी अच्छा हो सकता है.. लेकिन इसमें कहीं न कहीं blockchain जैसा एहसास आता है..
(डेवलपर के मुताबिक, इसमें blockchain का इस्तेमाल नहीं किया जाता है)