4 पॉइंट द्वारा xguru 2023-01-03 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • BLOOM-176B जैसे बेहद बड़े भाषा मॉडलों को "मिलकर" चलाना
    • अपनी GPU को Petals से कनेक्ट करें
    • हर व्यक्ति मॉडल का एक हिस्सा लोड करता है और दूसरों के साथ मिलकर inference और fine-tuning चलाता है
  • inference लगभग 1 सेकंड प्रति step (token) पर चलता है, जो offloading की तुलना में 10 गुना तेज है, इसलिए chatbot और अन्य interactive apps के लिए पर्याप्त है
    • parallel inference में प्रति सेकंड सैकड़ों tokens संभव हैं
  • GPU समय उपलब्ध कराने वालों के लिए स्पष्ट incentive (Bloom points) जोड़ने पर काम चल रहा है

3 टिप्पणियां

 
won9497 2023-01-03

अच्छा!!

 
won9497 2023-01-03

अरे, यह वह लेख नहीं है...

 
xguru 2023-01-03

काफी छोटे BLOOM-7B वर्ज़न को भी अगर लोकल में सीधे चलाएँ, तो Ryzen(16-कोर) + 32GB RAM पर करीब 90 सेकंड लगते हैं, ऐसा कहा जा रहा है.
अगर दावे के मुताबिक यह ठीक से चल जाए, तो काफी अच्छा हो सकता है.. लेकिन इसमें कहीं न कहीं blockchain जैसा एहसास आता है..
(डेवलपर के मुताबिक, इसमें blockchain का इस्तेमाल नहीं किया जाता है)