iPhone 17 Pro पर 400B LLM चलाना
(twitter.com/anemll)- iPhone 17 Pro पर 400 अरब पैरामीटर वाले LLM को चलाया गया, गति लगभग 0.6 टोकन प्रति सेकंड
- मॉडल Mixture of Experts(MoE) संरचना पर आधारित है, और वास्तव में सक्रिय होने वाले वज़न लगभग 5 अरब पैरामीटर हैं
- इसे 4bit quantization संस्करण के रूप में पुनर्निर्मित किया गया, लेकिन यह बहुत धीमा है
- GPU·CPU RAM के दोहरे उपयोग और SSD streaming loading तरीके का इस्तेमाल किया गया
- Flash-Moe को fork किया गया है और Anemll/flash-moe (iOS-App branch) पर सार्वजनिक किया गया है
अभी कोई टिप्पणी नहीं है.