• iPhone 17 Pro पर 400 अरब पैरामीटर वाले LLM को चलाया गया, गति लगभग 0.6 टोकन प्रति सेकंड
  • मॉडल Mixture of Experts(MoE) संरचना पर आधारित है, और वास्तव में सक्रिय होने वाले वज़न लगभग 5 अरब पैरामीटर हैं
  • इसे 4bit quantization संस्करण के रूप में पुनर्निर्मित किया गया, लेकिन यह बहुत धीमा है
  • GPU·CPU RAM के दोहरे उपयोग और SSD streaming loading तरीके का इस्तेमाल किया गया
  • Flash-Moe को fork किया गया है और Anemll/flash-moe (iOS-App branch) पर सार्वजनिक किया गया है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.