iPhone 17 Pro पर 400B LLM चलाना
(twitter.com/anemll)- iPhone 17 Pro पर 400 अरब पैरामीटर वाले LLM को चलाया गया, गति लगभग 0.6 टोकन प्रति सेकंड
- मॉडल Mixture of Experts(MoE) संरचना पर आधारित है, और वास्तव में सक्रिय होने वाले वज़न लगभग 5 अरब पैरामीटर हैं
- इसे 4bit quantization संस्करण के रूप में पुनर्निर्मित किया गया, लेकिन यह बहुत धीमा है
- GPU·CPU RAM के दोहरे उपयोग और SSD streaming loading तरीके का इस्तेमाल किया गया
- Flash-Moe को fork किया गया है और Anemll/flash-moe (iOS-App branch) पर सार्वजनिक किया गया है
1 टिप्पणियां
Hacker News की राय
यह जिज्ञासा है कि SSD से GPU तक सीधे streaming करने का तरीका कहीं Apple के 2023 के पेपर LLM in a Flash पर आधारित तो नहीं है
मैंने एक सपना देखा जिसमें हर कोई अपनी जेब में superintelligent AI लेकर घूम रहा था, लेकिन आखिर में सब सिर्फ doomscrolling और catfishing करते रहे और दुनिया खत्म हो गई
मेरा iPad Air(M2) local LLM काफ़ी अच्छी तरह चलाता है, लेकिन कुछ ही सेकंड में overheat हो जाता है और तुरंत throttling शुरू हो जाती है
Qwen3.5-397B-A17B वास्तव में 17B मॉडल की तरह काम करता है। MoE वाले हिस्से को छोड़कर बनाया गया शीर्षक सिर्फ भ्रामक प्रचार है।
quantization भी एक तरह का cheat code है, इसलिए कभी न कभी कोई 1-bit quantized model को भी “बड़ा मॉडल” कह सकता है
यह सवाल है कि “400B मॉडल कहा जा रहा है, लेकिन अगर MoE structure है तो वास्तव में active parameters कितने हैं?”
यह खबर उस समय की याद दिलाती है जब llama.c पहली बार आया था और local run संभव होने पर सब बहुत उत्साहित थे
मैंने पुराने Android फोन(LineageOS) पर Termux इंस्टॉल करके उसके अंदर Ollama और एक छोटा मॉडल चलाया था। performance भयानक थी, लेकिन चल तो गया
Qwen के MoE models में जब active state 2B स्तर तक गिरती है तो performance बहुत तेज़ी से घटती है। वास्तविक inference में दर्जनों गुना कम parameters इस्तेमाल होते हैं, इसलिए उसे 400B मॉडल कहना अर्थहीन है
यह सवाल है कि “इस स्तर के performance वाला मॉडल 100 tokens per second की रफ़्तार से चलने में कितना समय लगेगा?”
अगर आप anemll को follow नहीं करते, तो यह जानना अच्छा होगा कि उसने iPhone के लिए OpenClaw का भी चलने वाला version जारी किया है।
hardware और models के आगे बढ़ने के साथ mobile AI का भविष्य काफ़ी उज्ज्वल दिखता है