6 पॉइंट द्वारा GN⁺ 2026-03-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • iPhone 17 Pro पर 400 अरब पैरामीटर वाले LLM को चलाया गया, गति लगभग 0.6 टोकन प्रति सेकंड
  • मॉडल Mixture of Experts(MoE) संरचना पर आधारित है, और वास्तव में सक्रिय होने वाले वज़न लगभग 5 अरब पैरामीटर हैं
  • इसे 4bit quantization संस्करण के रूप में पुनर्निर्मित किया गया, लेकिन यह बहुत धीमा है
  • GPU·CPU RAM के दोहरे उपयोग और SSD streaming loading तरीके का इस्तेमाल किया गया
  • Flash-Moe को fork किया गया है और Anemll/flash-moe (iOS-App branch) पर सार्वजनिक किया गया है

1 टिप्पणियां

 
GN⁺ 2026-03-24
Hacker News की राय
  • यह जिज्ञासा है कि SSD से GPU तक सीधे streaming करने का तरीका कहीं Apple के 2023 के पेपर LLM in a Flash पर आधारित तो नहीं है

    • हाँ। उससे जुड़े विवरण मैंने अपने ब्लॉग पोस्ट में संक्षेप में लिखे हैं
    • इसी तरह का एक तरीका हाल की इस HN thread में भी दिखाया गया था। लेकिन iPhone Pro में RAM 12GB तक सीमित है, इसलिए मॉडल के active हिस्से को रखने के लिए यह पर्याप्त नहीं है। Intel Optane जैसी ज़्यादा टिकाऊ storage का इस्तेमाल किया जा सकता है, लेकिन उसकी power खपत अधिक है, इसलिए वह mobile के लिए उपयुक्त नहीं है
    • यह तरीका मूल रूप से Cerebus के weights stream करने वाले ढाँचे से बहुत अलग नहीं है
  • मैंने एक सपना देखा जिसमें हर कोई अपनी जेब में superintelligent AI लेकर घूम रहा था, लेकिन आखिर में सब सिर्फ doomscrolling और catfishing करते रहे और दुनिया खत्म हो गई

    • यह सुनकर आधुनिक दौर के Nostradamus जैसा लगता है
  • मेरा iPad Air(M2) local LLM काफ़ी अच्छी तरह चलाता है, लेकिन कुछ ही सेकंड में overheat हो जाता है और तुरंत throttling शुरू हो जाती है

    • सोच रहा हूँ कि क्या किसी ने iPad या फोन के लिए liquid cooling system बनाया है। जैसे कोई sealed डिवाइस जो पीछे चिपक जाए और coolant circulate करे
  • Qwen3.5-397B-A17B वास्तव में 17B मॉडल की तरह काम करता है। MoE वाले हिस्से को छोड़कर बनाया गया शीर्षक सिर्फ भ्रामक प्रचार है।
    quantization भी एक तरह का cheat code है, इसलिए कभी न कभी कोई 1-bit quantized model को भी “बड़ा मॉडल” कह सकता है

    • व्यवहार में यह लगभग 80B मॉडल की तरह काम करता है, और world knowledge का स्तर 400B मॉडल के करीब है। मॉडल architecture से लेकर quantization और time to first token तक सब सार्वजनिक है, इसलिए गलतफ़हमी की ज़्यादा गुंजाइश नहीं है। यह कोशिश आम users के लिए कम और code golf जैसी technical experiment ज़्यादा है
  • यह सवाल है कि “400B मॉडल कहा जा रहा है, लेकिन अगर MoE structure है तो वास्तव में active parameters कितने हैं?”

    • Qwen3.5-397B-A17B में 17B parameters active रहते हैं। संबंधित code flash-moe iOS App repository में देखा जा सकता है
    • आजकल ज़्यादातर कंपनियाँ MoE structure अपना रही हैं
  • यह खबर उस समय की याद दिलाती है जब llama.c पहली बार आया था और local run संभव होने पर सब बहुत उत्साहित थे

  • मैंने पुराने Android फोन(LineageOS) पर Termux इंस्टॉल करके उसके अंदर Ollama और एक छोटा मॉडल चलाया था। performance भयानक थी, लेकिन चल तो गया

    • मुझे याद है कि पहले Galaxy Note पर Linux Deploy से खुद Bitcoin miner बनाकर चलाया था। performance बेकार थी, लेकिन जेब में एक पूरा कंप्यूटर होने जैसा एहसास था। Nokia के ज़माने में browser JS के अलावा कुछ भी नहीं चला सकते थे, लेकिन Android सच में एक hackable platform था
    • संदर्भ के लिए, मेरा Pixel 8 Qwen3.5 4B मॉडल को 2 tokens per second की रफ़्तार से चलाता है। PocketPal ऐप में यह ठीक चलता है, लेकिन Cactus ऐप ने काम नहीं किया
  • Qwen के MoE models में जब active state 2B स्तर तक गिरती है तो performance बहुत तेज़ी से घटती है। वास्तविक inference में दर्जनों गुना कम parameters इस्तेमाल होते हैं, इसलिए उसे 400B मॉडल कहना अर्थहीन है

  • यह सवाल है कि “इस स्तर के performance वाला मॉडल 100 tokens per second की रफ़्तार से चलने में कितना समय लगेगा?”

    • एकमात्र तरीका है मॉडल को सीधे hardware में embed करना। वास्तव में इस ब्लॉग पोस्ट में ऐसा chip दिखाया गया है, लेकिन वह बड़ा है इसलिए smartphone में नहीं आ सकता
    • smartphone पर ऐसे बड़े models चलाने का कोई खास मतलब नहीं है। किसी खास काम के लिए छोटे मॉडल को fine-tune करना ज़्यादा तेज़ और सटीक है
    • Liquid AI का Apollo (LFM2) मॉडल फोन पर भी काफ़ी तेज़ चलता है, और search result summary या math problems हल करने जैसे कामों में उपयोगी है
    • व्यावहारिक रूप से यह असंभव लगता है। engineering के हिसाब से इसका कोई समाधान नहीं है
    • शायद 15~20 साल लगेंगे। आज फोन पर यह मॉडल “चलता है” कहना सिर्फ तकनीकी अर्थ में सही है। वास्तव में RAM capacity और memory bandwidth बहुत कम हैं। SSD का इस्तेमाल करके demo दिखाया जा सकता है, लेकिन वह practical नहीं है। आखिरकार नए algorithms और custom chip design की ज़रूरत होगी। मौजूदा Transformer structure की सीमाएँ साफ़ हैं
  • अगर आप anemll को follow नहीं करते, तो यह जानना अच्छा होगा कि उसने iPhone के लिए OpenClaw का भी चलने वाला version जारी किया है।
    hardware और models के आगे बढ़ने के साथ mobile AI का भविष्य काफ़ी उज्ज्वल दिखता है