MLC-LLM के साथ iOS पर लोकल LLM (Gemma 3) चलाना
(blog.devstory.co.kr)यह Gemma 3 मॉडल को MLC-LLM के जरिए iOS डिवाइस पर लोकल रूप से चलाने की विधि और वास्तविक रनटाइम प्रदर्शन संकेतकों को संक्षेप में समझाने वाली पोस्ट है.
सारांश
- MLC-LLM का उपयोग: Metal API acceleration के जरिए मोबाइल डिवाइस पर भी लगभग बिना latency वाला आरामदायक inference environment तैयार करना
- Gemma 3 1B build प्रक्रिया: Hugging Face मॉडल डाउनलोड से लेकर q4f16_1 quantization, conversation template (
gemma3_instruction) लागू करने और Metal kernel compile करने तक की पूरी workflow guide - प्रदर्शन और resource संकेतक:
- Gemma 2 2B: लगभग 2.4GB VRAM उपयोग
- Gemma 3 1B: लगभग 1.14GB VRAM उपयोग
- रन टिप:
mlc-package-config.jsonसेटिंग के जरिए custom मॉडल को Xcode project में package करने का तरीका भी शामिल
मूल्यांकन
- MLC-LLM का उपयोग करने पर उच्च-प्रदर्शन LLM को सीधे iOS डिवाइस पर पोर्ट किया जा सकता है, जिससे privacy protection और offline execution—दोनों के फायदे मिलते हैं
- यह JSON format जैसी structured response बनाने में कुछ हद तक कठिनाई दिखाता है
- जिन फीचर्स में जटिल system prompt या data extraction कार्य की जरूरत होती है, उनमें उपयोग के लिए prompt engineering या अतिरिक्त fine-tuning जैसी पूरक तैयारी की आवश्यकता लगती है
- आगे यदि model-specific pipeline integration और project optimization साथ-साथ किए जाएँ, तो अधिक व्यावहारिक On-Device AI service बनाई जा सकती है
8 टिप्पणियां
मैं Galaxy Fold 4 पर qwen 3 0.6b q5 चला रहा हूँ। अभी तक थोड़ा कमी-सी महसूस हो रही है।
मुझे यह जानना है कि निराशा किस हिस्से में है।
क्या मॉडल बहुत छोटा होने की वजह से LLM का प्रदर्शन संतोषजनक नहीं है, या लोकल में चलाने पर execution performance संतोषजनक नहीं है?
परफॉर्मेंस थोड़ी निराशाजनक है। GPU या किसी खास NPU का सपोर्ट अभी नहीं है, इसलिए धीमा है..
मैं Galaxy Note 20 Ultra पर gemma3 1b int4 मॉडल पर रिसर्च कर रहा हूँ
यह पुराने मॉडल पर चलने वाले स्तर का है.
ओह, क्या इसमें Vulkan acceleration भी सपोर्ट होता है?
कहते हैं कि होता है, लेकिन मेरे यहाँ नहीं चल रहा T_T
क्या Galaxy Note20 पर, जब तक थोड़ा कम स्पेक वाले CPU पर अच्छी तरह चलने वाला (अच्छी तरह optimized) मॉडल नहीं आता, तब तक इसे smoothly इस्तेमाल करना मुश्किल नहीं होगा?
ऊपर की सामग्री देखें तो लिखा है कि इसे Mac-विशेष Metal kernel के लिए बनाया गया है।
मेरी जानकारी में, MLX इस्तेमाल करने पर सामान्य GGUF की तुलना में loading और execution ज़्यादा तेज़ हो सकते हैं.
लेकिन 4b तक मामला थोड़ा अस्पष्ट है ;;