Mac mini पर Ollama और Gemma 4 26B मॉडल सेटअप का सारांश (अप्रैल 2026 के अनुसार)
(gist.github.com/greenstevester)- Apple Silicon-आधारित Mac mini पर Ollama और Gemma 4 मॉडल को ऑटो-रन करने और मेमोरी में लगातार बनाए रखने की कॉन्फ़िगरेशन प्रक्रिया का सारांश
- Homebrew, Launch Agent, और environment variables का उपयोग करके रीबूट के बाद भी मॉडल ऑटो-लोड होता है, और 8B मॉडल लगभग 9.6GB मेमोरी के साथ स्थिर रूप से चलता है
- Ollama v0.19 या बाद के संस्करण MLX backend और NVFP4 format को सपोर्ट करते हैं, जिससे Apple और NVIDIA वातावरण में inference performance बेहतर होती है
- 26B मॉडल का मेमोरी उपयोग बहुत अधिक है, इसलिए इसकी सिफारिश नहीं की जाती; 8B मॉडल वास्तविक उपयोग के लिए अधिक उपयुक्त है
- लोकल API के माध्यम से OpenAI-compatible Chat Completion रिक्वेस्ट संभव हैं, जिससे Mac mini पर persistent LLM service environment बनाना उपयोगी होता है
पहले से तैयारी
- Apple Silicon (M1~M5) आधारित Mac mini आवश्यक
- Gemma 4 (8B) मॉडल चलाने के लिए कम से कम 16GB unified memory की सिफारिश
- Homebrew इंस्टॉल किया हुआ macOS environment आवश्यक
Step 1 — Ollama इंस्टॉल करना
-
Homebrew cask का उपयोग करके Ollama macOS app इंस्टॉल करें
brew install --cask ollama-app -
इंस्टॉल के बाद
/Applications/में Ollama.app, और/opt/homebrew/bin/ollamaमें CLI रखा जाता है -
ऑटो-अपडेट और MLX backend शामिल
Step 2 — Ollama चलाना और जाँच करना
-
Ollama app चलाएँ
open -a Ollama -
मेन्यू बार में आइकन दिखने के बाद server initialization का इंतज़ार करें
-
चलने की स्थिति जाँचें
ollama list
Step 3 — Gemma 4 मॉडल डाउनलोड करना
-
मॉडल डाउनलोड करें
ollama pull gemma4 -
लगभग 9.6GB डाउनलोड होने के बाद
ollama listसे जाँचें -
26B मॉडल 24GB मेमोरी का अधिकांश हिस्सा ले लेता है, जिससे system responsiveness कम हो सकती है
- डिफ़ॉल्ट 8B (Q4_K_M quantization) मॉडल की सिफारिश की जाती है
Step 4 — मॉडल टेस्ट और GPU acceleration की जाँच
-
मॉडल टेस्ट करें
ollama run gemma4:latest "Hello, what model are you?" -
GPU acceleration की स्थिति जाँचें
ollama ps- उदाहरण: CPU/GPU अनुपात 14%/86%
Step 5 — ऑटो-रन और मॉडल retention सेटिंग
-
5a. Ollama app को ऑटो-रन करना
- मेन्यू बार आइकन पर क्लिक करें → Launch at Login सक्षम करें
- या System Settings > General > Login Items में मैन्युअली जोड़ें
-
5b. Gemma 4 को ऑटो-प्रिलोड करना
-
Ollama शुरू होने के बाद मॉडल को ऑटो-लोड करने और हर 5 मिनट पर बनाए रखने के लिए Launch Agent बनाएँ
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF -
एजेंट लोड करें
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist -
हर 5 मिनट पर खाली prompt भेजकर मॉडल को मेमोरी में बनाए रखें
-
-
5c. मॉडल को अनिश्चितकाल तक बनाए रखना
-
डिफ़ॉल्ट रूप से 5 मिनट निष्क्रिय रहने पर मॉडल unload हो जाता है
-
अनिश्चितकाल तक बनाए रखने की सेटिंग
launchctl setenv OLLAMA_KEEP_ALIVE "-1" -
रीबूट के बाद भी बनाए रखने के लिए इसे
~/.zshrcमें जोड़ें
-
Step 6 — सेटिंग की पुष्टि
-
Ollama server चल रहा है या नहीं, जाँचें
ollama list -
मॉडल मेमोरी में लोड है या नहीं, जाँचें
ollama ps -
Launch Agent रजिस्ट्रेशन की जाँच करें
launchctl list | grep ollama -
अपेक्षित आउटपुट उदाहरण
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
API access
-
लोकल API endpoint:
http://localhost:11434 -
OpenAI-compatible Chat Completion उदाहरण
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
उपयोगी कमांड
| कमांड | विवरण |
|---|---|
ollama list |
डाउनलोड किए गए मॉडलों की सूची |
ollama ps |
चल रहे मॉडल और मेमोरी उपयोग |
ollama run gemma4:latest |
इंटरैक्टिव रन |
ollama stop gemma4:latest |
मॉडल unload |
ollama pull gemma4:latest |
नवीनतम संस्करण अपडेट |
ollama rm gemma4:latest |
मॉडल हटाएँ |
Ollama हटाना और ऑटो-रन बंद करना
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
Ollama v0.19+ के प्रमुख सुधार (31 मार्च 2026)
-
MLX backend (Apple Silicon)
- inference speed बढ़ाने के लिए Apple MLX framework का स्वतः उपयोग
- M5 series chips में अतिरिक्त GPU Neural Accelerator acceleration support
- M4 या उससे नीचे के chips पर भी MLX-आधारित सामान्य speed improvement लागू
-
NVFP4 format (NVIDIA)
- NVFP4 format के ज़रिए accuracy बनाए रखते हुए memory bandwidth और storage space कम होता है
- NVIDIA model optimization tools से बनाए गए मॉडलों के साथ compatible
-
caching सुधार (coding और agent tasks)
- मेमोरी उपयोग में कमी: बातचीतों के बीच cache reuse से efficiency बेहतर
- intelligent checkpoints: prompt processing कम और response speed बेहतर
- smart cache eviction: common prefixes बनाए रखकर branching tasks की efficiency बेहतर
अतिरिक्त नोट्स
- Gemma 4 (8B) मॉडल लगभग 9.6GB मेमोरी उपयोग करता है
- 24GB Mac mini में लगभग 14GB खाली रह सकती है
- 26B मॉडल लगभग 17GB उपयोग करता है, जिससे system swap और responsiveness में गिरावट हो सकती है
- 8B मॉडल स्थिर performance देता है
अभी कोई टिप्पणी नहीं है.