Mac mini पर Ollama और Gemma 4 26B मॉडल सेटअप का सारांश (अप्रैल 2026 के अनुसार)

(gist.github.com/greenstevester)

33 पॉइंट द्वारा GN⁺ 26 일 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Apple Silicon-आधारित Mac mini पर Ollama और Gemma 4 मॉडल को ऑटो-रन करने और मेमोरी में लगातार बनाए रखने की कॉन्फ़िगरेशन प्रक्रिया का सारांश
Homebrew, Launch Agent, और environment variables का उपयोग करके रीबूट के बाद भी मॉडल ऑटो-लोड होता है, और 8B मॉडल लगभग 9.6GB मेमोरी के साथ स्थिर रूप से चलता है
Ollama v0.19 या बाद के संस्करण MLX backend और NVFP4 format को सपोर्ट करते हैं, जिससे Apple और NVIDIA वातावरण में inference performance बेहतर होती है
26B मॉडल का मेमोरी उपयोग बहुत अधिक है, इसलिए इसकी सिफारिश नहीं की जाती; 8B मॉडल वास्तविक उपयोग के लिए अधिक उपयुक्त है
लोकल API के माध्यम से OpenAI-compatible Chat Completion रिक्वेस्ट संभव हैं, जिससे Mac mini पर persistent LLM service environment बनाना उपयोगी होता है

पहले से तैयारी

Apple Silicon (M1~M5) आधारित Mac mini आवश्यक
Gemma 4 (8B) मॉडल चलाने के लिए कम से कम 16GB unified memory की सिफारिश
Homebrew इंस्टॉल किया हुआ macOS environment आवश्यक

Step 1 — Ollama इंस्टॉल करना

Homebrew cask का उपयोग करके Ollama macOS app इंस्टॉल करें
```
brew install --cask ollama-app
```
इंस्टॉल के बाद /Applications/ में Ollama.app, और /opt/homebrew/bin/ollama में CLI रखा जाता है
ऑटो-अपडेट और MLX backend शामिल

Step 2 — Ollama चलाना और जाँच करना

Ollama app चलाएँ
```
open -a Ollama
```
मेन्यू बार में आइकन दिखने के बाद server initialization का इंतज़ार करें
चलने की स्थिति जाँचें
```
ollama list
```

Step 3 — Gemma 4 मॉडल डाउनलोड करना

मॉडल डाउनलोड करें
```
ollama pull gemma4
```
लगभग 9.6GB डाउनलोड होने के बाद ollama list से जाँचें
26B मॉडल 24GB मेमोरी का अधिकांश हिस्सा ले लेता है, जिससे system responsiveness कम हो सकती है
- डिफ़ॉल्ट 8B (Q4_K_M quantization) मॉडल की सिफारिश की जाती है

Step 4 — मॉडल टेस्ट और GPU acceleration की जाँच

मॉडल टेस्ट करें

ollama run gemma4:latest "Hello, what model are you?"

GPU acceleration की स्थिति जाँचें
```
ollama ps
```
- उदाहरण: CPU/GPU अनुपात 14%/86%

Step 5 — ऑटो-रन और मॉडल retention सेटिंग

5a. Ollama app को ऑटो-रन करना
- मेन्यू बार आइकन पर क्लिक करें → Launch at Login सक्षम करें
- या System Settings > General > Login Items में मैन्युअली जोड़ें
5b. Gemma 4 को ऑटो-प्रिलोड करना
- Ollama शुरू होने के बाद मॉडल को ऑटो-लोड करने और हर 5 मिनट पर बनाए रखने के लिए Launch Agent बनाएँ
```
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
...
EOF
```
- एजेंट लोड करें
```
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
```
- हर 5 मिनट पर खाली prompt भेजकर मॉडल को मेमोरी में बनाए रखें
5c. मॉडल को अनिश्चितकाल तक बनाए रखना
- डिफ़ॉल्ट रूप से 5 मिनट निष्क्रिय रहने पर मॉडल unload हो जाता है
- अनिश्चितकाल तक बनाए रखने की सेटिंग
```
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
```
- रीबूट के बाद भी बनाए रखने के लिए इसे ~/.zshrc में जोड़ें

Step 6 — सेटिंग की पुष्टि

Ollama server चल रहा है या नहीं, जाँचें
```
ollama list
```
मॉडल मेमोरी में लोड है या नहीं, जाँचें
```
ollama ps
```
Launch Agent रजिस्ट्रेशन की जाँच करें
```
launchctl list | grep ollama
```
अपेक्षित आउटपुट उदाहरण
```
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
```

API access

लोकल API endpoint: http://localhost:11434

OpenAI-compatible Chat Completion उदाहरण

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:latest",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

उपयोगी कमांड

कमांड	विवरण
`ollama list`	डाउनलोड किए गए मॉडलों की सूची
`ollama ps`	चल रहे मॉडल और मेमोरी उपयोग
`ollama run gemma4:latest`	इंटरैक्टिव रन
`ollama stop gemma4:latest`	मॉडल unload
`ollama pull gemma4:latest`	नवीनतम संस्करण अपडेट
`ollama rm gemma4:latest`	मॉडल हटाएँ

Ollama हटाना और ऑटो-रन बंद करना

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Ollama v0.19+ के प्रमुख सुधार (31 मार्च 2026)

MLX backend (Apple Silicon)
- inference speed बढ़ाने के लिए Apple MLX framework का स्वतः उपयोग
- M5 series chips में अतिरिक्त GPU Neural Accelerator acceleration support
- M4 या उससे नीचे के chips पर भी MLX-आधारित सामान्य speed improvement लागू
NVFP4 format (NVIDIA)
- NVFP4 format के ज़रिए accuracy बनाए रखते हुए memory bandwidth और storage space कम होता है
- NVIDIA model optimization tools से बनाए गए मॉडलों के साथ compatible
caching सुधार (coding और agent tasks)
- मेमोरी उपयोग में कमी: बातचीतों के बीच cache reuse से efficiency बेहतर
- intelligent checkpoints: prompt processing कम और response speed बेहतर
- smart cache eviction: common prefixes बनाए रखकर branching tasks की efficiency बेहतर

अतिरिक्त नोट्स

Gemma 4 (8B) मॉडल लगभग 9.6GB मेमोरी उपयोग करता है
- 24GB Mac mini में लगभग 14GB खाली रह सकती है
26B मॉडल लगभग 17GB उपयोग करता है, जिससे system swap और responsiveness में गिरावट हो सकती है
- 8B मॉडल स्थिर performance देता है

Mac mini पर Ollama और Gemma 4 26B मॉडल सेटअप का सारांश (अप्रैल 2026 के अनुसार)

पहले से तैयारी

Step 1 — Ollama इंस्टॉल करना

Step 2 — Ollama चलाना और जाँच करना

Step 3 — Gemma 4 मॉडल डाउनलोड करना

Step 4 — मॉडल टेस्ट और GPU acceleration की जाँच

Step 5 — ऑटो-रन और मॉडल retention सेटिंग

5a. Ollama app को ऑटो-रन करना

5b. Gemma 4 को ऑटो-प्रिलोड करना

5c. मॉडल को अनिश्चितकाल तक बनाए रखना

Step 6 — सेटिंग की पुष्टि

API access

उपयोगी कमांड

Ollama हटाना और ऑटो-रन बंद करना

Ollama v0.19+ के प्रमुख सुधार (31 मार्च 2026)

MLX backend (Apple Silicon)

NVFP4 format (NVIDIA)

caching सुधार (coding और agent tasks)

अतिरिक्त नोट्स

संदर्भ लिंक

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.