Mac mini पर Ollama और Gemma 4 26B मॉडल सेटअप का सारांश (अप्रैल 2026 के अनुसार)
(gist.github.com/greenstevester)- Apple Silicon-आधारित Mac mini पर Ollama और Gemma 4 मॉडल को ऑटो-रन करने और मेमोरी में लगातार बनाए रखने की कॉन्फ़िगरेशन प्रक्रिया का सारांश
- Homebrew, Launch Agent, और environment variables का उपयोग करके रीबूट के बाद भी मॉडल ऑटो-लोड होता है, और 8B मॉडल लगभग 9.6GB मेमोरी के साथ स्थिर रूप से चलता है
- Ollama v0.19 या बाद के संस्करण MLX backend और NVFP4 format को सपोर्ट करते हैं, जिससे Apple और NVIDIA वातावरण में inference performance बेहतर होती है
- 26B मॉडल का मेमोरी उपयोग बहुत अधिक है, इसलिए इसकी सिफारिश नहीं की जाती; 8B मॉडल वास्तविक उपयोग के लिए अधिक उपयुक्त है
- लोकल API के माध्यम से OpenAI-compatible Chat Completion रिक्वेस्ट संभव हैं, जिससे Mac mini पर persistent LLM service environment बनाना उपयोगी होता है
पहले से तैयारी
- Apple Silicon (M1~M5) आधारित Mac mini आवश्यक
- Gemma 4 (8B) मॉडल चलाने के लिए कम से कम 16GB unified memory की सिफारिश
- Homebrew इंस्टॉल किया हुआ macOS environment आवश्यक
Step 1 — Ollama इंस्टॉल करना
-
Homebrew cask का उपयोग करके Ollama macOS app इंस्टॉल करें
brew install --cask ollama-app -
इंस्टॉल के बाद
/Applications/में Ollama.app, और/opt/homebrew/bin/ollamaमें CLI रखा जाता है -
ऑटो-अपडेट और MLX backend शामिल
Step 2 — Ollama चलाना और जाँच करना
-
Ollama app चलाएँ
open -a Ollama -
मेन्यू बार में आइकन दिखने के बाद server initialization का इंतज़ार करें
-
चलने की स्थिति जाँचें
ollama list
Step 3 — Gemma 4 मॉडल डाउनलोड करना
-
मॉडल डाउनलोड करें
ollama pull gemma4 -
लगभग 9.6GB डाउनलोड होने के बाद
ollama listसे जाँचें -
26B मॉडल 24GB मेमोरी का अधिकांश हिस्सा ले लेता है, जिससे system responsiveness कम हो सकती है
- डिफ़ॉल्ट 8B (Q4_K_M quantization) मॉडल की सिफारिश की जाती है
Step 4 — मॉडल टेस्ट और GPU acceleration की जाँच
-
मॉडल टेस्ट करें
ollama run gemma4:latest "Hello, what model are you?" -
GPU acceleration की स्थिति जाँचें
ollama ps- उदाहरण: CPU/GPU अनुपात 14%/86%
Step 5 — ऑटो-रन और मॉडल retention सेटिंग
-
5a. Ollama app को ऑटो-रन करना
- मेन्यू बार आइकन पर क्लिक करें → Launch at Login सक्षम करें
- या System Settings > General > Login Items में मैन्युअली जोड़ें
-
5b. Gemma 4 को ऑटो-प्रिलोड करना
-
Ollama शुरू होने के बाद मॉडल को ऑटो-लोड करने और हर 5 मिनट पर बनाए रखने के लिए Launch Agent बनाएँ
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF -
एजेंट लोड करें
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist -
हर 5 मिनट पर खाली prompt भेजकर मॉडल को मेमोरी में बनाए रखें
-
-
5c. मॉडल को अनिश्चितकाल तक बनाए रखना
-
डिफ़ॉल्ट रूप से 5 मिनट निष्क्रिय रहने पर मॉडल unload हो जाता है
-
अनिश्चितकाल तक बनाए रखने की सेटिंग
launchctl setenv OLLAMA_KEEP_ALIVE "-1" -
रीबूट के बाद भी बनाए रखने के लिए इसे
~/.zshrcमें जोड़ें
-
Step 6 — सेटिंग की पुष्टि
-
Ollama server चल रहा है या नहीं, जाँचें
ollama list -
मॉडल मेमोरी में लोड है या नहीं, जाँचें
ollama ps -
Launch Agent रजिस्ट्रेशन की जाँच करें
launchctl list | grep ollama -
अपेक्षित आउटपुट उदाहरण
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
API access
-
लोकल API endpoint:
http://localhost:11434 -
OpenAI-compatible Chat Completion उदाहरण
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
उपयोगी कमांड
| कमांड | विवरण |
|---|---|
ollama list |
डाउनलोड किए गए मॉडलों की सूची |
ollama ps |
चल रहे मॉडल और मेमोरी उपयोग |
ollama run gemma4:latest |
इंटरैक्टिव रन |
ollama stop gemma4:latest |
मॉडल unload |
ollama pull gemma4:latest |
नवीनतम संस्करण अपडेट |
ollama rm gemma4:latest |
मॉडल हटाएँ |
Ollama हटाना और ऑटो-रन बंद करना
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
Ollama v0.19+ के प्रमुख सुधार (31 मार्च 2026)
-
MLX backend (Apple Silicon)
- inference speed बढ़ाने के लिए Apple MLX framework का स्वतः उपयोग
- M5 series chips में अतिरिक्त GPU Neural Accelerator acceleration support
- M4 या उससे नीचे के chips पर भी MLX-आधारित सामान्य speed improvement लागू
-
NVFP4 format (NVIDIA)
- NVFP4 format के ज़रिए accuracy बनाए रखते हुए memory bandwidth और storage space कम होता है
- NVIDIA model optimization tools से बनाए गए मॉडलों के साथ compatible
-
caching सुधार (coding और agent tasks)
- मेमोरी उपयोग में कमी: बातचीतों के बीच cache reuse से efficiency बेहतर
- intelligent checkpoints: prompt processing कम और response speed बेहतर
- smart cache eviction: common prefixes बनाए रखकर branching tasks की efficiency बेहतर
अतिरिक्त नोट्स
- Gemma 4 (8B) मॉडल लगभग 9.6GB मेमोरी उपयोग करता है
- 24GB Mac mini में लगभग 14GB खाली रह सकती है
- 26B मॉडल लगभग 17GB उपयोग करता है, जिससे system swap और responsiveness में गिरावट हो सकती है
- 8B मॉडल स्थिर performance देता है
1 टिप्पणियां
Hacker News की राय
जो लोग पहली बार open weight model को रिलीज़ के तुरंत बाद इस्तेमाल कर रहे हैं, उन्हें पता होना चाहिए कि शुरुआती implementation और quantization में हमेशा bugs होते हैं
हर project रिलीज़ डेट तक support देने की जल्दी में होता है, इसलिए नतीजे सही न भी हों
tokenizer implementation में पहले ही कई समस्याएँ मिल चुकी हैं, और imatrix इस्तेमाल करने वाला quantization भी समस्याग्रस्त हो सकता है
अगले कुछ हफ्तों में “tool calling काम नहीं कर रही इसलिए model बेकार है” जैसी बहुत-सी पोस्ट आएँगी। असल में वे लोग टूटी हुई implementation इस्तेमाल कर रहे होंगे
cutting-edge model इस्तेमाल करना है तो inference engine को बार-बार update करना होगा, और quantized version बदलते ही उसे फिर से download करने के लिए तैयार रहना होगा
रिलीज़ डेट तक पहुँचने की होड़ में अक्सर “output token आते ही deploy” जैसा माहौल होता है, इसलिए accuracy verification बाद की बात बन जाती है
tool calling के काम न करने की समस्या बार-बार आती है, लेकिन समझ नहीं आता कि यह model की समस्या है या ollama की
मैं Mac mini खरीदकर local में model चलाने का सोच रहा हूँ
मैं Claude को मुख्य रूप से development काम और homelab projects के लिए इस्तेमाल करता हूँ, और जानना चाहता हूँ कि open models उस स्तर तक उपयोगी हैं या $20/month subscription बनाए रखना बेहतर होगा
hardware खरीदकर खुद host करने से पहले, hosting service पर पहले इस्तेमाल करके देखना बेहतर है। इससे model की सीमाएँ पहले ही समझ में आ जाती हैं
लेकिन expectations कम रखनी होंगी। benchmark कुछ भी कहें, Sonnet या Opus से इसकी तुलना नहीं हो सकती
मैंने MacBook Pro M4 (36GB) पर LM Studio में open code frontend से test किया, लेकिन tool calling बार-बार fail हुई, इसलिए वापस qwen पर लौट गया
ऐसा setup रखने वालों में किसी को सफलता मिली है क्या
लेकिन gemma-4-26B-A4B-it-GGUF:Q4_K_M llama.cpp में ठीक चला। speed (38 tokens/sec) और quality दोनों प्रभावशाली थे
मैं Claude Sonnet 4.5 का विकल्प बनने वाला open model ढूँढ़ रहा हूँ
Ollama Cloud या OpenRouter.ai models में कोई व्यवहारिक विकल्प है क्या
benchmarks से ज़्यादा, असली developers के usage experience सुनना चाहता हूँ
MiniMax, GLM, Qwen, Kimi आदि आज़मा चुका हूँ, लेकिन जटिल कामों में इन सबकी सीमाएँ साफ़ दिखती हैं
जानना चाहता हूँ कि किसी ने M5 Air (32GB, 10-core) पर oMLX build के साथ इसे चलाकर देखा है या नहीं। tool calling तक काम करती है या नहीं, यह भी जानना है
मैं व्यक्तिगत रूप से tool calling और
<|channel>thinking support जोड़ने के tests कर रहा हूँ“Gemma 4 12B” के लिए steps बीच में 26B में बदल जाना अजीब है
और ollama ps में “14%/86% CPU/GPU” दिखता है, तो क्या इसका मतलब GPU performance खराब है?
local में 26B model चलाना प्रभावशाली है, लेकिन latency ज़्यादा होने की वजह से chat के अलावा बाकी काम कठिन हो जाते हैं
हमने image generation workload को local inference से API calls में बदल दिया। cold start और generation time बहुत लंबे थे
local setup experimentation के लिए अच्छा है, लेकिन समय पर चलने वाले production workloads के लिए API अब भी ज़्यादा उपयुक्त है
हालाँकि privacy-sensitive data संभालने के मामले में local setup बहुत उपयोगी है
मैं समझना चाहता हूँ कि इतने लोग Ollama क्यों इस्तेमाल करते हैं। मैंने इस्तेमाल किया, लेकिन यह बहुत ज़्यादा simplified लगा
आजकल Unsloth Studio beginners के लिए बेहतर default लगता है
ollama pullकी एक line से model मिल जाता हैHugging Face पर model name और version खुद ढूँढ़ने की जटिलता नहीं रहती
लेकिन गहराई में जाना हो तो आख़िरकार server architecture सीखना ही पड़ता है
अब मैं LM Studio ज़्यादा recommend करता हूँ। Unsloth Studio में क्या अलग है, यह जानने की उत्सुकता है
सच में जीतना है तो Ollama हटाकर सीधे llama.cpp पर जाना चाहिए
16GB GPU पर भी ठीक चलता है, और दूसरे frontends के साथ प्रयोग करने के लिए backend के रूप में भी काफ़ी उपयोगी है
जानना चाहता हूँ कि क्या इस model को local coding के लिए इस्तेमाल किया जा सकता है, और कौन-से IDE या harness compatible हैं
हालाँकि Codex का latest version llama.cpp के साथ API compatibility समस्याएँ रखता है
मुझे Pi पसंद है। यह minimal है और extensible भी। Claude Code या OpenCode भी काफ़ी इस्तेमाल होते हैं
इसे हल करने के लिए मैंने Petsitter नाम का proxy बनाया, जो inference engine और harness के बीच features को emulate करता है
GitHub लिंक
Ollama के ऊपर Petsitter रखें, और उसके ऊपर agent harness लगा दें
Ollama का latest version पहले से ही
"completion", "vision", "audio", "tools", "thinking"support करता हैकल रात इस model को इस्तेमाल करने के लिए Ollama v0.20 prerelease install करना पड़ा था। इसलिए संदेह है कि मौजूदा guide सही है या नहीं