33 पॉइंट द्वारा GN⁺ 2026-04-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Apple Silicon-आधारित Mac mini पर Ollama और Gemma 4 मॉडल को ऑटो-रन करने और मेमोरी में लगातार बनाए रखने की कॉन्फ़िगरेशन प्रक्रिया का सारांश
  • Homebrew, Launch Agent, और environment variables का उपयोग करके रीबूट के बाद भी मॉडल ऑटो-लोड होता है, और 8B मॉडल लगभग 9.6GB मेमोरी के साथ स्थिर रूप से चलता है
  • Ollama v0.19 या बाद के संस्करण MLX backend और NVFP4 format को सपोर्ट करते हैं, जिससे Apple और NVIDIA वातावरण में inference performance बेहतर होती है
  • 26B मॉडल का मेमोरी उपयोग बहुत अधिक है, इसलिए इसकी सिफारिश नहीं की जाती; 8B मॉडल वास्तविक उपयोग के लिए अधिक उपयुक्त है
  • लोकल API के माध्यम से OpenAI-compatible Chat Completion रिक्वेस्ट संभव हैं, जिससे Mac mini पर persistent LLM service environment बनाना उपयोगी होता है

पहले से तैयारी

  • Apple Silicon (M1~M5) आधारित Mac mini आवश्यक
  • Gemma 4 (8B) मॉडल चलाने के लिए कम से कम 16GB unified memory की सिफारिश
  • Homebrew इंस्टॉल किया हुआ macOS environment आवश्यक

Step 1 — Ollama इंस्टॉल करना

  • Homebrew cask का उपयोग करके Ollama macOS app इंस्टॉल करें

    brew install --cask ollama-app
    
  • इंस्टॉल के बाद /Applications/ में Ollama.app, और /opt/homebrew/bin/ollama में CLI रखा जाता है

  • ऑटो-अपडेट और MLX backend शामिल

Step 2 — Ollama चलाना और जाँच करना

  • Ollama app चलाएँ

    open -a Ollama
    
  • मेन्यू बार में आइकन दिखने के बाद server initialization का इंतज़ार करें

  • चलने की स्थिति जाँचें

    ollama list
    

Step 3 — Gemma 4 मॉडल डाउनलोड करना

  • मॉडल डाउनलोड करें

    ollama pull gemma4
    
  • लगभग 9.6GB डाउनलोड होने के बाद ollama list से जाँचें

  • 26B मॉडल 24GB मेमोरी का अधिकांश हिस्सा ले लेता है, जिससे system responsiveness कम हो सकती है

    • डिफ़ॉल्ट 8B (Q4_K_M quantization) मॉडल की सिफारिश की जाती है

Step 4 — मॉडल टेस्ट और GPU acceleration की जाँच

  • मॉडल टेस्ट करें

    ollama run gemma4:latest "Hello, what model are you?"
    
  • GPU acceleration की स्थिति जाँचें

    ollama ps
    
    • उदाहरण: CPU/GPU अनुपात 14%/86%

Step 5 — ऑटो-रन और मॉडल retention सेटिंग

  • 5a. Ollama app को ऑटो-रन करना

    • मेन्यू बार आइकन पर क्लिक करें → Launch at Login सक्षम करें
    • या System Settings > General > Login Items में मैन्युअली जोड़ें
  • 5b. Gemma 4 को ऑटो-प्रिलोड करना

    • Ollama शुरू होने के बाद मॉडल को ऑटो-लोड करने और हर 5 मिनट पर बनाए रखने के लिए Launch Agent बनाएँ

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • एजेंट लोड करें

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • हर 5 मिनट पर खाली prompt भेजकर मॉडल को मेमोरी में बनाए रखें

  • 5c. मॉडल को अनिश्चितकाल तक बनाए रखना

    • डिफ़ॉल्ट रूप से 5 मिनट निष्क्रिय रहने पर मॉडल unload हो जाता है

    • अनिश्चितकाल तक बनाए रखने की सेटिंग

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • रीबूट के बाद भी बनाए रखने के लिए इसे ~/.zshrc में जोड़ें

Step 6 — सेटिंग की पुष्टि

  • Ollama server चल रहा है या नहीं, जाँचें

    ollama list
    
  • मॉडल मेमोरी में लोड है या नहीं, जाँचें

    ollama ps
    
  • Launch Agent रजिस्ट्रेशन की जाँच करें

    launchctl list | grep ollama
    
  • अपेक्षित आउटपुट उदाहरण

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

API access

उपयोगी कमांड

कमांड विवरण
ollama list डाउनलोड किए गए मॉडलों की सूची
ollama ps चल रहे मॉडल और मेमोरी उपयोग
ollama run gemma4:latest इंटरैक्टिव रन
ollama stop gemma4:latest मॉडल unload
ollama pull gemma4:latest नवीनतम संस्करण अपडेट
ollama rm gemma4:latest मॉडल हटाएँ

Ollama हटाना और ऑटो-रन बंद करना

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Ollama v0.19+ के प्रमुख सुधार (31 मार्च 2026)

  • MLX backend (Apple Silicon)

    • inference speed बढ़ाने के लिए Apple MLX framework का स्वतः उपयोग
    • M5 series chips में अतिरिक्त GPU Neural Accelerator acceleration support
    • M4 या उससे नीचे के chips पर भी MLX-आधारित सामान्य speed improvement लागू
  • NVFP4 format (NVIDIA)

    • NVFP4 format के ज़रिए accuracy बनाए रखते हुए memory bandwidth और storage space कम होता है
    • NVIDIA model optimization tools से बनाए गए मॉडलों के साथ compatible
  • caching सुधार (coding और agent tasks)

    • मेमोरी उपयोग में कमी: बातचीतों के बीच cache reuse से efficiency बेहतर
    • intelligent checkpoints: prompt processing कम और response speed बेहतर
    • smart cache eviction: common prefixes बनाए रखकर branching tasks की efficiency बेहतर

अतिरिक्त नोट्स

  • Gemma 4 (8B) मॉडल लगभग 9.6GB मेमोरी उपयोग करता है
    • 24GB Mac mini में लगभग 14GB खाली रह सकती है
  • 26B मॉडल लगभग 17GB उपयोग करता है, जिससे system swap और responsiveness में गिरावट हो सकती है
    • 8B मॉडल स्थिर performance देता है

संदर्भ लिंक

1 टिप्पणियां

 
GN⁺ 2026-04-05
Hacker News की राय
  • जो लोग पहली बार open weight model को रिलीज़ के तुरंत बाद इस्तेमाल कर रहे हैं, उन्हें पता होना चाहिए कि शुरुआती implementation और quantization में हमेशा bugs होते हैं
    हर project रिलीज़ डेट तक support देने की जल्दी में होता है, इसलिए नतीजे सही न भी हों
    tokenizer implementation में पहले ही कई समस्याएँ मिल चुकी हैं, और imatrix इस्तेमाल करने वाला quantization भी समस्याग्रस्त हो सकता है
    अगले कुछ हफ्तों में “tool calling काम नहीं कर रही इसलिए model बेकार है” जैसी बहुत-सी पोस्ट आएँगी। असल में वे लोग टूटी हुई implementation इस्तेमाल कर रहे होंगे
    cutting-edge model इस्तेमाल करना है तो inference engine को बार-बार update करना होगा, और quantized version बदलते ही उसे फिर से download करने के लिए तैयार रहना होगा
    रिलीज़ डेट तक पहुँचने की होड़ में अक्सर “output token आते ही deploy” जैसा माहौल होता है, इसलिए accuracy verification बाद की बात बन जाती है

    • Linux और 4090 environment में कौन-सा inference engine इस्तेमाल करना चाहिए, यह जानना चाहता हूँ
      tool calling के काम न करने की समस्या बार-बार आती है, लेकिन समझ नहीं आता कि यह model की समस्या है या ollama की
  • मैं Mac mini खरीदकर local में model चलाने का सोच रहा हूँ
    मैं Claude को मुख्य रूप से development काम और homelab projects के लिए इस्तेमाल करता हूँ, और जानना चाहता हूँ कि open models उस स्तर तक उपयोगी हैं या $20/month subscription बनाए रखना बेहतर होगा

    • छोटे कामों के लिए ठीक है, लेकिन Claude जैसी उम्मीद रखेंगे तो शायद निराशा होगी
      hardware खरीदकर खुद host करने से पहले, hosting service पर पहले इस्तेमाल करके देखना बेहतर है। इससे model की सीमाएँ पहले ही समझ में आ जाती हैं
    • मैं llama leak के समय से open models इस्तेमाल कर रहा हूँ। वे लगातार बेहतर हो रहे हैं, और बिना internet के local में knowledge bundle चलाना काफ़ी शानदार है
      लेकिन expectations कम रखनी होंगी। benchmark कुछ भी कहें, Sonnet या Opus से इसकी तुलना नहीं हो सकती
    • OpenRouter के सिर्फ $10 credits लेकर खुद test करना सबसे अच्छा है। मेरे अनुभव में अभी भी काफ़ी कमी है, लेकिन बीच-बीच में जाँचते रहना दिलचस्प रहता है
    • gpt-oss-20B की agent performance काफ़ी ठीक लगी, लेकिन Claude Code के paid models से इसकी तुलना नहीं हो सकती। 120B के बारे में सुना है कि वह काफ़ी बेहतर है
  • मैंने MacBook Pro M4 (36GB) पर LM Studio में open code frontend से test किया, लेकिन tool calling बार-बार fail हुई, इसलिए वापस qwen पर लौट गया
    ऐसा setup रखने वालों में किसी को सफलता मिली है क्या

    • tool calling failure inference engine implementation या quantization की समस्या है। कुछ दिनों बाद update के बाद फिर कोशिश करने की सलाह दूँगा। open model release में यह हर बार होता है
    • मेरे M5 (32GB) पर LM Studio चलाते समय computer freeze हो गया था और reboot करना पड़ा
      लेकिन gemma-4-26B-A4B-it-GGUF:Q4_K_M llama.cpp में ठीक चला। speed (38 tokens/sec) और quality दोनों प्रभावशाली थे
    • मुझे भी यही समस्या हुई। LM Studio के Q_8 version में यह commands को बार-बार दोहराने वाले loop mode में फँस गया
    • कुछ लोगों के मुताबिक main और runtime, दोनों versions update करने पड़ते हैं
    • Ubuntu server (charmbracelet/crush) पर भी tool calling failure की पुष्टि हुई
  • मैं Claude Sonnet 4.5 का विकल्प बनने वाला open model ढूँढ़ रहा हूँ
    Ollama Cloud या OpenRouter.ai models में कोई व्यवहारिक विकल्प है क्या
    benchmarks से ज़्यादा, असली developers के usage experience सुनना चाहता हूँ

    • निष्कर्ष यही है कि Sonnet और Opus की जगह लेने वाला कोई model नहीं है। GPT Codex family अब भी शानदार है
      MiniMax, GLM, Qwen, Kimi आदि आज़मा चुका हूँ, लेकिन जटिल कामों में इन सबकी सीमाएँ साफ़ दिखती हैं
    • मुझे GLM5 और KimiK2.5 Sonnet के काफ़ी करीब के विकल्प लगे
  • जानना चाहता हूँ कि किसी ने M5 Air (32GB, 10-core) पर oMLX build के साथ इसे चलाकर देखा है या नहीं। tool calling तक काम करती है या नहीं, यह भी जानना है

    • v0.3.2 release में partial support है। text generation होती है, लेकिन special token handling अभी अधूरी है
      मैं व्यक्तिगत रूप से tool calling और <|channel> thinking support जोड़ने के tests कर रहा हूँ
    • सुना है कि किसी ने Gemma 4 E4B को MLX पर चलाया है (लिंक)
  • “Gemma 4 12B” के लिए steps बीच में 26B में बदल जाना अजीब है
    और ollama ps में “14%/86% CPU/GPU” दिखता है, तो क्या इसका मतलब GPU performance खराब है?

    • Mac mini में CPU और GPU memory share करते हैं, इसलिए उस ratio को नज़रअंदाज़ किया जा सकता है
  • local में 26B model चलाना प्रभावशाली है, लेकिन latency ज़्यादा होने की वजह से chat के अलावा बाकी काम कठिन हो जाते हैं
    हमने image generation workload को local inference से API calls में बदल दिया। cold start और generation time बहुत लंबे थे
    local setup experimentation के लिए अच्छा है, लेकिन समय पर चलने वाले production workloads के लिए API अब भी ज़्यादा उपयुक्त है
    हालाँकि privacy-sensitive data संभालने के मामले में local setup बहुत उपयोगी है

  • मैं समझना चाहता हूँ कि इतने लोग Ollama क्यों इस्तेमाल करते हैं। मैंने इस्तेमाल किया, लेकिन यह बहुत ज़्यादा simplified लगा
    आजकल Unsloth Studio beginners के लिए बेहतर default लगता है

    • Ollama की पहुँच आसान है क्योंकि सिर्फ ollama pull की एक line से model मिल जाता है
      Hugging Face पर model name और version खुद ढूँढ़ने की जटिलता नहीं रहती
      लेकिन गहराई में जाना हो तो आख़िरकार server architecture सीखना ही पड़ता है
    • Ollama को शुरू में first-mover advantage मिला था। उस समय llama.cpp को खुद build करना एक बड़ी बाधा था
      अब मैं LM Studio ज़्यादा recommend करता हूँ। Unsloth Studio में क्या अलग है, यह जानने की उत्सुकता है
    • समझ नहीं आता लोग LMStudio का ज़िक्र ज़्यादा क्यों नहीं करते। मैं कुछ महीने पहले switch हुआ और यह मुझे काफ़ी बेहतर लगा
    • Ollama की लोकप्रियता advertising effect की वजह से है। Reddit और Discord जैसी जगहों पर इसे ‘llama.cpp का आसान frontend’ कहकर promote किया गया
      सच में जीतना है तो Ollama हटाकर सीधे llama.cpp पर जाना चाहिए
    • मैं उल्टा पूछना चाहूँगा — Ollama में दिक्कत क्या है?
      16GB GPU पर भी ठीक चलता है, और दूसरे frontends के साथ प्रयोग करने के लिए backend के रूप में भी काफ़ी उपयोगी है
  • जानना चाहता हूँ कि क्या इस model को local coding के लिए इस्तेमाल किया जा सकता है, और कौन-से IDE या harness compatible हैं

    • ज़्यादातर harness, OpenAI-compatible API endpoint सेट कर देने पर local coding की सुविधा दे देते हैं
      हालाँकि Codex का latest version llama.cpp के साथ API compatibility समस्याएँ रखता है
      मुझे Pi पसंद है। यह minimal है और extensible भी। Claude Code या OpenCode भी काफ़ी इस्तेमाल होते हैं
    • tool calling support होना चाहिए, और कई quantized gguf यह support नहीं करते
      इसे हल करने के लिए मैंने Petsitter नाम का proxy बनाया, जो inference engine और harness के बीच features को emulate करता है
      GitHub लिंक
      Ollama के ऊपर Petsitter रखें, और उसके ऊपर agent harness लगा दें
      Ollama का latest version पहले से ही "completion", "vision", "audio", "tools", "thinking" support करता है
  • कल रात इस model को इस्तेमाल करने के लिए Ollama v0.20 prerelease install करना पड़ा था। इसलिए संदेह है कि मौजूदा guide सही है या नहीं