• Apple Silicon-आधारित Mac mini पर Ollama और Gemma 4 मॉडल को ऑटो-रन करने और मेमोरी में लगातार बनाए रखने की कॉन्फ़िगरेशन प्रक्रिया का सारांश
  • Homebrew, Launch Agent, और environment variables का उपयोग करके रीबूट के बाद भी मॉडल ऑटो-लोड होता है, और 8B मॉडल लगभग 9.6GB मेमोरी के साथ स्थिर रूप से चलता है
  • Ollama v0.19 या बाद के संस्करण MLX backend और NVFP4 format को सपोर्ट करते हैं, जिससे Apple और NVIDIA वातावरण में inference performance बेहतर होती है
  • 26B मॉडल का मेमोरी उपयोग बहुत अधिक है, इसलिए इसकी सिफारिश नहीं की जाती; 8B मॉडल वास्तविक उपयोग के लिए अधिक उपयुक्त है
  • लोकल API के माध्यम से OpenAI-compatible Chat Completion रिक्वेस्ट संभव हैं, जिससे Mac mini पर persistent LLM service environment बनाना उपयोगी होता है

पहले से तैयारी

  • Apple Silicon (M1~M5) आधारित Mac mini आवश्यक
  • Gemma 4 (8B) मॉडल चलाने के लिए कम से कम 16GB unified memory की सिफारिश
  • Homebrew इंस्टॉल किया हुआ macOS environment आवश्यक

Step 1 — Ollama इंस्टॉल करना

  • Homebrew cask का उपयोग करके Ollama macOS app इंस्टॉल करें

    brew install --cask ollama-app
    
  • इंस्टॉल के बाद /Applications/ में Ollama.app, और /opt/homebrew/bin/ollama में CLI रखा जाता है

  • ऑटो-अपडेट और MLX backend शामिल

Step 2 — Ollama चलाना और जाँच करना

  • Ollama app चलाएँ

    open -a Ollama
    
  • मेन्यू बार में आइकन दिखने के बाद server initialization का इंतज़ार करें

  • चलने की स्थिति जाँचें

    ollama list
    

Step 3 — Gemma 4 मॉडल डाउनलोड करना

  • मॉडल डाउनलोड करें

    ollama pull gemma4
    
  • लगभग 9.6GB डाउनलोड होने के बाद ollama list से जाँचें

  • 26B मॉडल 24GB मेमोरी का अधिकांश हिस्सा ले लेता है, जिससे system responsiveness कम हो सकती है

    • डिफ़ॉल्ट 8B (Q4_K_M quantization) मॉडल की सिफारिश की जाती है

Step 4 — मॉडल टेस्ट और GPU acceleration की जाँच

  • मॉडल टेस्ट करें

    ollama run gemma4:latest "Hello, what model are you?"
    
  • GPU acceleration की स्थिति जाँचें

    ollama ps
    
    • उदाहरण: CPU/GPU अनुपात 14%/86%

Step 5 — ऑटो-रन और मॉडल retention सेटिंग

  • 5a. Ollama app को ऑटो-रन करना

    • मेन्यू बार आइकन पर क्लिक करें → Launch at Login सक्षम करें
    • या System Settings > General > Login Items में मैन्युअली जोड़ें
  • 5b. Gemma 4 को ऑटो-प्रिलोड करना

    • Ollama शुरू होने के बाद मॉडल को ऑटो-लोड करने और हर 5 मिनट पर बनाए रखने के लिए Launch Agent बनाएँ

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • एजेंट लोड करें

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • हर 5 मिनट पर खाली prompt भेजकर मॉडल को मेमोरी में बनाए रखें

  • 5c. मॉडल को अनिश्चितकाल तक बनाए रखना

    • डिफ़ॉल्ट रूप से 5 मिनट निष्क्रिय रहने पर मॉडल unload हो जाता है

    • अनिश्चितकाल तक बनाए रखने की सेटिंग

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • रीबूट के बाद भी बनाए रखने के लिए इसे ~/.zshrc में जोड़ें

Step 6 — सेटिंग की पुष्टि

  • Ollama server चल रहा है या नहीं, जाँचें

    ollama list
    
  • मॉडल मेमोरी में लोड है या नहीं, जाँचें

    ollama ps
    
  • Launch Agent रजिस्ट्रेशन की जाँच करें

    launchctl list | grep ollama
    
  • अपेक्षित आउटपुट उदाहरण

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

API access

उपयोगी कमांड

कमांड विवरण
ollama list डाउनलोड किए गए मॉडलों की सूची
ollama ps चल रहे मॉडल और मेमोरी उपयोग
ollama run gemma4:latest इंटरैक्टिव रन
ollama stop gemma4:latest मॉडल unload
ollama pull gemma4:latest नवीनतम संस्करण अपडेट
ollama rm gemma4:latest मॉडल हटाएँ

Ollama हटाना और ऑटो-रन बंद करना

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Ollama v0.19+ के प्रमुख सुधार (31 मार्च 2026)

  • MLX backend (Apple Silicon)

    • inference speed बढ़ाने के लिए Apple MLX framework का स्वतः उपयोग
    • M5 series chips में अतिरिक्त GPU Neural Accelerator acceleration support
    • M4 या उससे नीचे के chips पर भी MLX-आधारित सामान्य speed improvement लागू
  • NVFP4 format (NVIDIA)

    • NVFP4 format के ज़रिए accuracy बनाए रखते हुए memory bandwidth और storage space कम होता है
    • NVIDIA model optimization tools से बनाए गए मॉडलों के साथ compatible
  • caching सुधार (coding और agent tasks)

    • मेमोरी उपयोग में कमी: बातचीतों के बीच cache reuse से efficiency बेहतर
    • intelligent checkpoints: prompt processing कम और response speed बेहतर
    • smart cache eviction: common prefixes बनाए रखकर branching tasks की efficiency बेहतर

अतिरिक्त नोट्स

  • Gemma 4 (8B) मॉडल लगभग 9.6GB मेमोरी उपयोग करता है
    • 24GB Mac mini में लगभग 14GB खाली रह सकती है
  • 26B मॉडल लगभग 17GB उपयोग करता है, जिससे system swap और responsiveness में गिरावट हो सकती है
    • 8B मॉडल स्थिर performance देता है

संदर्भ लिंक

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.