• Apple MLX framework पर आधारित Ollama का प्रीव्यू वर्ज़न जारी किया गया है, जो Apple Silicon की unified memory architecture का उपयोग करके बेहतर प्रदर्शन देता है
  • M5 सीरीज़ चिप्स के GPU Neural Accelerator के जरिए TTFT (पहला token बनने का समय) और token generation speed दोनों में सुधार हुआ है
  • NVFP4 format सपोर्ट के साथ मॉडल की सटीकता बनाए रखते हुए memory bandwidth और storage requirements को घटाया गया है, और NVIDIA Model Optimizer से optimized मॉडल चलाए जा सकते हैं
  • cache reuse और smart cache policy के जरिए बातचीतों के बीच memory efficiency और response speed बढ़ती है, साथ ही shared prompts के लिए cache hit rate बेहतर होता है
  • आगे चलकर और ज़्यादा मॉडल तथा custom model import फीचर जोड़कर supported architectures का विस्तार करने की योजना है

Apple Silicon पर MLX-आधारित Ollama प्रीव्यू

  • Apple के MLX framework पर आधारित Ollama का नया प्रीव्यू वर्ज़न जारी किया गया है
    • macOS पर personal assistant (OpenClaw) या coding agents (Claude Code, OpenCode, Codex आदि) को और तेज़ी से चलाया जा सकता है
    • Apple Silicon की unified memory architecture का उपयोग कर प्रदर्शन बेहतर किया गया है
  • Apple Silicon पर प्रदर्शन में सुधार

    • Ollama, Apple के MLX machine learning framework पर चलता है और M5, M5 Pro, M5 Max चिप्स के GPU Neural Accelerator का उपयोग करके TTFT (पहला token बनने का समय) और token generation speed दोनों को तेज़ करता है
    • 29 मार्च 2026 के परीक्षण में Alibaba के Qwen3.5-35B-A3B मॉडल (NVFP4 quantization) की तुलना पुराने Ollama implementation (Q4_K_M) से की गई
    • Ollama 0.19 वर्ज़न ने int4 execution में 1851 token/s prefill और 134 token/s decode प्रदर्शन दर्ज किया
  • NVFP4 सपोर्ट

    • NVIDIA के NVFP4 format का सपोर्ट देकर मॉडल सटीकता बनाए रखने के साथ memory bandwidth और storage requirements में कमी हासिल की गई
    • NVFP4 का उपयोग करने वाले inference environment और production environment के बीच results consistency सुनिश्चित की गई
    • NVIDIA के Model Optimizer से optimized मॉडल चलाए जा सकते हैं
    • Ollama research और hardware partners की design और use case के अनुसार अलग-अलग precision भी आगे जोड़ी जाएँगी
  • cache system में सुधार

    • cache reuse के जरिए बातचीतों के बीच memory usage घटता है, और shared system prompt इस्तेमाल करने पर cache hit rate बेहतर होता है
    • intelligent checkpoints लाकर prompt processing load घटाया गया है और response speed बेहतर की गई है
    • smart cache eviction policy के कारण पुराने branches हटने पर भी shared prefix ज़्यादा समय तक बना रहता है
  • कैसे शुरू करें

    • Ollama 0.19 डाउनलोड करें
    • नए Qwen3.5-35B-A3B मॉडल को coding tasks के लिए sampling parameters के साथ tune किया गया है
    • 32GB या उससे अधिक unified memory वाला Mac चाहिए
    • चलाने के उदाहरण:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • मॉडल से बातचीत: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • आगे की योजना

    • और ज़्यादा मॉडलों के लिए सपोर्ट आने वाला है
    • supported architectures के आधार पर custom model import फीचर जोड़ा जाएगा
    • supported architecture की सूची को लगातार बढ़ाया जाएगा
  • आभार

    • MLX contributor team को accelerated framework development के लिए
    • NVIDIA team को NVFP4 quantization, model optimization, MLX CUDA support, Ollama optimization और testing के लिए
    • GGML और llama.cpp team को local framework और community बनाने के लिए
    • Alibaba Qwen team को open source मॉडल उपलब्ध कराने और सहयोग के लिए

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.