- Apple MLX framework पर आधारित Ollama का प्रीव्यू वर्ज़न जारी किया गया है, जो Apple Silicon की unified memory architecture का उपयोग करके बेहतर प्रदर्शन देता है
- M5 सीरीज़ चिप्स के GPU Neural Accelerator के जरिए TTFT (पहला token बनने का समय) और token generation speed दोनों में सुधार हुआ है
- NVFP4 format सपोर्ट के साथ मॉडल की सटीकता बनाए रखते हुए memory bandwidth और storage requirements को घटाया गया है, और NVIDIA Model Optimizer से optimized मॉडल चलाए जा सकते हैं
- cache reuse और smart cache policy के जरिए बातचीतों के बीच memory efficiency और response speed बढ़ती है, साथ ही shared prompts के लिए cache hit rate बेहतर होता है
- आगे चलकर और ज़्यादा मॉडल तथा custom model import फीचर जोड़कर supported architectures का विस्तार करने की योजना है
Apple Silicon पर MLX-आधारित Ollama प्रीव्यू
- Apple के MLX framework पर आधारित Ollama का नया प्रीव्यू वर्ज़न जारी किया गया है
- macOS पर personal assistant (OpenClaw) या coding agents (Claude Code, OpenCode, Codex आदि) को और तेज़ी से चलाया जा सकता है
- Apple Silicon की unified memory architecture का उपयोग कर प्रदर्शन बेहतर किया गया है
-
Apple Silicon पर प्रदर्शन में सुधार
- Ollama, Apple के MLX machine learning framework पर चलता है और M5, M5 Pro, M5 Max चिप्स के GPU Neural Accelerator का उपयोग करके TTFT (पहला token बनने का समय) और token generation speed दोनों को तेज़ करता है
- 29 मार्च 2026 के परीक्षण में Alibaba के Qwen3.5-35B-A3B मॉडल (
NVFP4quantization) की तुलना पुराने Ollama implementation (Q4_K_M) से की गई - Ollama 0.19 वर्ज़न ने
int4execution में 1851 token/s prefill और 134 token/s decode प्रदर्शन दर्ज किया
-
NVFP4 सपोर्ट
- NVIDIA के NVFP4 format का सपोर्ट देकर मॉडल सटीकता बनाए रखने के साथ memory bandwidth और storage requirements में कमी हासिल की गई
- NVFP4 का उपयोग करने वाले inference environment और production environment के बीच results consistency सुनिश्चित की गई
- NVIDIA के Model Optimizer से optimized मॉडल चलाए जा सकते हैं
- Ollama research और hardware partners की design और use case के अनुसार अलग-अलग precision भी आगे जोड़ी जाएँगी
-
cache system में सुधार
- cache reuse के जरिए बातचीतों के बीच memory usage घटता है, और shared system prompt इस्तेमाल करने पर cache hit rate बेहतर होता है
- intelligent checkpoints लाकर prompt processing load घटाया गया है और response speed बेहतर की गई है
- smart cache eviction policy के कारण पुराने branches हटने पर भी shared prefix ज़्यादा समय तक बना रहता है
-
कैसे शुरू करें
- Ollama 0.19 डाउनलोड करें
- नए Qwen3.5-35B-A3B मॉडल को coding tasks के लिए sampling parameters के साथ tune किया गया है
- 32GB या उससे अधिक unified memory वाला Mac चाहिए
- चलाने के उदाहरण:
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 - OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4 - मॉडल से बातचीत:
ollama run qwen3.5:35b-a3b-coding-nvfp4
- Claude Code:
-
आगे की योजना
- और ज़्यादा मॉडलों के लिए सपोर्ट आने वाला है
- supported architectures के आधार पर custom model import फीचर जोड़ा जाएगा
- supported architecture की सूची को लगातार बढ़ाया जाएगा
-
आभार
- MLX contributor team को accelerated framework development के लिए
- NVIDIA team को NVFP4 quantization, model optimization, MLX CUDA support, Ollama optimization और testing के लिए
- GGML और llama.cpp team को local framework और community बनाने के लिए
- Alibaba Qwen team को open source मॉडल उपलब्ध कराने और सहयोग के लिए
1 टिप्पणियां
Hacker News की राय
मैंने बनाया हुआ "apfel", Apple के on-device local foundation model के लिए एक CLI है
इसमें 4k context limit और रंगों के वर्णन तक को रोकने वाले हद से ज़्यादा guardrails हैं, लेकिन बाहरी कॉल के बिना इसे सीधे bash script में इस्तेमाल कर पाना वाकई बहुत ताकतवर लगता है
मुझे भी उम्मीद थी, लेकिन इस्तेमाल करके निराशा काफी बड़ी थी। अब Apple शायद पूरी तरह Gemini की तरफ मुड़ गया है, इसलिए उल्टा यह ठीक ही लगता है
मुझे लगता है on-device LLM ही भविष्य है
इससे सुरक्षा बेहतर होती है, data center के मुकाबले बिजली की खपत कम होती है, और inference demand की समस्या भी कम हो सकती है। ज़्यादातर users को cutting-edge model performance की ज़रूरत नहीं होती
data center, GPU batching और ऊँचे utilization की वजह से personal PC की तुलना में लगभग 100 गुना अधिक efficient होते हैं
लेकिन local model साधारण requests संभाले और जटिल काम cloud को भेजे, ऐसा hybrid approach काफ़ी उम्मीदभरा लगता है
इसमें ChatGPT-style interface built-in है, इसलिए तेज़ testing के लिए उपयोगी है। 16GB RAM में भी काफ़ी ठीक-ठाक models चल जाते हैं
उदाहरण के लिए Qwen 3.5 9B में censorship काफ़ी ज़्यादा है, लेकिन Uncensored version उल्टा बहुत ज़्यादा खुला है, इसलिए संतुलन देखना दिलचस्प है
लेकिन SSD bandwidth bottleneck बनती है, इसलिए cache के लिए जितनी ज़्यादा RAM हो उतना अच्छा। अगर जवाब का इंतज़ार कर सकते हैं, तो यह काफ़ी व्यावहारिक है
हाल में Qwen 3.5 4B और 27B को मिलाकर एक graphRAG app बनाया, जिसमें छोटे tasks और question answering को अलग किया, तो यह काफ़ी अच्छा चला
मैंने MLX इस्तेमाल किया, और entity extraction को batch processing में चलाते समय यह काफ़ी तेज़ लगा
Mac पर Ollama inference का MLX की वजह से काफ़ी बेहतर होना अच्छा लगा
खासकर omlx.ai का SSD KV caching फीचर game changer था
session memory से हट जाने के बाद भी दोबारा prefill करने की ज़रूरत नहीं पड़ती, और M5 Max की तेज़ prefill speed की वजह से generation पर ज़्यादा समय दिया जा सकता है
M2 Max 96GB पर qwen 70b 4-bit को llama.cpp से चला रहा हूँ
रोज़मर्रा के कामों के लिए यह काफ़ी stable है। Ollama पहले llama.cpp को shell से call करता था, लेकिन अब MLX native migration से memory efficiency बेहतर होने की उम्मीद है
बड़े models में gguf path के साथ इसकी तुलना करने का सोच रहा हूँ
समझ नहीं आता कि लोग अभी भी Ollama क्यों इस्तेमाल कर रहे हैं
Lemonade या llama.cpp ज़्यादा optimized हैं और usability भी लगभग वैसी ही है
क्या Mac जैसी performance के साथ local models चलाने के लिए कोई non-Mac विकल्प है?
हाल के MLX inference engine optiq के मुकाबले यह कैसा है, यह जानना चाहता हूँ
optiq, Turboquantization को support करता है
llama.cpp और MLX की performance comparison जानना चाहता हूँ
फिर भी ज़्यादातर मामलों में speed improvement ज़्यादा मायने रखती है
उस दिन का इंतज़ार है जब सिर्फ 16GB RAM के साथ MacOS पर local LLM से Claude Code आराम से चला सकूँ