- लोकल LLM को macOS पर चलाने के तरीके और सुझाए गए टूल्स की व्याख्या
- लोकल LLM ऐसे AI language models हैं जिन्हें पर्सनल कंप्यूटर पर चलाया जा सकता है, जिससे data privacy बनी रहती है और experimental तकनीक की खोज संभव होती है
- विभिन्न open-weight models का उपयोग करके text summary और निजी नोट्स/रिकॉर्ड के लिए यह उपयोगी हैं, लेकिन इनमें creativity या स्वतंत्र सोचने की क्षमता नहीं होती
- macOS पर चलने वाले दो प्रमुख टूल llama.cpp और LM Studio हैं, जो क्रमशः open source और user-friendly UI प्रदान करते हैं
- मॉडल चुनते समय memory capacity, runtime, quantization level, vision और reasoning क्षमता पर विचार करना चाहिए
- लोकल LLM चलाना privacy protection और तकनीकी जिज्ञासा दोनों के लिए उपयोगी है, और छोटे models बड़े models के विकल्प के रूप में experimental value देते हैं
परिचय: LLM पर व्यक्तिगत नज़रिया और उपयोग का तरीका
- यह लेख macOS पर लोकल LLM (Local Large Language Model) को सीधे इंस्टॉल करके उसके साथ प्रयोग करने के अनुभव पर आधारित है
- लेखक LLM को लेकर सशंकित है, लेकिन नई तकनीक के साथ प्रयोग करना पसंद करता है, इसलिए इसे डाउनलोड करके खुद इस्तेमाल किया
- LLM को लेकर एक दृष्टिकोण इसे सिर्फ advanced autocomplete मानता है, जबकि दूसरा इसे मानो भावनाओं और अधिकारों वाला अस्तित्व समझता है
- वास्तव में यह अगले शब्द की भविष्यवाणी पर आधारित है, लेकिन इसमें जटिल अनपेक्षित व्यवहार भी दिखाई दे सकते हैं
- इसमें creativity या self-awareness नहीं है; भविष्य में अधिक उन्नत मशीनें आ सकती हैं, लेकिन मौजूदा तकनीक अभी उस स्तर तक नहीं पहुंची है
LLM के मुख्य उपयोग के उदाहरण
- text summary, इंटरनेट से जानकारी देना, और साधारण medical information देने जैसे कामों में यह काफी उपयोगी है
- लेखक के लिए यह brain-dumping (सोचों को उंडेलने) के काम आता है, खासकर जब किसी conversational partner की ज़रूरत हो
- लेखक जवाबों पर विशेष ध्यान नहीं देता, बल्कि इसे सिर्फ रिकॉर्ड रखने के लिए उपयोग करता है
- AI के साथ ज़रूरत से ज़्यादा भावनात्मक जुड़ाव या anthropomorphism से बचना महत्वपूर्ण है
- system prompt के जरिए मॉडल के response behavior को नियंत्रित किया जा सकता है, हालांकि लेखक इस पर ज़्यादा ध्यान नहीं देता
उत्पादकता और विश्वसनीयता पर चिंता
- लेखक इस दावे से सहमत नहीं है कि LLM ‘productivity’ बढ़ाते हैं
- response reliability की समस्या (गलत बातें, hallucination) के कारण fact check करना ज़रूरी है
- जिन सवालों की आसानी से जांच नहीं की जा सकती, उनसे बचना information pollution रोकने में मददगार होता है
लोकल LLM इस्तेमाल करने के कारण
- तकनीकी प्रयोग का आनंद और इस बात का रोमांच कि कंप्यूटर लोकल मशीन पर natural language में प्रतिक्रिया देता है
- जब यह सिर्फ अपने कंप्यूटर पर चलता है, तो privacy और sensitive information protection के लिहाज़ से फ़ायदा होता है
- कई AI service कंपनियां यूज़र डेटा को अलग से स्टोर करती हैं और training में भी इस्तेमाल करती हैं
- commercial AI कंपनियों पर अविश्वास, ethical समस्याएं, अत्यधिक प्रचार, environmental damage और copyright उल्लंघन जैसी चिंताओं के कारण लेखक लोकल open source models को प्राथमिकता देता है
macOS पर LLM चलाने के तरीके
- macOS पर चलने वाले दो प्रमुख टूल हैं llama.cpp और LM Studio
-
- इसे Georgi Gerganov ने विकसित किया
- यह विस्तृत configuration options, कई platforms का support, मॉडल download, और एक साधारण web UI प्रदान करता है
- उदाहरण:
llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF कमांड से सुझाया गया मॉडल Gemma 3 4B QAT चलाया जा सकता है
- ब्राउज़र में
http://127.0.0.1:8080 खोलने पर ChatGPT जैसा एक minimal UI मिलता है, जो प्रयोग के लिए उपयुक्त है
-
2. LM Studio (closed source, आसान उपयोग)
- यह intuitive और advanced UI देता है, साथ ही model discovery/download/chat management features और मॉडल चल पाएगा या नहीं इसकी जानकारी भी देता है
- बहुत बड़े मॉडल लोड करके सिस्टम crash होने से बचाने के लिए इसमें guardrails built-in हैं
- macOS पर यह
llama.cpp और Apple के MLX engine दोनों runtimes को support करता है
- MLX तेज़ है, लेकिन इसमें detailed settings कम हैं
- उपयोगी टिप्स:
- बातचीत के दौरान मॉडल बदला जा सकता है
- conversation branches बनाकर कई तरह के experiment किए जा सकते हैं
- user message और assistant message दोनों को edit किया जा सकता है
- system prompt presets बनाकर दोबारा इस्तेमाल किए जा सकते हैं
- context window भर जाने पर उसे कैसे संभालना है, यह सेट किया जा सकता है (जैसे आगे/पीछे के messages रखना)
अच्छा LLM मॉडल चुनने के मानदंड
- मॉडल का आकार: disk capacity से अधिक memory (RAM) मुख्य सीमा है
- 16GB RAM वाले सिस्टम में 12GB या उससे छोटे मॉडल सुझाए जाते हैं; इससे बड़े मॉडल सिस्टम को अस्थिर कर सकते हैं
- बड़े मॉडल धीमे होते हैं, और memory कम पड़ने पर पूरा सिस्टम अस्थिर हो सकता है
- runtime का चयन:
llama.cpp और LM Studio का default runtime GGUF format models मांगता है
- LM Studio का MLX runtime MLX-specific models मांगता है
- GGUF models कई platforms पर स्थिर होते हैं और इनमें configuration options भी अधिक होते हैं
- MLX models Apple Silicon पर थोड़ा तेज़ प्रदर्शन देते हैं
- quantization: मॉडल प्रदर्शन और memory efficiency के बीच संतुलन
- अधिकतर LLM 16-bit precision पर train किए जाते हैं
- 4-bit जैसे कम bits पर quantization करने के बाद भी एक स्तर तक performance loss कम रहता है; आम तौर पर Q4 उपयुक्त माना जाता है
- kernel के अनुसार जटिल quantization notation (जैसे Q4_K_M) मौजूद हैं, लेकिन शुरुआती users के लिए default settings बेहतर हैं
- vision models: image processing करने वाले models
- कुछ models image input को tokenize करके उसका analysis कर सकते हैं (text पढ़ना, object recognition, emotion/style estimate आदि)
- साधारण OCR संभव है, लेकिन यह dedicated OCR tools जितना भरोसेमंद नहीं है
- reasoning क्षमता: कुछ models जवाब बनाने से पहले सोचने की प्रक्रिया शामिल करते हैं
- कुछ models उत्तर देने से पहले reasoning process जोड़ते हैं, जिससे सामान्य models की तुलना में ‘सोचने’ की क्षमता मज़बूत होती है
- छोटे reasoning-focused models, मध्यम या बड़े सामान्य models से बेहतर साबित हो सकते हैं (जैसा benchmarks में दिखता है)
- reasoning models जवाब देने में ज़्यादा समय लेते हैं और context window को भी तेज़ी से भरते हैं
- tool use: बाहरी tools को कॉल करने की क्षमता
- tool-calling tokens के जरिए system prompt में निर्दिष्ट MCP (tool server) की functionality का उपयोग किया जा सकता है
- LM Studio में tools जोड़ना और manage करना आसान है, लेकिन tool calling में security risk (data exfiltration attacks की संभावना) होने से सामान्यतः user confirmation ज़रूरी होता है
- डिफ़ॉल्ट रूप से JavaScript MCP (Deno-based) शामिल होता है, जिससे complex computation, data analysis, random generation जैसे automation संभव होते हैं
- web search MCP जोड़ने पर real-time search results शामिल किए जा सकते हैं, जिससे सीमित knowledge वाले model की क्षमता बढ़ती है
- long-term memory की ज़रूरत होने पर Obsidian के लिए MCP जैसे कई extension servers का उपयोग किया जा सकता है
- हालांकि MCP context को तेज़ी से भरता है, इसलिए इसे सिर्फ़ ज़रूरत होने पर ही सक्रिय करना चाहिए
- Agents
- Agent वह मॉडल संरचना है जो बार-बार tools का उपयोग करती है
- reasoning और tool use दोनों करने वाले models को सामान्यतः agent की श्रेणी में रखा जाता है
- यह अभी परिपूर्ण नहीं है, लेकिन एक चुनौतीपूर्ण और रोचक अवधारणा प्रस्तुत करता है
सुझाए गए मॉडल और उपयोगी टिप्स
- LM Studio के built-in UI में runtime, quantization, model traits और size आदि की आसानी से तुलना और खोज की जा सकती है
llama.cpp के मामले में Hugging Face पर GGUF models सेक्शन उपयोगी है
- सभी क्षमताओं को पूरा करने वाले models बहुत कम हैं, इसलिए अलग-अलग models डाउनलोड करके प्रयोग करना बेहतर है
- सुझाए गए models की सूची:
- Gemma 3 12B QAT: vision intelligence में मज़बूत, तेज़ और अच्छा text generation
- Qwen3 4B 2507 Thinking: छोटा मॉडल, speed/quality अच्छी, reasoning और general दोनों versions
- GPT-OSS 20B: वर्तमान में सबसे उच्च प्रदर्शन, 3-stage reasoning support, धीमा लेकिन क्षमता सबसे बेहतर
- Phi-4 (14B) : पहले पसंदीदा था, अब भी reasoning + general versions मौजूद हैं
समापन और उपयोगी सुझाव
- छोटे models भले ही बड़े और नवीनतम models को पूरी तरह replace न कर पाएं, लेकिन लोकल execution की उपयोगिता स्पष्ट है
- लोकल testing से algorithm के व्यवहार को समझने और उसकी कमजोरियों को संभालने की क्षमता बेहतर होती है
- LM Studio context window usage को real time में दिखाता है
- context भरने से ठीक पहले बातचीत का summary बनवा लेना महत्वपूर्ण जानकारी बचाए रखने में प्रभावी हो सकता है
- लोकल LLM को एक निजी कंप्यूटर के भीतर का digital genie मानकर, आनंददायक प्रयोग की उम्मीद की जा सकती है
3 टिप्पणियां
ollama में
qwen3:4bइस्तेमाल करें, अच्छा हैOllama की बात नहीं है।
Hacker News राय
मुझे भी यह जादू जैसा लगता है कि सिर्फ लगभग 10GB की फ़ाइलें डाउनलोड करके लैपटॉप पर टेक्स्ट सारांश, सवालों के जवाब, यहाँ तक कि साधारण reasoning भी हो जाती है। असली बात model size और RAM के संतुलन की है। 16GB मशीन पर लगभग 12B~20B सीमा के काफ़ी करीब है। लेकिन ऐसे models वास्तव में Apple के Neural Engine (ANE) का इस्तेमाल नहीं करते, बल्कि GPU पर Metal के ज़रिए चलते हैं। Core ML अभी custom runtime के लिए ज़्यादा अच्छा नहीं है, और Apple ANE के लिए low-level developer access भी नहीं देता। साथ ही memory bandwidth और SRAM से जुड़े मुद्दे भी हैं। उम्मीद है कि किसी दिन Apple Core ML optimization के साथ transformer workloads को ANE पर अच्छी तरह map करेगा
मुझे काफ़ी समय से लगता रहा है कि Apple को एक नए CEO की ज़रूरत है। अगर मैं Apple चला रहा होता, तो local LLM को आक्रामक रूप से अपनाता और Nvidia के लिए डिज़ाइन किए गए models को भी optimize करने वाला inference engine बनाता। मैं server-grade Apple Silicon processors बेचता और GPU specs भी खोल देता ताकि हर कोई उन्हें सीधे इस्तेमाल कर सके। Apple मुझे बहुत ज़्यादा safe खेलता हुआ लगता है। Tim Cook COO के रूप में बेहतरीन हैं, लेकिन अब भी कंपनी उसी तरह चला रहे हैं। अब COO नहीं, एक innovator की ज़रूरत है
reverse engineering जानकारी (जैसे Asahi Linux में ANE तक सीधी पहुँच वाले मामलों) को देखें तो M1/M2 का Apple Neural Engine सिर्फ INT8 या FP16 values के statically scheduled MADD के लिए optimized है। नए local models ज़्यादा aggressively quantized होते जा रहे हैं, इसलिए जब model values को FP16/INT8 में pad किया जाता है तो memory bandwidth बर्बाद होती है। दूसरी तरफ GPU inputs को तेज़ी से dequantize करके registers में pad कर सकता है और matrix units तक पहुँचा सकता है, इसलिए memory bandwidth ज़्यादा कुशलता से इस्तेमाल होती है। फिर भी NPU/ANE prompt preprocessing जैसी चीज़ों में उपयोगी हो सकता है। इस हिस्से में token generation की तुलना में compute processing की सीमा है, इसलिए power usage कम रखा जा सकता है और cooling limits से भी बचा जा सकता है। अतिरिक्त जानकारी: Whisper.cpp Pull Request, पुरानी ANE जानकारी, tinygrad का विस्तृत सारांश. M3/M4 को अभी Asahi support नहीं है, इसलिए आगे क्या होगा यह स्पष्ट नहीं है। M3 series भी M2 से बहुत अलग प्रदर्शन करती हुई नहीं दिखती
अगर आप चाहते हैं कि transformer workloads ANE पर अच्छी तरह चलें, तो model conversion के tools पहले से मौजूद हैं.<br>TensorFlow, PyTorch आदि में बने models को Core ML में बदलने का तरीका: CoreML Tools Docs
मुझे भी यह दिलचस्प लगा कि Apple Neural Engine local LLM के साथ integrated नहीं है। लगता है Apple, AMD और Intel, तीनों ही llama.cpp में NPU support ठीक से नहीं दे पा रहे हैं। जानना चाहता हूँ कि ऐसा क्यों है
मैं GLM 4.5 Air और gpt-oss-120b दोनों को काफ़ी उपयोगी तरीके से चला रहा हूँ। खासकर GPT OSS की latency ठीक-ठाक है। यह 128GB M4 MacBook पर है। अभी यह बहुत ताकतवर लगता है, लेकिन जल्द ही सामान्य बात बन जाएगी। अब ये models cutting-edge models के काफ़ी करीब पहुँच रहे हैं
अभी तक local LLM मुझे ChatGPT (2022 के शुरुआती version) जैसा बहुत सीमित लगा, इसलिए मुझे इसका सचमुच उपयोगी use case नहीं मिला। जानना चाहता हूँ कि community को कौन से उपयोगी use cases मिले हैं। उदाहरण के लिए, किसी ने कहा कि local LLM ने Sun Tzu interview गढ़ दिया, और ऐसी सीमाएँ परेशान करती हैं। इसलिए सोच रहा हूँ कि इसे वास्तव में कहाँ इस्तेमाल किया जा सकता है
मैंने कई LLM इस्तेमाल किए हैं, लेकिन 48GB या उससे अधिक वाले Macbook पर Gemma3:27b निजी डायरी या संवेदनशील data के analysis के लिए सबसे अच्छा है। चीनी models life advice देने में बहुत हास्यास्पद हो जाते हैं। उदाहरण के लिए, मैंने Deepseek से अपनी परेशानी साझा की तो उसने Confucian style में life plan दे दिया। Gemma काफ़ी ज़्यादा पश्चिमी लगता है
local LLM का इस्तेमाल ज़्यादातर factual कामों के बजाय automation के लिए होता है। जैसे classification, summarization, search, spell check आदि। इसे मेरी भाषा या रोज़मर्रा की अवधारणाएँ समझनी चाहिए, लेकिन मानव इतिहास, programming languages, health जैसी विशाल जानकारी का पूरा भंडार ज़रूरी नहीं। ज़रूरी नहीं कि मैं सीधे LLM को prompt करूँ; OS या apps ज़रूरत पड़ने पर अपने-आप LLM का इस्तेमाल कर सकते हैं
मैं Obsidian में अपनी भावनाएँ, विचार, किए गए काम सब रिकॉर्ड करता हूँ। ऐसे निजी notes को cloud पर नहीं डालना चाहता, इसलिए chromeDB से manage करके LLM से उन पर बातचीत करता हूँ। आजकल मैं refusal removal किए गए abliterated models भी इस्तेमाल कर रहा हूँ(transformers refusal removal). काम में भी इस्तेमाल करता हूँ। मैंने financial data tasks को automate करने के लिए mcp बनाया है, और model local चलने से information leak की चिंता नहीं होती
इसका इस्तेमाल ऐसे माहौल में भी हो सकता है जहाँ internet अच्छा न हो या बार-बार कट जाता हो। भले ही यह cutting-edge LLM न हो, लेकिन कुछ न होने से बहुत बेहतर है। उदाहरण के लिए, अगर तूफ़ान की वजह से internet बंद हो जाए, तो ज़रूरी safety instructions local LLM से तुरंत मिल सकती हैं
मैं local models का इस्तेमाल app prototype बनाने या development के शुरुआती चरण में करता हूँ.<br>पहला, development cost साफ़ तौर पर कम होती है। दूसरा, performance limits की वजह से composition को ज़्यादा सोच-समझकर जोड़ना पड़ता है, जो मददगार है। अगर workflow को किसी ठीक-ठाक local model (gpt-oss, qwen3 आदि) के हिसाब से डिज़ाइन कर लिया जाए, तो बाद में cloud model (gpt-5-mini आदि) पर switch करते ही performance upgrade मिल जाता है। बेशक, अगर सारे documents cloud model की context window में डालकर अच्छे नतीजे मिल जाते हों, तो local model की सीमाएँ झेलने की ज़रूरत नहीं। लेकिन लंबी अवधि में tasks को बाँटकर local पर चलाना सस्ता और तेज़ दोनों हो सकता है
मैंने Hermes Mistral चलाकर देखा, लेकिन शुरू से ही hallucination बहुत थी। हाल में मैं audio dream journal को निजी तौर पर Obsidian folder में रख रहा हूँ। Whisper से .wav फ़ाइल लेकर text में बदलता हूँ, फिर local LLM से सिर्फ punctuation और paragraphs ठीक करवाना चाहता था। मैंने कहा था कि कुछ जोड़ना मत, सिर्फ readability सुधारो, लेकिन Hermes अचानक Sun Tzu के साथ Art of War पर interview गढ़ने लगा। जब मैंने process रोका, तो उसने माफ़ी माँगी लेकिन यह भी नहीं बता सका कि Sun Tzu की बात आई ही क्यों। अगर मुझे लगातार ऐसी अजीब hallucinations पकड़नी पड़ें, तो बेहतर है कि मैं खुद ही edit करूँ। यही logic local LLM इस्तेमाल करने की लगभग हर दिशा पर लागू होती है। उम्मीद है कभी यह सुधरेगा
मेरा मानना है कि cutting-edge LLM को सीधे फ़ोन या लैपटॉप पर चलाने का समय अभी दूर है। निकट भविष्य में घर में AI server box रखकर LLM चलाना ज़्यादा व्यावहारिक लगता है। thin clients (जैसे लैपटॉप) उस box से जुड़ेंगे, और ज़रूरत पड़ने पर local में छोटे models से काम कर लेंगे। अगर Apple Mac Pro के साथ ऐसी रणनीति अपनाए, तो यह स्वाभाविक होगा। 10-20 हज़ार डॉलर का home LLM box भी मुझे पूरी तरह तर्कसंगत लगता है
अभी 512GB memory वाला Mac Studio (लगभग 10 हज़ार डॉलर) नवीनतम open source models चला सकता है। उदाहरण के लिए Qwen3-Coder-480B-A35B-Instruct का 4bit पर 24 tokens प्रति सेकंड वाला वीडियो, Deep Seek V3 0324 का 4bit पर 20 tokens प्रति सेकंड दिखाया गया है। दो Mac Studio को MLX से जोड़कर इससे बड़े models भी चलाए जा सकते हैं। 671B 8bit DeepSeek R1 का उदाहरण
मेरे हिसाब से Mac Pro अपने बड़े case की लागत की वजह से बहुत महँगा है, इसलिए व्यावहारिक नहीं। Studio ज़्यादा समझदारी भरा विकल्प है। Nvidia और AMD भी जल्द desktop form factor में बड़े पैमाने की high-bandwidth GPU memory support देने वाले हैं। अगर लैपटॉप या दूसरे devices से घर के LLM server से जुड़ सकें और battery की चिंता बिना local जैसा अनुभव मिले, तो वह आदर्श होगा
मेरे मामले में मैं AMD 395+ पर कई docker containers चलाकर अलग-अलग apps operate कर रहा हूँ। Qwen Code और GPT OSS 120b models का मुख्य रूप से इस्तेमाल कर रहा हूँ। नई generation जल्द आने वाली है, और महँगी होने पर भी मैं upgrade करूँगा। इसकी कीमत वसूल है
10-20 हज़ार डॉलर की कीमत ज़्यादातर लोगों के लिए हास्यास्पद रूप से महँगी है। Silicon Valley की salary पर यह संभव हो सकता है, लेकिन इससे कहीं सस्ता Apple Vision Pro भी ठीक से नहीं बिका
क्या gpt-oss-120b बहुत कम memory में बेहतर performance नहीं देता? 128GB memory वाले 4 हज़ार डॉलर के Mac Studio से भी यह आराम से चल सकता है
विषय से हटकर, लेकिन पहले paragraph के 'opinions' में wave effect वाला text प्रभावशाली था
मुझे लगता है local LLM ही भविष्य हैं। समय के साथ ये लगातार बेहतर होते जाएँगे। अगर पिछले साल के स्तर के models भी आसानी से उपलब्ध हो जाएँ, तो chatgpt, anthropic या दूसरे cloud services इस्तेमाल करने की ज़रूरत ही नहीं बचेगी। हर काम के लिए एक giant model भी नहीं चाहिए। काम के हिसाब से कई छोटे models बुलाकर इस्तेमाल करने की कल्पना अब वास्तविक हो रही है। अब कोई moat नहीं बची
local LLM performance आगे भी बेहतर होगी, लेकिन आम लोगों के लिए यह व्यावहारिक रूप से कब उपयोगी बनेगी, इसे लेकर मैं आश्वस्त नहीं हूँ। local models की reasoning और coding क्षमता तेज़ी से बढ़ी है, लेकिन इसका कारण training data improvements (RLHF, DPO, CoT आदि) और engineering है। फिर भी असली महत्वपूर्ण चीज़ विशाल full-precision parameter sets का शुद्ध statistical output है, जो hallucination कम करता है, और इस model तथा सामान्य उपभोक्ता के बीच hardware gap बहुत बड़ा है। मेरे हिसाब से कम से कम 10 साल और लगेंगे
मेरे हिसाब से सुरक्षित और private cloud computing ही भविष्य है
local LLM उपयोग से जुड़े किसी भी blog या लेख में यह ज़रूर बताना चाहिए कि testing किस hardware पर की गई थी
LM Studio के पक्ष में एक वोट। इसमें कई तरह के configurations तैयार मिलते हैं, इसलिए मेरा MacBook क्या कर सकता है, उसे कैसे set up करना है, यह सहज रूप से समझ में आ जाता है। 1-2 घंटे का अच्छा अनुभव है
मैं 16GB Mac Mini पर शौक से अलग-अलग models डाउनलोड करके चलाता रहता हूँ, और लेखक की model recommendation list सच में मददगार है। मैं हर size में सिर्फ 4-5 models रखकर आज़माता हूँ, और यही सबसे कुशल तरीका है
Mozilla-Ocho/llamafile भी देखना उपयोगी होगा