- 5060ti + 16GB VRAM पर बेसिक बातचीत कर सकने वाला मॉडल खोज रहे हैं। संभव हो तो यह तेज़ हो और लगभग रियल-टाइम में चले
जवाबों का सार
- 16GB VRAM पर कई 8B~14B, 30B parameter models कुशलता से चल सकते हैं, और प्रमुख सिफारिशों में Qwen3, DeepSeek-R1, Mistral, Gemma3 शामिल हैं
- लोकल LLM चलाने के फायदे performance, cost और privacy के लिहाज़ से हैं, लेकिन वास्तविक performance और model suitability के लिए व्यक्तिगत प्रयोग और tuning ज़रूरी हैं
- model file size, quantize (quantization) level (Q4~Q6 आदि), GPU·RAM distributed loading जैसी hardware optimization tips व्यापक रूप से साझा की गईं
- Ollama, LM Studio, llama.cpp, OpenWebUI जैसे कई tools उपलब्ध हैं, और हर एक के accessibility, flexibility और model management convenience के अपने फायदे-नुकसान हैं
- community sources (जैसे Reddit LocalLLaMA) ताज़ा खबरें और practical tips के लिए उपयोगी हैं, लेकिन अतिशयोक्ति और misinformation से सावधान रहना चाहिए
मुख्य LLM सिफारिशें और उपयोग टिप्स
- Qwen3: 8B/14B/30B जैसे कई parameter models उपलब्ध हैं, और 8B~14B models को 16GB VRAM पर आराम से इस्तेमाल किया जा सकता है। reasoning performance मज़बूत है, और MoE(Expert Mixture) architecture की वजह से कुछ बड़े models को RAM offloading के साथ चलाया जा सकता है
- DeepSeek-R1-0528-Qwen3-8B: इसे हाल के 8B models में reasoning performance के लिए बहुत अच्छा माना गया है। 8B के लिए Q4~Q6 quantization पर 4GB~8GB VRAM उपयुक्त है
- Mistral Small 3.1: 14B या 24B model की सिफारिश की गई, बातचीत की गुणवत्ता अच्छी है और censorship अपेक्षाकृत कम है। खास तौर पर image input feature भी है
- Gemma3: Google का model, intuitive बातचीत में मज़बूत। हालांकि इसे HR-जैसी प्रवृत्ति वाला माना गया है, इसलिए disclaimers ज़्यादा आते हैं। hallucination भी अपेक्षाकृत अधिक बताई गई है
- Devstral: Mistral-आधारित बड़ा model। 30B से ऊपर के models 16GB VRAM पर धीमे हो सकते हैं
- Dolphin, Abliterated: कम censorship वाले versions, जो non-routine स्थितियों में उपयोगी हो सकते हैं
हार्डवेयर और execution environment optimization
- quantize (quantization) settings: Q4, Q5, Q6 जैसी quantization values जितनी कम होंगी, VRAM usage उतना कम होगा (Q4 ≒ parameters/2, Q6 ≒ parameters*0.75)। हालांकि quality loss का ध्यान रखना होगा
- VRAM capacity estimation: उदाहरण - 8B Q4 के लिए 4GB, 14B Q4 के लिए 7GB, 30B Q4 के लिए लगभग 15GB VRAM चाहिए
- RAM offloading: VRAM कम होने पर कुछ layers को CPU memory में offload किया जा सकता है। हालांकि इसके बदले speed कम होगी
- KV cache quantization: context window बढ़ाते समय q4 स्तर की cache compression का उपयोग सुझाया गया
tools और frontends
- llama.cpp: कई platforms पर तेज़ और लचीला। REST API और एक साधारण React frontend का support। models को VRAM और RAM में बाँटकर load किया जा सकता है
- Ollama: आसान installation और model switching, GUI frontend के साथ जोड़ना भी आसान। लेकिन latest model support और context size की सीमाएँ हैं
- LM Studio: GUI environment में model management सुविधाजनक। VRAM suitability prediction feature भी है
- OpenWebUI: सिर्फ frontend। llama.cpp, vllm जैसे backend की ज़रूरत होती है। कई models को एक साथ manage और test किया जा सकता है
- KoboldCPP, SillyTavern: role-playing/storytelling/gaming जैसे उपयोगों के लिए विशेष frontend
community और practical जानकारी
- Reddit LocalLLaMA, HuggingFace, Discord: latest models, usage methods, benchmarks और setup know-how सक्रिय रूप से साझा किए जाते हैं। लेकिन misinformation और groupthink से सावधान रहना चाहिए
- benchmark sites: livebench.ai, aider.chat आदि पर latest models के scores और rankings मिलते हैं
उपयोग के उद्देश्य और वास्तविक अनुभव
- privacy, cost saving: sensitive data/privacy concerns या बार-बार उपयोग की स्थिति में cloud की तुलना में local models अधिक उपयोगी हो सकते हैं
- प्रयोग और tuning की स्वतंत्रता: domain-specific fine-tuning, sampling strategy, prompt engineering आदि में API models की तुलना में अधिक flexibility मिलती है
- application examples: RAG(खोज-संयोजित जनरेशन), local database integration, agent automation, offline assistant जैसे कई practical use cases
अक्सर पूछे जाने वाले सवाल और टिप्स
- model size estimation: parameter count × bits(quantization)/8 = लगभग VRAM requirement(GB)। overhead और context window को भी ध्यान में रखना चाहिए
- model-wise characteristics: Qwen3 reasoning/coding, Gemma3 intuition/conversation, Mistral कम censorship, Dolphin/abliterated uncensor versions आदि
- performance comparison: अपने उपयोग के अनुरूप model खोजने के लिए direct benchmarking और custom tests की सिफारिश की गई
निष्कर्ष और practical सलाह
- कोई एक "सबसे अच्छा model" नहीं है; hardware, use case और preference के अनुसार Qwen3, Mistral, Gemma3 जैसे latest 8B~14B models को आज़माना सबसे बेहतर है
- model file size, quantization, context size जैसी specifications को match करना बहुत महत्वपूर्ण है, इसलिए कई models को खुद test करना और community tips का उपयोग करना प्रभावी रहेगा
1 टिप्पणियां
Hacker News की राय
अगर आप लोकल में LLM चलाना चाहते हैं, तो reddit की localllama community से बहुत मदद मिल सकती है
कोई एक LLM मॉडल ऐसा नहीं है जिसे खास तौर पर "सबसे अच्छा" कहा जा सके; हर मॉडल के अपने फायदे और नुकसान हैं, इसलिए कई मॉडल खुद आज़माने पड़ते हैं
उदाहरण के लिए DeepSeek-R1-0528-Qwen3-8B मॉडल आज रिलीज़ हुआ है, और 8B आकार में बेहतरीन logical reasoning performance दिखाता है
और Qwen3 सीरीज़ भी हाल ही में आई है, जो hybrid तरीका, अच्छी performance, और अलग-अलग hardware के लिए कई sizes देती है
Qwen3-30B-A3B को CPU पर भी ठीक-ठाक speed से चलाया जा सकता है
यहाँ तक कि 0.6B वाला mini model भी काफ़ी consistent है, जो हैरान करने वाला अनुभव है
llama-cpp इस्तेमाल करते समय मैंने ऐसे उदाहरण देखे हैं जहाँ कुछ tensors को CPU पर offload करने से अच्छी performance बनी रहती है
आम तौर पर llama-cpp में GPU पर चढ़ाने वाली layers की संख्या (
-ngl) तय की जाती है, लेकिन अगर computation-heavy tensor न हों तो CPU offloading से GPU space बचाते हुए speed गिराए बिना चलाया जा सकता हैमैंने "hot" neurons को CPU से लाने वाले पेपर (arxiv लिंक) भी पढ़े हैं, और उम्मीद है कि आगे घर पर भी AI का बढ़िया इस्तेमाल किया जा सकेगा
जो लोग Reddit इस्तेमाल करने के आदी नहीं हैं, उनके लिए एक सावधानी है
LocalLlama सहित Reddit पर गलत जानकारी और लोकप्रिय misinformation बहुत मिलती है, और upvote/downvote ratio जानकारी की accuracy की गारंटी नहीं देता
सटीक लेकिन उबाऊ ढंग से समझाई गई टिप्पणियाँ उल्टा कम लोकप्रिय हो सकती हैं, जबकि मज़ेदार, भावनात्मक, या समूह-राय से मेल खाती गलत व्याख्याएँ अक्सर लोकप्रिय हो जाती हैं
मेरी तरह जो लोग लंबे समय से वेब पर रहे हैं, वे मोटे तौर पर छाँटकर देख लेते हैं, लेकिन अगर कोई ऐसे groupthink वाले माहौल में पहली बार आ रहा है, तो जानकारी को सावधानी से लेना बेहतर है
आजकल लगभग हर मॉडल एक बेसलाइन तो पूरा कर ही लेता है, इसलिए अंत में बात अपने स्वाद के हिसाब से "मॉडल का स्वभाव" ढूँढने जैसी लगती है
OP बस एक-एक करके डाउनलोड करके इस्तेमाल करके देख सकता है
16GB memory हो तो llama.cpp में DDR5 को partial offloading के साथ 30B मॉडल तक (यहाँ तक कि dense model भी) "ठीक-ठाक" speed पर चल सकते हैं; tensor offloading करें तो और बेहतर
Qwen conversational model के तौर पर थोड़ा कमज़ोर लगता है
Mistral Nemo, Small, और Llama 3.X सीरीज़ आज के हिसाब से अब भी बेहतरीन विकल्प हैं
Gemma 3s अच्छे हैं, लेकिन थोड़ा unpredictable style है
अगर घर पर GPT-4 स्तर की चीज़ चाहिए तो QwQ की सिफारिश
और शायद कुछ और अच्छे मॉडल भी होंगे जो मैं भूल रहा हूँ
जानना चाहता हूँ कि coding tools जैसे aider या roo के साथ इस्तेमाल करने लायक कौन-से मॉडल सुझाए जाएँ
ऐसा मॉडल ढूँढना जो अपने आप tool use अच्छे से करे, काफ़ी मुश्किल अनुभव रहा है
DeepSeek-R1-0528-Qwen3-8B, DeepSeek-R1-0528 के chain-of-thought को Qwen3-8B Base में distill करके बनाया गया मॉडल है, और AIME 2024 में इसका प्रदर्शन Qwen3-8B से 10% से ज़्यादा बेहतर है, साथ ही Qwen3-235B-thinking के बराबर performance दिखाता है
इससे फिर से महसूस होता है कि distillation कितना प्रभावी है
शायद इसी वजह से आजकल कई OpenAI या research labs chain-of-thought(COT) छिपाते हैं (संदर्भ पोस्ट)
जानना दिलचस्प होगा कि ज़्यादातर लोग local LLM का सबसे अधिक उपयोग किस काम में करते हैं
जब तक hardware बहुत ताकतवर न हो, Gemini या Claude जैसे proprietary models तक पहुँचना मुश्किल है; फिर भी लगता है कि ये छोटे मॉडल उपयोगी हो सकते हैं, लेकिन उनके ठोस use cases क्या हैं, यह जानना चाहता हूँ
डेटा किसी third party को देने में झिझक
बहुत से लोग अपने prompts या सवाल बाहर भेजना नहीं चाहते
मैं ज़्यादातर prompts पर पहले local model आज़माता हूँ, और उम्मीद से ज़्यादा, आधे से अधिक मामलों में काफ़ी अच्छे नतीजे मिल जाते हैं
हर बार cloud service का इस्तेमाल न करना पड़े तो अच्छा लगता है
मुझे लगता है कि आगे local LLM का भविष्य ऐसे सिस्टम का होगा जो जल्दी तय करे कि कौन-सा काम कैसे संभालना है, और उसे तुरंत delegate कर दे
यानी यह चुने कि कौन-सा काम MCP जैसे local system से हो सकता है, कौन-सा calendar या email जैसी system API calls माँगता है, और कौन-सा काम सबसे अच्छे cloud model को भेजना चाहिए
कुछ वैसा जैसे Siri सच में ठीक से काम करे
मैं अभी Devstral पर आधारित अपने बनाए local coding agent के साथ प्रयोग कर रहा हूँ
Codex की तुलना में जो बात मुझे पसंद है, वह यह है कि इसमें पूरे hardware तक access है, इसलिए VM चलाना, network requests करना जैसे काम हो सकते हैं, जो Codex में नहीं होते
setup से लेकर patch generation तक यह Codex से बहुत तेज़ है
बेशक अभी Codex जितना अच्छा output नहीं है, लेकिन Devstral छोटे बदलावों या refactoring के लिए उपयोगी है, और software को और बेहतर बनाया जाए तो आगे बड़े बदलाव भी सम्भव लगते हैं
मैं सिद्धांत रूप से cloud का इस्तेमाल यथासंभव नहीं करता
उदाहरण के लिए हाल में खबरें थीं कि OpenAI ChatGPT बातचीत की सामग्री साझा करने वाली किसी तरह की social network service पर काम कर रहा है
लोकल में चलाने से AI के अंदरूनी कामकाज को बेहतर समझ पाता हूँ, जिससे मेरी market value भी बढ़ती है
LLM backend के साथ experiments (web search, agent वगैरह) भी खुलकर कर सकता हूँ, cloud cost का बोझ भी नहीं है, और जब पहली LLaMa आई थी तब से मेरे पास gaming desktop पहले से था
Mozilla का LocalScore नाम का प्रोजेक्ट भी देखने लायक है
यह अलग-अलग models की अलग-अलग hardware पर performance की तुलना और analysis देता है
LocalLLama subreddit की सिफारिश से सहमत हूँ
यह "सबसे अच्छा मॉडल" चुनकर नहीं देता, लेकिन सवाल पूछने, guides ढूँढने, ताज़ा ख़बरें या tools की जानकारी, और अलग-अलग models की तुलना में बहुत मददगार है
आखिरकार आपको खुद कई models आज़माकर, parameters बदलकर, अपने काम के लिए सबसे सही चीज़ ढूँढनी पड़ती है
अगर आप Hacker News के पाठक हैं, तो Ollama या LMStudio को skip करने पर भी विचार कर सकते हैं
हो सकता है नवीनतम models तक पहुँच कम हो, और कई बार उन्हीं models में चुनना पड़ता है जिन्हें उन्होंने test किया हो
और अंदर क्या चल रहा है, इसे "ढक्कन खोलकर" देखने का मज़ा भी कम हो जाता है
सिर्फ llamacpp से भी ज़्यादातर नए models सपोर्ट हो जाते हैं, और ज़रूरत पड़ने पर तेज़ी से updates भी आते हैं
मैं huggingface से मॉडल डाउनलोड करके GGUF format (कम quantization के साथ memory बचाने वाला format) इस्तेमाल करना पसंद करता हूँ
GGUF file size देखकर अंदाज़ा लग जाता है कि वह VRAM में फिट होगा या नहीं (उदाहरण: 24GB GGUF, 16GB में मुश्किल; 12GB संभव — हालाँकि context बढ़ने पर RAM usage भी बढ़ता है)
context window पर भी ध्यान दें; पुराने models ज़्यादातर 8K context वाले हैं, लेकिन उन्हें 32K पर सेट करने से बहुत बड़ा फ़ायदा नहीं मिलता
llamacpp के binaries Linux, Windows, macOS पर download किए जा सकते हैं, या आप इसे खुद build भी कर सकते हैं; मॉडल को VRAM/RAM के बीच बाँटकर भी चलाया जा सकता है
एक साधारण React frontend (
llamacpp-server) मिलता है, और OpenAI-जैसा REST API भी देता हैइसी वजह से oobabooga(textgeneration webui) जैसे कई frontends के साथ integration हो जाता है
अगर llamacpp थोड़ा खुरदरा लगे, तो Koboldcpp backend भी देख सकते हैं (हालाँकि अंदर से यह भी llamacpp पर आधारित है)
Ollama का आकर्षण यह है कि आप HuggingFace से किसी भी GGUF को सीधे लेकर
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:Q8_0जैसे चला सकते हैंOllama की एक बड़ी खासियत यह है कि इसमें models को GPU पर आसानी से load/unload किया जा सकता है, इसलिए librechat या openwebui जैसे frontends में dropdown से बहुत आसानी से मॉडल बदले जा सकते हैं
मैं यह बात ज़ोर देकर कहना चाहता हूँ कि command line छुए बिना model switching आसान हो जाती है
Ollama desktop को LLM server बना देता है, और WiFi के ज़रिए remote devices से भी access किया जा सकता है
मॉडल बदलते समय भी Ollama server बंद किए बिना smooth swapping देता है
llama.cpp में CLI इस्तेमाल करते हुए server बंद करके, नए flags देकर, फिर से शुरू करना पड़ता है; इसलिए experiments या तेज़ app development में असुविधा होती है
मेरी बनाई कुछ apps में server restart किए बिना 1B, 8B, 30B जैसे models को सिर्फ web request parameter से बदलना ज़रूरी है
मेरे पास सिर्फ 8GB VRAM है, लेकिन मैं Ollama frontend के रूप में OpenWebUI जोड़कर कई models एक साथ load करता हूँ और round robin तरीके से बारी-बारी उन्हें test करता हूँ
जवाबों को लगातार monitor भी करता हूँ, ताकि लंबे समय में यह चुन सकूँ कि कौन-सा model मेरे काम के लिए ज़्यादा सही है
OpenWebUI के साथ यह एक काफ़ी अनोखा उपयोग अनुभव है
AMD 6700XT(12GB VRAM) उपयोगकर्ता होने के नाते, local ROCm setup सफल होने के बाद मैंने Ollama को GPU acceleration के साथ बिना समस्या चलाया
Docker में चल रहे OpenWebUI instance को local Ollama server से जोड़ना भी सिर्फ एक ENV variable सेट करने जितना आसान था
यह production नहीं, personal test environment है, लेकिन ऊपर बताए गए मकसद के लिए बहुत अच्छी तरह फिट बैठता है
यह जानना ज़रूरी है कि OpenWebUI ने हाल की license change के बाद अब open source रहना बंद कर दिया है
Qwen3 परिवार (और R1 qwen3-8b distill) coding और logical reasoning performance में शीर्ष पर है
लेकिन चीन-आधारित होने की वजह से political issues पर censorship काफ़ी कड़ी है
world knowledge और latest information के लिए Gemma3 की सिफारिश
संभावना है कि यह पोस्ट भी एक महीने बाद पुरानी हो जाए, इसलिए livebench.ai या aider.chat leaderboard के ताज़ा benchmarks देखें
सिर्फ models ही नहीं, tools, routers, MCP, libraries, और SDK भी लगातार बदल रहे हैं
अगर मैं अकेले development कर रहा हूँ और आसपास जानकारी बाँटने वाले साथी या कोई समूह नहीं है, तो नई जानकारी जुटाने और trends follow करने के लिए सलाह चाहिए
सबसे अच्छा सूचना स्रोत HuggingFace है
Qwen सीरीज़ कई पहलुओं में अच्छी है, और Qwen/Qwen3-14B-GGUF Q4_K_M model की सिफारिश है
यह लगभग 7-8GB VRAM ही लेता है, इसलिए ज़्यादा भारी नहीं पड़ता, और llama-server या LM Studio इस्तेमाल करने की सलाह है
Llama 3.3 भी अच्छा विकल्प है
Devstral बहुत बड़ा है, इसलिए केवल quantized model के रूप में ही कोशिश की जा सकती है
Gemma में refusals ज़्यादा हैं, लेकिन Medgemma जैसे खास उद्देश्यों के लिए उपयोगी है
Eric Hartford के “Uncensored” Dolphin models और abliterated models उन मामलों में सुझाए जाते हैं जहाँ joke generation, security, या defense जैसे कामों के लिए कम रोक-टोक वाला मॉडल चाहिए (रोज़मर्रा के उपयोग में ज़रूरी नहीं)
bf16 dtype के हिसाब से unquantized model size निकालने के लिए parameter count x2 करें
Q4_K_M (4-bit) quantized model में VRAM आवश्यकता लगभग parameter count की आधी होती है
activation overhead वगैरह को ध्यान में रखते हुए 16GB से काफ़ी छोटे models से प्रयोग शुरू करने की सलाह है
llama-server GUI देता है, और
-hfoption से model download भी कर सकता हैLM Studio में installation और model management आसान है
अगर तेज़ response speed चाहिए, तो server को एक बार चलाकर कई queries में वही model share करना चाहिए (हर सवाल पर दोबारा load करेंगे तो धीमा होगा)
16GB के हिसाब से Q4 quant Mistral Small 3.1 या FP8 Qwen3-14B बिना बड़े दबाव के अच्छी तरह चल जाते हैं
हालांकि VRAM usage के अनुसार लंबा context length चाहिए तो Q4 quant Qwen3-14B, FP8 से performance में थोड़ा कम हो सकता है, लेकिन memory headroom ज़्यादा देता है
Mistral Small image input भी सपोर्ट करता है, जबकि Qwen3 math/coding में ज़्यादा specialized है
Q4 से नीचे जाना efficiency कम करता है, इसलिए इसकी सिफारिश नहीं
अगर लंबा context चाहिए तो Q4 quant Qwen3-8B बेहतर है, और Qwen3-30B-A3 शायद 16GB VRAM के लिए थोड़ा कम पड़ सकता है (क्योंकि भारी models GGUF में 15GB से ज़्यादा ले लेते हैं)
dense models (जहाँ सभी parameters इस्तेमाल होते हैं) sparse models की तुलना में प्रति parameter बेहतर performance देते हैं, लेकिन speed कम होती है; 5060-class GPU पर 14B काफ़ी आराम से चलता है
अगर Blackwell architecture है, तो NVFP4 में quantized model FP8 से तेज़ हो सकता है, लेकिन quality थोड़ी-सी कम होती है; Ollama में अभी support नहीं है, इसलिए vLLM अलग से इस्तेमाल करना पड़ेगा
pre-quantized NVFP4 models का support कम है, इसलिए llmcompressor जैसे टूल से खुद quantize करने की सिफारिश है
फिलहाल पहले मनचाहा LLM चुनें, फिर performance tuning के समय ही ऐसे tools पर जाएँ
LLM के बारे में कोई पूरी तरह objective, साफ़-साफ़ सही जवाब देना लगभग असंभव है; सबसे महत्वपूर्ण बात यह है कि आप खुद कई नए models को अपने लिए मायने रखने वाले कामों पर आज़माएँ
काम के प्रकार के अनुसार output quality में बहुत बड़ा अंतर आता है
अक्सर सोचता हूँ कि लोग VRAM usage का अनुमान कैसे लगाते हैं
gguf file जैसी downloadable model जानकारी में VRAM/memory requirement साफ़ तौर पर नहीं लिखी होती, जो थोड़ा अफ़सोसजनक है
बहुत मोटे तौर पर parameters की संख्या (B में) को memory के GB के रूप में समझ सकते हैं
quantization के हिसाब से उदाहरण:
FP16 = 2 x 8GB = 16GB (8B model)
Q8 = 1 x 8GB, Q4 = 0.5 x 8GB = 4GB
असल में थोड़ा अंतर होता है, लेकिन यह अंदाज़ा बहुत दूर नहीं जाता, और context length जैसी अतिरिक्त memory अलग से जोड़नी पड़ती है
सिद्धांत है: float values की संख्या x datatype bit width (4,8,16...) का संयोजन
quantization के अलावा अगर KV cache वगैरह सहित अधिक सटीक हिसाब चाहिए, तो VRAM calculator इस्तेमाल करने की सिफारिश है