whichllm - अपने हार्डवेयर पर वास्तव में चलने और सबसे अच्छा प्रदर्शन देने वाला लोकल LLM खोजें

xguru · 2026-05-18T10:06:01+09:00

पैरामीटर संख्या नहीं, बल्कि वास्तविक बेंचमार्क आधारित CLI टूल, जो यूज़र के हार्डवेयर के अनुसार लोकल LLM अपने-आप सुझाता है GPU/CPU/RAM को स्वतः पहचानता है और HuggingFace मॉडलों में से सिस्टम के लिए उपयुक्त शीर्ष मॉडलों की रैंकिंग दिखाता है NVIDIA, AMD, Apple Silicon, और CPU-only सभी समर्थित मुख्य लक्ष्य VRAM में फिट होने वाला सबसे बड़ा मॉडल चुनना नहीं, बल्कि उनमें से वास्तव में सबसे अच्छा मॉडल चुनना है उदाहरण: RTX 4090 सिमुलेशन में 32B मॉडल फिट हो जाए, तब भी नई पीढ़ी के 27B मॉडल (Qwen3.6-27B) को पहले स्थान पर सुझाया जाता है मल्टी-बेंचमार्क मर्ज स्कोरिंग: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard को मिलाकर 0–100 स्कोर बनाता है नवीनतम मॉडल पहचान (Recency-aware): पुराने लीडरबोर्ड में मॉडल वंशावली के आधार पर स्कोर घटाता है, ताकि 2024 के मॉडल पुराने वर्ज़न स्कोर के सहारे मौजूदा पीढ़ी के मॉडल से आगे न निकलें साक्ष्य-आधारित 5-स्तरीय ग्रेडिंग - direct / variant / base_model / line_interp / self_reported टैग के बाद विश्वसनीयता डिस्काउंट लागू अपलोडर की झूठी self-reporting और छोटे fork द्वारा बड़े base score उधार लेने वाली cross-family inheritance को भी रोकता है यदि पैरामीटर family dominant member से 2 गुना या अधिक अलग हों, तो inheritance अस्वीकार कर दी जाती है आर्किटेक्चर-अवेयर VRAM/स्पीड अनुमान - VRAM में weights + GQA KV cache + activation + overhead शामिल, और स्पीड में bandwidth-bound के साथ MoE active बनाम total विभाजन तथा unified memory बनाम PCIe partial offload को शामिल किया जाता है whichllm run की एक पंक्ति से मॉडल डाउनलोड और चैट तक तुरंत चलने वाला one-command workflow समर्थित uv से isolated environment बनाना, dependency install करना, मॉडल डाउनलोड करना, और interactive chat तक सब कुछ अपने-आप GGUF / AWQ / GPTQ / FP16 / BF16 सभी फ़ॉर्मैट समर्थित हार्डवेयर प्लानिंग कमांड whichllm --gpu "RTX 5090" - खरीदने से पहले किसी भी GPU का सिमुलेशन करके जाँच whichllm plan "llama 3 70b" - किसी खास मॉडल के लिए आवश्यक GPU की reverse lookup whichllm upgrade "RTX 4090" "RTX 5090" "H100" - मौजूदा मशीन और संभावित GPU की तुलना Ollama इंटीग्रेशन: whichllm --top 1 --json | jq -r '.models[0].model_id' जैसे रूप में pipeline बनाई जा सकती है कोड स्निपेट आउटपुट: whichllm snippet "qwen 7b" से llama_cpp.Llama.from_pretrained कॉल से लेकर chat completion तक copy-paste करने योग्य Python कोड देता है MIT लाइसेंस

(github.com/Andyyyy64)

71 पॉइंट द्वारा xguru 2026-05-18 | 3 टिप्पणियां | WhatsApp पर शेयर करें

पैरामीटर संख्या नहीं, बल्कि वास्तविक बेंचमार्क आधारित CLI टूल, जो यूज़र के हार्डवेयर के अनुसार लोकल LLM अपने-आप सुझाता है
GPU/CPU/RAM को स्वतः पहचानता है और HuggingFace मॉडलों में से सिस्टम के लिए उपयुक्त शीर्ष मॉडलों की रैंकिंग दिखाता है
- NVIDIA, AMD, Apple Silicon, और CPU-only सभी समर्थित
मुख्य लक्ष्य VRAM में फिट होने वाला सबसे बड़ा मॉडल चुनना नहीं, बल्कि उनमें से वास्तव में सबसे अच्छा मॉडल चुनना है
- उदाहरण: RTX 4090 सिमुलेशन में 32B मॉडल फिट हो जाए, तब भी नई पीढ़ी के 27B मॉडल (Qwen3.6-27B) को पहले स्थान पर सुझाया जाता है
मल्टी-बेंचमार्क मर्ज स्कोरिंग: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard को मिलाकर 0–100 स्कोर बनाता है
नवीनतम मॉडल पहचान (Recency-aware): पुराने लीडरबोर्ड में मॉडल वंशावली के आधार पर स्कोर घटाता है, ताकि 2024 के मॉडल पुराने वर्ज़न स्कोर के सहारे मौजूदा पीढ़ी के मॉडल से आगे न निकलें
साक्ष्य-आधारित 5-स्तरीय ग्रेडिंग - direct / variant / base_model / line_interp / self_reported टैग के बाद विश्वसनीयता डिस्काउंट लागू
- अपलोडर की झूठी self-reporting और छोटे fork द्वारा बड़े base score उधार लेने वाली cross-family inheritance को भी रोकता है
- यदि पैरामीटर family dominant member से 2 गुना या अधिक अलग हों, तो inheritance अस्वीकार कर दी जाती है
आर्किटेक्चर-अवेयर VRAM/स्पीड अनुमान - VRAM में weights + GQA KV cache + activation + overhead शामिल, और स्पीड में bandwidth-bound के साथ MoE active बनाम total विभाजन तथा unified memory बनाम PCIe partial offload को शामिल किया जाता है
whichllm run की एक पंक्ति से मॉडल डाउनलोड और चैट तक तुरंत चलने वाला one-command workflow समर्थित
- uv से isolated environment बनाना, dependency install करना, मॉडल डाउनलोड करना, और interactive chat तक सब कुछ अपने-आप
- GGUF / AWQ / GPTQ / FP16 / BF16 सभी फ़ॉर्मैट समर्थित
हार्डवेयर प्लानिंग कमांड
- whichllm --gpu "RTX 5090" - खरीदने से पहले किसी भी GPU का सिमुलेशन करके जाँच
- whichllm plan "llama 3 70b" - किसी खास मॉडल के लिए आवश्यक GPU की reverse lookup
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - मौजूदा मशीन और संभावित GPU की तुलना
Ollama इंटीग्रेशन: whichllm --top 1 --json | jq -r '.models[0].model_id' जैसे रूप में pipeline बनाई जा सकती है
कोड स्निपेट आउटपुट: whichllm snippet "qwen 7b" से llama_cpp.Llama.from_pretrained कॉल से लेकर chat completion तक copy-paste करने योग्य Python कोड देता है
MIT लाइसेंस

3 टिप्पणियां

xguru 2026-05-18

मैं तो ऐसे 5 की सिफारिश करूँगा। इनमें 3 Qwen हैं।

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 2026-05-19

मैं https://www.canirun.ai/ साइट का इस्तेमाल कर रहा था, लेकिन लगता है इसे भी एक बार आज़माना चाहिए।

popopo 2026-05-18

╭────────────────────────────────────────────────────── Hardware Info ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — shared memory — BW: 256 GB/s         │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 cores (AVX2, AVX-512)                                                      │  
│ RAM: 117.5 GB                                                                                                              │  
│ Disk free: 174.1 GB                                                                                                        │  
│ OS: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               अनुशंसित मॉडल  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  शीर्ष अनुशंसा पर भरोसा: High (direct benchmark, gap +2.9)  
  बेंचमार्क संदर्भ: 2026-05 curated snapshot; live AA / LiveBench / Aider merged when reachable.

whichllm - अपने हार्डवेयर पर वास्तव में चलने और सबसे अच्छा प्रदर्शन देने वाला लोकल LLM खोजें

संबंधित पढ़ाई

3 टिप्पणियां