71 पॉइंट द्वारा xguru 2026-05-18 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • पैरामीटर संख्या नहीं, बल्कि वास्तविक बेंचमार्क आधारित CLI टूल, जो यूज़र के हार्डवेयर के अनुसार लोकल LLM अपने-आप सुझाता है
  • GPU/CPU/RAM को स्वतः पहचानता है और HuggingFace मॉडलों में से सिस्टम के लिए उपयुक्त शीर्ष मॉडलों की रैंकिंग दिखाता है
    • NVIDIA, AMD, Apple Silicon, और CPU-only सभी समर्थित
  • मुख्य लक्ष्य VRAM में फिट होने वाला सबसे बड़ा मॉडल चुनना नहीं, बल्कि उनमें से वास्तव में सबसे अच्छा मॉडल चुनना है
    • उदाहरण: RTX 4090 सिमुलेशन में 32B मॉडल फिट हो जाए, तब भी नई पीढ़ी के 27B मॉडल (Qwen3.6-27B) को पहले स्थान पर सुझाया जाता है
  • मल्टी-बेंचमार्क मर्ज स्कोरिंग: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard को मिलाकर 0–100 स्कोर बनाता है
  • नवीनतम मॉडल पहचान (Recency-aware): पुराने लीडरबोर्ड में मॉडल वंशावली के आधार पर स्कोर घटाता है, ताकि 2024 के मॉडल पुराने वर्ज़न स्कोर के सहारे मौजूदा पीढ़ी के मॉडल से आगे न निकलें
  • साक्ष्य-आधारित 5-स्तरीय ग्रेडिंग - direct / variant / base_model / line_interp / self_reported टैग के बाद विश्वसनीयता डिस्काउंट लागू
    • अपलोडर की झूठी self-reporting और छोटे fork द्वारा बड़े base score उधार लेने वाली cross-family inheritance को भी रोकता है
    • यदि पैरामीटर family dominant member से 2 गुना या अधिक अलग हों, तो inheritance अस्वीकार कर दी जाती है
  • आर्किटेक्चर-अवेयर VRAM/स्पीड अनुमान - VRAM में weights + GQA KV cache + activation + overhead शामिल, और स्पीड में bandwidth-bound के साथ MoE active बनाम total विभाजन तथा unified memory बनाम PCIe partial offload को शामिल किया जाता है
  • whichllm run की एक पंक्ति से मॉडल डाउनलोड और चैट तक तुरंत चलने वाला one-command workflow समर्थित
    • uv से isolated environment बनाना, dependency install करना, मॉडल डाउनलोड करना, और interactive chat तक सब कुछ अपने-आप
    • GGUF / AWQ / GPTQ / FP16 / BF16 सभी फ़ॉर्मैट समर्थित
  • हार्डवेयर प्लानिंग कमांड
    • whichllm --gpu "RTX 5090" - खरीदने से पहले किसी भी GPU का सिमुलेशन करके जाँच
    • whichllm plan "llama 3 70b" - किसी खास मॉडल के लिए आवश्यक GPU की reverse lookup
    • whichllm upgrade "RTX 4090" "RTX 5090" "H100" - मौजूदा मशीन और संभावित GPU की तुलना
  • Ollama इंटीग्रेशन: whichllm --top 1 --json | jq -r '.models[0].model_id' जैसे रूप में pipeline बनाई जा सकती है
  • कोड स्निपेट आउटपुट: whichllm snippet "qwen 7b" से llama_cpp.Llama.from_pretrained कॉल से लेकर chat completion तक copy-paste करने योग्य Python कोड देता है
  • MIT लाइसेंस

3 टिप्पणियां

 
xguru 2026-05-18

मैं तो ऐसे 5 की सिफारिश करूँगा। इनमें 3 Qwen हैं।

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

 
nezz1204 2026-05-19

मैं https://www.canirun.ai/ साइट का इस्तेमाल कर रहा था, लेकिन लगता है इसे भी एक बार आज़माना चाहिए।

 
popopo 2026-05-18
╭────────────────────────────────────────────────────── Hardware Info ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — shared memory — BW: 256 GB/s         │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 cores (AVX2, AVX-512)                                                      │  
│ RAM: 117.5 GB                                                                                                              │  
│ Disk free: 174.1 GB                                                                                                        │  
│ OS: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               अनुशंसित मॉडल  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  शीर्ष अनुशंसा पर भरोसा: High (direct benchmark, gap +2.9)  
  बेंचमार्क संदर्भ: 2026-05 curated snapshot; live AA / LiveBench / Aider merged when reachable.