- पैरामीटर संख्या नहीं, बल्कि वास्तविक बेंचमार्क आधारित CLI टूल, जो यूज़र के हार्डवेयर के अनुसार लोकल LLM अपने-आप सुझाता है
- GPU/CPU/RAM को स्वतः पहचानता है और HuggingFace मॉडलों में से सिस्टम के लिए उपयुक्त शीर्ष मॉडलों की रैंकिंग दिखाता है
- NVIDIA, AMD, Apple Silicon, और CPU-only सभी समर्थित
- मुख्य लक्ष्य VRAM में फिट होने वाला सबसे बड़ा मॉडल चुनना नहीं, बल्कि उनमें से वास्तव में सबसे अच्छा मॉडल चुनना है
- उदाहरण: RTX 4090 सिमुलेशन में 32B मॉडल फिट हो जाए, तब भी नई पीढ़ी के 27B मॉडल (Qwen3.6-27B) को पहले स्थान पर सुझाया जाता है
- मल्टी-बेंचमार्क मर्ज स्कोरिंग: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard को मिलाकर 0–100 स्कोर बनाता है
- नवीनतम मॉडल पहचान (Recency-aware): पुराने लीडरबोर्ड में मॉडल वंशावली के आधार पर स्कोर घटाता है, ताकि 2024 के मॉडल पुराने वर्ज़न स्कोर के सहारे मौजूदा पीढ़ी के मॉडल से आगे न निकलें
- साक्ष्य-आधारित 5-स्तरीय ग्रेडिंग -
direct / variant / base_model / line_interp / self_reported टैग के बाद विश्वसनीयता डिस्काउंट लागू
- अपलोडर की झूठी self-reporting और छोटे fork द्वारा बड़े base score उधार लेने वाली cross-family inheritance को भी रोकता है
- यदि पैरामीटर family dominant member से 2 गुना या अधिक अलग हों, तो inheritance अस्वीकार कर दी जाती है
- आर्किटेक्चर-अवेयर VRAM/स्पीड अनुमान - VRAM में weights + GQA KV cache + activation + overhead शामिल, और स्पीड में bandwidth-bound के साथ MoE active बनाम total विभाजन तथा unified memory बनाम PCIe partial offload को शामिल किया जाता है
whichllm run की एक पंक्ति से मॉडल डाउनलोड और चैट तक तुरंत चलने वाला one-command workflow समर्थित
uv से isolated environment बनाना, dependency install करना, मॉडल डाउनलोड करना, और interactive chat तक सब कुछ अपने-आप
- GGUF / AWQ / GPTQ / FP16 / BF16 सभी फ़ॉर्मैट समर्थित
- हार्डवेयर प्लानिंग कमांड
whichllm --gpu "RTX 5090" - खरीदने से पहले किसी भी GPU का सिमुलेशन करके जाँच
whichllm plan "llama 3 70b" - किसी खास मॉडल के लिए आवश्यक GPU की reverse lookup
whichllm upgrade "RTX 4090" "RTX 5090" "H100" - मौजूदा मशीन और संभावित GPU की तुलना
- Ollama इंटीग्रेशन:
whichllm --top 1 --json | jq -r '.models[0].model_id' जैसे रूप में pipeline बनाई जा सकती है
- कोड स्निपेट आउटपुट:
whichllm snippet "qwen 7b" से llama_cpp.Llama.from_pretrained कॉल से लेकर chat completion तक copy-paste करने योग्य Python कोड देता है
- MIT लाइसेंस
1 टिप्पणियां
मैं तो ऐसे 5 की सिफारिश करूँगा। इनमें 3 Qwen हैं।
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B