17 पॉइंट द्वारा xguru 3 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • पैरामीटर संख्या नहीं, बल्कि वास्तविक बेंचमार्क आधारित CLI टूल, जो यूज़र के हार्डवेयर के अनुसार लोकल LLM अपने-आप सुझाता है
  • GPU/CPU/RAM को स्वतः पहचानता है और HuggingFace मॉडलों में से सिस्टम के लिए उपयुक्त शीर्ष मॉडलों की रैंकिंग दिखाता है
    • NVIDIA, AMD, Apple Silicon, और CPU-only सभी समर्थित
  • मुख्य लक्ष्य VRAM में फिट होने वाला सबसे बड़ा मॉडल चुनना नहीं, बल्कि उनमें से वास्तव में सबसे अच्छा मॉडल चुनना है
    • उदाहरण: RTX 4090 सिमुलेशन में 32B मॉडल फिट हो जाए, तब भी नई पीढ़ी के 27B मॉडल (Qwen3.6-27B) को पहले स्थान पर सुझाया जाता है
  • मल्टी-बेंचमार्क मर्ज स्कोरिंग: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard को मिलाकर 0–100 स्कोर बनाता है
  • नवीनतम मॉडल पहचान (Recency-aware): पुराने लीडरबोर्ड में मॉडल वंशावली के आधार पर स्कोर घटाता है, ताकि 2024 के मॉडल पुराने वर्ज़न स्कोर के सहारे मौजूदा पीढ़ी के मॉडल से आगे न निकलें
  • साक्ष्य-आधारित 5-स्तरीय ग्रेडिंग - direct / variant / base_model / line_interp / self_reported टैग के बाद विश्वसनीयता डिस्काउंट लागू
    • अपलोडर की झूठी self-reporting और छोटे fork द्वारा बड़े base score उधार लेने वाली cross-family inheritance को भी रोकता है
    • यदि पैरामीटर family dominant member से 2 गुना या अधिक अलग हों, तो inheritance अस्वीकार कर दी जाती है
  • आर्किटेक्चर-अवेयर VRAM/स्पीड अनुमान - VRAM में weights + GQA KV cache + activation + overhead शामिल, और स्पीड में bandwidth-bound के साथ MoE active बनाम total विभाजन तथा unified memory बनाम PCIe partial offload को शामिल किया जाता है
  • whichllm run की एक पंक्ति से मॉडल डाउनलोड और चैट तक तुरंत चलने वाला one-command workflow समर्थित
    • uv से isolated environment बनाना, dependency install करना, मॉडल डाउनलोड करना, और interactive chat तक सब कुछ अपने-आप
    • GGUF / AWQ / GPTQ / FP16 / BF16 सभी फ़ॉर्मैट समर्थित
  • हार्डवेयर प्लानिंग कमांड
    • whichllm --gpu "RTX 5090" - खरीदने से पहले किसी भी GPU का सिमुलेशन करके जाँच
    • whichllm plan "llama 3 70b" - किसी खास मॉडल के लिए आवश्यक GPU की reverse lookup
    • whichllm upgrade "RTX 4090" "RTX 5090" "H100" - मौजूदा मशीन और संभावित GPU की तुलना
  • Ollama इंटीग्रेशन: whichllm --top 1 --json | jq -r '.models[0].model_id' जैसे रूप में pipeline बनाई जा सकती है
  • कोड स्निपेट आउटपुट: whichllm snippet "qwen 7b" से llama_cpp.Llama.from_pretrained कॉल से लेकर chat completion तक copy-paste करने योग्य Python कोड देता है
  • MIT लाइसेंस

1 टिप्पणियां

 
xguru 3 시간 전

मैं तो ऐसे 5 की सिफारिश करूँगा। इनमें 3 Qwen हैं।

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B