llmfit - मेरे हार्डवेयर के अनुरूप LLM मॉडल खोजकर अपने-आप ऑप्टिमाइज़ करने वाला टर्मिनल टूल

(github.com/AlexsJones)

28 पॉइंट द्वारा GN⁺ 2026-03-03 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

सैकड़ों LLM मॉडल और providers में से, मेरे system RAM·CPU·GPU पर वास्तव में चल सकने वाले मॉडल एक ही कमांड में खोजने वाला टूल
हर मॉडल को quality·speed·fit·context के आधार पर स्कोर करके चलने की क्षमता दिखाता है, और TUI (terminal UI) व CLI mode दोनों को support करता है
multi-GPU·MoE architecture·dynamic quantization·speed estimation·local runtime (Ollama, llama.cpp, MLX) के साथ integration
हर मॉडल के लिए execution mode (GPU, CPU+GPU, CPU) और fit level (Perfect, Good, Marginal, Too Tight) का विश्लेषण करके सबसे अच्छा संयोजन सुझाता है
local environment में LLM का कुशल उपयोग करना चाहने वाले developers को hardware-based model selection automation देता है

मुख्य सुविधाओं का सारांश

llmfit एक terminal-based टूल है, जो system के hardware specs को detect करके यह आकलन करता है कि LLM मॉडल वास्तव में चल सकता है या नहीं
- RAM, CPU, GPU जानकारी पढ़कर हर मॉडल के लिए quality·speed·fit·context score की गणना करता है
- परिणाम interactive TUI या पारंपरिक CLI रूप में दिखाए जाते हैं
multi-GPU, Mixture-of-Experts(MoE), dynamic quantization selection, speed estimation, local runtime integration features को support करता है
local runtime के रूप में Ollama, llama.cpp, MLX को support करता है, और installed models की auto-detection तथा download संभव है
Plan mode के ज़रिए किसी खास मॉडल के लिए ज़रूरी minimum·recommended hardware को उल्टा calculate किया जा सकता है
macOS, Linux, Windows, Ascend जैसे कई platforms पर चलता है

macOS/Linux पर brew install llmfit या curl -fsSL https://llmfit.axjns.dev/install.sh | sh कमांड से install करें
Windows पर cargo install llmfit के जरिए install किया जा सकता है
चलाने पर llmfit कमांड से TUI खुलता है, जहाँ system specs और model list दिखाई जाती है
CLI mode में llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json जैसी कई subcommands मिलती हैं

hardware detection: sysinfo, nvidia-smi, rocm-smi, system_profiler आदि का उपयोग करके RAM·CPU·GPU जानकारी इकट्ठा करता है
model database: HuggingFace API से सैकड़ों मॉडल लाकर data/hf_models.json में store करता है
- Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite जैसे प्रमुख मॉडल शामिल
dynamic quantization: Q8_0~Q2_K स्तरों को iterate करते हुए, उपलब्ध memory के भीतर सबसे उच्च quality quantization अपने-आप चुनता है
speed estimation: GPU memory bandwidth आधारित formula (bandwidth_GB_s / model_size_GB) × 0.55 का उपयोग
- लगभग 80 GPU के लिए bandwidth table built-in है
fit analysis: GPU·CPU+GPU·CPU mode के अनुसार execution की संभावना और memory headroom का मूल्यांकन

TUI control keys:
- f से fit filter, a से availability filter, s से sorting criteria बदलें
- p से Plan mode में जाएँ, d से model download करें, t से theme बदलें
Plan mode में context length, quantization, target token speed आदि बदलते हुए ज़रूरी VRAM/RAM/CPU की गणना की जा सकती है
theme: Default, Dracula, Solarized, Nord, Monokai, Gruvbox सहित 6 built-in color themes

Ollama integration: local या remote Ollama instance (OLLAMA_HOST environment variable) से जुड़कर installed models detect और download करता है
llama.cpp integration: HuggingFace GGUF files को local cache में download करता है और install status दिखाता है
MLX integration: Apple Silicon के लिए model cache और server integration support
OpenClaw integration: llmfit-advisor skill के माध्यम से OpenClaw agent हार्डवेयर के अनुरूप मॉडल को अपने-आप recommend और configure करता है

scripts/scrape_hf_models.py स्क्रिप्ट से HuggingFace API में मॉडल सूची अपने-आप बनाई जाती है
make update-models कमांड से data refresh और binary rebuild
मॉडल को general, coding, reasoning, multimodal, chat, embedding जैसी categories में वर्गीकृत किया गया है
GGUF source cache (data/gguf_sources_cache.json) के ज़रिए download paths को 7 दिनों तक cache किया जाता है

Linux/macOS(Apple Silicon): पूर्ण support
Windows: RAM·CPU detection और NVIDIA GPU(nvidia-smi) support
GPU detection विफल होने पर --memory= option से VRAM मैन्युअली सेट किया जा सकता है