- सैकड़ों LLM मॉडल और providers में से, मेरे system RAM·CPU·GPU पर वास्तव में चल सकने वाले मॉडल एक ही कमांड में खोजने वाला टूल
- हर मॉडल को quality·speed·fit·context के आधार पर स्कोर करके चलने की क्षमता दिखाता है, और TUI (terminal UI) व CLI mode दोनों को support करता है
- multi-GPU·MoE architecture·dynamic quantization·speed estimation·local runtime (Ollama, llama.cpp, MLX) के साथ integration
- हर मॉडल के लिए execution mode (GPU, CPU+GPU, CPU) और fit level (Perfect, Good, Marginal, Too Tight) का विश्लेषण करके सबसे अच्छा संयोजन सुझाता है
- local environment में LLM का कुशल उपयोग करना चाहने वाले developers को hardware-based model selection automation देता है
मुख्य सुविधाओं का सारांश
- llmfit एक terminal-based टूल है, जो system के hardware specs को detect करके यह आकलन करता है कि LLM मॉडल वास्तव में चल सकता है या नहीं
- RAM, CPU, GPU जानकारी पढ़कर हर मॉडल के लिए quality·speed·fit·context score की गणना करता है
- परिणाम interactive TUI या पारंपरिक CLI रूप में दिखाए जाते हैं
- multi-GPU, Mixture-of-Experts(MoE), dynamic quantization selection, speed estimation, local runtime integration features को support करता है
- local runtime के रूप में Ollama, llama.cpp, MLX को support करता है, और installed models की auto-detection तथा download संभव है
- Plan mode के ज़रिए किसी खास मॉडल के लिए ज़रूरी minimum·recommended hardware को उल्टा calculate किया जा सकता है
- macOS, Linux, Windows, Ascend जैसे कई platforms पर चलता है
इंस्टॉलेशन और चलाने का तरीका
- macOS/Linux पर
brew install llmfit या curl -fsSL https://llmfit.axjns.dev/install.sh | sh कमांड से install करें
- Windows पर
cargo install llmfit के जरिए install किया जा सकता है
- चलाने पर
llmfit कमांड से TUI खुलता है, जहाँ system specs और model list दिखाई जाती है
- CLI mode में
llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json जैसी कई subcommands मिलती हैं
काम करने का तरीका
- hardware detection:
sysinfo, nvidia-smi, rocm-smi, system_profiler आदि का उपयोग करके RAM·CPU·GPU जानकारी इकट्ठा करता है
- model database: HuggingFace API से सैकड़ों मॉडल लाकर
data/hf_models.json में store करता है
- Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite जैसे प्रमुख मॉडल शामिल
- dynamic quantization: Q8_0~Q2_K स्तरों को iterate करते हुए, उपलब्ध memory के भीतर सबसे उच्च quality quantization अपने-आप चुनता है
- speed estimation: GPU memory bandwidth आधारित formula
(bandwidth_GB_s / model_size_GB) × 0.55 का उपयोग
- लगभग 80 GPU के लिए bandwidth table built-in है
- fit analysis: GPU·CPU+GPU·CPU mode के अनुसार execution की संभावना और memory headroom का मूल्यांकन
उपयोगकर्ता इंटरफ़ेस
- TUI control keys:
f से fit filter, a से availability filter, s से sorting criteria बदलें
p से Plan mode में जाएँ, d से model download करें, t से theme बदलें
- Plan mode में context length, quantization, target token speed आदि बदलते हुए ज़रूरी VRAM/RAM/CPU की गणना की जा सकती है
- theme: Default, Dracula, Solarized, Nord, Monokai, Gruvbox सहित 6 built-in color themes
रनटाइम और एकीकरण सुविधाएँ
- Ollama integration: local या remote Ollama instance (
OLLAMA_HOST environment variable) से जुड़कर installed models detect और download करता है
- llama.cpp integration: HuggingFace GGUF files को local cache में download करता है और install status दिखाता है
- MLX integration: Apple Silicon के लिए model cache और server integration support
- OpenClaw integration:
llmfit-advisor skill के माध्यम से OpenClaw agent हार्डवेयर के अनुरूप मॉडल को अपने-आप recommend और configure करता है
मॉडल डेटाबेस प्रबंधन
scripts/scrape_hf_models.py स्क्रिप्ट से HuggingFace API में मॉडल सूची अपने-आप बनाई जाती है
make update-models कमांड से data refresh और binary rebuild
- मॉडल को general, coding, reasoning, multimodal, chat, embedding जैसी categories में वर्गीकृत किया गया है
- GGUF source cache (
data/gguf_sources_cache.json) के ज़रिए download paths को 7 दिनों तक cache किया जाता है
प्लेटफ़ॉर्म समर्थन
- Linux/macOS(Apple Silicon): पूर्ण support
- Windows: RAM·CPU detection और NVIDIA GPU(
nvidia-smi) support
- GPU detection विफल होने पर
--memory= option से VRAM मैन्युअली सेट किया जा सकता है
लाइसेंस
अभी कोई टिप्पणी नहीं है.