llmfit - मेरे हार्डवेयर के अनुरूप LLM मॉडल खोजकर अपने-आप ऑप्टिमाइज़ करने वाला टर्मिनल टूल
(github.com/AlexsJones)- सैकड़ों LLM मॉडल और providers में से, मेरे system RAM·CPU·GPU पर वास्तव में चल सकने वाले मॉडल एक ही कमांड में खोजने वाला टूल
- हर मॉडल को quality·speed·fit·context के आधार पर स्कोर करके चलने की क्षमता दिखाता है, और TUI (terminal UI) व CLI mode दोनों को support करता है
- multi-GPU·MoE architecture·dynamic quantization·speed estimation·local runtime (Ollama, llama.cpp, MLX) के साथ integration
- हर मॉडल के लिए execution mode (GPU, CPU+GPU, CPU) और fit level (Perfect, Good, Marginal, Too Tight) का विश्लेषण करके सबसे अच्छा संयोजन सुझाता है
- local environment में LLM का कुशल उपयोग करना चाहने वाले developers को hardware-based model selection automation देता है
मुख्य सुविधाओं का सारांश
- llmfit एक terminal-based टूल है, जो system के hardware specs को detect करके यह आकलन करता है कि LLM मॉडल वास्तव में चल सकता है या नहीं
- RAM, CPU, GPU जानकारी पढ़कर हर मॉडल के लिए quality·speed·fit·context score की गणना करता है
- परिणाम interactive TUI या पारंपरिक CLI रूप में दिखाए जाते हैं
- multi-GPU, Mixture-of-Experts(MoE), dynamic quantization selection, speed estimation, local runtime integration features को support करता है
- local runtime के रूप में Ollama, llama.cpp, MLX को support करता है, और installed models की auto-detection तथा download संभव है
- Plan mode के ज़रिए किसी खास मॉडल के लिए ज़रूरी minimum·recommended hardware को उल्टा calculate किया जा सकता है
- macOS, Linux, Windows, Ascend जैसे कई platforms पर चलता है
इंस्टॉलेशन और चलाने का तरीका
- macOS/Linux पर
brew install llmfitयाcurl -fsSL https://llmfit.axjns.dev/install.sh | shकमांड से install करें - Windows पर
cargo install llmfitके जरिए install किया जा सकता है - चलाने पर
llmfitकमांड से TUI खुलता है, जहाँ system specs और model list दिखाई जाती है - CLI mode में
llmfit --cli,llmfit fit --perfect -n 5,llmfit recommend --jsonजैसी कई subcommands मिलती हैं
काम करने का तरीका
- hardware detection:
sysinfo,nvidia-smi,rocm-smi,system_profilerआदि का उपयोग करके RAM·CPU·GPU जानकारी इकट्ठा करता है - model database: HuggingFace API से सैकड़ों मॉडल लाकर
data/hf_models.jsonमें store करता है- Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite जैसे प्रमुख मॉडल शामिल
- dynamic quantization: Q8_0~Q2_K स्तरों को iterate करते हुए, उपलब्ध memory के भीतर सबसे उच्च quality quantization अपने-आप चुनता है
- speed estimation: GPU memory bandwidth आधारित formula
(bandwidth_GB_s / model_size_GB) × 0.55का उपयोग- लगभग 80 GPU के लिए bandwidth table built-in है
- fit analysis: GPU·CPU+GPU·CPU mode के अनुसार execution की संभावना और memory headroom का मूल्यांकन
उपयोगकर्ता इंटरफ़ेस
- TUI control keys:
fसे fit filter,aसे availability filter,sसे sorting criteria बदलेंpसे Plan mode में जाएँ,dसे model download करें,tसे theme बदलें
- Plan mode में context length, quantization, target token speed आदि बदलते हुए ज़रूरी VRAM/RAM/CPU की गणना की जा सकती है
- theme: Default, Dracula, Solarized, Nord, Monokai, Gruvbox सहित 6 built-in color themes
रनटाइम और एकीकरण सुविधाएँ
- Ollama integration: local या remote Ollama instance (
OLLAMA_HOSTenvironment variable) से जुड़कर installed models detect और download करता है - llama.cpp integration: HuggingFace GGUF files को local cache में download करता है और install status दिखाता है
- MLX integration: Apple Silicon के लिए model cache और server integration support
- OpenClaw integration:
llmfit-advisorskill के माध्यम से OpenClaw agent हार्डवेयर के अनुरूप मॉडल को अपने-आप recommend और configure करता है
मॉडल डेटाबेस प्रबंधन
scripts/scrape_hf_models.pyस्क्रिप्ट से HuggingFace API में मॉडल सूची अपने-आप बनाई जाती हैmake update-modelsकमांड से data refresh और binary rebuild- मॉडल को general, coding, reasoning, multimodal, chat, embedding जैसी categories में वर्गीकृत किया गया है
- GGUF source cache (
data/gguf_sources_cache.json) के ज़रिए download paths को 7 दिनों तक cache किया जाता है
प्लेटफ़ॉर्म समर्थन
- Linux/macOS(Apple Silicon): पूर्ण support
- Windows: RAM·CPU detection और NVIDIA GPU(
nvidia-smi) support - GPU detection विफल होने पर
--memory=option से VRAM मैन्युअली सेट किया जा सकता है
लाइसेंस
- MIT लाइसेंस
1 टिप्पणियां
Hacker News टिप्पणियाँ
यह प्रोजेक्ट काफ़ी शानदार और उपयोगी लगता है, लेकिन काश यह वेबसाइट के रूप में होता
executable चलाना थोड़ा बोझिल लगता है। मेरा मानना है कि यह फ़ंक्शनलिटी वेब पर भी काफ़ी हद तक लागू की जा सकती है
GitHub विवरण के अनुसार, RAM क्षमता, GPU की संख्या, backend का प्रकार (CUDA, Metal आदि) को system level पर पढ़ना पड़ता है
browser की sandbox सीमाओं के कारण JavaScript से इस तरह की जानकारी को सीधे एक्सेस नहीं किया जा सकता
अगर इसे वेब वर्ज़न बनाना हो, तो यूज़र को macOS की
.spxया Linux कीinxiरिपोर्ट अपलोड करनी होगी, या हार्डवेयर कॉन्फ़िगरेशन खुद चुनना होगायह तरीका कम सुविधाजनक है, लेकिन virtual hardware combinations को टेस्ट करने का फ़ायदा देता है
सच कहूँ तो, local model चलाने वाले लोग अपने हार्डवेयर को नहीं जानते हों, ऐसा ज़्यादा नहीं होता
यह प्रोजेक्ट सच में बेहतरीन है
असल में ज़रूरत सिर्फ LLM size और memory bandwidth की होती है
एक साधारण फ़ॉर्मूले से यह तय किया जा सकता है कि मॉडल फिट होगा या नहीं
उदाहरण के लिए, 32B मॉडल को 4bit पर चलाने के लिए कम से कम 16GB VRAM चाहिए
tok/s = memory_bandwidth / llm_sizeसे गणना करें तो RTX3090(960GB/s) लगभग 60 tok/s देता हैMoE मॉडल में speed का निर्धारण active parameters से होता है
इसमें लगभग 10% का मार्जिन जोड़ दें तो काफ़ी वास्तविक अनुमान मिलता है
mmapसे model parameters लोड करें तो RAM पर्याप्त होने पर performance गिराए बिना scale किया जा सकता हैदेखने में तो शानदार है, लेकिन मेरी मशीन पर Qwen 3.5 अच्छी तरह चलता है जबकि यह टूल कहता है कि संभव नहीं है
आख़िरकार ऐसे टूल शायद सिर्फ एक मोटे reference के रूप में ही इस्तेमाल किए जा सकते हैं
Unsloth जैसी custom tuning लागू करें तो असल में और ज़्यादा मॉडल चलाए जा सकते हैं
मॉडल इतनी तेज़ी से आ रहे हैं कि maintenance भी आसान नहीं होगा
यह तरीका लंबे समय में disk की lifespan कम कर सकता है
आइडिया अच्छा है, लेकिन recommended models कुछ पुराने लगते हैं
मेरे M4 MacBook Pro(128GB RAM) पर यह Qwen 2.5 या Starcoder 2 सुझाता है
जैसा कई लोगों ने कहा, इसे CLI tool की बजाय वेबसाइट के रूप में बनाना बेहतर होगा
CPU, RAM, GPU specs को फ़ॉर्म में भरकर भी पर्याप्त गणना की जा सकती है
समझ नहीं आता कि इसे डाउनलोड करके चलाने की ज़रूरत क्यों है
बस dropdown से specs चुनकर नतीजे देखना बेहतर होगा
यह ज़्यादातर cases को अच्छी तरह cover करता है, लेकिन AMD iGPU जैसे मामलों में जहाँ ROCm supported नहीं है, वहाँ इसे Vulkan-based तरीके से चलाया जा सकता है
driver settings से system RAM को VRAM की तरह इस्तेमाल कराया जाए, तो जो मॉडल सामान्यतः असंभव लगते हैं वे भी लोड किए जा सकते हैं
खासकर layer offloading या quantized MoE मॉडल में यह उपयोगी है
Claude भी system specs इनपुट करने पर काफ़ी अच्छे model recommendations देता है
यह latest जानकारी थी या नहीं, पक्का नहीं कह सकता। मैंने Ollama और LM Studio के आधार पर टेस्ट किया था
मैं Claude या Codex से Ollama के साथ कई models को क्रम से चलवाता हूँ और performance का automatic evaluation करवाता हूँ
लगभग 30 मिनट में मेरे सिस्टम के लिए सही मॉडल मिल जाता है