• सैकड़ों LLM मॉडल और providers में से, मेरे system RAM·CPU·GPU पर वास्तव में चल सकने वाले मॉडल एक ही कमांड में खोजने वाला टूल
  • हर मॉडल को quality·speed·fit·context के आधार पर स्कोर करके चलने की क्षमता दिखाता है, और TUI (terminal UI)CLI mode दोनों को support करता है
  • multi-GPU·MoE architecture·dynamic quantization·speed estimation·local runtime (Ollama, llama.cpp, MLX) के साथ integration
  • हर मॉडल के लिए execution mode (GPU, CPU+GPU, CPU) और fit level (Perfect, Good, Marginal, Too Tight) का विश्लेषण करके सबसे अच्छा संयोजन सुझाता है
  • local environment में LLM का कुशल उपयोग करना चाहने वाले developers को hardware-based model selection automation देता है

मुख्य सुविधाओं का सारांश

  • llmfit एक terminal-based टूल है, जो system के hardware specs को detect करके यह आकलन करता है कि LLM मॉडल वास्तव में चल सकता है या नहीं
    • RAM, CPU, GPU जानकारी पढ़कर हर मॉडल के लिए quality·speed·fit·context score की गणना करता है
    • परिणाम interactive TUI या पारंपरिक CLI रूप में दिखाए जाते हैं
  • multi-GPU, Mixture-of-Experts(MoE), dynamic quantization selection, speed estimation, local runtime integration features को support करता है
  • local runtime के रूप में Ollama, llama.cpp, MLX को support करता है, और installed models की auto-detection तथा download संभव है
  • Plan mode के ज़रिए किसी खास मॉडल के लिए ज़रूरी minimum·recommended hardware को उल्टा calculate किया जा सकता है
  • macOS, Linux, Windows, Ascend जैसे कई platforms पर चलता है

इंस्टॉलेशन और चलाने का तरीका

  • macOS/Linux पर brew install llmfit या curl -fsSL https://llmfit.axjns.dev/install.sh | sh कमांड से install करें
  • Windows पर cargo install llmfit के जरिए install किया जा सकता है
  • चलाने पर llmfit कमांड से TUI खुलता है, जहाँ system specs और model list दिखाई जाती है
  • CLI mode में llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json जैसी कई subcommands मिलती हैं

काम करने का तरीका

  • hardware detection: sysinfo, nvidia-smi, rocm-smi, system_profiler आदि का उपयोग करके RAM·CPU·GPU जानकारी इकट्ठा करता है
  • model database: HuggingFace API से सैकड़ों मॉडल लाकर data/hf_models.json में store करता है
    • Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite जैसे प्रमुख मॉडल शामिल
  • dynamic quantization: Q8_0~Q2_K स्तरों को iterate करते हुए, उपलब्ध memory के भीतर सबसे उच्च quality quantization अपने-आप चुनता है
  • speed estimation: GPU memory bandwidth आधारित formula (bandwidth_GB_s / model_size_GB) × 0.55 का उपयोग
    • लगभग 80 GPU के लिए bandwidth table built-in है
  • fit analysis: GPU·CPU+GPU·CPU mode के अनुसार execution की संभावना और memory headroom का मूल्यांकन

उपयोगकर्ता इंटरफ़ेस

  • TUI control keys:
    • f से fit filter, a से availability filter, s से sorting criteria बदलें
    • p से Plan mode में जाएँ, d से model download करें, t से theme बदलें
  • Plan mode में context length, quantization, target token speed आदि बदलते हुए ज़रूरी VRAM/RAM/CPU की गणना की जा सकती है
  • theme: Default, Dracula, Solarized, Nord, Monokai, Gruvbox सहित 6 built-in color themes

रनटाइम और एकीकरण सुविधाएँ

  • Ollama integration: local या remote Ollama instance (OLLAMA_HOST environment variable) से जुड़कर installed models detect और download करता है
  • llama.cpp integration: HuggingFace GGUF files को local cache में download करता है और install status दिखाता है
  • MLX integration: Apple Silicon के लिए model cache और server integration support
  • OpenClaw integration: llmfit-advisor skill के माध्यम से OpenClaw agent हार्डवेयर के अनुरूप मॉडल को अपने-आप recommend और configure करता है

मॉडल डेटाबेस प्रबंधन

  • scripts/scrape_hf_models.py स्क्रिप्ट से HuggingFace API में मॉडल सूची अपने-आप बनाई जाती है
  • make update-models कमांड से data refresh और binary rebuild
  • मॉडल को general, coding, reasoning, multimodal, chat, embedding जैसी categories में वर्गीकृत किया गया है
  • GGUF source cache (data/gguf_sources_cache.json) के ज़रिए download paths को 7 दिनों तक cache किया जाता है

प्लेटफ़ॉर्म समर्थन

  • Linux/macOS(Apple Silicon): पूर्ण support
  • Windows: RAM·CPU detection और NVIDIA GPU(nvidia-smi) support
  • GPU detection विफल होने पर --memory= option से VRAM मैन्युअली सेट किया जा सकता है

लाइसेंस

  • MIT लाइसेंस

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.