28 पॉइंट द्वारा GN⁺ 2026-03-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • सैकड़ों LLM मॉडल और providers में से, मेरे system RAM·CPU·GPU पर वास्तव में चल सकने वाले मॉडल एक ही कमांड में खोजने वाला टूल
  • हर मॉडल को quality·speed·fit·context के आधार पर स्कोर करके चलने की क्षमता दिखाता है, और TUI (terminal UI)CLI mode दोनों को support करता है
  • multi-GPU·MoE architecture·dynamic quantization·speed estimation·local runtime (Ollama, llama.cpp, MLX) के साथ integration
  • हर मॉडल के लिए execution mode (GPU, CPU+GPU, CPU) और fit level (Perfect, Good, Marginal, Too Tight) का विश्लेषण करके सबसे अच्छा संयोजन सुझाता है
  • local environment में LLM का कुशल उपयोग करना चाहने वाले developers को hardware-based model selection automation देता है

मुख्य सुविधाओं का सारांश

  • llmfit एक terminal-based टूल है, जो system के hardware specs को detect करके यह आकलन करता है कि LLM मॉडल वास्तव में चल सकता है या नहीं
    • RAM, CPU, GPU जानकारी पढ़कर हर मॉडल के लिए quality·speed·fit·context score की गणना करता है
    • परिणाम interactive TUI या पारंपरिक CLI रूप में दिखाए जाते हैं
  • multi-GPU, Mixture-of-Experts(MoE), dynamic quantization selection, speed estimation, local runtime integration features को support करता है
  • local runtime के रूप में Ollama, llama.cpp, MLX को support करता है, और installed models की auto-detection तथा download संभव है
  • Plan mode के ज़रिए किसी खास मॉडल के लिए ज़रूरी minimum·recommended hardware को उल्टा calculate किया जा सकता है
  • macOS, Linux, Windows, Ascend जैसे कई platforms पर चलता है

इंस्टॉलेशन और चलाने का तरीका

  • macOS/Linux पर brew install llmfit या curl -fsSL https://llmfit.axjns.dev/install.sh | sh कमांड से install करें
  • Windows पर cargo install llmfit के जरिए install किया जा सकता है
  • चलाने पर llmfit कमांड से TUI खुलता है, जहाँ system specs और model list दिखाई जाती है
  • CLI mode में llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json जैसी कई subcommands मिलती हैं

काम करने का तरीका

  • hardware detection: sysinfo, nvidia-smi, rocm-smi, system_profiler आदि का उपयोग करके RAM·CPU·GPU जानकारी इकट्ठा करता है
  • model database: HuggingFace API से सैकड़ों मॉडल लाकर data/hf_models.json में store करता है
    • Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite जैसे प्रमुख मॉडल शामिल
  • dynamic quantization: Q8_0~Q2_K स्तरों को iterate करते हुए, उपलब्ध memory के भीतर सबसे उच्च quality quantization अपने-आप चुनता है
  • speed estimation: GPU memory bandwidth आधारित formula (bandwidth_GB_s / model_size_GB) × 0.55 का उपयोग
    • लगभग 80 GPU के लिए bandwidth table built-in है
  • fit analysis: GPU·CPU+GPU·CPU mode के अनुसार execution की संभावना और memory headroom का मूल्यांकन

उपयोगकर्ता इंटरफ़ेस

  • TUI control keys:
    • f से fit filter, a से availability filter, s से sorting criteria बदलें
    • p से Plan mode में जाएँ, d से model download करें, t से theme बदलें
  • Plan mode में context length, quantization, target token speed आदि बदलते हुए ज़रूरी VRAM/RAM/CPU की गणना की जा सकती है
  • theme: Default, Dracula, Solarized, Nord, Monokai, Gruvbox सहित 6 built-in color themes

रनटाइम और एकीकरण सुविधाएँ

  • Ollama integration: local या remote Ollama instance (OLLAMA_HOST environment variable) से जुड़कर installed models detect और download करता है
  • llama.cpp integration: HuggingFace GGUF files को local cache में download करता है और install status दिखाता है
  • MLX integration: Apple Silicon के लिए model cache और server integration support
  • OpenClaw integration: llmfit-advisor skill के माध्यम से OpenClaw agent हार्डवेयर के अनुरूप मॉडल को अपने-आप recommend और configure करता है

मॉडल डेटाबेस प्रबंधन

  • scripts/scrape_hf_models.py स्क्रिप्ट से HuggingFace API में मॉडल सूची अपने-आप बनाई जाती है
  • make update-models कमांड से data refresh और binary rebuild
  • मॉडल को general, coding, reasoning, multimodal, chat, embedding जैसी categories में वर्गीकृत किया गया है
  • GGUF source cache (data/gguf_sources_cache.json) के ज़रिए download paths को 7 दिनों तक cache किया जाता है

प्लेटफ़ॉर्म समर्थन

  • Linux/macOS(Apple Silicon): पूर्ण support
  • Windows: RAM·CPU detection और NVIDIA GPU(nvidia-smi) support
  • GPU detection विफल होने पर --memory= option से VRAM मैन्युअली सेट किया जा सकता है

लाइसेंस

  • MIT लाइसेंस

1 टिप्पणियां

 
GN⁺ 2026-03-03
Hacker News टिप्पणियाँ
  • यह प्रोजेक्ट काफ़ी शानदार और उपयोगी लगता है, लेकिन काश यह वेबसाइट के रूप में होता
    executable चलाना थोड़ा बोझिल लगता है। मेरा मानना है कि यह फ़ंक्शनलिटी वेब पर भी काफ़ी हद तक लागू की जा सकती है

    • यह टूल hardware detection पर निर्भर करता है, इसलिए वेब पर इसकी सीमाएँ हैं
      GitHub विवरण के अनुसार, RAM क्षमता, GPU की संख्या, backend का प्रकार (CUDA, Metal आदि) को system level पर पढ़ना पड़ता है
      browser की sandbox सीमाओं के कारण JavaScript से इस तरह की जानकारी को सीधे एक्सेस नहीं किया जा सकता
      अगर इसे वेब वर्ज़न बनाना हो, तो यूज़र को macOS की .spx या Linux की inxi रिपोर्ट अपलोड करनी होगी, या हार्डवेयर कॉन्फ़िगरेशन खुद चुनना होगा
      यह तरीका कम सुविधाजनक है, लेकिन virtual hardware combinations को टेस्ट करने का फ़ायदा देता है
    • Hugging Face भी इसी तरह की सुविधा देता है, लेकिन वहाँ hardware information manually input करनी पड़ती है
      सच कहूँ तो, local model चलाने वाले लोग अपने हार्डवेयर को नहीं जानते हों, ऐसा ज़्यादा नहीं होता
    • मैंने हाल ही में whatmodelscanirun.com नाम की साइट देखी, वह संदर्भ के लिए काम की है
    • Hugging Face में भी यह फ़ीचर पहले से built-in है
    • community-based LLM model DB साइट inferbench.com भी है। वहाँ token speed और settings information साझा की जाती है
  • यह प्रोजेक्ट सच में बेहतरीन है
    असल में ज़रूरत सिर्फ LLM size और memory bandwidth की होती है
    एक साधारण फ़ॉर्मूले से यह तय किया जा सकता है कि मॉडल फिट होगा या नहीं
    उदाहरण के लिए, 32B मॉडल को 4bit पर चलाने के लिए कम से कम 16GB VRAM चाहिए
    tok/s = memory_bandwidth / llm_size से गणना करें तो RTX3090(960GB/s) लगभग 60 tok/s देता है
    MoE मॉडल में speed का निर्धारण active parameters से होता है
    इसमें लगभग 10% का मार्जिन जोड़ दें तो काफ़ी वास्तविक अनुमान मिलता है

    • KV cache में प्रति token write count कम होता है, इसलिए swap करना आसान होता है
      mmap से model parameters लोड करें तो RAM पर्याप्त होने पर performance गिराए बिना scale किया जा सकता है
    • यह अच्छा rule of thumb है। लेकिन ज़्यादातर मामलों में context window size बढ़ने पर RAM usage काफ़ी तेज़ी से बढ़ता है
    • मुझे यह फ़ॉर्मूला नहीं पता था, साझा करने के लिए धन्यवाद
  • देखने में तो शानदार है, लेकिन मेरी मशीन पर Qwen 3.5 अच्छी तरह चलता है जबकि यह टूल कहता है कि संभव नहीं है
    आख़िरकार ऐसे टूल शायद सिर्फ एक मोटे reference के रूप में ही इस्तेमाल किए जा सकते हैं
    Unsloth जैसी custom tuning लागू करें तो असल में और ज़्यादा मॉडल चलाए जा सकते हैं
    मॉडल इतनी तेज़ी से आ रहे हैं कि maintenance भी आसान नहीं होगा

    • संभव है कि disk और RAM के बीच swap हो रहा हो
      यह तरीका लंबे समय में disk की lifespan कम कर सकता है
  • आइडिया अच्छा है, लेकिन recommended models कुछ पुराने लगते हैं
    मेरे M4 MacBook Pro(128GB RAM) पर यह Qwen 2.5 या Starcoder 2 सुझाता है

  • जैसा कई लोगों ने कहा, इसे CLI tool की बजाय वेबसाइट के रूप में बनाना बेहतर होगा
    CPU, RAM, GPU specs को फ़ॉर्म में भरकर भी पर्याप्त गणना की जा सकती है

  • समझ नहीं आता कि इसे डाउनलोड करके चलाने की ज़रूरत क्यों है
    बस dropdown से specs चुनकर नतीजे देखना बेहतर होगा

  • यह ज़्यादातर cases को अच्छी तरह cover करता है, लेकिन AMD iGPU जैसे मामलों में जहाँ ROCm supported नहीं है, वहाँ इसे Vulkan-based तरीके से चलाया जा सकता है
    driver settings से system RAM को VRAM की तरह इस्तेमाल कराया जाए, तो जो मॉडल सामान्यतः असंभव लगते हैं वे भी लोड किए जा सकते हैं
    खासकर layer offloading या quantized MoE मॉडल में यह उपयोगी है

  • Claude भी system specs इनपुट करने पर काफ़ी अच्छे model recommendations देता है

    • मैंने भी Claude से पूछा था, “इस कंप्यूटर पर चल सकने वाला सबसे अच्छा local LLM कौन-सा है?” तब उसने पहले से इंस्टॉल मॉडल के साथ एक और सुझाव दिया
      यह latest जानकारी थी या नहीं, पक्का नहीं कह सकता। मैंने Ollama और LM Studio के आधार पर टेस्ट किया था
  • मैं Claude या Codex से Ollama के साथ कई models को क्रम से चलवाता हूँ और performance का automatic evaluation करवाता हूँ
    लगभग 30 मिनट में मेरे सिस्टम के लिए सही मॉडल मिल जाता है

    • क्या आप वह prompt साझा कर सकते हैं?