57 पॉइंट द्वारा xguru 2025-10-30 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • लोकल environment में LLM को पूरी तरह offline चलाने के लिए डिज़ाइन किया गया टूल, जो Ollama से 142 गुना छोटा 4.8MB single binary के रूप में उपलब्ध है
  • OpenAI API के साथ 100% compatible है, इसलिए मौजूदा Python, Node.js, VSCode Copilot, Cursor, Continue.dev जैसे development tools को बिना बदलाव सीधे जोड़ा जा सकता है
  • इंस्टॉल करते ही तुरंत काम करने वाली zero-config संरचना
    • Hugging Face, Ollama, local directory आदि से automatic model discovery
    • automatic port assignment और LoRA adapter detection का समर्थन
  • MOE(Mixture of Experts) आधारित CPU/GPU hybrid inference की मदद से 70B या उससे बड़े मॉडल सामान्य PC पर चलाना संभव
    • CPU offloading और intelligent layer distribution के कारण कम VRAM वाले environment में भी स्थिर रूप से चल सकता है
    • --cpu-moe, --n-cpu-moe options से विस्तृत नियंत्रण संभव
  • GPU acceleration के लिए CUDA, Vulkan, OpenCL, MLX(Apple Silicon) सहित कई backend का समर्थन
    • runtime पर अपने आप detect करता है, और GPU न होने पर CPU पर अपने आप switch हो जाता है
  • Rust + Tokio आधारित asynchronous architecture से उच्च performance और memory stability मिलती है
    • llama.cpp backend के उपयोग से GGUF models compatible हैं
    • LRU cache, automatic load balancing, Prometheus integrated monitoring आदि शामिल हैं
  • security और privacy-केंद्रित डिज़ाइन
    • data और code लोकल system से बाहर नहीं जाते
    • API key, paid plan, या token billing की ज़रूरत नहीं
  • MIT license के तहत स्थायी रूप से मुफ़्त उपलब्ध: “FREE now, FREE forever”

5 टिप्पणियां

 
nextstep 2025-11-01

मैंने Korean, English, Chinese और Japanese तक टेस्ट किया, लेकिन फिलहाल Japanese प्रोसेसिंग में समस्या है।

 
woung717 2025-11-01

जब backend वैसे भी llama.cpp है, तो क्या इसे dependency free कहा जा सकता है...

 
tsboard 2025-10-30

वाह, यह सच में कमाल है, बहुत ही ज़बरदस्त — इसे तो अभी तुरंत आज़माना पड़ेगा

 
kimjoin2 2025-10-30

वाह

 
mssmss 2025-10-30

लगता है contributor में Claude और Copilot दोनों साथ में दर्ज हैं।