Shimmy - Ollama का विकल्प बनने वाला, व्यक्तिगत प्राइवेसी-केंद्रित हल्का OpenAI API सर्वर
(github.com/Michael-A-Kuykendall)- लोकल environment में LLM को पूरी तरह offline चलाने के लिए डिज़ाइन किया गया टूल, जो Ollama से 142 गुना छोटा 4.8MB single binary के रूप में उपलब्ध है
- OpenAI API के साथ 100% compatible है, इसलिए मौजूदा Python, Node.js, VSCode Copilot, Cursor, Continue.dev जैसे development tools को बिना बदलाव सीधे जोड़ा जा सकता है
- इंस्टॉल करते ही तुरंत काम करने वाली zero-config संरचना
- Hugging Face, Ollama, local directory आदि से automatic model discovery
- automatic port assignment और LoRA adapter detection का समर्थन
- MOE(Mixture of Experts) आधारित CPU/GPU hybrid inference की मदद से 70B या उससे बड़े मॉडल सामान्य PC पर चलाना संभव
- CPU offloading और intelligent layer distribution के कारण कम VRAM वाले environment में भी स्थिर रूप से चल सकता है
--cpu-moe,--n-cpu-moeoptions से विस्तृत नियंत्रण संभव
- GPU acceleration के लिए CUDA, Vulkan, OpenCL, MLX(Apple Silicon) सहित कई backend का समर्थन
- runtime पर अपने आप detect करता है, और GPU न होने पर CPU पर अपने आप switch हो जाता है
- Rust + Tokio आधारित asynchronous architecture से उच्च performance और memory stability मिलती है
- llama.cpp backend के उपयोग से GGUF models compatible हैं
- LRU cache, automatic load balancing, Prometheus integrated monitoring आदि शामिल हैं
- security और privacy-केंद्रित डिज़ाइन
- data और code लोकल system से बाहर नहीं जाते
- API key, paid plan, या token billing की ज़रूरत नहीं
- MIT license के तहत स्थायी रूप से मुफ़्त उपलब्ध: “FREE now, FREE forever”
5 टिप्पणियां
मैंने Korean, English, Chinese और Japanese तक टेस्ट किया, लेकिन फिलहाल Japanese प्रोसेसिंग में समस्या है।
जब backend वैसे भी llama.cpp है, तो क्या इसे dependency free कहा जा सकता है...
वाह, यह सच में कमाल है, बहुत ही ज़बरदस्त — इसे तो अभी तुरंत आज़माना पड़ेगा
वाह
लगता है contributor में Claude और Copilot दोनों साथ में दर्ज हैं।