Shimmy - Ollama का विकल्प बनने वाला, व्यक्तिगत प्राइवेसी-केंद्रित हल्का OpenAI API सर्वर

xguru · 2025-10-30T09:31:02+09:00

लोकल environment में LLM को पूरी तरह offline चलाने के लिए डिज़ाइन किया गया टूल, जो Ollama से 142 गुना छोटा 4.8MB single binary के रूप में उपलब्ध है OpenAI API के साथ 100% compatible है, इसलिए मौजूदा Python, Node.js, VSCode Copilot, Cursor, Continue.dev जैसे development tools को बिना बदलाव सीधे जोड़ा जा सकता है इंस्टॉल करते ही तुरंत काम करने वाली zero-config संरचना Hugging Face, Ollama, local directory आदि से automatic model discovery automatic port assignment और LoRA adapter detection का समर्थन MOE(Mixture of Experts) आधारित CPU/GPU hybrid inference की मदद से 70B या उससे बड़े मॉडल सामान्य PC पर चलाना संभव CPU offloading और intelligent layer distribution के कारण कम VRAM वाले environment में भी स्थिर रूप से चल सकता है --cpu-moe, --n-cpu-moe options से विस्तृत नियंत्रण संभव GPU acceleration के लिए CUDA, Vulkan, OpenCL, MLX(Apple Silicon) सहित कई backend का समर्थन runtime पर अपने आप detect करता है, और GPU न होने पर CPU पर अपने आप switch हो जाता है Rust + Tokio आधारित asynchronous architecture से उच्च performance और memory stability मिलती है llama.cpp backend के उपयोग से GGUF models compatible हैं LRU cache, automatic load balancing, Prometheus integrated monitoring आदि शामिल हैं security और privacy-केंद्रित डिज़ाइन data और code लोकल system से बाहर नहीं जाते API key, paid plan, या token billing की ज़रूरत नहीं MIT license के तहत स्थायी रूप से मुफ़्त उपलब्ध: “FREE now, FREE forever”

(github.com/Michael-A-Kuykendall)

57 पॉइंट द्वारा xguru 2025-10-30 | 5 टिप्पणियां | WhatsApp पर शेयर करें

लोकल environment में LLM को पूरी तरह offline चलाने के लिए डिज़ाइन किया गया टूल, जो Ollama से 142 गुना छोटा 4.8MB single binary के रूप में उपलब्ध है
OpenAI API के साथ 100% compatible है, इसलिए मौजूदा Python, Node.js, VSCode Copilot, Cursor, Continue.dev जैसे development tools को बिना बदलाव सीधे जोड़ा जा सकता है
इंस्टॉल करते ही तुरंत काम करने वाली zero-config संरचना
- Hugging Face, Ollama, local directory आदि से automatic model discovery
- automatic port assignment और LoRA adapter detection का समर्थन
MOE(Mixture of Experts) आधारित CPU/GPU hybrid inference की मदद से 70B या उससे बड़े मॉडल सामान्य PC पर चलाना संभव
- CPU offloading और intelligent layer distribution के कारण कम VRAM वाले environment में भी स्थिर रूप से चल सकता है
- --cpu-moe, --n-cpu-moe options से विस्तृत नियंत्रण संभव
GPU acceleration के लिए CUDA, Vulkan, OpenCL, MLX(Apple Silicon) सहित कई backend का समर्थन
- runtime पर अपने आप detect करता है, और GPU न होने पर CPU पर अपने आप switch हो जाता है
Rust + Tokio आधारित asynchronous architecture से उच्च performance और memory stability मिलती है
- llama.cpp backend के उपयोग से GGUF models compatible हैं
- LRU cache, automatic load balancing, Prometheus integrated monitoring आदि शामिल हैं
security और privacy-केंद्रित डिज़ाइन
- data और code लोकल system से बाहर नहीं जाते
- API key, paid plan, या token billing की ज़रूरत नहीं
MIT license के तहत स्थायी रूप से मुफ़्त उपलब्ध: “FREE now, FREE forever”

5 टिप्पणियां

nextstep 2025-11-01

मैंने Korean, English, Chinese और Japanese तक टेस्ट किया, लेकिन फिलहाल Japanese प्रोसेसिंग में समस्या है।

woung717 2025-11-01

जब backend वैसे भी llama.cpp है, तो क्या इसे dependency free कहा जा सकता है...

tsboard 2025-10-30

वाह, यह सच में कमाल है, बहुत ही ज़बरदस्त — इसे तो अभी तुरंत आज़माना पड़ेगा

kimjoin2 2025-10-30

वाह

mssmss 2025-10-30

लगता है contributor में Claude और Copilot दोनों साथ में दर्ज हैं।

Shimmy - Ollama का विकल्प बनने वाला, व्यक्तिगत प्राइवेसी-केंद्रित हल्का OpenAI API सर्वर

संबंधित पढ़ाई

5 टिप्पणियां