Lemonade by AMD: GPU और NPU का उपयोग करने वाला तेज़ ओपन सोर्स लोकल LLM सर्वर
(lemonade-server.ai)- AMD-समर्थित लोकल AI सर्वर, जो GPU और NPU का उपयोग करके टेक्स्ट·इमेज·वॉइस को तेज़ी से प्रोसेस करने वाला ओपन सोर्स प्लेटफ़ॉर्म है
- लोकल रन और प्राइवेसी सुरक्षा पर ज़ोर देता है, और OpenAI API मानक के साथ संगत होने के कारण कई ऐप्स से तुरंत जोड़ा जा सकता है
- C++-आधारित हल्का बैकएंड, ऑटोमैटिक हार्डवेयर सेटअप, और मल्टी-मॉडल समकालिक रन के साथ व्यावहारिक लोकल AI वातावरण प्रदान करता है
- Chat, Vision, Image Generation, Transcription, Speech Generation को एक एकीकृत API में सपोर्ट करता है
- Windows, Linux, macOS(beta) पर एक जैसा वातावरण देता है, और बिल्ट-इन GUI से मॉडल डाउनलोड और स्विच करना आसान है
मुख्य विशेषताएँ
-
ओपन सोर्स और लोकल-केंद्रित डिज़ाइन
- लोकल AI स्वतंत्र, खुला, तेज़ और निजी होना चाहिए — इसी दर्शन पर विकास किया गया है
- इसे लोकल AI कम्युनिटी ने प्रमुख रूप से बनाया है, और यह सभी PC पर चल सकता है
- प्राइवेसी सुरक्षा और स्वतंत्र रनटाइम वातावरण को महत्व देता है
-
तेज़ इंस्टॉलेशन और हल्की संरचना
- One Minute Install के ज़रिए पूरा स्टैक अपने-आप सेट हो जाता है
- C++ native backend लगभग 2MB आकार की हल्की सेवा है
- ऑटोमैटिक हार्डवेयर सेटअप फीचर GPU और NPU वातावरण को अपने-आप कॉन्फ़िगर करता है
-
व्यापक संगतता
- OpenAI API संगतता के साथ सैकड़ों ऐप्स से तुरंत इंटीग्रेशन संभव
- llama.cpp, Ryzen AI SW, FastFlowLM जैसे विभिन्न inference engine सपोर्ट करता है
- मल्टी-मॉडल समकालिक रन संभव है, जिससे कई मॉडल समानांतर चलाए जा सकते हैं
-
एकीकृत API
- एक ही लोकल सेवा में Chat, Vision, Image Generation, Transcription, Speech Generation सभी का सपोर्ट
- यह मानक REST API के रूप में उपलब्ध है, और उदाहरण के लिए
POST /api/v1/chat/completionsendpoint के माध्यम से conversational model को कॉल किया जा सकता है - उदाहरण अनुरोध में
"model": "Qwen3-0.6B-GGUF"का उपयोग करके पेरिस की आबादी पूछी गई है
-
यूज़र इंटरफ़ेस और इकोसिस्टम
- बिल्ट-इन GUI ऐप से मॉडल डाउनलोड, टेस्ट और स्विच तेज़ी से किए जा सकते हैं
- OpenAI API मानक के आधार पर कई ऐप्स के साथ तुरंत संगत
- कम्युनिटी भागीदारी के माध्यम से लगातार सुधार और फीचर विस्तार
तकनीकी विनिर्देश और उपयोग उदाहरण
-
हार्डवेयर और प्रदर्शन
- 128GB unified RAM वातावरण में gpt-oss-120b, Qwen-Coder-Next जैसे बड़े मॉडल चलाए जा सकते हैं
--no-mmapविकल्प के साथ लोड समय कम किया जा सकता है और context size विस्तार (64 से अधिक) संभव है
-
इमेज और वॉइस फीचर
- इमेज जनरेशन उदाहरण: “Renaissance शैली का Lemonade pitcher”
- वॉइस उदाहरण: “Hello, I am your AI assistant. What can I do for you today?”
नवीनतम रिलीज़
- Lemonade में लगातार सुधार हो रहा है, और नई सुविधाएँ व प्रदर्शन सुधार रिलीज़ स्ट्रीम के माध्यम से दिए जाते हैं
- नई सुविधाएँ और हाइलाइट्स आधिकारिक साइट पर देखे जा सकते हैं
1 टिप्पणियां
Hacker News की राय
मैं लगभग 1 साल से Lemonade इस्तेमाल कर रहा हूँ। Strix Halo पर मैं बिना किसी दूसरे टूल के सिर्फ यही इस्तेमाल करता हूँ। kyuz0 का AMD Strix Halo Toolboxes भी ठीक है, लेकिन Lemonade में TTS, STT, टेक्स्ट·इमेज जनरेशन, इमेज एडिटिंग तक संभव है। यह ROCm, Vulkan, CPU, GPU, NPU जैसे कई बैकएंड्स को सपोर्ट करता है और इसकी डेवलपमेंट स्पीड भी व्यावहारिक और तेज़ है। अगर आपके पास AMD हार्डवेयर है तो मैं इसे ज़ोरदार तरीके से सुझाऊँगा।
OpenAI और Ollama-compatible endpoints की वजह से इसे VSCode Copilot या Open Web UI में भी तुरंत इस्तेमाल किया जा सकता है
मैं कई महीनों से 7900 XTX पर लोकल LLM चला रहा हूँ, और ROCm का अनुभव काफ़ी कठिन रहा। AMD का आधिकारिक inference server लाना, ताकि ड्राइवर·dependency समस्याएँ हल हों, एक बड़ी प्रगति है। लेकिन यह जानना बाकी है कि NPU सपोर्ट वास्तव में meaningful throughput देता है या नहीं। मेरे टेस्ट्स में छोटे मॉडल्स को छोड़कर यह bottleneck था
क्या इसका नाम ‘Lemonade’ इसलिए है कि शायद नींबू का पूरा उपयोग करो जैसा कोई मतलब है
Lemonade कुछ-कुछ Ollama और LM Studio के बीच की चीज़ लगती है। यह सिर्फ़ simple model serving नहीं, बल्कि integrated runtime पर फोकस करता है, जो दिलचस्प है। टेक्स्ट, इमेज, ऑडियो जैसी कई modalities को एक साथ संभालने वाली orchestration इसकी मुख्य बात लगती है। सोच रहा हूँ कि असल में यह abstraction है या कई टूल्स को एक साथ बाँधना। यह भी सवाल है कि AMD/NPU optimization कहीं portability को कम तो नहीं कर देगी
मैं इसे NAS पर home assistant के साथ चला रहा हूँ। Strix Halo के अलावा एक अलग CUDA card server भी manage करता हूँ
अफ़सोस है कि Lemonade जिन NPU models·kernels का इस्तेमाल करता है, वे closed-source हैं। अच्छा होगा अगर open support और बढ़े
Lemonade की असली ताकत multimodal integration है। टेक्स्ट जनरेशन, इमेज जनरेशन, speech recognition जैसी तीन अलग-अलग सेवाएँ, जिनमें आम तौर पर अलग API और model management चाहिए, उन्हें एक ही server पर OpenAI-compatible endpoint से संभाला जा सकता है। prototyping के दौरान quality improvement काफ़ी बड़ा होता है।
NPU छोटे always-on models या prefill offloading के लिए उपयोगी है, लेकिन सामान्य chatbot के लिए इसे कुछ ज़्यादा ही बढ़ा-चढ़ाकर देखा जाता है।
अगर AMD GPU+NPU scheduling को इतना transparent बना दे कि developers को हार्डवेयर की चिंता न करनी पड़े, तो इसके default choice बनने की संभावना काफ़ी है
मैं Strix Halo पर Lemonade चला रहा हूँ। इसमें diffusion, llama जैसे कई backends शामिल हैं, लेकिन मैं सिर्फ़ llama.cpp ROCm build(लिंक) इस्तेमाल करता हूँ। इमेज या ऑडियो से मेरा काम नहीं है। GPT OSS 120B पर मुझे लगभग 50 tokens per second की स्पीड मिलती है। NPU कम-बिजली वाले always-on models के लिए है, इसलिए सामान्य chatbot में इसका बड़ा फ़ायदा नहीं है
मैंने वेबसाइट और news announcement पढ़ी, लेकिन अब भी साफ़ नहीं है कि Lemonade ठीक-ठीक क्या है। क्या यह LM Studio का विकल्प है, और क्या यह Mac के MLX या Metal को सपोर्ट करता है? अगर इसका केंद्र AMD optimization है, तो क्या दूसरे GPUs पर यह कमज़ोर पड़ता है?
Linux server install guide में Docker/Podman option न होना थोड़ा surprising है। सिर्फ़ Snap/PPA, RPM हैं। शायद इसका मतलब है कि container users खुद build करें
क्या किसी ने इसे Ollama से compare किया है? मैं ROCm 7.4 पर 9070 XT के साथ Ollama अच्छी तरह चला रहा हूँ