Lemonade by AMD: GPU और NPU का उपयोग करने वाला तेज़ ओपन सोर्स लोकल LLM सर्वर

(lemonade-server.ai)

11 पॉइंट द्वारा GN⁺ 2026-04-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें

AMD-समर्थित लोकल AI सर्वर, जो GPU और NPU का उपयोग करके टेक्स्ट·इमेज·वॉइस को तेज़ी से प्रोसेस करने वाला ओपन सोर्स प्लेटफ़ॉर्म है
लोकल रन और प्राइवेसी सुरक्षा पर ज़ोर देता है, और OpenAI API मानक के साथ संगत होने के कारण कई ऐप्स से तुरंत जोड़ा जा सकता है
C++-आधारित हल्का बैकएंड, ऑटोमैटिक हार्डवेयर सेटअप, और मल्टी-मॉडल समकालिक रन के साथ व्यावहारिक लोकल AI वातावरण प्रदान करता है
Chat, Vision, Image Generation, Transcription, Speech Generation को एक एकीकृत API में सपोर्ट करता है
Windows, Linux, macOS(beta) पर एक जैसा वातावरण देता है, और बिल्ट-इन GUI से मॉडल डाउनलोड और स्विच करना आसान है

मुख्य विशेषताएँ

ओपन सोर्स और लोकल-केंद्रित डिज़ाइन
- लोकल AI स्वतंत्र, खुला, तेज़ और निजी होना चाहिए — इसी दर्शन पर विकास किया गया है
- इसे लोकल AI कम्युनिटी ने प्रमुख रूप से बनाया है, और यह सभी PC पर चल सकता है
- प्राइवेसी सुरक्षा और स्वतंत्र रनटाइम वातावरण को महत्व देता है
तेज़ इंस्टॉलेशन और हल्की संरचना
- One Minute Install के ज़रिए पूरा स्टैक अपने-आप सेट हो जाता है
- C++ native backend लगभग 2MB आकार की हल्की सेवा है
- ऑटोमैटिक हार्डवेयर सेटअप फीचर GPU और NPU वातावरण को अपने-आप कॉन्फ़िगर करता है
व्यापक संगतता
- OpenAI API संगतता के साथ सैकड़ों ऐप्स से तुरंत इंटीग्रेशन संभव
- llama.cpp, Ryzen AI SW, FastFlowLM जैसे विभिन्न inference engine सपोर्ट करता है
- मल्टी-मॉडल समकालिक रन संभव है, जिससे कई मॉडल समानांतर चलाए जा सकते हैं
एकीकृत API
- एक ही लोकल सेवा में Chat, Vision, Image Generation, Transcription, Speech Generation सभी का सपोर्ट
- यह मानक REST API के रूप में उपलब्ध है, और उदाहरण के लिए POST /api/v1/chat/completions endpoint के माध्यम से conversational model को कॉल किया जा सकता है
- उदाहरण अनुरोध में "model": "Qwen3-0.6B-GGUF" का उपयोग करके पेरिस की आबादी पूछी गई है
यूज़र इंटरफ़ेस और इकोसिस्टम
- बिल्ट-इन GUI ऐप से मॉडल डाउनलोड, टेस्ट और स्विच तेज़ी से किए जा सकते हैं
- OpenAI API मानक के आधार पर कई ऐप्स के साथ तुरंत संगत
- कम्युनिटी भागीदारी के माध्यम से लगातार सुधार और फीचर विस्तार

तकनीकी विनिर्देश और उपयोग उदाहरण

हार्डवेयर और प्रदर्शन
- 128GB unified RAM वातावरण में gpt-oss-120b, Qwen-Coder-Next जैसे बड़े मॉडल चलाए जा सकते हैं
- --no-mmap विकल्प के साथ लोड समय कम किया जा सकता है और context size विस्तार (64 से अधिक) संभव है
इमेज और वॉइस फीचर
- इमेज जनरेशन उदाहरण: “Renaissance शैली का Lemonade pitcher”
- वॉइस उदाहरण: “Hello, I am your AI assistant. What can I do for you today?”

नवीनतम रिलीज़

Lemonade में लगातार सुधार हो रहा है, और नई सुविधाएँ व प्रदर्शन सुधार रिलीज़ स्ट्रीम के माध्यम से दिए जाते हैं
नई सुविधाएँ और हाइलाइट्स आधिकारिक साइट पर देखे जा सकते हैं

1 टिप्पणियां

GN⁺ 2026-04-03

Hacker News की राय

मैं लगभग 1 साल से Lemonade इस्तेमाल कर रहा हूँ। Strix Halo पर मैं बिना किसी दूसरे टूल के सिर्फ यही इस्तेमाल करता हूँ। kyuz0 का AMD Strix Halo Toolboxes भी ठीक है, लेकिन Lemonade में TTS, STT, टेक्स्ट·इमेज जनरेशन, इमेज एडिटिंग तक संभव है। यह ROCm, Vulkan, CPU, GPU, NPU जैसे कई बैकएंड्स को सपोर्ट करता है और इसकी डेवलपमेंट स्पीड भी व्यावहारिक और तेज़ है। अगर आपके पास AMD हार्डवेयर है तो मैं इसे ज़ोरदार तरीके से सुझाऊँगा।
OpenAI और Ollama-compatible endpoints की वजह से इसे VSCode Copilot या Open Web UI में भी तुरंत इस्तेमाल किया जा सकता है
- सोच रहा हूँ कि अगर Qwen3.5-122B मॉडल को Lemonade के साथ Strix Halo पर चलाया जाए, तो Vulkan-आधारित llama.cpp की तुलना में स्पीड में बढ़त कितनी होगी
- यह भी जानना चाहता हूँ कि क्या किसी ने इसे agents या Claw के साथ इस्तेमाल किया है, और कौन-से मॉडल चलाए
मैं कई महीनों से 7900 XTX पर लोकल LLM चला रहा हूँ, और ROCm का अनुभव काफ़ी कठिन रहा। AMD का आधिकारिक inference server लाना, ताकि ड्राइवर·dependency समस्याएँ हल हों, एक बड़ी प्रगति है। लेकिन यह जानना बाकी है कि NPU सपोर्ट वास्तव में meaningful throughput देता है या नहीं। मेरे टेस्ट्स में छोटे मॉडल्स को छोड़कर यह bottleneck था
- जानना चाहता हूँ कि कौन-सी बातें इतनी मुश्किल थीं। मैं RX 7900 XTX पर Ollama के साथ लोकल मॉडल चला रहा हूँ और ROCm से जुड़ी समस्याएँ लगभग नहीं आईं। बस 24GB VRAM की सीमा थोड़ी खलती है। ज़्यादा VRAM के लिए Radeon Pro पर जाने का सोच रहा हूँ
- kernel 7.0.0 पर Vulkan performance ROCm से काफ़ी बेहतर थी, लगभग 20% या उससे ज़्यादा स्पीड बढ़ी
- NPU का उपयोग बैटरी पर चलते समय power efficiency के लिए है। यह GPU का विकल्प नहीं है
क्या इसका नाम ‘Lemonade’ इसलिए है कि शायद नींबू का पूरा उपयोग करो जैसा कोई मतलब है
- “L-L-M” का उच्चारण “lemon” जैसा लगता है, तो शायद यह LLM-aid → lemonade वाला शब्द-खेल है
- अगर ज़िंदगी तुम्हें बार-बार नींबू दे, तो बेहतर है कि फटने वाले नींबू बना लो
- मैं लोकल inference के लिए सिर्फ AMD हार्डवेयर इस्तेमाल करता हूँ। open drivers, power efficiency और कीमत के हिसाब से, एक उपभोक्ता के नज़रिए से यह Nvidia से बेहतर लगता है
- कहा गया कि ‘Lemonsqueeze’ नाम बहुत हिंसक लगा, इसलिए हटा दिया गया
Lemonade कुछ-कुछ Ollama और LM Studio के बीच की चीज़ लगती है। यह सिर्फ़ simple model serving नहीं, बल्कि integrated runtime पर फोकस करता है, जो दिलचस्प है। टेक्स्ट, इमेज, ऑडियो जैसी कई modalities को एक साथ संभालने वाली orchestration इसकी मुख्य बात लगती है। सोच रहा हूँ कि असल में यह abstraction है या कई टूल्स को एक साथ बाँधना। यह भी सवाल है कि AMD/NPU optimization कहीं portability को कम तो नहीं कर देगी
- यह कई टूल्स, मॉडल चयन और management features को bundle करता है। इसे CPU या Vulkan backend के साथ install किया जा सकता है, लेकिन मूल रूप से यह सिर्फ़ ROCm builds और AMD NPU को सपोर्ट करता है। CUDA पर चलाने के लिए llama.cpp version को override करना पड़ता है, इसलिए management झंझट भरा हो जाता है। AMD मशीन पर लोकल मॉडल्स को आसानी से चलाना हो तो यह सबसे आसान है।
  मैं इसे NAS पर home assistant के साथ चला रहा हूँ। Strix Halo के अलावा एक अलग CUDA card server भी manage करता हूँ
अफ़सोस है कि Lemonade जिन NPU models·kernels का इस्तेमाल करता है, वे closed-source हैं। अच्छा होगा अगर open support और बढ़े
- docs में लिखा है, “आप Hugging Face models को Lemonade Server में register कर सकते हैं”
- मुझे पता था कि शायद NPU इस्तेमाल न कर पाऊँ और उसी समझ के साथ डिवाइस खरीदा था, लेकिन फिर भी ऐसी खबर सुनकर चिढ़ होती है
Lemonade की असली ताकत multimodal integration है। टेक्स्ट जनरेशन, इमेज जनरेशन, speech recognition जैसी तीन अलग-अलग सेवाएँ, जिनमें आम तौर पर अलग API और model management चाहिए, उन्हें एक ही server पर OpenAI-compatible endpoint से संभाला जा सकता है। prototyping के दौरान quality improvement काफ़ी बड़ा होता है।
NPU छोटे always-on models या prefill offloading के लिए उपयोगी है, लेकिन सामान्य chatbot के लिए इसे कुछ ज़्यादा ही बढ़ा-चढ़ाकर देखा जाता है।
अगर AMD GPU+NPU scheduling को इतना transparent बना दे कि developers को हार्डवेयर की चिंता न करनी पड़े, तो इसके default choice बनने की संभावना काफ़ी है
मैं Strix Halo पर Lemonade चला रहा हूँ। इसमें diffusion, llama जैसे कई backends शामिल हैं, लेकिन मैं सिर्फ़ llama.cpp ROCm build(लिंक) इस्तेमाल करता हूँ। इमेज या ऑडियो से मेरा काम नहीं है। GPT OSS 120B पर मुझे लगभग 50 tokens per second की स्पीड मिलती है। NPU कम-बिजली वाले always-on models के लिए है, इसलिए सामान्य chatbot में इसका बड़ा फ़ायदा नहीं है
- छोटा NPU भी prefill calculation का कुछ हिस्सा offload कर सकता है। लेकिन decoding चरण में बात memory bandwidth और internal compute support पर निर्भर करती है। उदाहरण के लिए Apple Neural Engine सिर्फ़ INT8/FP16 operations को सपोर्ट करता है, इसलिए बहुत बड़ी मदद नहीं मिलती
मैंने वेबसाइट और news announcement पढ़ी, लेकिन अब भी साफ़ नहीं है कि Lemonade ठीक-ठीक क्या है। क्या यह LM Studio का विकल्प है, और क्या यह Mac के MLX या Metal को सपोर्ट करता है? अगर इसका केंद्र AMD optimization है, तो क्या दूसरे GPUs पर यह कमज़ोर पड़ता है?
- GitHub roadmap के मुताबिक macOS beta पूरा हो चुका है, और MLX support पर काम चल रहा है
- यह लोकल AI stack को आसानी से install और maintain करने के लिए one-stop solution है। यह STT, TTS, इमेज जनरेशन, LLM endpoints सब एक साथ देता है, और इसका अपना WebUI भी है। OpenAI, Ollama, Anthropic-compatible endpoints भी सपोर्ट करता है
- LM Studio की तरह यह कई runtimes को abstract करता है, लेकिन AMD के FastFlowML runtime के ज़रिए Linux पर Ryzen AI CPU के NPU का इस्तेमाल कर सकता है
- LM Studio असल LLM execution किसी दूसरे software को सौंप देता है, और अगर वह software NPU को सपोर्ट नहीं करता तो performance गिर जाती है। Lemonade शायद उसी तरह का backend role निभाता है
Linux server install guide में Docker/Podman option न होना थोड़ा surprising है। सिर्फ़ Snap/PPA, RPM हैं। शायद इसका मतलब है कि container users खुद build करें
- असल में Docker install option मौजूद है। अच्छा होगा अगर इसे release page पर भी जोड़ा जाए
क्या किसी ने इसे Ollama से compare किया है? मैं ROCm 7.4 पर 9070 XT के साथ Ollama अच्छी तरह चला रहा हूँ
- Lemonade कई APIs और AMD GPU·NPU के लिए dedicated builds को सपोर्ट करता है। इसे AMD खुद maintain करता है। अंदर से दोनों llama.cpp-आधारित हैं, लेकिन Lemonade में GPU-specific optimized builds हैं
- MacBook M1 Max(64GB RAM) पर qwen3.59b मॉडल के साथ टेस्ट करने पर, Ollama ने 1 मिनट 44 सेकंड लिए, Lemonade ने 1 मिनट 14 सेकंड, यानी Lemonade ज़्यादा तेज़ था
- मुझे भी vLLM के साथ तुलना जाननी है
- मैं अभी Ollama इस्तेमाल कर रहा हूँ, लेकिन Lemonade के साथ performance difference जानना चाहता हूँ
- यह भी जानना है कि क्या यह Vulkan से बेहतर है

Lemonade by AMD: GPU और NPU का उपयोग करने वाला तेज़ ओपन सोर्स लोकल LLM सर्वर

मुख्य विशेषताएँ

ओपन सोर्स और लोकल-केंद्रित डिज़ाइन

तेज़ इंस्टॉलेशन और हल्की संरचना

व्यापक संगतता

एकीकृत API

यूज़र इंटरफ़ेस और इकोसिस्टम

तकनीकी विनिर्देश और उपयोग उदाहरण

हार्डवेयर और प्रदर्शन

इमेज और वॉइस फीचर

नवीनतम रिलीज़

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय