- अब Windows पर भी Ollama को native environment में चलाया जा सकता है, जिससे local बड़े language models को pull करना, चलाना और generate करना आसान हो जाता है
- Windows के लिए Ollama में built-in GPU acceleration, पूरी model library तक access, और OpenAI-compatible Ollama API शामिल है
- मॉडल चलाने में NVIDIA GPU और AVX, AVX2 जैसे आधुनिक CPU instruction sets का उपयोग होता है, और अलग से configuration या virtualization की ज़रूरत नहीं
- पूरी model library और vision models को Windows पर इस्तेमाल किया जा सकता है, और LLaVA 1.6 में इमेज को
ollama run पर drag-and-drop करके message में जोड़ा जा सकता है
- बैकग्राउंड में चलने वाली Ollama API की वजह से मौजूदा OpenAI tools को local models के साथ जोड़ा जा सकता है
Windows Preview उपलब्ध
- Ollama अब Windows Preview के रूप में उपलब्ध है, जिससे Windows पर बड़े language models को pull, run और generate किया जा सकता है
- Windows के लिए Ollama में प्रमुख फीचर्स एक साथ शामिल हैं
-
built-in GPU acceleration
hardware acceleration और run करने का तरीका
- मॉडल चलाते समय NVIDIA GPU का उपयोग करके acceleration मिलता है
- उपलब्ध होने पर AVX, AVX2 जैसे आधुनिक CPU instruction sets का भी उपयोग किया जाता है
- अलग configuration या virtualization के बिना इसे सीधे Windows environment में इस्तेमाल किया जा सकता है
पूरी model library और vision models
- Windows पर भी पूरी Ollama model library चलाई जा सकती है
- इसमें vision models भी शामिल हैं
- LLaVA 1.6 जैसे vision model चलाते समय इमेज को
ollama run पर drag-and-drop करने से उसे message में जोड़ा जा सकता है
बैकग्राउंड में चलने वाली Ollama API
- Ollama API बैकग्राउंड में अपने-आप चलती है और
http://localhost:11434 पर उपलब्ध रहती है
- tools और applications बिना अतिरिक्त configuration के इस API से connect कर सकते हैं
- PowerShell में Ollama API को call करने का उदाहरण नीचे है
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
- Windows के लिए Ollama भी दूसरे platforms की तरह OpenAI compatibility को support करता है
- मौजूदा OpenAI tools को Ollama के ज़रिए local models के साथ इस्तेमाल किया जा सकता है
इंस्टॉलेशन और फीडबैक
- Windows Preview शुरू करने के लिए OllamaSetup.exe डाउनलोड करें
- इंस्टॉलर
OllamaSetup.exe पर double-click करके इंस्टॉल करें
- इंस्टॉल के बाद terminal खोलें और नीचे दिए गए कमांड से मॉडल चलाएँ
ollama run llama2
- नया release उपलब्ध होने पर Ollama update की जानकारी देगा
- अगर कोई समस्या हो, तो GitHub issue खोलें या Discord server में शामिल होकर फीडबैक भेजें
1 टिप्पणियां
Hacker News की राय
डेस्कटॉप पर Open-WebUI को फ्रंटएंड के रूप में जोड़कर इस्तेमाल कर रहा हूँ
लगभग 12 Mistral fine-tuned models और कुछ अन्य models इकट्ठा करके रखे हैं, और चैटिंग या information extraction जैसे कामों के लिए यह काफी उपयोगी है
Open-WebUI ऐप दिखने में ChatGPT से काफी मिलता-जुलता है, और इसमें conversation search भी संभव है
https://github.com/open-webui/open-webui
मैं भरोसे के साथ कह सकता हूँ कि यह Ollama के लिए काफी मजबूत frontend है। यह वास्तव में बहुत अच्छी तरह काम करता है, और इसकी development speed हैरान कर देने वाली है
हर कुछ हफ्तों में नया Docker image लेकर देखो, तो हमेशा यह देखकर हैरानी होती है कि कितना सुधार हुआ है
[0] https://github.com/open-webui/open-webui/discussions/764
हमेशा की तरह AMD GPU support की कोई बात नहीं
हालात ऐसे हैं कि इस बार AMD खरीदने का अफसोस हो रहा है
अफसोस है कि अभी तक इसे ROADMAP.md जैसी किसी जगह पर ठीक से सार्वजनिक नहीं कर पाए हैं, लेकिन जल्द ऐसा करने वाले हैं
project maintainers में से कुछ ATI Technologies के मूल गृहक्षेत्र Toronto area से हैं, इसलिए निजी तौर पर भी उम्मीद है कि Ollama AMD GPU पर अच्छे से चले :)
AMD support के काम के लिए इस्तेमाल होने वाली test machines में से एक Radeon RX 7900XT इस्तेमाल करती है, और यह काफी तेज है। हाई-एंड GeForce 40 series GPU से इसकी अच्छी तुलना की जा सकती है
[1]: https://en.wikipedia.org/wiki/ATI_Technologies
मुझे उम्मीद थी कि वह जल्दी ही Nvidia की बराबरी कर लेगा, और उसी उम्मीद में मैंने महंगा, शक्तिशाली AMD कार्ड खरीदा, लेकिन असलियत बिल्कुल वैसी नहीं निकली, और मुझे लगता है कि AMD ने जरूरी resources नहीं लगाए
AMD बदल सकता है, लेकिन उसे अभी तुरंत शुरू करना होगा
यह tech industry में देखे गए सबसे खराब self-sabotage में से एक है
Windows पर tinyBLAS library की वजह से सिर्फ graphics driver होना काफी है
https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
डिफॉल्ट रूप से यह chat GUI वाला browser tab खोलता है, और नीचे दिए गए तरीके से Ollama जैसी command-line chatbot के रूप में भी चलाया जा सकता है
https://justine.lol/oneliners/#chat
Vulkan support के साथ compile किए गए llama.cpp को मैंने अपने ऐप [1] के साथ इस्तेमाल करके AMD laptop पर चलाने में सफलता पाई, लेकिन Ollama उपलब्ध GPU खोजने के तरीके में कुछ assumptions रखता है, इसलिए मैं उसे काम नहीं करा पाया
[1]: https://msty.app
अगर आप Ollama के ऊपर इस्तेमाल करने के लिए एक अच्छा chat UI ढूँढ रहे हैं, और चाहते हैं कि वह online models और local models दोनों को support करे, तो एक ऐप है जिसे मैं बना रहा हूँ [1]
इसका फोकस offline उपयोग और privacy पर है, और आज सुबह ही मैंने Windows support रिलीज़ किया है
[1]: https://msty.app
मुझे जिज्ञासा है कि ऐसे इतने सारे “लोकल पर चलने वाले” AI ports आखिर server के रूप में क्यों चलते हैं।
क्या developers यह भूल गए हैं कि वे UI process के अंदर code चला सकते हैं?
मैंने Stable Diffusion launchers और LLM hosts में भी यही pattern देखा है।
अगर बहुत ज़रूरी न हो तो मैं लोकल पर background service नहीं चलाना चाहता, तो ये implementations लगभग सभी ऐसे क्यों लगते हैं?
इसका अच्छा उदाहरण database engine हो सकता है। SQLite एक library है और Postgres एक लंबे समय तक चलने वाली service, लेकिन दोनों का व्यापक उपयोग होता है और दोनों के अपने trade-offs हैं।
और एक बड़ा factor यह भी है कि machine, environment, और operating system को ऐसे state में लाना जहाँ model कुशलता से चल सके, आसान नहीं होता।
इस complexity को container, यानी “server”, के अंदर रखना शुरुआती setup और लगातार होने वाले improvements व updates के साथ बने रहने में काफी मदद करता है।
इसकी जगह लंबे समय तक चलने वाला process कई prediction requests को संभाले, यही सही architecture है।
और संभव है कि जल्द ही इसे कई clients को भी serve करना हो।
मेरे पास शक्तिशाली laptop या workstation नहीं है, लेकिन multi-GPU headless server है।
ऐसे projects की वजह से मैं server पर LLM के साथ प्रयोग कर सकता हूँ और API तथा web UI को internal network पर expose कर सकता हूँ।
इसलिए Open-WebUI को chat.domain.example पर और Ollama को api.chat.domain.example पर चलाया है। दोनों केवल local network के भीतर ही accessible हैं।
इस setup में laptop और phone पर मैं web UI के जरिए full-speed local models इस्तेमाल कर सकता हूँ, और experimental voice assistant चलाने वाला Raspberry Pi API endpoint के जरिए Ollama से query कर सकता है।
gaming GPU की वजह से सब कुछ full speed पर चलता है। यही तर्क Stable Diffusion setup पर भी लागू होता है।
मुझे पता ही नहीं था कि Windows users Ollama इस्तेमाल नहीं कर पा रहे थे।
कुछ साल पहले तक तो लगता था कि इंतज़ार Mac users को करना पड़ता था।
बस यह ज्यादातर लोगों के लिए उतना सुविधाजनक नहीं था, और native Windows support तो सोने पर सुहागा है।
आखिर यह x86 Linux ही है, इसलिए सब कुछ बस ठीक से काम करता है।
मैं जानना चाहता हूँ कि closed-source LM Studio(https://lmstudio.ai) की तुलना Ollama से कैसी है।
बुरी बात यह है कि Windows पर यह weights को /users/username/.cache के नीचे अपनी अलग directory structure में रखता है, चुपचाप दर्जनों GB जगह घेर लेता है, और उन्हें दूसरे clients के साथ साझा भी नहीं करने देता।
यह manually downloaded models को import नहीं करने देता, search functionality खराब है, और instances की settings को handle करने का इसका तरीका भी मुझे पसंद नहीं है।
यह पहले से Linux और Mac पर उपलब्ध लगता है।
इस बार बदलाव Windows support जोड़ने का है: https://github.com/ollama/ollama
संयोग से मैं खुद इन्हीं requirements को install करके थोड़ा हाथ आज़माने वाला था, तभी यह पोस्ट दिखी।
टेस्ट करने पर मज़ेदार बात यह लगी कि यह सच में बहुत सरल है और अच्छी तरह काम करता है।
लेकिन installer में target location चुनने का विकल्प फिर नहीं है, और यह समस्या लगती है। अगर server पर कई users हों, तो एक global install के बजाय हर किसी के पास अपनी personal copy होगी।
मैं लिखने के लिए grammar/typo checking workflow बनाने के इरादे से Ollama चला रहा हूँ।
यह सीधे Ollama से जुड़ी बात नहीं है, और अभी तक Ollama ठीक काम कर रहा है।
क्या ऐसी जगह है जहाँ इस तरह के सवाल पूछे जा सकें? मैं LLMs के लिए Stack Overflow जैसी किसी जगह के बारे में सोच रहा हूँ।
मैंने नए Mac Mini पर llama2 model install करके चलाया, और पूरा kernel panic हो गया। यह क्या मामला है?
आपने llama2 का कौन-सा version चुना था, और आपके पास कितनी unified memory है?