Ollama अब Windows पर Preview वर्ज़न में उपलब्ध

(ollama.com)

2 पॉइंट द्वारा GN⁺ 2024-02-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें

अब Windows पर भी Ollama को native environment में चलाया जा सकता है, जिससे local बड़े language models को pull करना, चलाना और generate करना आसान हो जाता है
Windows के लिए Ollama में built-in GPU acceleration, पूरी model library तक access, और OpenAI-compatible Ollama API शामिल है
मॉडल चलाने में NVIDIA GPU और AVX, AVX2 जैसे आधुनिक CPU instruction sets का उपयोग होता है, और अलग से configuration या virtualization की ज़रूरत नहीं
पूरी model library और vision models को Windows पर इस्तेमाल किया जा सकता है, और LLaVA 1.6 में इमेज को ollama run पर drag-and-drop करके message में जोड़ा जा सकता है
बैकग्राउंड में चलने वाली Ollama API की वजह से मौजूदा OpenAI tools को local models के साथ जोड़ा जा सकता है

Windows Preview उपलब्ध

Ollama अब Windows Preview के रूप में उपलब्ध है, जिससे Windows पर बड़े language models को pull, run और generate किया जा सकता है
Windows के लिए Ollama में प्रमुख फीचर्स एक साथ शामिल हैं
- built-in GPU acceleration
  - पूरी model library तक access
  - OpenAI compatibility सहित Ollama API

hardware acceleration और run करने का तरीका

मॉडल चलाते समय NVIDIA GPU का उपयोग करके acceleration मिलता है
उपलब्ध होने पर AVX, AVX2 जैसे आधुनिक CPU instruction sets का भी उपयोग किया जाता है
अलग configuration या virtualization के बिना इसे सीधे Windows environment में इस्तेमाल किया जा सकता है

पूरी model library और vision models

Windows पर भी पूरी Ollama model library चलाई जा सकती है
इसमें vision models भी शामिल हैं
LLaVA 1.6 जैसे vision model चलाते समय इमेज को ollama run पर drag-and-drop करने से उसे message में जोड़ा जा सकता है

बैकग्राउंड में चलने वाली Ollama API

Ollama API बैकग्राउंड में अपने-आप चलती है और http://localhost:11434 पर उपलब्ध रहती है
tools और applications बिना अतिरिक्त configuration के इस API से connect कर सकते हैं
PowerShell में Ollama API को call करने का उदाहरण नीचे है

(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json

Windows के लिए Ollama भी दूसरे platforms की तरह OpenAI compatibility को support करता है
मौजूदा OpenAI tools को Ollama के ज़रिए local models के साथ इस्तेमाल किया जा सकता है

इंस्टॉलेशन और फीडबैक

Windows Preview शुरू करने के लिए OllamaSetup.exe डाउनलोड करें
इंस्टॉलर OllamaSetup.exe पर double-click करके इंस्टॉल करें
इंस्टॉल के बाद terminal खोलें और नीचे दिए गए कमांड से मॉडल चलाएँ

ollama run llama2

नया release उपलब्ध होने पर Ollama update की जानकारी देगा
अगर कोई समस्या हो, तो GitHub issue खोलें या Discord server में शामिल होकर फीडबैक भेजें

1 टिप्पणियां

GN⁺ 2024-02-18

Hacker News की राय

डेस्कटॉप पर Open-WebUI को फ्रंटएंड के रूप में जोड़कर इस्तेमाल कर रहा हूँ
लगभग 12 Mistral fine-tuned models और कुछ अन्य models इकट्ठा करके रखे हैं, और चैटिंग या information extraction जैसे कामों के लिए यह काफी उपयोगी है
Open-WebUI ऐप दिखने में ChatGPT से काफी मिलता-जुलता है, और इसमें conversation search भी संभव है
https://github.com/open-webui/open-webui
- कुछ घंटे पहले की घोषणा छूट जाने वालों के लिए, open-webui पहले ollama-webui नाम से जाना जाता था, उसी प्रोजेक्ट की rebranding है
  मैं भरोसे के साथ कह सकता हूँ कि यह Ollama के लिए काफी मजबूत frontend है। यह वास्तव में बहुत अच्छी तरह काम करता है, और इसकी development speed हैरान कर देने वाली है
  हर कुछ हफ्तों में नया Docker image लेकर देखो, तो हमेशा यह देखकर हैरानी होती है कि कितना सुधार हुआ है
  [0] https://github.com/open-webui/open-webui/discussions/764
- जिज्ञासा है, उन fine-tuned models का उपयोग आप किस काम में कर रहे हैं? क्या आपने उन्हें अपने डेटा पर fine-tune किया है, या अलग-अलग tasks के लिए public models चुनकर इस्तेमाल कर रहे हैं?
- क्या terminal में इस्तेमाल करने के लिए ऐसा कोई मिलता-जुलता tool भी है?
हमेशा की तरह AMD GPU support की कोई बात नहीं
हालात ऐसे हैं कि इस बार AMD खरीदने का अफसोस हो रहा है
- AMD GPU support निश्चित रूप से project roadmap का एक महत्वपूर्ण हिस्सा है
  अफसोस है कि अभी तक इसे ROADMAP.md जैसी किसी जगह पर ठीक से सार्वजनिक नहीं कर पाए हैं, लेकिन जल्द ऐसा करने वाले हैं
  project maintainers में से कुछ ATI Technologies के मूल गृहक्षेत्र Toronto area से हैं, इसलिए निजी तौर पर भी उम्मीद है कि Ollama AMD GPU पर अच्छे से चले :)
  AMD support के काम के लिए इस्तेमाल होने वाली test machines में से एक Radeon RX 7900XT इस्तेमाल करती है, और यह काफी तेज है। हाई-एंड GeForce 40 series GPU से इसकी अच्छी तुलना की जा सकती है
  [1]: https://en.wikipedia.org/wiki/ATI_Technologies
- मेरा भी यही हाल है। लंबे समय से Linux user होने के नाते, Nvidia ने जितनी परेशानी दी उसके कारण मैं Nvidia को बहुत नापसंद करता हूँ, इसलिए मैं सच में AMD की सफलता चाहता था
  मुझे उम्मीद थी कि वह जल्दी ही Nvidia की बराबरी कर लेगा, और उसी उम्मीद में मैंने महंगा, शक्तिशाली AMD कार्ड खरीदा, लेकिन असलियत बिल्कुल वैसी नहीं निकली, और मुझे लगता है कि AMD ने जरूरी resources नहीं लगाए
  AMD बदल सकता है, लेकिन उसे अभी तुरंत शुरू करना होगा
- ऐसा लगता है कि AMD को विश्वास है कि GPU compute का यह नया ट्रेंड जल्द गुजर जाएगा, इसलिए उसे निवेश की जरूरत नहीं लगती
  यह tech industry में देखे गए सबसे खराब self-sabotage में से एक है
- llamafile AMD GPU को support करता है
  Windows पर tinyBLAS library की वजह से सिर्फ graphics driver होना काफी है
  https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
  डिफॉल्ट रूप से यह chat GUI वाला browser tab खोलता है, और नीचे दिए गए तरीके से Ollama जैसी command-line chatbot के रूप में भी चलाया जा सकता है
  https://justine.lol/oneliners/#chat
- जैसा कि दूसरे लोगों ने कहा, Ollama अंदरूनी तौर पर Llama.CPP का उपयोग करता है, और Llama.CPP ने हाल ही में Vulkan support रिलीज़ किया है, जो AMD GPU पर भी काम करने वाला है
  Vulkan support के साथ compile किए गए llama.cpp को मैंने अपने ऐप [1] के साथ इस्तेमाल करके AMD laptop पर चलाने में सफलता पाई, लेकिन Ollama उपलब्ध GPU खोजने के तरीके में कुछ assumptions रखता है, इसलिए मैं उसे काम नहीं करा पाया
  [1]: https://msty.app
अगर आप Ollama के ऊपर इस्तेमाल करने के लिए एक अच्छा chat UI ढूँढ रहे हैं, और चाहते हैं कि वह online models और local models दोनों को support करे, तो एक ऐप है जिसे मैं बना रहा हूँ [1]
इसका फोकस offline उपयोग और privacy पर है, और आज सुबह ही मैंने Windows support रिलीज़ किया है
[1]: https://msty.app
- जानकारी के लिए, Program:Win32/Wacapew.C!ml detection दिख रहा है
- विषय से हटकर, landing page आपने किससे बनाया?
- क्या यह LLM Studio जैसा है?
- क्या Linux client की भी कोई योजना है?
- क्या Gemini API भी जोड़ने वाले हैं?
मुझे जिज्ञासा है कि ऐसे इतने सारे “लोकल पर चलने वाले” AI ports आखिर server के रूप में क्यों चलते हैं।
क्या developers यह भूल गए हैं कि वे UI process के अंदर code चला सकते हैं?
मैंने Stable Diffusion launchers और LLM hosts में भी यही pattern देखा है।
अगर बहुत ज़रूरी न हो तो मैं लोकल पर background service नहीं चलाना चाहता, तो ये implementations लगभग सभी ऐसे क्यों लगते हैं?
- यह सच में दिलचस्प सवाल है। मुझे लगता है कि deployment के दोनों models साथ रह सकते हैं।
  इसका अच्छा उदाहरण database engine हो सकता है। SQLite एक library है और Postgres एक लंबे समय तक चलने वाली service, लेकिन दोनों का व्यापक उपयोग होता है और दोनों के अपने trade-offs हैं।
- दूसरों द्वारा कही गई initial loading time की बात के अलावा, आप चाह सकते हैं कि कई applications एक ही inference engine या एक ही LLM को अलग-अलग कामों के लिए इस्तेमाल करें।
  और एक बड़ा factor यह भी है कि machine, environment, और operating system को ऐसे state में लाना जहाँ model कुशलता से चल सके, आसान नहीं होता।
  इस complexity को container, यानी “server”, के अंदर रखना शुरुआती setup और लगातार होने वाले improvements व updates के साथ बने रहने में काफी मदद करता है।
- हर बार weights को मौके पर लोड करना समझदारी नहीं है, क्योंकि तब आपको लगातार कई gigabit आकार की memory इधर-उधर ले जानी पड़ेगी।
  इसकी जगह लंबे समय तक चलने वाला process कई prediction requests को संभाले, यही सही architecture है।
  और संभव है कि जल्द ही इसे कई clients को भी serve करना हो।
- मेरे लिए यह व्यक्तिगत रूप से एक अच्छी बात है।
  मेरे पास शक्तिशाली laptop या workstation नहीं है, लेकिन multi-GPU headless server है।
  ऐसे projects की वजह से मैं server पर LLM के साथ प्रयोग कर सकता हूँ और API तथा web UI को internal network पर expose कर सकता हूँ।
- मैं speed की वजह से Ollama को बड़े gaming PC पर चलाता हूँ, लेकिन घर के दूसरे हिस्सों से भी models का उपयोग करना चाहता हूँ।
  इसलिए Open-WebUI को chat.domain.example पर और Ollama को api.chat.domain.example पर चलाया है। दोनों केवल local network के भीतर ही accessible हैं।
  इस setup में laptop और phone पर मैं web UI के जरिए full-speed local models इस्तेमाल कर सकता हूँ, और experimental voice assistant चलाने वाला Raspberry Pi API endpoint के जरिए Ollama से query कर सकता है।
  gaming GPU की वजह से सब कुछ full speed पर चलता है। यही तर्क Stable Diffusion setup पर भी लागू होता है।
मुझे पता ही नहीं था कि Windows users Ollama इस्तेमाल नहीं कर पा रहे थे।
कुछ साल पहले तक तो लगता था कि इंतज़ार Mac users को करना पड़ता था।
- कुछ महीनों से यह WSL पर पूरी GPU support के साथ अच्छी तरह चल रहा था।
  बस यह ज्यादातर लोगों के लिए उतना सुविधाजनक नहीं था, और native Windows support तो सोने पर सुहागा है।
- मैं कुछ समय से Windows WSL में Ollama चला रहा था।
  आखिर यह x86 Linux ही है, इसलिए सब कुछ बस ठीक से काम करता है।
मैं जानना चाहता हूँ कि closed-source LM Studio(https://lmstudio.ai) की तुलना Ollama से कैसी है।
- अच्छी बात यह है कि setup बहुत आसान है, model/weights एक क्लिक में download और load हो जाते हैं, और यह बहुत अच्छी तरह काम करता है।
  बुरी बात यह है कि Windows पर यह weights को /users/username/.cache के नीचे अपनी अलग directory structure में रखता है, चुपचाप दर्जनों GB जगह घेर लेता है, और उन्हें दूसरे clients के साथ साझा भी नहीं करने देता।
  यह manually downloaded models को import नहीं करने देता, search functionality खराब है, और instances की settings को handle करने का इसका तरीका भी मुझे पसंद नहीं है।
यह पहले से Linux और Mac पर उपलब्ध लगता है।
इस बार बदलाव Windows support जोड़ने का है: https://github.com/ollama/ollama
संयोग से मैं खुद इन्हीं requirements को install करके थोड़ा हाथ आज़माने वाला था, तभी यह पोस्ट दिखी।
टेस्ट करने पर मज़ेदार बात यह लगी कि यह सच में बहुत सरल है और अच्छी तरह काम करता है।
लेकिन installer में target location चुनने का विकल्प फिर नहीं है, और यह समस्या लगती है। अगर server पर कई users हों, तो एक global install के बजाय हर किसी के पास अपनी personal copy होगी।
मैं लिखने के लिए grammar/typo checking workflow बनाने के इरादे से Ollama चला रहा हूँ।
यह सीधे Ollama से जुड़ी बात नहीं है, और अभी तक Ollama ठीक काम कर रहा है।
क्या ऐसी जगह है जहाँ इस तरह के सवाल पूछे जा सकें? मैं LLMs के लिए Stack Overflow जैसी किसी जगह के बारे में सोच रहा हूँ।
मैंने नए Mac Mini पर llama2 model install करके चलाया, और पूरा kernel panic हो गया। यह क्या मामला है?
- अगर चुना गया model उपलब्ध unified memory से बड़ा हो, तो ऐसा हो सकता है।
  आपने llama2 का कौन-सा version चुना था, और आपके पास कितनी unified memory है?

Ollama अब Windows पर Preview वर्ज़न में उपलब्ध

Windows Preview उपलब्ध

built-in GPU acceleration

hardware acceleration और run करने का तरीका

पूरी model library और vision models

बैकग्राउंड में चलने वाली Ollama API

इंस्टॉलेशन और फीडबैक

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय