Ollama ने मल्टीमॉडल मॉडल्स के लिए नया इंजन घोषित किया

(ollama.com)

5 पॉइंट द्वारा GN⁺ 2025-05-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Ollama ने नए इंजन के साथ मल्टीमॉडल (टेक्स्ट+इमेज) मॉडल्स का समर्थन शुरू किया है
Llama 4 Scout और Gemma 3 जैसे विभिन्न विज़ुअल मल्टीमॉडल मॉडल्स का समर्थन किया गया है, जिससे इमेज और टेक्स्ट को मिलाकर सवाल-जवाब करना संभव हुआ है
नया इंजन बेहतर मॉडल मॉड्यूलैरिटी, सुधरी हुई सटीकता, और कुशल मेमोरी प्रबंधन जैसी क्षमताएँ देता है
इमेज caching और hardware metadata के उपयोग से तेज़ inference performance और hardware optimization हासिल किया जा रहा है
आगे चलकर लंबे context support, tool calling, streaming जैसी कई नई सुविधाएँ जोड़ने की योजना है

Ollama का मल्टीमॉडल मॉडल समर्थन

Ollama ने नया मल्टीमॉडल इंजन पेश करके ऐसे नवीनतम vision multimodal मॉडल्स का समर्थन शुरू किया है जो इमेज और टेक्स्ट को एक साथ समझ और संसाधित कर सकते हैं

समग्र मल्टीमॉडल समझ और inference

Llama 4 Scout

Ollama में Llama 4 Scout (109 बिलियन parameters, mixture-of-experts मॉडल) का समर्थन है
उदाहरण के तौर पर, वीडियो फ्रेम के बारे में location-based सवाल पूछे जा सकते हैं
- उदाहरण) किसी इमेज में खास बिल्डिंग, पर्यावरण तत्व, और बैकग्राउंड जानकारी जैसी विभिन्न विज़ुअल विशेषताओं की पहचान की जा सकती है
इसके बाद कई follow-up सवाल भी स्वाभाविक रूप से पूछे जा सकते हैं
- उदाहरण) "इस बिल्डिंग से Stanford कितनी दूर है?", "वहाँ पहुँचने का सबसे अच्छा तरीका क्या है?" जैसे सवालों के सटीक जवाब दिए जा सकते हैं
- अलग-अलग transport options, routes, और अनुमानित समय के आधार पर वास्तविक स्थिति के अनुरूप उत्तर दिए जा सकते हैं

Gemma 3

Gemma 3 एक साथ कई इमेज इनपुट लेकर उनके बीच के संबंधों का विश्लेषण कर सकता है
- उदाहरण) 4 इमेज में समान रूप से दिखाई देने वाले पौधे या जानवर, किसी खास दृश्य की मौजूदगी, या असामान्य स्थितियों जैसी कई शर्तों को जल्दी पहचाना जा सकता है
- एक मज़ेदार उदाहरण में, लामा और डॉल्फ़िन की बॉक्सिंग वाली स्थिति देखकर यह विश्लेषण किया जा सकता है कि कौन जीतेगा, और इसमें उनकी विशेषताओं तथा गतिशीलता को समझा जा सकता है

दस्तावेज़ पहचान और विश्लेषण

Qwen 2.5 VL

Qwen 2.5 VL मॉडल का उपयोग OCR और इमेज के भीतर मौजूद खास टेक्स्ट जानकारी निकालने के लिए किया जाता है
- वास्तविक उपयोग उदाहरणों में चेक से जानकारी निकालना, या वसंत उत्सव की जोड़ीदार चीनी vertical पंक्तियों को अंग्रेज़ी में अनुवाद करना शामिल है

Ollama मल्टीमॉडल इंजन की विशेषताएँ

अब तक Ollama मॉडल समर्थन के लिए ggml-org/llama.cpp प्रोजेक्ट पर निर्भर रहा है, और इसका विकास usability तथा model portability पर केंद्रित रहा है
हाल के समय में विभिन्न लैब्स ने मल्टीमॉडल मॉडल्स जारी किए हैं, और Ollama ने अपने लक्ष्य के अनुरूप अधिक व्यापक मॉडल समर्थन के लिए इंजन को खुद मज़बूत किया है
नया इंजन मल्टीमॉडल मॉडल्स को स्वतंत्र और first-class ऑब्जेक्ट की तरह संभालता है, और पार्टनर्स व कम्युनिटी की भागीदारी भी बढ़ाता है

इंजन के विकास का महत्व

Ollama के local inference की विश्वसनीयता और सटीकता में सुधार, और भविष्य के विभिन्न मल्टीमॉडल क्षेत्रों के लिए आधार तैयार करना (जैसे: voice, image generation, video generation, लंबा context support, बेहतर tool use आदि)

मॉडल मॉड्यूलैरिटी

हर मॉडल के "scope of influence" को अलग रखा गया है, ताकि विश्वसनीयता बढ़े और डेवलपर्स नए मॉडल्स को आसानी से integrate कर सकें
- मौजूदा ggml/llama.cpp केवल टेक्स्ट-आधारित मॉडल्स का समर्थन करता है, जबकि मल्टीमॉडल में टेक्स्ट decoder और vision encoder अलग होते हैं और स्वतंत्र रूप से चलते हैं
- इमेज को vision algorithm में embedding करने के बाद टेक्स्ट मॉडल तक भेजना पड़ता है, इसलिए हर मॉडल के लिए logic को slim रखा जा सकता है
- Ollama के भीतर मॉडल अपने embedding projection layers और मॉडल-विशिष्ट training scheme के अनुरूप अलग संरचना रख सकते हैं
- मॉडल बनाने वाले लोग अतिरिक्त patches या जटिल conditionals के बिना सिर्फ अपने मॉडल और training पर ध्यान दे सकते हैं
- कुछ मॉडल संरचना के उदाहरण Ollama के GitHub repository में देखे जा सकते हैं

सटीकता में सुधार

बड़ी इमेज में tokens की संख्या अधिक होती है, जिससे वह batch size से आगे जा सकती है
- यदि इमेज batch सीमा पार कर जाए, तो positional information बिगड़ सकती है
Ollama इमेज प्रोसेसिंग के दौरान अतिरिक्त metadata जोड़कर सटीकता बढ़ाता है
- जैसे causal attention लागू है या नहीं, image embedding को batches में कैसे बाँटना है, और boundaries को कैसे संभालना है—इन सभी बातों को विस्तार से नियंत्रित किया जाता है
- यदि splitting point सही न हो, तो output quality घट सकती है, इसलिए प्रत्येक मॉडल के पेपर के मानदंडों के आधार पर सीमाएँ तय की जाती हैं
दूसरे local inference tools इसे अलग-अलग तरीकों से लागू करते हैं, लेकिन Ollama मॉडल डिज़ाइन और training method के अनुरूप सटीक प्रोसेसिंग से गुणवत्ता सुनिश्चित करता है

मेमोरी प्रबंधन का अनुकूलन

इमेज caching: एक बार प्रोसेस की गई इमेज मेमोरी में बनी रहती है, जिससे आगे के prompts का प्रोसेसिंग तेज़ हो जाता है। जब तक मेमोरी सीमा तक नहीं पहुँचा जाता, इमेज बनी रहती है
मेमोरी पूर्वानुमान और KV cache optimization: hardware vendors और OS partners के साथ सहयोग करके hardware metadata को सटीक रूप से पहचाना जाता है, ताकि मेमोरी उपयोग का अनुकूलन किया जा सके
- firmware versions के अनुसार validation किया जाता है और नई सुविधाओं के लिए benchmarking भी की जाती है
Ollama causal attention को मॉडल स्तर पर अलग-अलग optimize करता है, और group स्तर के बजाय individual models के लिए customized settings देता है
- उदाहरण:
  - Google DeepMind का Gemma 3: sliding window attention के ज़रिए केवल context length का एक हिस्सा आवंटित करता है, जबकि बाकी मेमोरी concurrent inference जैसी चीज़ों के लिए रखी जाती है
  - Meta के Llama 4 Scout, Maverick आदि: chunked attention, 2D rotary embeddings आदि का समर्थन करते हैं, और mixture-of-experts मॉडल्स के लंबे context support को लागू करते हैं
जिन मॉडल्स में attention layers पूरी तरह implement नहीं हुई हैं, वे 'चल' तो सकते हैं, लेकिन लंबे समय में output quality गिर सकती है या असामान्य परिणाम आ सकते हैं

आगे की योजना

और लंबे context length का समर्थन
reasoning/सोचने की क्षमता को मज़बूत करना
tool calling और streaming responses प्रदान करना
कंप्यूटर के प्रत्यक्ष उपयोग से जुड़ी क्षमताओं का विस्तार

आभार

मॉडल विकास में योगदान देने वाले संगठन और शोधकर्ता
- Google DeepMind, Meta Llama, Alibaba Qwen, Mistral, IBM Granite आदि जैसे vision models पर काम करने वाली कई लैब्स और कम्युनिटी सदस्यों का आभार
GGML
- GGML टीम की tensor library, Ollama के inference engine का एक मुख्य हिस्सा है। Go से सीधे GGML तक पहुँचकर custom inference graphs और जटिल model architectures डिज़ाइन किए जा सकते हैं
हार्डवेयर पार्टनर्स
- विभिन्न डिवाइसेज़ पर inference performance बेहतर बनाने में सहयोग देने वाले NVIDIA, AMD, Qualcomm, Intel, Microsoft आदि hardware partners का आभार

1 टिप्पणियां

GN⁺ 2025-05-17

Hacker News राय

इस समय Ollama द्वारा नए इंजन की घोषणा की खबर सुनकर हैरानी हुई; यह भावना इस बात से भी जुड़ी है कि llama.cpp ने आखिरकार स्थिर vision सुविधाओं को default branch में शामिल कर दिया है और लंबी मेहनत का फल मिला है। ऐसा अनुमान है कि Ollama भी काफी समय से इस फीचर पर काम कर रहा था, और llama.cpp पर शुरुआती निर्भरता तोड़कर स्वतंत्र रूप से आगे बढ़ने का फैसला समझदारी भरा लगता है।
जिज्ञासा है कि दोनों प्रोजेक्ट्स में multimodal सुविधाएँ जोड़ने के बीच वास्तविक अंतर क्या है। LLaVA सपोर्ट तो लंबे समय से था, इसलिए क्या पहले किसी विशेष प्रोसेसिंग तरीके की ज़रूरत थी? TFA में इस अंतर का उल्लेख देखने की उम्मीद थी, लेकिन Ollama के multimodal फीचर को पूरी तरह नया बताने का तरीका थोड़ा उलझाने वाला लगा।
ऐसा लगता है कि multimodal शब्द में सिर्फ टेक्स्ट और इमेज ही नहीं, बल्कि ऑडियो (और संभवतः वीडियो) भी शामिल होने चाहिए। अगर किसी मॉडल में केवल image generation या image analysis है, तो उसे ‘vision model’ कहना अधिक सटीक होगा। Qwen2.5-Omni और Qwen2.5-VL जैसे उदाहरणों की तरह multimodal मॉडलों को स्पष्ट रूप से अलग करना ज़रूरी है। इस अर्थ में Ollama का नया इंजन दरअसल 'vision' सपोर्ट जोड़ता है।
वीडियो इनपुट संभालने में रुचि है; पूछा गया कि क्या Qwen2.5-Omni और Ollama में वीडियो इनपुट संभव है।
Ollama के ‘नए इंजन’ का बहुत उल्लेख किया जा रहा है, लेकिन इसे वास्तव में कैसे लागू किया गया है, इस पर ठोस जानकारी देखने की इच्छा है। llama.cpp भी एक शानदार प्रोजेक्ट है, इसलिए अगर उसका विकल्प इंजन बनाया गया है, तो वह कैसे काम करता है इसके उदाहरण देखने की उम्मीद है। अनुमान है कि GGML tensor library इसकी मुख्य भूमिका निभाती है, और Go भाषा में FFI के जरिए सीधे मॉडल व्यवहार लिखते हुए (जैसे Gemma3 का implementation) GGML क्षमताओं का उपयोग किया गया होगा। ऐसा महसूस हुआ कि ये तकनीकी विवरण आधिकारिक ब्लॉग में अधिक स्पष्ट रूप से होने चाहिए थे।
Ollama को अब तक पारदर्शिता की कमी, credit देने में अस्पष्टता, और उपयोगकर्ता-केंद्रित न होने वाले फैसलों के कारण आलोचना झेलनी पड़ी है। इस लेख में उल्टा अधिक contributors का उल्लेख देखकर आश्चर्य हुआ, और अनुमान है कि उपयोगकर्ताओं की आलोचना के कारण कुछ सुधार हुए हैं।
LLM दुनिया में ‘*llama’ नामकरण परंपरा बेहद उलझाऊ लगती है; llama जैसे या उससे मिलते-जुलते नामों वाले इतने प्रोजेक्ट हैं कि भ्रम बढ़ता जाता है।
AI/ML की प्रगति इतनी तेज़ है कि उसके साथ बने रहना मुश्किल हो गया है। अगर लगातार ध्यान न दिया जाए तो चीज़ों को ठीक से समझना कठिन है, और ‘memey’ नामों की पसंद भी इसमें योगदान देती है। पहले Sesame Street characters, YOLO model family जैसी अलग-अलग लहरें थीं, और conference papers भी इससे अछूते नहीं रहे।
थोड़ा विषयांतर करते हुए सवाल उठाया गया कि कुछ उपयोगकर्ता Ollama को नकारात्मक नज़र से क्यों देखते हैं; सिर्फ “सीधे llama.cpp चलाओ” से आगे की व्याख्या कम दिखाई देती है।
Reddit और GitHub issue links साझा करते हुए बताया गया कि Ollama द्वारा llama.cpp को पर्याप्त credit न देने की समस्या लंबे समय से मौजूद है। यहाँ तक कि कुछ प्रोजेक्ट्स में llama.cpp का सीधा उपयोग होने के बावजूद श्रेय Ollama को मिल जाता है। Ollama खुद सीधे योगदान नहीं देता (हालाँकि यह आवश्यक भी नहीं), लेकिन उसके पास internally maintained fork है, जिससे इच्छुक लोग चाहें तो cherry-pick तरीके से कोड का उपयोग कर सकते हैं।
पहले उठाए गए culture/license/FOSS मुद्दों से अलग, file storage तरीके को लेकर भी असंतोष जताया गया। Ollama ने अपना disk storage और registry format लागू किया, जिससे reuse असुविधाजनक हो गया। अनुमान है कि लंबी अवधि में monetization को ध्यान में रखकर अधिक बंद संरचना बनाई गई होगी। Docker की तरह duplicate storage रोकने का इरादा हो सकता है, लेकिन व्यवहार में usability खराब हुई है। नतीजतन 30GB से अधिक के बड़े फाइलों की duplicate copies संभालने की परेशानी होती है। कई ecosystem के साथ compatible standard approach बेहतर मानी गई, और इसी असुविधा के कारण Ollama का उपयोग छोड़ दिया गया।
Ollama को LLM दुनिया में Docker-जैसे समाधान के रूप में देखा गया। इसका user experience और model file syntax भी Dockerfile से प्रेरित लगता है। Docker के शुरुआती दिनों में Docker बनाम LXC बहसें थीं, लेकिन Docker के UX innovation को अक्सर नज़रअंदाज़ किया जाता था। हालाँकि llama.cpp को लंबे समय तक पर्याप्त मान्यता न मिलना समस्या माना गया; साथ ही यह भी जोड़ा गया कि अब कुछ हद तक खुला credit दिख रहा है।
समुदाय के साथ सहयोग न करने को लेकर Ollama से असंतोष है। यह VC-funded कंपनी है, इसलिए इसके revenue model को लेकर सवाल बने हुए हैं। llama.cpp, lmstudio, ramalama जैसी alternatives में स्थिति अपेक्षाकृत साफ़ दिखती है। ramalama को कई संबंधित open source प्रोजेक्ट्स में सक्रिय योगदान देने वाला बताया गया, और संदर्भ के लिए एक GitHub link साझा किया गया।
यह निराशाजनक लगता है कि Ollama मूलतः llama.cpp के frontend की तरह काम करते हुए भी इसे स्पष्ट रूप से स्वीकार नहीं करता।
Ollama के उदाहरणों में ‘vertical Chinese couplet translation’ केस में कई गलत अनुवाद होने की ओर ध्यान दिलाया गया। अनुमान लगाया गया कि ब्लॉग लेखक वास्तविक Chinese speaker नहीं है, और अलग-अलग हिस्सों में असल सामग्री तथा Ollama के परिणाम के बीच अंतर का विस्तार से विश्लेषण किया गया।
उस उदाहरण पर काम करने वाले maintainer ने सीधे आकर बताया कि वह चीनी हैं, जिससे विश्वसनीयता बढ़ी। उनका कहना था कि English translation कुल मिलाकर काफी सटीक थी, और यह भी स्पष्ट किया कि मॉडल की गलतियाँ या demo को छिपाया या बदला नहीं गया। साथ ही उम्मीद जताई गई कि समय के साथ मॉडल की गुणवत्ता और बेहतर होगी।
इसे खुद आज़माने की योजना है; practical examples और details तुरंत सामने आ जाने के कारण लेखन शैली अच्छी लगी।
Ollama की ताकत यह रही है कि बिना विशेष setup के सिर्फ आसान Docker command से मॉडल तुरंत चलाया जा सकता था। लेकिन जब images और videos का उपयोग करना हो, तब Docker द्वारा GPU का उपयोग न कर पाने से तकनीकी सीमाएँ आती हैं। जिज्ञासा है कि Ollama भविष्य में Docker integration को कैसे बनाए रखेगा, या कहीं यह फीचर प्रोजेक्ट का कम महत्त्व वाला सहायक हिस्सा तो नहीं बन जाएगा।
यह भी कहा गया कि कुछ platforms पर Docker में GPU इस्तेमाल किया जा सकता है, हालांकि उसके लिए अधिक setup चाहिए और nvidia इस बारे में दस्तावेज़ उपलब्ध कराता है।
उदाहरणों में Stanford directions वाले हिस्से में वास्तव में गलत जानकारी आना मज़ेदार लगा; साथ में यह स्थानीय ट्रैफिक जानकारी साझा की गई कि CA-85, Palo Alto से अधिक दक्षिण में है।
लगभग एक साल से Ollama के साथ local models का उपयोग कर संतोष महसूस किया गया, लेकिन Llava जैसी multimodal सुविधाओं का अनुभव कम रहा क्योंकि ज़्यादातर उपयोग text-केंद्रित रहा। उपयोगी और प्रभावशाली multimodal local model projects के लिए सुझाव माँगे गए, ताकि व्यक्तिगत project ideas मिल सकें।