- Ollama ने नए इंजन के साथ मल्टीमॉडल (टेक्स्ट+इमेज) मॉडल्स का समर्थन शुरू किया है
- Llama 4 Scout और Gemma 3 जैसे विभिन्न विज़ुअल मल्टीमॉडल मॉडल्स का समर्थन किया गया है, जिससे इमेज और टेक्स्ट को मिलाकर सवाल-जवाब करना संभव हुआ है
- नया इंजन बेहतर मॉडल मॉड्यूलैरिटी, सुधरी हुई सटीकता, और कुशल मेमोरी प्रबंधन जैसी क्षमताएँ देता है
- इमेज caching और hardware metadata के उपयोग से तेज़ inference performance और hardware optimization हासिल किया जा रहा है
- आगे चलकर लंबे context support, tool calling, streaming जैसी कई नई सुविधाएँ जोड़ने की योजना है
Ollama का मल्टीमॉडल मॉडल समर्थन
Ollama ने नया मल्टीमॉडल इंजन पेश करके ऐसे नवीनतम vision multimodal मॉडल्स का समर्थन शुरू किया है जो इमेज और टेक्स्ट को एक साथ समझ और संसाधित कर सकते हैं
समग्र मल्टीमॉडल समझ और inference
Llama 4 Scout
- Ollama में Llama 4 Scout (109 बिलियन parameters, mixture-of-experts मॉडल) का समर्थन है
- उदाहरण के तौर पर, वीडियो फ्रेम के बारे में location-based सवाल पूछे जा सकते हैं
- उदाहरण) किसी इमेज में खास बिल्डिंग, पर्यावरण तत्व, और बैकग्राउंड जानकारी जैसी विभिन्न विज़ुअल विशेषताओं की पहचान की जा सकती है
- इसके बाद कई follow-up सवाल भी स्वाभाविक रूप से पूछे जा सकते हैं
- उदाहरण) "इस बिल्डिंग से Stanford कितनी दूर है?", "वहाँ पहुँचने का सबसे अच्छा तरीका क्या है?" जैसे सवालों के सटीक जवाब दिए जा सकते हैं
- अलग-अलग transport options, routes, और अनुमानित समय के आधार पर वास्तविक स्थिति के अनुरूप उत्तर दिए जा सकते हैं
Gemma 3
- Gemma 3 एक साथ कई इमेज इनपुट लेकर उनके बीच के संबंधों का विश्लेषण कर सकता है
- उदाहरण) 4 इमेज में समान रूप से दिखाई देने वाले पौधे या जानवर, किसी खास दृश्य की मौजूदगी, या असामान्य स्थितियों जैसी कई शर्तों को जल्दी पहचाना जा सकता है
- एक मज़ेदार उदाहरण में, लामा और डॉल्फ़िन की बॉक्सिंग वाली स्थिति देखकर यह विश्लेषण किया जा सकता है कि कौन जीतेगा, और इसमें उनकी विशेषताओं तथा गतिशीलता को समझा जा सकता है
दस्तावेज़ पहचान और विश्लेषण
Qwen 2.5 VL
- Qwen 2.5 VL मॉडल का उपयोग OCR और इमेज के भीतर मौजूद खास टेक्स्ट जानकारी निकालने के लिए किया जाता है
- वास्तविक उपयोग उदाहरणों में चेक से जानकारी निकालना, या वसंत उत्सव की जोड़ीदार चीनी vertical पंक्तियों को अंग्रेज़ी में अनुवाद करना शामिल है
Ollama मल्टीमॉडल इंजन की विशेषताएँ
- अब तक Ollama मॉडल समर्थन के लिए ggml-org/llama.cpp प्रोजेक्ट पर निर्भर रहा है, और इसका विकास usability तथा model portability पर केंद्रित रहा है
- हाल के समय में विभिन्न लैब्स ने मल्टीमॉडल मॉडल्स जारी किए हैं, और Ollama ने अपने लक्ष्य के अनुरूप अधिक व्यापक मॉडल समर्थन के लिए इंजन को खुद मज़बूत किया है
- नया इंजन मल्टीमॉडल मॉडल्स को स्वतंत्र और first-class ऑब्जेक्ट की तरह संभालता है, और पार्टनर्स व कम्युनिटी की भागीदारी भी बढ़ाता है
इंजन के विकास का महत्व
- Ollama के local inference की विश्वसनीयता और सटीकता में सुधार, और भविष्य के विभिन्न मल्टीमॉडल क्षेत्रों के लिए आधार तैयार करना (जैसे: voice, image generation, video generation, लंबा context support, बेहतर tool use आदि)
मॉडल मॉड्यूलैरिटी
- हर मॉडल के "scope of influence" को अलग रखा गया है, ताकि विश्वसनीयता बढ़े और डेवलपर्स नए मॉडल्स को आसानी से integrate कर सकें
- मौजूदा ggml/llama.cpp केवल टेक्स्ट-आधारित मॉडल्स का समर्थन करता है, जबकि मल्टीमॉडल में टेक्स्ट decoder और vision encoder अलग होते हैं और स्वतंत्र रूप से चलते हैं
- इमेज को vision algorithm में embedding करने के बाद टेक्स्ट मॉडल तक भेजना पड़ता है, इसलिए हर मॉडल के लिए logic को slim रखा जा सकता है
- Ollama के भीतर मॉडल अपने embedding projection layers और मॉडल-विशिष्ट training scheme के अनुरूप अलग संरचना रख सकते हैं
- मॉडल बनाने वाले लोग अतिरिक्त patches या जटिल conditionals के बिना सिर्फ अपने मॉडल और training पर ध्यान दे सकते हैं
- कुछ मॉडल संरचना के उदाहरण Ollama के GitHub repository में देखे जा सकते हैं
सटीकता में सुधार
- बड़ी इमेज में tokens की संख्या अधिक होती है, जिससे वह batch size से आगे जा सकती है
- यदि इमेज batch सीमा पार कर जाए, तो positional information बिगड़ सकती है
- Ollama इमेज प्रोसेसिंग के दौरान अतिरिक्त metadata जोड़कर सटीकता बढ़ाता है
- जैसे causal attention लागू है या नहीं, image embedding को batches में कैसे बाँटना है, और boundaries को कैसे संभालना है—इन सभी बातों को विस्तार से नियंत्रित किया जाता है
- यदि splitting point सही न हो, तो output quality घट सकती है, इसलिए प्रत्येक मॉडल के पेपर के मानदंडों के आधार पर सीमाएँ तय की जाती हैं
- दूसरे local inference tools इसे अलग-अलग तरीकों से लागू करते हैं, लेकिन Ollama मॉडल डिज़ाइन और training method के अनुरूप सटीक प्रोसेसिंग से गुणवत्ता सुनिश्चित करता है
मेमोरी प्रबंधन का अनुकूलन
- इमेज caching: एक बार प्रोसेस की गई इमेज मेमोरी में बनी रहती है, जिससे आगे के prompts का प्रोसेसिंग तेज़ हो जाता है। जब तक मेमोरी सीमा तक नहीं पहुँचा जाता, इमेज बनी रहती है
- मेमोरी पूर्वानुमान और KV cache optimization: hardware vendors और OS partners के साथ सहयोग करके hardware metadata को सटीक रूप से पहचाना जाता है, ताकि मेमोरी उपयोग का अनुकूलन किया जा सके
- firmware versions के अनुसार validation किया जाता है और नई सुविधाओं के लिए benchmarking भी की जाती है
- Ollama causal attention को मॉडल स्तर पर अलग-अलग optimize करता है, और group स्तर के बजाय individual models के लिए customized settings देता है
- उदाहरण:
- Google DeepMind का Gemma 3: sliding window attention के ज़रिए केवल context length का एक हिस्सा आवंटित करता है, जबकि बाकी मेमोरी concurrent inference जैसी चीज़ों के लिए रखी जाती है
- Meta के Llama 4 Scout, Maverick आदि: chunked attention, 2D rotary embeddings आदि का समर्थन करते हैं, और mixture-of-experts मॉडल्स के लंबे context support को लागू करते हैं
- उदाहरण:
- जिन मॉडल्स में attention layers पूरी तरह implement नहीं हुई हैं, वे 'चल' तो सकते हैं, लेकिन लंबे समय में output quality गिर सकती है या असामान्य परिणाम आ सकते हैं
आगे की योजना
- और लंबे context length का समर्थन
- reasoning/सोचने की क्षमता को मज़बूत करना
- tool calling और streaming responses प्रदान करना
- कंप्यूटर के प्रत्यक्ष उपयोग से जुड़ी क्षमताओं का विस्तार
आभार
- मॉडल विकास में योगदान देने वाले संगठन और शोधकर्ता
- Google DeepMind, Meta Llama, Alibaba Qwen, Mistral, IBM Granite आदि जैसे vision models पर काम करने वाली कई लैब्स और कम्युनिटी सदस्यों का आभार
- GGML
- GGML टीम की tensor library, Ollama के inference engine का एक मुख्य हिस्सा है। Go से सीधे GGML तक पहुँचकर custom inference graphs और जटिल model architectures डिज़ाइन किए जा सकते हैं
- हार्डवेयर पार्टनर्स
- विभिन्न डिवाइसेज़ पर inference performance बेहतर बनाने में सहयोग देने वाले NVIDIA, AMD, Qualcomm, Intel, Microsoft आदि hardware partners का आभार
1 टिप्पणियां
Hacker News राय