13 पॉइंट द्वारा GN⁺ 2025-09-29 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • Ollama ने नवीनतम वेब जानकारी खोजने की सुविधा API के रूप में जारी की है, जिससे मॉडल की hallucination कम करने और सटीकता बढ़ाने में मदद मिलती है
  • मुफ्त अकाउंट में भी काफी उदार free search quota शामिल है, और अधिक उपयोग करने वाले यूज़र Ollama Cloud के जरिए ऊंची limits का उपयोग कर सकते हैं
  • REST API आधारित यह सुविधा Python, JavaScript लाइब्रेरी के साथ integrate होती है, जिससे gpt-oss जैसे मॉडल लंबे समय तक चलने वाले research tasks कर सकते हैं
  • web_search और web_fetch फीचर हजारों tokens के स्तर तक परिणाम लौटाते हैं, और MCP server के जरिए Cline, Codex, Goose जैसे कई tools के साथ integration support देते हैं
  • इसका उपयोग करके search agent सीधे बनाया जा सकता है, जिससे AI मॉडल की नवीनतम डेटा के साथ इंटरैक्ट करने की क्षमता काफी बढ़ जाती है

Ollama Web Search फीचर परिचय

  • Ollama ने Web Search API जारी किया है, जिससे AI मॉडल को तुरंत नवीनतम वेब जानकारी देने वाला वातावरण उपलब्ध होता है
  • इससे hallucination में कमी और सटीकता में सुधार की उम्मीद की जा सकती है
  • व्यक्तिगत उपयोगकर्ताओं को उदार free search quota दिया जाता है, और अधिक उपयोग की जरूरत होने पर Ollama Cloud subscription के जरिए quota बढ़ाया जा सकता है
  • यह REST API के रूप में उपलब्ध है, और Python तथा JavaScript लाइब्रेरी के जरिए उन्नत tool integration को सपोर्ट करता है
  • इसी संरचना की वजह से gpt-oss सहित विभिन्न मॉडल लंबी अवधि के research और search tasks कर सकते हैं

API उपयोग के उदाहरण

  • Ollama अकाउंट से जारी API key का उपयोग करके cURL, Python में ollama.web_search(), और JavaScript में client.webSearch() कॉल किया जा सकता है
  • परिणाम title, URL, और body summary शामिल करने वाली JSON संरचना में लौटते हैं
  • web_fetch API का उपयोग करने पर URL स्तर पर पेज की सामग्री body text और link list सहित लाई जा सकती है

Web Search आधारित search agent implementation

  • Ollama API को Qwen3, gpt-oss जैसे मॉडलों के साथ जोड़कर automated multi-turn search agent विकसित किया जा सकता है
  • उदाहरण कोड में Qwen3:4B मॉडल का उपयोग करके search → reasoning → result summary प्रक्रिया को automate किया गया है
  • search results के आधार पर "Thinking" प्रक्रिया से गुजरते हुए, search/fetch tool call के परिणामों का बार-बार उपयोग कर जटिल research या exploration scenarios पूरे किए जाते हैं
  • Ollama engine के नए upgrade में सटीक memory management, GPU/multi-GPU optimization, performance improvements, और vision (multimodal) मॉडल के लिए मजबूत समर्थन शामिल है

अनुशंसित मॉडल और performance guidance

  • मजबूत tool-use क्षमता वाले cloud models (जैसे qwen3:480b-cloud, gpt-oss:120b-cloud, deepseek-v3.1-cloud) की सिफारिश की गई है
  • क्योंकि search और fetch tools हजारों tokens का डेटा लौटा सकते हैं, इसलिए मॉडल की context length को लगभग 32000 tokens तक बढ़ाने की सिफारिश की जाती है

व्यक्तिगत web page fetch फीचर

  • Web Search के अलावा, किसी निर्दिष्ट web page के text और link संरचना को सीधे fetch करने के लिए API और functions भी उपलब्ध हैं
  • Python, JavaScript, या cURL से url को argument के रूप में देकर पेज का title, content, और जुड़े हुए links निकाले जा सकते हैं
  • अधिक विस्तृत example code आधिकारिक GitHub repository में देखा जा सकता है

Tool और agent integration

  • web_search, web_fetch हजारों tokens का डेटा लौटाते हैं, इसलिए मॉडल context को 32K या उससे अधिक तक बढ़ाने की सिफारिश की जाती है
  • MCP server support की मदद से Cline, Codex, Goose जैसे AI development environments के साथ सीधा integration संभव है
  • Python और JavaScript example code आधिकारिक GitHub repository में उपलब्ध हैं

शुरुआत करें

  • Web Search मुफ्त Ollama अकाउंट के साथ डिफ़ॉल्ट रूप से उपलब्ध है, और अधिक उपयोग paid subscription के जरिए किया जा सकता है
  • Ollama वेबसाइट पर अकाउंट बनाकर API key जारी करें और तुरंत सेवा का उपयोग शुरू करें

3 टिप्पणियां

 
shakespeares 2025-10-06

मुफ्त ollama के साथ शायद इसे वास्तविक उपयोग के स्तर तक इस्तेमाल करना संभव नहीं लगेगा..

 
slowandsnow 2025-09-30

प्राइसिंग पेज पर भी quota के बारे में कोई जानकारी नहीं है, इसलिए यह कितनी value देगा, इसका अंदाज़ा लगाना मुश्किल है।

 
GN⁺ 2025-09-29
Hacker News की राय
  • यह जानने की जिज्ञासा है कि अंदरूनी तौर पर कौन-सा search engine इस्तेमाल हो रहा है, इस बारे में Twitter पर भी पूछा गया था https://twitter.com/simonw/status/1971210260015919488 खास तौर पर महत्वपूर्ण बात search results की license है। क्या इन्हें store या redistribute किया जा सकता है, यह provider के हिसाब से अलग-अलग नियमों पर निर्भर करता है
    • हम search providers के साथ काम करते हैं और ऐसा environment सुनिश्चित करते हैं जहाँ data retention policy बिल्कुल नहीं है। Search results उपयोगकर्ता के स्वामित्व में होते हैं और उन्हें स्वतंत्र रूप से इस्तेमाल किया जा सकता है। हालांकि, स्थानीय कानूनों का पालन करना ज़रूरी है
    • अगर यह कहा जाए कि यह AI model training के दौरान है, तो मनचाहे तरीके से इस्तेमाल किया जा सकता है
    • अगर search results सिर्फ links की सूची भर हैं, तो क्या उन पर copyright बनता भी है, इस पर संदेह है
    • privacy policy तक के बिना ऐसा feature जारी करना अजीब है। अंदाज़ा है कि शायद हाल में निवेश देने वाले VC partner के साथ collaboration case या customer story के रूप में इसका उपयोग हो रहा हो। Exa पर दांव लगाता हूँ, शुरुआती दौर में YC का support था और Series B में $85M जुटाए हैं। Microsoft के सहयोग के बिना Bing को आज़ादी से चलाना बहुत महंगा होगा। उम्मीद है कि Ollama जल्द privacy notice अपडेट करेगा। मुख्यालय CA में है, इसलिए CCPA लागू होता है; revenue न हो तब भी अगर California के 50,000 residents का data handle किया जाए तो यह लागू होता है https://oag.ca.gov/privacy/ccpa अगर data retention न रखने वाला backend provider Alibaba निकला, तो प्रतिक्रिया देखना दिलचस्प होगा
  • मुझे यह भी नहीं पता था कि Ollama एक business है, या इसे funding मिली है। मैं इसे open source utility समझता था। आगे यह users से कमाई कैसे करेगा, यह जानने की जिज्ञासा है, हालांकि बहुत उम्मीद नहीं है
    • हाल में पूरी तरह open source के रूप में जारी किए गए projects बहुत कम हैं, ज़्यादातर donation model पर चलते हैं या corporate sponsorship लेते हैं, और AI क्षेत्र में तो यह और भी दुर्लभ लगता है
    • Ollama को Docker के पूर्व कर्मचारी Docker-स्टाइल में चला रहे हैं
    • इसने हाल ही में hosting platform जारी किया है
    • तुम्हारा reply देखने से पहले तक मुझे लगा यह पोस्ट OpenAI के बारे में है
  • उम्मीद थी कि Ollama की implementation के तरीके पर और जानकारी होगी, मैं इसे open source और platform-independent tool मानता था, लेकिन हाल की दिशा देखकर दुविधा हो रही है
    • Ollama में headless browser आदि के जरिए search results और website content लाने की सुविधा डालने पर भी विचार किया था, लेकिन result quality और IP block होने का खतरा था (क्योंकि यह crawler जैसा दिख सकता है)। लगा कि hosted API लाना जल्दी results देने का बेहतर रास्ता है, लेकिन local option की खोज जारी है। आदर्श रूप में अच्छा होगा कि उपयोगकर्ता चाहें तो पूरी तरह local environment में भी ऐसी search सुविधा इस्तेमाल कर सकें
    • GUI open source नहीं है। अगर आसान app चाहिए तो LMStudio बेहतर हो सकता है (क्योंकि वह OSS होने का दिखावा नहीं करता), और ramalama भी LLM को containerize करने के मामले में ollama जैसा है। या llama.cpp या vllm जैसे “मूलभूत” विकल्पों पर लौटना भी एक तरीका है
    • लगता है Ollama का संचालन लगातार खराब दिशा में जा रहा है, भरोसा उठ गया है इसलिए मैंने इसे सभी systems से हटा दिया
  • लगता है Ollama धीरे-धीरे non-local दिशा में जा रहा है, और performance भी vLLM से कम लगती है। मैं OpenAI-compatible API के जरिए open-webui जैसी चीज़ चलाकर ऐसा environment बनाना चाहता हूँ जहाँ user कई LLM में से चुन सके, तो RTX 3090 कई cards (1~5) का अच्छा उपयोग करने वाला कोई Ollama alternative जानना चाहता हूँ
    • Llamaswap या vllm के बारे में सुना है
  • मुझे पता नहीं था कि Ollama अपनी cloud service भी चलाता है। क्या Ollama का मूल उद्देश्य local models नहीं था? फिर छोटे और कमज़ोर models के लिए $20 प्रति माह देकर इसे क्यों इस्तेमाल किया जाए? OpenAI या Mistral जैसी AI कंपनियों का इस्तेमाल करना बेहतर नहीं होगा? अपने कंप्यूटर पर model चलाने के लिए account बनाने की ज़रूरत मुझे समझ नहीं आती
    • यह अच्छा सवाल है। समर्थित models में ऐसे कई models हैं जो अधिकांश devices पर चल ही नहीं सकते। अभी यह शुरुआती चरण में है, और model providers के साथ हमारे संबंधों की वजह से Ollama अब cloud-based cutting-edge models भी उपलब्ध करा सकता है। Ollama developers के साथ है और उनका लक्ष्य उनकी ज़रूरतों को हल करना है https://ollama.com/cloud
    • account बनाने का कारण उनके hosted models का उपयोग करना या Ollama API के जरिए local स्तर पर models का उपयोग करना है। अभी मैं Claude पर $100, GPT-5 पर $200 खर्च कर रहा हूँ, ऐसे में $20 में इन models का उपयोग करना वास्तव में सस्ता है: Qwen3 235b, Deepseek 3.1 671b, Llama 3.1 405b, GPT OSS 120b आदि — ये बिल्कुल भी “छोटे या कमज़ोर” models नहीं हैं। Codex को Ollama API से जोड़कर कई models के साथ tools इस्तेमाल कर पाना भी वास्तव में शानदार है
    • इसे मैं monetizable features की ओर लगातार बढ़ते बदलाव के रूप में देखता हूँ। open source और free labor से भरोसा और brand बनाया, फिर अब cashization की ओर मुड़ रहा है
    • ऐसे models भी हैं जिन्हें local पर चलाया नहीं जा सकता (gpt-oss-120b, deepseek, qwen3-coder 480b आदि)। यह Ollama की सफलता को monetize करने का एक तरीका है
    • कई “local” models भी download size में बहुत बड़े होते हैं और सामान्य hardware पर धीमे चलते हैं। cloud में सस्ते में पहले evaluate करके फिर local पर download करना है या नहीं, यह तय कर पाना एक फायदा है। असली बात यह सिद्धांत है कि वास्तव में किसी चीज़ को local पर चलाया “जा सकता है”। मैं ऐसी technology पर निर्भर नहीं होना चाहता जिसे कोई भी आसानी से वापस ले सके या रोक सके
  • थोड़ा अलग विषय है, लेकिन मैं निजी उपयोग के लिए घर में “mini Google” बनाने का सोच रहा हूँ। महसूस हुआ कि वास्तव में search की ज़रूरत ज्यादातर लगभग 1,000 websites के भीतर ही पूरी हो जाती है। पूरे web को crawl करना मेरे लिए overkill है। मोटे तौर पर design यह है: crawler (हल्का scraper), indexer (text conversion और inverted index), storage (HTML और text का compressed storage), search layer (TF-IDF या embedding-based scoring), periodic update, और simple web UI। क्या किसी ने ऐसा कोई project इस्तेमाल किया है या इसी तरह की कोशिश की है?
    • मैंने Common Crawl dump देखा था, और web का 99.99% हिस्सा ads, porn, spam, अर्थहीन blogs जैसी लगभग बेकार चीज़ों से भरा था। ऐतिहासिक, सांस्कृतिक या साहित्यिक मूल्य कुछ हो सकता है, लेकिन मेरे उद्देश्य के लिए लगभग बेकार था। इससे मुझे भरोसा हुआ कि अगर सिर्फ “वास्तव में महत्वपूर्ण webpages” को चुनकर index किया जाए, तो laptop स्तर पर भी यह पर्याप्त रूप से संभव है। सिर्फ Wikipedia ही करीब 20GB है (compressed), इसलिए अगर मैं सिर्फ वही topics लूँ जिनमें मुझे सच में दिलचस्पी है, तो यह 200MB से भी कम हो सकता है
    • YaCy (https://yacy.net) में यह लगभग सब किया जा सकता है। हालांकि, ज़्यादा crawling करने पर Cloudflare जल्दी IP block कर सकता है
    • https://marginalia-search.com भी मुझे बहुत पसंद है
    • Drew DeVault ने पहले SearchHut नाम से कुछ ऐसा बनाने की कोशिश की थी, लेकिन बीच में छोड़ दिया। Postgres RUM extension को समझते-समझते आखिरकार हार मान ली SearchHut उल्लेख वाला HN thread link
    • बिल्कुल वही नहीं, लेकिन मैं भी domain-specific Google CSE का उपयोग करके अपने रुचि-क्षेत्र के मुताबिक sites तक search results सीमित करके इस्तेमाल करता हूँ। Alfred में shortcut से तुरंत खोल लेता हूँ, इसलिए कम-से-कम अपने interest areas में search आरामदायक हो जाता है https://blog.gingerbeardman.com/2021/04/20/interest-specific-search-engines/
  • local और enterprise search से जुड़े tips मिल जाएँ तो अच्छा होगा। मैं Ollama को local पर इस्तेमाल करते हुए अपने documents को भी खुद index कर रहा हूँ। documents को embed या fine-tune करने की बजाय, पारंपरिक full-text search system के साथ Ollama को जोड़ने का तरीका जानना चाहता हूँ
    • solr की सिफारिश करता हूँ। यह बहुत अच्छा full-text search है और mcp integration भी है, इसलिए आसानी से इस्तेमाल किया जा सकता है https://github.com/mjochum64/mcp-solr-search थोड़ा और काम करें तो documents को vectorize करके knn-आधारित semantic similarity search भी साथ में किया जा सकता है। semantic और text search दोनों इस्तेमाल कर सकते हैं, इसलिए quality भी अच्छी होती है। chromadb और solr को जोड़कर results combine किए जा सकते हैं, हालांकि scale बढ़ने पर chromadb ज़्यादा efficient होगा या नहीं, इस पर विचार करना पड़ेगा
    • docling भी अच्छा alternative हो सकता है, और Typesense जैसे proven full-text search engines पर भी विचार किया जा सकता है
  • मैं पहले से LLM में python DuckDuckGo package जोड़कर search feature इस्तेमाल कर रहा था। लेकिन Google के results बेहतर लगे, इसलिए developer console में कुछ सेट करके Google पर चला गया (ठीक-ठीक क्या किया था, याद नहीं)। DDG वाला रास्ता unofficial है, और Google official API में query limit है (इसलिए deep research के लिए उपयुक्त नहीं)। आम तौर पर कुछ search results GPT में डालकर अपना सवाल जोड़ दूँ तो ज़्यादातर अच्छे जवाब मिल जाते हैं। Ollama में भी निश्चित ही यही संरचना इस्तेमाल की जा सकती है, लेकिन मेरा GPU बहुत अच्छा नहीं है, इसलिए context लंबा हो तो गति धीमी हो जाती है
    • scraping API के बिना इसे सार्थक रूप से कैसे इस्तेमाल किया जाए, यह जानना चाहता हूँ। क्योंकि official APIs बहुत सीमित हैं
  • “Ollama account” का मतलब क्या है, इसे लेकर भ्रम है। शुरू में मेरी समझ थी कि Ollama का मकसद models को self-host करना है
    • अतिरिक्त features या Ollama द्वारा hosted cloud models के लिए account signup चाहिए। मूल रूप से यह सचमुच optional है, और पूरी तरह local में खुद models बनाकर ollama.com पर share करना भी संभव है
  • मैं भी अभी web search जोड़कर अलग-अलग providers को test करते हुए एक tool बना रहा हूँ। openAI, xAI, gemini को competitors की sites पर block कर दिया जाता है, इसलिए उनका उपयोग नहीं हो पाता। YT videos में इस search ने साधारण tests में अच्छा काम किया, और OpenAI web search से अलग तरीके से access भी कर पाया। X पर यह उतना अच्छा नहीं चला, लेकिन कभी-कभी ठीक-ठाक results दे देता है। यह perfect नहीं है, फिर भी औसतन उपयोगी results देता है