9 पॉइंट द्वारा GN⁺ 2025-07-14 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • BrowserOS Perplexity Comet का ओपन सोर्स, privacy-केंद्रित विकल्प है, जो लोकल पर AI एजेंट चलाने वाला एक agentic browser है
  • Chromium को fork करके बनाया गया है, इसलिए यह मौजूदा सभी Chrome extensions को सपोर्ट करता है, और इसकी खासियत है कि यूज़र डेटा केवल लोकल में स्टोर होता है
  • OpenAI, Anthropic, Ollama जैसे कई AI providers के साथ इंटीग्रेट किया जा सकता है, और personal API key या local model का उपयोग किया जा सकता है
  • Native highlighter, ChatGPT-आधारित bookmarker, semantic search जैसे आधुनिक productivity tools बिल्ट-इन हैं, और AI-आधारित ad blocking भी जल्द आने वाली है
  • पारंपरिक ब्राउज़रों के विपरीत, डेटा search/ad कंपनियों तक नहीं जाता, और automated workflows को लोकल में AI पूरा करता है

BrowserOS परिचय

  • BrowserOS एक ओपन सोर्स agent browser है, जो यूज़र के कंप्यूटर पर सीधे AI agents चलने का वातावरण देता है
  • privacy-first सोच के आधार पर, API key या Ollama जैसे local models का उपयोग करके डेटा को बाहर लीक होने से रोका जाता है
  • यह Chromium fork पर आधारित है, इसलिए Chrome user interface जैसा ही अनुभव देता है, और सभी Chrome extensions काम करते हैं

मुख्य फीचर्स

  • AI एजेंट और लोकल रनिंग

    • ब्राउज़र के भीतर AI agents सीधे लोकल पर चलते हैं, जिससे repetitive tasks और automated workflows पूरे किए जा सकते हैं
    • Ollama integration के जरिए बड़े language models को cloud के बजाय अपने कंप्यूटर पर चलाया जा सकता है, जिससे data privacy सुनिश्चित होती है
  • productivity tools

    • highlighter, ChatGPT bookmarker जैसे browser-built productivity tools का सपोर्ट
    • semantic search की मदद से history/bookmarks जैसे browser data को तेज़ी से खोजा जा सकता है
  • ad blocking और MCP store (जल्द आने वाला)

    • AI-आधारित ad blocking (जल्द), Chrome में uBlock Origin ब्लॉक होने के बाद एक विकल्प देने की योजना
    • MCP (Multi Command Package) store (जल्द) में लोकप्रिय MCP को one-click install करके सीधे browser bar से इस्तेमाल किया जा सकेगा
  • ओपन सोर्स और community-केंद्रित

    • AGPL-3.0 license के तहत 100% ओपन सोर्स, जिससे code और behavior में transparency बनी रहती है
    • community की भागीदारी और contributions को सक्रिय रूप से प्रोत्साहित किया जाता है

प्रमुख उपयोग के मामले

  • दोहराए जाने वाले और उबाऊ कामों का automation: meeting scheduling, form filling, और repetitive tasks को AI अपने आप संभाल सकता है
  • deep research: वेब ब्राउज़ करके summary reports बनाना, बिना manual tab management के अधिक कुशल जानकारी एकत्र करना
  • SNS content scanning: LinkedIn, Twitter आदि पर सार्थक पोस्ट्स को अपने आप चुनकर व्यवस्थित करना

अन्य ब्राउज़रों से तुलना

  • Chrome: 10 साल से बड़े बदलाव के बिना, AI/automation/MCP फीचर्स की कमी
  • Brave: crypto/search/VPN जैसी बिखरी रणनीति पर केंद्रित, AI browser पर फोकस नहीं
  • Arc/Dia: closed-source हैं, ओपन सोर्स नहीं; अगर उपयोग बंद हो जाए तो विकल्प नहीं
  • Perplexity Comet: search/ad कंपनियों-केंद्रित, यूज़र डेटा सर्वर पर भेजा जाता है, जबकि BrowserOS सभी डेटा सिर्फ लोकल में स्टोर करता है

इंस्टॉल और शुरुआत

  • macOS, Windows के लिए download उपलब्ध
  • Chrome data import (वैकल्पिक)
  • AI provider कनेक्ट करें (OpenAI, Anthropic, Ollama आदि)
  • तुरंत agent automation शुरू किया जा सकता है

लाइसेंस

  • AGPL-3.0 ओपन सोर्स license लागू

2 टिप्पणियां

 
luiseok 2025-07-14

https://hi.news.hada.io/topic?id=21581
कहीं जाना-पहचाना लगा, फिर देखा तो यह बस Nxtscape का नाम बदलकर रखा गया था।

 
GN⁺ 2025-07-14
Hacker News की राय
  • डेमो में दिखाया गया टूथपेस्ट खरीदने का उदाहरण बताता है कि ये काम कितने कठिन हैं। "टूथपेस्ट" अपने आप में बहुत अस्पष्ट निर्देश है, इसलिए अंत में यह एक बहुत बड़ी सूची में से लगभग रैंडम चुनाव जैसा बन जाता है। कुछ कामों में पिछला व्यवहार मार्गदर्शन दे सकता है, लेकिन कई बार ऐसा नहीं होता। उदाहरण के लिए, अगर पहले खरीदा गया टूथपेस्ट out of stock हो तो क्या करना है, यह स्पष्ट नहीं होता। इसलिए यह भी सवाल है कि क्या ऐसे उदाहरण सच में समय बचाते हैं; क्योंकि नतीजे को जांचने के लिए आखिरकार आपको फिर से देखना ही पड़ता है, यानी काम दो बार करना पड़ता है। मुझे लगता है कि इसी वजह से Alexa जैसे सिस्टम भी शुरुआत में Amazon की उम्मीद के मुताबिक खरीदारी अनुभव नहीं दे पाए। इससे बेहतर होगा कि ऐसा ज्यादा जटिल उदाहरण दिखाया जाए जहाँ समय की बचत साफ दिखाई दे और failure cases कम हों, या फिर उल्टा failure case से recovery पर फोकस किया जाए। क्या किसी खास समस्या के लिए अलग UI दिया जाएगा, या सब चैट से हल होगा? मुझे लगता है यह पूरा क्षेत्र बिल्कुल आसान नहीं है। सबको शुभकामनाएँ।
    • बात सही है। पूरा agentic browser क्षेत्र अभी बहुत शुरुआती चरण में है। हमने भी अभी बस शुरुआत की है और ऐसे value वाले niche use-case खोज रहे हैं। कुछ repetitive और उबाऊ कामों में समय की बचत बिल्कुल साफ दिखती है। उदाहरण के लिए, Walmart के third-party sellers दिन में कई बार competitors की कीमतें चेक करके अपने प्रोडक्ट की कीमत समायोजित करते हैं। यह काम agentic browser से आसानी से automate किया जा सकता है।
    • मुझे लगता है कि इसे यूज़र की व्यक्तिगत aesthetic पसंद के अनुसार भी काम कर पाना चाहिए, लेकिन ऐसा करने पर यह security nightmare बन सकता है।
  • मैंने Nxtscape पहले से इंस्टॉल किया हुआ था, लेकिन मुझे पता नहीं था कि प्रोडक्ट का नाम बदल गया है। जब मैंने BrowserOS चलाया तो वही UI और चैट विंडो में वही लोमड़ी वाला emoji देखकर मैं चौंक गया। सच कहूँ तो पुराना नाम ज्यादा अच्छा था। मेरा अंदाज़ा है कि कानूनी वजह से नाम बदला गया होगा.<br>मैंने इससे Arstechnica लेख की टिप्पणियों का सारांश माँगा। शुरू में बस यही जवाब मिला कि "टिप्पणियाँ शामिल नहीं हैं इसलिए सारांश नहीं किया जा सकता"। जब मैंने इसे सीधे "comments" लिंक पर क्लिक करने को कहा, तभी इसने वास्तव में टिप्पणियाँ पढ़ना शुरू किया। वैसे टिप्पणियों के कुल 3 पेज थे, और यह 20 मिनट से ज़्यादा समय तक लगभग 100 actions करता रहा—जिनमें 1074 पिक्सेल तक स्क्रोल करने जैसी बेहद विशिष्ट क्रियाएँ भी शामिल थीं—और उसके बाद भी यह अभी तक "Validating task completion..." की स्थिति में अटका हुआ है और मैं अभी भी सारांश का इंतज़ार कर रहा हूँ.<br>फ़ंक्शनल तौर पर यह powerful लगता है, लेकिन इतना ज्यादा हाथ पकड़कर चलाना पड़ता है और यह इतना धीमा है कि असल में इस्तेमाल करने लायक नहीं लगता.<br>संदर्भ के लिए, मेरे पास Nxtscape भी इंस्टॉल था, इसलिए मैंने वही प्रयोग वहाँ भी किया। उसने कम actions और ज्यादा तेज़ी से काम पूरा कर दिया। यह संयोग था या अंदर अलग logic होने की वजह से, यह मुझे नहीं पता.<br>और एक Chrome extension है जो iCloud passwords को Chrome में इस्तेमाल करने देता है, लेकिन वह Nxtscape और BrowserOS में काम नहीं करता। अगर मुझे बार-बार password manager खुद खोलना पड़े, तो मैं ऐसे browser का इस्तेमाल नहीं करूँगा, और password manager बदलने का भी कोई इरादा नहीं है।
    • समस्याओं से बचने के लिए नाम बदला गया, और पुराना नाम बोलने में भी मुश्किल था।<br>फ़ीडबैक के लिए धन्यवाद। Discord(https://discord.gg/YKwjt5vuKr) पर और बात करना अच्छा रहेगा! हमारी टीम हर दिन deploy कर रही है और बहुत तेज़ी से सुधार कर रही है, और एजेंट भी कुछ दिनों में काफी बेहतर हो जाएगा।<br>हम iCloud passwords extension वाले मुद्दे को भी देखेंगे। onboarding और password management को बहुत आसान बनाना हमारा लक्ष्य है।
  • अगर यह privacy first browser है, तो फिर Firefox का इस्तेमाल क्यों नहीं किया गया, यह जानना चाहूँगा। Firefox इस उद्देश्य के लिए कहीं बेहतर फिट है और डिफ़ॉल्ट रूप से भी बेहतर विकल्प है। Tor Browser, Mullvad Browser, LibreWolf जैसे security/privacy-first browsers सभी Firefox engine पर आधारित हैं।<br>और मुझे लगता है कि अलग-अलग "web browser engines" होना बहुत ज़रूरी है। अगर हम सिर्फ बड़ी tech कंपनियों के engines पर निर्भर हो गए, तो अंत में consumers का बहुत नुकसान होगा और innovation भी रुकेगा।<br>Firefox जैसे स्वतंत्र browsers को ज्यादा समर्थन मिलना चाहिए।
    • यह सच में बहुत कठिन फैसला था।<br>हमने उन लोगों से बात की जिन्होंने webkit पर browser बनाया है, और उनका कहना था कि random bugs और site compatibility issues ठीक करने में ही लगभग 2 साल लग गए। firefox/gecko engine webkit से बेहतर हो सकता है, लेकिन निष्कर्ष यही है कि अगर Chromium के अलावा कोई और engine चुनते हैं, तो website compatibility और extension support के लिए बहुत ज्यादा अतिरिक्त काम करना पड़ता है।<br>हम सिर्फ 2 लोगों की startup हैं, और chromium codebase build करने के लिहाज़ से कहीं आसान शुरुआती बिंदु था, इसलिए हमने वही चुना।<br>और Brave की तरह chromium के ऊपर भी privacy-focused browser बनाया जा सकता है।<br>खासकर agentic browser के दौर में privacy के मामले में तुरंत सुधार किए जा सकने वाले बहुत से हिस्से हैं—जैसे Perplexity Comet जैसी सेवाओं को sensitive data भेजना, सिर्फ ad revenue के लिए, सच में बहुत खराब है। local LLM support देना या यूज़र को अपनी API key इस्तेमाल करने देना कहीं ज्यादा महत्वपूर्ण है।
    • मेरे मन में भी यही सवाल था।<br>privacy-oriented होने का दावा करते हुए chromium इस्तेमाल करने की वजह क्या है, यह मैं भी जानना चाहता हूँ।
  • मैंने यह पंक्ति देखी: "हम Chrome के C++ source code को सीधे patch करके Google Chrome जैसी ही security पा रहे हैं।"<br>अगर ऐसा है, तो मेरा सवाल है कि क्या Chromium update होने पर हर बार अपना build फिर से करना पड़ता है? क्योंकि कई बार बहुत साधारण दिखने वाले commit messages वाली patches असल में गंभीर vulnerabilities से जुड़ी होती हैं, और 90 दिन बाद CVE के रूप में सार्वजनिक होती हैं।
    • अच्छा सवाल है। अभी तक हम Google Chrome जिस Chromium release version पर आधारित है, उसी के आधार पर लगातार build करते आ रहे हैं।
  • मुझे यह एक स्वतंत्र browser के बजाय browser extension के रूप में दिया जाए तो ज्यादा पसंद आएगा।
    • हम भी इसे शुरुआत में browser extension के रूप में बनाना चाहते थे।<br>लेकिन अच्छा agent copilot बनाने के लिए हमें लगता है कि Chromium C++ स्तर पर कई बदलाव ज़रूरी हैं। उदाहरण के लिए, Chromium के पास सभी websites का accessibility tree होता है, लेकिन chrome extension API से उसे नहीं निकाला जा सकता। accessibility tree तक सीधी पहुँच होने पर agent का प्रदर्शन काफी बेहतर हो जाता है।<br>इसके अलावा, agent वेबसाइट्स के साथ interact कर सके, इसके लिए हम C++ स्तर पर click actions, element indices जैसी कई सुविधाएँ जोड़ रहे हैं। यही चीज़ें JS में की जाएँ तो 20-40 गुना धीमी होती हैं।
    • हमारी भी बिल्कुल यही राय है। agentic features लागू करने के लिए पूरे browser की ज़रूरत नहीं है; सीमित permissions के भीतर browser extension से भी पर्याप्त काम किया जा सकता है।<br>Google कई zero day patches सीधे deploy करता है, और कुछ features ऐसे भी हैं जिन्हें Google Chromium में जोड़ता ही नहीं। इसलिए main browser के रूप में मैं किसी random open source fork पर भरोसा नहीं कर सकता।<br>AI Web Agent browser extension के रूप में rtrvr.ai(https://rtrvr.ai) की सिफारिश करता हूँ। यह पहले से यूज़र के workflow के अनुरूप बनाया गया है।
    • जब यहाँ nanobrowser का ज़िक्र आया, तो मेरे मन में भी यही बात आई।
    • https://github.com/nanobrowser/nanobrowser आज़माने लायक है।
  • यह chrome extension nanobrowser जैसा एक मिलताजुलता प्रोजेक्ट है https://github.com/nanobrowser/nanobrowser
    • प्रोजेक्ट पेज को जल्दी से देखने पर लगा कि यह बाहरी LLM API keys का इस्तेमाल करता है, जबकि मूल पोस्ट में पेश किया गया यह प्रोजेक्ट transformer.js का उपयोग करके local पर LLM चलाता हुआ लगता है।
    • अगर इस तरह की सुविधाएँ पहले से extension के रूप में लागू की जा सकती हैं, तो फिर मौजूदा software को fork करके अलग से बनाने की ज़रूरत क्यों है, यह मैं जानना चाहूँगा।<br>nanobrowser और browserOS के बीच ऐसा कौन-सा स्पष्ट अंतर है जो केवल browserOS में है और nanobrowser में नहीं, वही असली फर्क जानना चाहूँगा।
    • ज़िक्र करने के लिए धन्यवाद।
  • इसमें यह कहा गया है: "हम Chrome द्वारा uBlock Origin को block किए जाने के बाद, LLM-based ad blocker भी बना रहे हैं।"<br>अगर यह वैसे भी Chromium fork है, तो क्या uBlock Origin को फिर से इस्तेमाल नहीं किया जा सकता?
    • Chromium Manifest V2 API को हटाने वाला है, और कोई भी fork इसे हमेशा बनाए रखना नहीं चाहता। Brave भी अपना अलग built-in ad blocker बनाता है।<br>असल सवाल यह है: 'जब Firefox यह सब पहले से देता है, तो Firefox को fork करने के बजाय Chromium क्यों चुना जाए?'
  • Linux के लिए roadmap जानना चाहता हूँ। मेरे पास Mac या Windows नहीं है।
    • हमें इस बात की जानकारी है। अगले हफ़्ते की शुरुआत तक support उपलब्ध कराने की योजना है।<br>हम अब भी सिर्फ 2 लोगों की टीम हैं, इसलिए सच में करने के लिए बहुत कुछ है।
  • मैं यह देखना चाहूँगा कि AI माउस कर्सर को सीधे चलाए और क्लिक करे, और keyboard input भी स्क्रीन पर real time में दिखे—कुछ वैसा जैसे software tutorial में होता है, जहाँ किसी असली इंसान के इस्तेमाल जैसा interaction दिखता है।<br>अभी जैसे AI पेज बदलता है और UI को तेजी से इधर-उधर करता है, उससे स्क्रीन थोड़ी झटकेदार लगती है और flow पकड़ना मुश्किल होता है।<br>किस चीज़ पर ध्यान देना है, इसके लिए पर्याप्त संकेत नहीं मिलते, इसलिए यह बस screen recording देखने जैसा लगता है।<br>फिर भी mcp/browser automation जैसे क्षेत्रों में इसके उपयोगी use-cases हो सकते हैं, इसलिए आगे इसकी प्रगति को लेकर उत्सुकता है।
    • यह बहुत उपयोगी फ़ीडबैक है, धन्यवाद!<br>हम देखेंगे कि cursor movement भी जोड़ा जा सकता है या नहीं। keyboard input अभी भी असली इंसान जैसा ही दिखता है, लेकिन इसे थोड़ा धीमा और स्पष्ट बनाया जा सकता है।
    • मुझे लगता है कि असल में लोग caretaker ai चाहते हैं।
  • बधाई हो!<br>मैं जानना चाहूँगा कि इस प्रोजेक्ट को financial, development, और maintenance के लिहाज़ से sustainable बनाने की आपकी योजना क्या है।
    • धन्यवाद!<br>मूल रूप से, हम browser के Enterprise version के लिए license बेचने वाले मॉडल पर चलने की योजना बना रहे हैं, बिल्कुल अन्य open source projects की तरह।
    • मेरा अंदाज़ा है कि यह बस एक electron app या chromium wrapper पर ollama wrapper जोड़ा हुआ ढाँचा होगा (browser control करने के लिए मुफ्त open source libraries की भी कोई कमी नहीं है)।