Google DeepMind का Project Mariner - ब्राउज़र ऑटोमेशन टूल
(deepmind.google)- ब्राउज़र इस्तेमाल करने का एक नया तरीका
- Gemini 2.0 पर आधारित, शक्तिशाली multimodal समझ और reasoning क्षमता का उपयोग करके ब्राउज़र कार्यों को ऑटोमेट करता है
- ब्राउज़र स्क्रीन के pixels, text, code, image, form आदि सभी तत्वों को समझता है और उन पर reasoning करता है
- Native Multimodality : ब्राउज़र पर मौजूद सभी कंटेंट को समझना और उस पर reasoning करना
- वेबसाइट के text, code, image आदि जैसे जटिल तत्वों का विश्लेषण
- voice commands का जवाब देता है और काम की प्रगति पर visual feedback प्रदान करता है
- Browser Interaction : जटिल वेबसाइटों को real time में समझना और नेविगेट करना
- उपयोगकर्ता की ओर से वेबसाइटों के साथ इंटरैक्ट करता है
- दोहराए जाने वाले कामों को ऑटोमेट करके समय बचाता है
- कमांड समझ में न आने पर स्पष्ट explanation मांगता है
- Reasoning : जटिल निर्देशों को समझकर उन्हें executable steps में बांटकर पूरा करना
- web elements के बीच संबंध और उनकी functionality को समझता है
- काम की योजना और execution प्रक्रिया को पारदर्शी रूप से दिखाता है ताकि उपयोगकर्ता decision-making प्रक्रिया को समझ सके
- फिलहाल केवल छोटे trusted test group के लिए उपलब्ध : टेस्ट में शामिल होना हो तो waitlist में रजिस्टर करना होगा
1 टिप्पणियां
AI के लिए ऑप्टिमाइज़्ड headless browser आ रहे हैं…
web server भी उन browsers के लिए ऑप्टिमाइज़्ड responses देंगे…
और वह दिन दूर नहीं जब वे आपस में ही बात करेंगे…