Gemini 2.5 Computer Use मॉडल जारी - UI को सीधे संचालित करने वाले एजेंट्स के लिए AI

(blog.google)

4 पॉइंट द्वारा GN⁺ 2025-10-08 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Google ने Gemini 2.5 Pro-आधारित Computer Use मॉडल जारी किया, जिससे डेवलपर्स यूज़र इंटरफेस को सीधे संचालित करने वाले एजेंट बना सकें
वेब·मोबाइल कंट्रोल बेंचमार्क में इसने प्रतिस्पर्धी मॉडलों की तुलना में तेज़ और अधिक सटीक प्रदर्शन दिखाया, और यह Google AI Studio व Vertex AI में प्रीव्यू के रूप में उपलब्ध है
मॉडल स्क्रीन कैप्चर, यूज़र रिक्वेस्ट और एक्शन हिस्ट्री को इनपुट के रूप में लेकर क्लिक, इनपुट, स्क्रॉल जैसी UI संचालन कमांड अपने-आप जनरेट करता है
सुरक्षा सुनिश्चित करने के लिए इसमें Per-step Safety Service और यूज़र कन्फर्मेशन प्रक्रिया शामिल है, ताकि दुरुपयोग और सुरक्षा खतरों को रोका जा सके
यह पहले से ही Project Mariner, Firebase Testing Agent, AI Mode in Search आदि में लागू है, जिससे प्रोडक्शन-स्तर की ऑटोमेशन और टेस्ट दक्षता में सुधार साबित हुआ है

अवलोकन

Google DeepMind ने Gemini 2.5 Computer Use मॉडल लॉन्च किया
- यह Gemini 2.5 Pro की visual understanding और reasoning capabilities पर आधारित एजेंट मॉडल है, जो वेब·मोबाइल UI को सीधे नियंत्रित कर सकता है
- पारंपरिक API-आधारित ऑटोमेशन से एक कदम आगे बढ़ते हुए यह form input, scrolling, login processing जैसी graphical interface interactions कर सकता है
- यह Google AI Studio और Vertex AI के माध्यम से प्रीव्यू रूप में उपलब्ध है

यह कैसे काम करता है

नया computer_use टूल repetitive loop structure के माध्यम से काम करता है
- इनपुट: यूज़र रिक्वेस्ट, मौजूदा UI का स्क्रीनशॉट, हाल की एक्शन हिस्ट्री
- आउटपुट: क्लिक, इनपुट, ड्रैग जैसी UI action function calls
- कुछ high-risk कार्यों (जैसे payment) के लिए यूज़र कन्फर्मेशन आवश्यक है
हर एक्शन के बाद नया स्क्रीनशॉट और URL फिर से मॉडल को भेजा जाता है, ताकि अगला चरण चल सके
यह मुख्य रूप से वेब ब्राउज़र वातावरण के लिए optimized है, लेकिन मोबाइल UI कंट्रोल में भी उच्च प्रदर्शन दिखाता है

प्रदर्शन

Browserbase और Google के अपने मूल्यांकन में इसने उद्योग-स्तरीय शीर्ष सटीकता और latency दर्ज की
- Online-Mind2Web जैसे बेंचमार्क में इसने प्रतिस्पर्धी मॉडलों की तुलना में 50% से अधिक तेज़ प्रतिक्रिया दिखाई
- जटिल स्क्रीन के भीतर context समझने की सटीकता में भी सुधार हुआ और 18% प्रदर्शन वृद्धि की रिपोर्ट दी गई
UI कंट्रोल कार्यों के दौरान विफलता की स्थिति से अपने-आप उबरने की क्षमता भी शामिल है, जो test automation में उपयोगी है

सुरक्षा डिज़ाइन

एजेंट के दुरुपयोग को रोकने के लिए मॉडल में built-in safety features शामिल हैं
- Per-step Safety Service: मॉडल द्वारा सुझाए गए एक्शन को चलाने से पहले सत्यापित करता है
- System Instructions: कुछ कार्यों (security, medical, CAPTCHA आदि) के लिए यूज़र कन्फर्मेशन या अस्वीकृति नियम सेट किए जा सकते हैं
डेवलपर गाइड में अतिरिक्त सुरक्षा सिफारिशें दी गई हैं, और वास्तविक सेवा में लागू करने से पहले गहन परीक्षण की सलाह दी गई है

शुरुआती उपयोग के मामले

Google की आंतरिक टीमों ने इसे UI test automation में अपनाया, जिससे विफलता दर 25% घटी
Project Mariner, Firebase Testing Agent, AI Mode in Search आदि वास्तविक production environments में उपयोग में हैं
बाहरी शुरुआती उपयोगकर्ता मूल्यांकन में भी data parsing reliability और execution speed में सुधार की रिपोर्ट मिली
- उदाहरण: Autotab ने जटिल context handling accuracy में 18% सुधार दर्ज किया
- Google payment platform ने विफल टेस्ट के 60% को अपने-आप रिकवर किया

शुरुआत कैसे करें

मॉडल public preview में उपलब्ध है, और निम्न चैनलों से एक्सेस किया जा सकता है
- Google AI Studio
- Vertex AI
- Browserbase डेमो वातावरण में रियल-टाइम टेस्ट संभव है
डेवलपर्स GitHub reference और दस्तावेज़ों के ज़रिए Playwright या cloud VM environment में agent loop configure कर सकते हैं
फीडबैक Developer Forum में एकत्र किया जा रहा है

2 टिप्पणियां

GN⁺ 2025-10-08

Hacker News राय

मैं पहले एक ट्रैफिक सिग्नल वाली दो-लेन सड़क पर इंतज़ार करते हुए सोचता था कि अगर मुख्य सड़क पर कोई गाड़ी न हो, तो computer vision camera system से सिग्नल जल्दी बदला जा सकता है
लेकिन उस समय computer vision पर्याप्त परिपक्व नहीं था, और बाद में पता चला कि magnetic sensor से गाड़ियों का पता लगाया जा सकता है
यह कहीं ज़्यादा सरल hardware और software से आसानी से हल होने वाली समस्या थी, और मेरा सोचा हुआ तरीका बहुत जटिल और महँगा solution था
कंप्यूटर इस्तेमाल के मामले में भी मेरा मानना था कि ML/AI को structured data के लिए optimize किया जाना चाहिए
लेकिन दुनिया अधिक जटिल हो गई है और कंप्यूटर तेज़ हो गए हैं, इसलिए अब AI का स्क्रीन देखना, माउस चलाना और क्लिक करना ज़्यादा व्यावहारिक लगता है
- अब computer vision camera आम तौर पर इस्तेमाल किए जाते हैं
  magnetic sensor अक्सर साइकिल चलाने वालों को ठीक से detect नहीं कर पाते, इसलिए आजकल camera को अधिक पसंद किया जाता है
  शहर के traffic अधिकारियों के नज़रिए से भी camera congestion monitoring tool के रूप में काम आ सकते हैं, इसलिए उनकी लोकप्रियता बढ़ रही है
- हमारे इलाके में रात के समय ट्रैफिक सिग्नल पर एक साधारण light sensor लगाया गया है, ताकि पास आते समय high beam ऑन करने पर सिग्नल बदल जाए
  नहीं तो मुख्य सड़क पर पूरी रात हरी बत्ती रहती थी
  गाड़ी के चौराहे तक पहुँचने पर high beam signal या magnetic flux से ही सिग्नल बदलता था
- मैं अक्सर साइकिल चलाता हूँ, और बाहर रहते हुए podcast सुनते समय "Hey Google, 30 सेकंड पीछे जाओ" कहकर दोबारा सुनना या ad skip करना बहुत उपयोगी लगता है
  घर के अंदर मैं ज़्यादातर TV कार्यक्रम या YouTube वीडियो cast करके देखता हूँ
  कभी-कभी मैं YouTube वीडियो बदलना चाहता हूँ, लेकिन voice command से YouTube बस किसी तरह चलता है और नतीजे अच्छे नहीं होते
  दूसरी services में तो voice command लगभग असंभव है
  आदर्श दुनिया में Google इस तरह के integration के लिए शानदार API देता, और सभी apps उसे अच्छी तरह अपनाते
  अगर वह प्रक्रिया छोड़े बिना भी शानदार नतीजे मिलते हैं, तो मेरे लिए यह बहुत मूल्यवान अनुभव होगा
  शायद यह सिर्फ मेरा ही use case हो, लेकिन यही हिस्सा मुझे सच में रोमांचक लगता है
- कंप्यूटर का उपयोग इस बात का अनुमान लगाने के लिए सबसे महत्वपूर्ण benchmark है कि AI श्रम बाज़ार को कैसे प्रभावित करेगा
  ML/AI के लिए कंप्यूटर पर तरह-तरह के काम कुशलता से करने के बेहतर तरीके बहुत हैं
  लेकिन उन सभी तरीकों को हर काम के हिसाब से अलग-अलग design करना पड़ता है
  generalized approach ही अधिक scalable दिशा है
- संदर्भ के लिए, इस तरह के traffic camera पहले से ही आम उपयोग में हैं
  https://www.milesight.com/company/blog/types-of-traffic-cameras
मैं लंबे समय से दोहराए जाने वाले manual काम को automate करने के लिए "दुनिया की हर चीज़ को database object बना दो" वाले विचार पर केंद्रित था
मुझे लगता था कि कंप्यूटर बहुत कम मानवीय हस्तक्षेप के साथ ढेर सारे काम कर सकते हैं
मैंने machine learning पर भी बहुत मेहनत की
लेकिन सच कहूँ तो, मैंने यह नहीं सोचा था कि screen buffer जैसी semi-structured मानवीय दुनिया के data को वैसे ही इस्तेमाल करके कंप्यूटर को mouse और keyboard से इंसानों की तरह काम कराया जा सकता है
बेशक मैं इस विचार का पूरी तरह समर्थन करता हूँ
मुझे लगता है कि 10 साल के भीतर ऐसा समय आ सकता है जब कंप्यूटर Chrome खोले, video call पर बातचीत करे, काम निपटाए, और सामने वाला यह तक न समझ पाए कि वह कंप्यूटर है
- AI तथाकथित 'सैद्धांतिक रूप से बेहतर' तरीकों से ज़्यादा सफल इसलिए है क्योंकि यह मूल रूप से 'सामाजिक' समस्या हल करता है
  computing ecosystem सहयोगी होने के बजाय प्रतिस्पर्धी और रक्षात्मक है
  ज़्यादातर उबाऊ manual काम को automate न होने देने के लिए बना हुआ ढाँचा ही इंटरनेट पर पैसे कमाने का मुख्य तरीका है
  क्योंकि अगर उपयोगकर्ता automation के ज़रिए खरीदारी के दबाव या ads exposure से बच सकें, तो revenue घट जाएगा
- robotics में भी ऐसा ही विवाद था
  "रोबोट को इंसान जैसा बनाने की क्या ज़रूरत है, इससे अधिक कुशल रूप भी हो सकते हैं?" ऐसा सवाल अक्सर उठता था
  लेकिन अंत में अगर किसी tool को व्यापक रूप से अपनाया जाना है, तो उसे चाहे कुछ हद तक अक्षम ही क्यों न हो, इंसान-केंद्रित माहौल के हिसाब से design करना पड़ता है
  performance-केंद्रित applications में custom design और optimization ज़रूरी है, लेकिन बड़े पैमाने पर अपनाने के लिए इंसानों के हिसाब से ढलना पड़ता है
- सुबह dating app के बारे में सोचते हुए मुझे यह आख़िरी बात याद आई
  अगर "मेरा chatgpt" मुझे पर्याप्त अच्छी तरह represent करता हो, तो dating app में वह सामने वाले के chatgpt के साथ pre-meeting जैसा कुछ कर सकता है
  मैंने हाल की enterprise keynote में "digital twin" की बात सुनी थी, और लगता है यह उसी विचार से जुड़ा है
  इस हिस्से पर अभी राय बनाना जल्दी होगा, लेकिन यह कहाँ तक जाएगा, यह देखने में दिलचस्पी है
- मैं जानना चाहता हूँ कि क्या वाकई आपको लगता है कि कंप्यूटर का खुद Chrome खोलना, video call करना और इंसान की तरह tasks पूरा करना, ताकि सामने वाला यह न जान सके कि वह कंप्यूटर है, एक अच्छा परिणाम है
  तकनीकी रूप से यह बहुत बड़ा और प्रभावशाली achievement होगा, लेकिन इसमें कुछ असहज करने वाला भी है
मैंने Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) के साथ Gemini CLI से browser automation सफलतापूर्वक करके देखा है
इसलिए मुझे लगता है कि यह मॉडल और बेहतर प्रदर्शन दिखा सकता है
- MCP का उपयोग करके आपने कौन-कौन से automation task सफलतापूर्वक किए, यह जानने की जिज्ञासा है
- इस तरीके का computer use के लिए ज़रूरी मॉडल से कोई लेना-देना नहीं है
  यह सिर्फ MCP server पर Google द्वारा दिए गए predefined tools का उपयोग करता है, यह कोई ऐसा general-purpose model नहीं है जो किसी भी software पर लागू हो सके
अगर किसी के पास UX से तेज़ कोई वास्तविक use case हो, तो मैं उसके बारे में सुनना चाहूँगा
मुझे ठीक से समझ नहीं आ रहा कि इसे कैसे इस्तेमाल किया जाए
इतनी भारी investment को देखकर लगता है कि ज़रूर कुछ ऐसा है जो सिर्फ मुझे समझ नहीं आ रहा
तकनीक और इसकी capabilities प्रभावशाली हैं, लेकिन मैं ठोस उपयोग के उदाहरण जानना चाहता हूँ
अगर browser bot से आज का Wordle हल करने को कहा जाए, तो वह अक्षरों के रंग feedback (हरा, पीला, धूसर) को देख नहीं पाता, इसलिए जवाब नहीं ढूँढ पाता
वह शब्द टाइप कर सकता है, लेकिन feedback की व्याख्या नहीं कर पाता
- क्या यह black-and-white screen पर web browsing कर रहा है?
Gemini ने https://www.google.com/recaptcha/api2/demo पर captcha सफलतापूर्वक पार कर लिया
- पोस्ट अपडेट: दरअसल मैंने गलत देखा था, Google CAPTCHA को Gemini ने नहीं बल्कि Browserbase ने हल किया था
  अधिक विवरण यहाँ में संकलित हैं
- automation Browserbase पर चल रही है, और Browserbase में captcha solver शामिल है
  यह automatic है या human-powered, यह निश्चित नहीं है
- शायद यह Google के अपने network के IP से कोशिश की गई थी, इसलिए यह पास हो गया होगा
(मैंने सिर्फ Browserbase demo इस्तेमाल किया है)
सैद्धांतिक रूप से क्या संभव है यह जानना और किसी छोटे command पर उसे सचमुच किसी site में login करते, scroll करते और comment छोड़ते देखना, दोनों बिल्कुल अलग अनुभव हैं
आज Wordle में मैंने भी दूसरी कोशिश में वही गलती की और ड्रॉ हो गया
काम के दौरान उससे बातचीत न कर पाना थोड़ा अफ़सोसजनक था
enterprise system में ऐसे feature के लिए governance हेतु hook/callback जैसी सुविधाएँ ज़रूरी होंगी
UI-आधारित system में hook/agent event handling कहीं अधिक कठिन है
संबंधित links: claude code hooks docs, google adk callbacks docs
- मुझे पता है कि Claude Code कितनी बार hook को नज़रअंदाज़ कर देता है, calculation पूरा कर लेता है और परिणाम का उपयोग भी नहीं करता, इसलिए मुझे लगता है कि 'governance' जैसी अवधारणा लगभग असंभव है
  LLM लोगों की सोच से कहीं अधिक अप्रत्याशित हैं और इन्हें नियंत्रित करना बहुत कठिन है
  मैंने देखा है कि test failure में साफ़-साफ़ "आगे न बढ़ें" लिखा होने पर भी यह आगे बढ़ जाता है
  अंततः वास्तव में रोक सकने वाली एकमात्र चीज़ शायद वही सैद्धांतिक रूप से खतरनाक 'claude-killing' hook है
- मैं Browserbase में identity product पर काम करता हूँ
  हाल में मैं पूरे web पर RBAC(role-based access control) लागू करने के तरीकों पर सोच रहा हूँ
  जानना चाहता हूँ कि क्या callback इस तरीके में मददगार हो सकते हैं
"OS level control अभी optimize नहीं है" यह बात सुनकर लगा कि AGI अभी नहीं आया है
अगर इस स्तर का OS control संभव हो जाए, और LLM उपयोग की लागत भी उचित हो, तो मुझे लगता है कि AGI जैसी किसी चीज़ की शुरुआत हो सकती है
- दिलचस्प बात यह है कि ज़्यादातर लोग भी कंप्यूटर ठीक से इस्तेमाल नहीं कर पाते
  'बुद्धिमत्ता' जैसी अवधारणा को परिभाषित करना सच में असंभव सा लगता है
- आप क्यों सोचते हैं कि पूरे OS का control AGI(सामान्य कृत्रिम बुद्धिमत्ता) की दिशा में एक मोड़ साबित होगा?
विडंबना यह है कि ज़्यादातर tech कंपनियाँ उपयोगकर्ताओं को बेकार जानकारी के बीच से गुज़रने पर मजबूर करके पैसा कमाती हैं
उदाहरण के लिए, अगर इंटरनेट को बिना ads के आज़ादी से browse किया जा सके, या Twitter पर बेकार algorithm के बिना सिर्फ वही content देखा जा सके जो आप देखना चाहते हैं, तो भला कौन इसका उपयोग नहीं करेगा?

2025-10-09

[यह टिप्पणी छिपाई गई है.]

Gemini 2.5 Computer Use मॉडल जारी - UI को सीधे संचालित करने वाले एजेंट्स के लिए AI

अवलोकन

यह कैसे काम करता है

प्रदर्शन

सुरक्षा डिज़ाइन

शुरुआती उपयोग के मामले

शुरुआत कैसे करें

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News राय