- OpenAI द्वारा पेश किया गया नया Operator एक AI एजेंट है जो स्वतंत्र रूप से वेब ब्राउज़ कर सकता है और काम कर सकता है
- यह अपने खुद के ब्राउज़र का उपयोग करके वेब पेज देखता है और टाइप, क्लिक, स्क्रॉल के जरिए इंटरैक्ट करता है
- यह अभी research preview चरण में है, इसलिए कुछ सीमाएँ हैं और इसे यूज़र फ़ीडबैक के आधार पर आगे बेहतर बनाया जाएगा
- यह ऐसा AI है जो स्वतंत्र रूप से काम कर सकता है; यूज़र काम बताता है और यह उसे पूरा करता है, और इस तरह के शुरुआती एजेंटों में से एक है
- यह दोहराए जाने वाले ब्राउज़र कार्यों, जैसे फ़ॉर्म भरना, किराना ऑर्डर करना, मीम बनाना आदि, को संभालकर समय बचाने में मदद करता है
- फिलहाल इसे अमेरिका में रहने वाले Pro यूज़र्स के लिए पहले जारी किया जा रहा है, और आगे चलकर Plus, Team, Enterprise वर्ज़न तथा ChatGPT में इंटीग्रेशन की संभावना है
Operator कैसे काम करता है
- यह नए मॉडल Computer-Using Agent(CUA) पर आधारित है
- यह GPT-4o की vision क्षमता और reinforcement learning आधारित उन्नत reasoning को मिलाकर GUI(बटन, मेनू, टेक्स्ट फ़ील्ड आदि) के साथ इंटरैक्शन संभव बनाता है
- यह screenshot के जरिए ब्राउज़र स्क्रीन को "देख" सकता है और माउस व कीबोर्ड से उसे संचालित कर काम पूरा कर सकता है
- काम के दौरान अगर इसे गलती या रुकावट मिलती है, तो यह self-correction reasoning का उपयोग करता है या ज़रूरत पड़ने पर नियंत्रण यूज़र को सौंपकर सहयोगी तरीका अपनाता है
- WebArena, WebVoyager जैसे ब्राउज़र-आधारित benchmarks में इसने उच्च प्रदर्शन दिखाया है, और अधिक जानकारी research blog में देखी जा सकती है
उपयोग कैसे करें
- आप बस मनचाहा काम संक्षेप में बताएँ, Operator उसे अपने आप आगे बढ़ाएगा
- बीच में किसी भी समय यूज़र सीधे ब्राउज़र का नियंत्रण वापस ले सकता है
- लॉगिन, भुगतान जानकारी दर्ज करना, CAPTCHA हल करना जैसे संवेदनशील चरणों में Operator खुद कार्रवाई नहीं करता; इन्हें यूज़र को स्वयं करना होता है
- साइट-विशेष या सभी साइटों के लिए सेटिंग्स के माध्यम से यूज़र की पसंद और प्राथमिकताएँ लागू की जा सकती हैं
- अक्सर उपयोग होने वाले prompts को सेव करके बार-बार किए जाने वाले काम, जैसे Instacart पर किराना दोबारा ऑर्डर करना, जल्दी चलाए जा सकते हैं
- यह कई tabs की तरह एक साथ कई काम संभाल सकता है, और अलग-अलग conversation sessions बनाकर विभिन्न कार्य समानांतर में किए जा सकते हैं
इकोसिस्टम और उपयोगकर्ता
- Operator AI को सिर्फ एक टूल नहीं, बल्कि डिजिटल इकोसिस्टम का सक्रिय सहभागी बनाने की दिशा में ले जाता है
- DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber आदि के साथ मिलकर यह वास्तविक यूज़र ज़रूरतों और इंडस्ट्री मानकों को ध्यान में रख रहा है
- सार्वजनिक क्षेत्र में भी कार्यकुशलता और accessibility बढ़ाने के लिए इसके उपयोग की संभावना देखी जा रही है; उदाहरण के तौर पर City of Stockton के साथ शहरी प्रशासनिक सेवाओं में उपयोग के तरीके तलाशे जा रहे हैं
- Instacart के Chief Product Officer Daniel Danker ने Operator के जरिए आसान ऑर्डरिंग प्रक्रिया को लेकर सकारात्मक राय दी है
सुरक्षा और गोपनीयता
- Operator सुरक्षा को सर्वोच्च प्राथमिकता देते हुए तीन-स्तरीय सुरक्षा व्यवस्था अपनाता है
- यूज़र-नियंत्रित कंट्रोल: संवेदनशील जानकारी, जैसे लॉगिन या भुगतान, दर्ज करते समय Operator takeover का अनुरोध करता है ताकि यूज़र खुद जानकारी दर्ज करे
- महत्वपूर्ण कार्रवाई से पहले पुष्टि: ऑर्डर सबमिट करना या ईमेल भेजना जैसे अहम कार्यों से पहले यूज़र की मंज़ूरी ली जाती है
- कार्य सीमाएँ: बैंकिंग या नौकरी-संबंधी निर्णय जैसे अत्यधिक संवेदनशील कार्यों को Operator द्वारा अस्वीकार करने के लिए प्रशिक्षित किया गया है
- संवेदनशील साइटों पर पहुँचते समय Watch mode के जरिए यूज़र Operator की गतिविधियों की सीधे निगरानी कर सकता है
- डेटा privacy प्रबंधन की सुविधाएँ भी दी गई हैं
- अगर ‘Improve the model for everyone’ को बंद कर दिया जाए, तो Operator का डेटा भी मॉडल ट्रेनिंग में इस्तेमाल नहीं होगा
- सेटिंग्स के Privacy सेक्शन में browsing data हटाना, सभी साइटों से logout करना, conversation history मिटाना आदि आसानी से किया जा सकता है
- Operator को दुर्भावनापूर्ण वेबसाइटों से बचाने के लिए सुरक्षा तंत्र भी लागू किया गया है
- इसे hidden prompts, malicious code और phishing प्रयासों का पता लगाकर उन्हें नज़रअंदाज़ करने के लिए डिज़ाइन किया गया है
- एक समर्पित monitoring model संदिग्ध गतिविधियों पर real time में नज़र रखता है और ज़रूरत पड़ने पर काम रोक सकता है
- automation और human review के जरिए नए खतरों का पता चलते ही सुरक्षा उपायों को तेज़ी से अपडेट किया जाता है
- तकनीक का हानिकारक उद्देश्यों के लिए दुरुपयोग न हो, इसके लिए Operator कुछ अनुरोधों को अस्वीकार करता है, और नीति उल्लंघन बार-बार होने पर चेतावनी या access block किया जा सकता है
- चूँकि यह अभी research preview चरण में है, इसलिए यह अभी पूर्ण नहीं है और वास्तविक उपयोग से मिलने वाले फ़ीडबैक के आधार पर इसे लगातार बेहतर बनाया जाएगा
सीमाएँ
- Operator अभी शुरुआती चरण में है, इसलिए स्लाइडशो बनाना या कैलेंडर प्रबंधन जैसे जटिल इंटरफ़ेस कार्यों में इसे कठिनाई हो सकती है
- यूज़र फ़ीडबैक को accuracy, reliability और safety में सुधार के लिए महत्वपूर्ण संसाधन के रूप में इस्तेमाल किया जाएगा
आगे की योजना
- CUA के लिए API उपलब्ध कराई जाएगी ताकि डेवलपर्स अपने खुद के एजेंट बना सकें
- लंबे कार्यों और जटिल workflows को संभालने की क्षमता बढ़ाकर Operator को और उन्नत बनाया जाएगा
- Pro यूज़र्स से आगे बढ़ाकर इसे Plus, Team, Enterprise आदि तक चरणबद्ध तरीके से विस्तारित किया जाएगा, और लंबे समय में इसकी क्षमताओं को ChatGPT में इंटीग्रेट कर real-time और asynchronous कार्य निष्पादन का समर्थन किया जाएगा
1 टिप्पणियां
Hacker News की राय
कई लोगों का मानना है कि OpenAI जैसी कंपनियाँ व्यक्तिगत assistant देने के लिए पैसा खर्च नहीं कर रही हैं, बल्कि बाद में श्रम लागत घटाने के लिए AI को train कर रही हैं
OpenAI Operator के लॉन्च पर राय मिली-जुली है
Operator कुछ महीने पहले Claude के Computer Use demo जैसा है, और इसमें VM चलाने वाली architecture तथा inaccurate होने की प्रवृत्ति है
Operator के safety risks और mitigation पर बनी slide में "उपयोगकर्ता misaligned है" जैसा वाक्यांश है
meme बनाने जैसे कामों पर 50 billion dollar निवेश करने को लेकर आलोचनात्मक राय है
CogAgent: चीन का एक open source विकल्प
भविष्य में यदि product और model काफी बेहतर हो जाएँ, तो ChatGPT से बात करके dinner reservation, flight booking, grocery खरीद जैसी web पर होने वाली उबाऊ चीज़ें करवाई जा सकेंगी, ऐसी उम्मीद है
कुछ लोगों का मानना है कि Instacart या Doordash जैसी कंपनियाँ LLM के लिए marketing optimization के जरिए नए UI directions खोल सकती हैं
कुछ लोगों को यह अटपटा लगता है कि "agent" mouse और keyboard इस्तेमाल करके pixels देखता है
agent के लिए Open APIs के इस्तेमाल की सख्त जरूरत मानी गई है