OpenAI ने एजेंट सेवा "Operator" पेश की

(openai.com)

6 पॉइंट द्वारा GN⁺ 2025-01-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI द्वारा पेश किया गया नया Operator एक AI एजेंट है जो स्वतंत्र रूप से वेब ब्राउज़ कर सकता है और काम कर सकता है
- यह अपने खुद के ब्राउज़र का उपयोग करके वेब पेज देखता है और टाइप, क्लिक, स्क्रॉल के जरिए इंटरैक्ट करता है
यह अभी research preview चरण में है, इसलिए कुछ सीमाएँ हैं और इसे यूज़र फ़ीडबैक के आधार पर आगे बेहतर बनाया जाएगा
यह ऐसा AI है जो स्वतंत्र रूप से काम कर सकता है; यूज़र काम बताता है और यह उसे पूरा करता है, और इस तरह के शुरुआती एजेंटों में से एक है
यह दोहराए जाने वाले ब्राउज़र कार्यों, जैसे फ़ॉर्म भरना, किराना ऑर्डर करना, मीम बनाना आदि, को संभालकर समय बचाने में मदद करता है
फिलहाल इसे अमेरिका में रहने वाले Pro यूज़र्स के लिए पहले जारी किया जा रहा है, और आगे चलकर Plus, Team, Enterprise वर्ज़न तथा ChatGPT में इंटीग्रेशन की संभावना है

Operator कैसे काम करता है

यह नए मॉडल Computer-Using Agent(CUA) पर आधारित है
यह GPT-4o की vision क्षमता और reinforcement learning आधारित उन्नत reasoning को मिलाकर GUI(बटन, मेनू, टेक्स्ट फ़ील्ड आदि) के साथ इंटरैक्शन संभव बनाता है
यह screenshot के जरिए ब्राउज़र स्क्रीन को "देख" सकता है और माउस व कीबोर्ड से उसे संचालित कर काम पूरा कर सकता है
काम के दौरान अगर इसे गलती या रुकावट मिलती है, तो यह self-correction reasoning का उपयोग करता है या ज़रूरत पड़ने पर नियंत्रण यूज़र को सौंपकर सहयोगी तरीका अपनाता है
WebArena, WebVoyager जैसे ब्राउज़र-आधारित benchmarks में इसने उच्च प्रदर्शन दिखाया है, और अधिक जानकारी research blog में देखी जा सकती है

उपयोग कैसे करें

आप बस मनचाहा काम संक्षेप में बताएँ, Operator उसे अपने आप आगे बढ़ाएगा
बीच में किसी भी समय यूज़र सीधे ब्राउज़र का नियंत्रण वापस ले सकता है
लॉगिन, भुगतान जानकारी दर्ज करना, CAPTCHA हल करना जैसे संवेदनशील चरणों में Operator खुद कार्रवाई नहीं करता; इन्हें यूज़र को स्वयं करना होता है
साइट-विशेष या सभी साइटों के लिए सेटिंग्स के माध्यम से यूज़र की पसंद और प्राथमिकताएँ लागू की जा सकती हैं
अक्सर उपयोग होने वाले prompts को सेव करके बार-बार किए जाने वाले काम, जैसे Instacart पर किराना दोबारा ऑर्डर करना, जल्दी चलाए जा सकते हैं
यह कई tabs की तरह एक साथ कई काम संभाल सकता है, और अलग-अलग conversation sessions बनाकर विभिन्न कार्य समानांतर में किए जा सकते हैं

इकोसिस्टम और उपयोगकर्ता

Operator AI को सिर्फ एक टूल नहीं, बल्कि डिजिटल इकोसिस्टम का सक्रिय सहभागी बनाने की दिशा में ले जाता है
DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber आदि के साथ मिलकर यह वास्तविक यूज़र ज़रूरतों और इंडस्ट्री मानकों को ध्यान में रख रहा है
सार्वजनिक क्षेत्र में भी कार्यकुशलता और accessibility बढ़ाने के लिए इसके उपयोग की संभावना देखी जा रही है; उदाहरण के तौर पर City of Stockton के साथ शहरी प्रशासनिक सेवाओं में उपयोग के तरीके तलाशे जा रहे हैं
Instacart के Chief Product Officer Daniel Danker ने Operator के जरिए आसान ऑर्डरिंग प्रक्रिया को लेकर सकारात्मक राय दी है

सुरक्षा और गोपनीयता

Operator सुरक्षा को सर्वोच्च प्राथमिकता देते हुए तीन-स्तरीय सुरक्षा व्यवस्था अपनाता है
- यूज़र-नियंत्रित कंट्रोल: संवेदनशील जानकारी, जैसे लॉगिन या भुगतान, दर्ज करते समय Operator takeover का अनुरोध करता है ताकि यूज़र खुद जानकारी दर्ज करे
- महत्वपूर्ण कार्रवाई से पहले पुष्टि: ऑर्डर सबमिट करना या ईमेल भेजना जैसे अहम कार्यों से पहले यूज़र की मंज़ूरी ली जाती है
- कार्य सीमाएँ: बैंकिंग या नौकरी-संबंधी निर्णय जैसे अत्यधिक संवेदनशील कार्यों को Operator द्वारा अस्वीकार करने के लिए प्रशिक्षित किया गया है
- संवेदनशील साइटों पर पहुँचते समय Watch mode के जरिए यूज़र Operator की गतिविधियों की सीधे निगरानी कर सकता है
डेटा privacy प्रबंधन की सुविधाएँ भी दी गई हैं
- अगर ‘Improve the model for everyone’ को बंद कर दिया जाए, तो Operator का डेटा भी मॉडल ट्रेनिंग में इस्तेमाल नहीं होगा
- सेटिंग्स के Privacy सेक्शन में browsing data हटाना, सभी साइटों से logout करना, conversation history मिटाना आदि आसानी से किया जा सकता है
Operator को दुर्भावनापूर्ण वेबसाइटों से बचाने के लिए सुरक्षा तंत्र भी लागू किया गया है
- इसे hidden prompts, malicious code और phishing प्रयासों का पता लगाकर उन्हें नज़रअंदाज़ करने के लिए डिज़ाइन किया गया है
- एक समर्पित monitoring model संदिग्ध गतिविधियों पर real time में नज़र रखता है और ज़रूरत पड़ने पर काम रोक सकता है
- automation और human review के जरिए नए खतरों का पता चलते ही सुरक्षा उपायों को तेज़ी से अपडेट किया जाता है
तकनीक का हानिकारक उद्देश्यों के लिए दुरुपयोग न हो, इसके लिए Operator कुछ अनुरोधों को अस्वीकार करता है, और नीति उल्लंघन बार-बार होने पर चेतावनी या access block किया जा सकता है
चूँकि यह अभी research preview चरण में है, इसलिए यह अभी पूर्ण नहीं है और वास्तविक उपयोग से मिलने वाले फ़ीडबैक के आधार पर इसे लगातार बेहतर बनाया जाएगा

सीमाएँ

Operator अभी शुरुआती चरण में है, इसलिए स्लाइडशो बनाना या कैलेंडर प्रबंधन जैसे जटिल इंटरफ़ेस कार्यों में इसे कठिनाई हो सकती है
यूज़र फ़ीडबैक को accuracy, reliability और safety में सुधार के लिए महत्वपूर्ण संसाधन के रूप में इस्तेमाल किया जाएगा

आगे की योजना

CUA के लिए API उपलब्ध कराई जाएगी ताकि डेवलपर्स अपने खुद के एजेंट बना सकें
लंबे कार्यों और जटिल workflows को संभालने की क्षमता बढ़ाकर Operator को और उन्नत बनाया जाएगा
Pro यूज़र्स से आगे बढ़ाकर इसे Plus, Team, Enterprise आदि तक चरणबद्ध तरीके से विस्तारित किया जाएगा, और लंबे समय में इसकी क्षमताओं को ChatGPT में इंटीग्रेट कर real-time और asynchronous कार्य निष्पादन का समर्थन किया जाएगा

1 टिप्पणियां

GN⁺ 2025-01-24

Hacker News की राय

कई लोगों का मानना है कि OpenAI जैसी कंपनियाँ व्यक्तिगत assistant देने के लिए पैसा खर्च नहीं कर रही हैं, बल्कि बाद में श्रम लागत घटाने के लिए AI को train कर रही हैं
- जब तक AI व्यक्तिगत assistant के रूप में उपयोगी होगा, तब तक यह फीचर ऐसे दाम पर लॉन्च होगा जिसे औसत व्यक्ति वहन नहीं कर सकेगा
OpenAI Operator के लॉन्च पर राय मिली-जुली है
- मौजूदा फीचर्स, लागत और संभावित over-scaling को लेकर संदेह है, लेकिन task automation और समय के साथ सुधार की संभावना को लेकर सकारात्मक दृष्टिकोण भी है
- ethical issues, privacy और industry पर प्रभाव को लेकर भी चर्चा हुई
- कुल मिलाकर, चुनौतियों और संभावित सुधारों को स्वीकार करते हुए सतर्क आशावाद मौजूद है
Operator कुछ महीने पहले Claude के Computer Use demo जैसा है, और इसमें VM चलाने वाली architecture तथा inaccurate होने की प्रवृत्ति है
- Claude के Computer Use implementation ने घोषणा के बाद AI agent industry में बड़ा प्रभाव नहीं डाला
Operator के safety risks और mitigation पर बनी slide में "उपयोगकर्ता misaligned है" जैसा वाक्यांश है
- कुछ लोगों की राय है कि वे और उदाहरण देखना चाहेंगे जहाँ OpenAI उपयोगकर्ता को "misaligned" मानता है
meme बनाने जैसे कामों पर 50 billion dollar निवेश करने को लेकर आलोचनात्मक राय है
- इस बात पर अफसोस जताया गया कि पृथ्वी को अगली पीढ़ी के लिए रहने योग्य बेहतर जगह बनाने में निवेश नहीं किया जा रहा
CogAgent: चीन का एक open source विकल्प
- paper, code और model के लिंक उपलब्ध कराए गए हैं
भविष्य में यदि product और model काफी बेहतर हो जाएँ, तो ChatGPT से बात करके dinner reservation, flight booking, grocery खरीद जैसी web पर होने वाली उबाऊ चीज़ें करवाई जा सकेंगी, ऐसी उम्मीद है
- इस तरह की क्षमता को लेकर काफी उत्साह है
कुछ लोगों का मानना है कि Instacart या Doordash जैसी कंपनियाँ LLM के लिए marketing optimization के जरिए नए UI directions खोल सकती हैं
- उदाहरण के लिए, अगर पौष्टिक अंडे ढूँढने का निर्देश दिया जाए, तो agent nutrition label देखकर निर्णय ले सकता है
कुछ लोगों को यह अटपटा लगता है कि "agent" mouse और keyboard इस्तेमाल करके pixels देखता है
- वे एक ऐसे standard की कल्पना करते हैं जिसमें apps और services पहले से स्वीकृत actions का set expose करें, जिन्हें वे user की ओर से कर सकें
- user permissions जोड़ने/वापस लेने की सुविधा देने वाले एक "app store" concept का सुझाव दिया गया है
agent के लिए Open APIs के इस्तेमाल की सख्त जरूरत मानी गई है
- दावा किया गया है कि OpenAPI agent के लिए open world और internet को संभव बनाने वाला एकदम उपयुक्त specification standard है
- जब OpenAI ने शुरुआत में GPT लॉन्च किया था, तब वह Open APIs पर आधारित था, लेकिन अब वह उससे धीरे-धीरे दूर जा रहा है
- यह market को control करने की मंशा जैसा लगता है, और open standards पर आधारित न रहने जैसा है
- इसे बेहद अफसोसजनक बताया गया है

OpenAI ने एजेंट सेवा "Operator" पेश की

Operator कैसे काम करता है

उपयोग कैसे करें

इकोसिस्टम और उपयोगकर्ता

सुरक्षा और गोपनीयता

सीमाएँ

आगे की योजना

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय