- ChatGPT एजेंट अपने वर्चुअल कंप्यूटर का उपयोग करके यूज़र के जटिल कामों को शुरुआत से अंत तक पूरा करता है
- Operator की वेबसाइट इंटरैक्शन क्षमता और deep research की सूचना-विश्लेषण क्षमता को जोड़कर एक नया agentic सिस्टम बनाया गया है, जो क्लिक, इनपुट और code execution तक लचीले ढंग से कर सकता है
- यूज़र एजेंट को form submission, booking, file creation जैसे काम अपनी ओर से करने का निर्देश दे सकते हैं, और किसी भी समय बीच में हस्तक्षेप कर सकते हैं
- SpreadsheetBench, DSBench, BrowseComp जैसे कई वास्तविक benchmarks में इसने मौजूदा मॉडलों की तुलना में बेहतर प्रदर्शन साबित किया
- Pro, Plus, Team यूज़र्स के लिए यह आज से उपलब्ध है, और यूज़र डेटा नियंत्रण व security features भी सावधानी से डिज़ाइन किए गए हैं
ChatGPT एजेंट, research और action को जोड़ता है
एजेंट फीचर की शुरुआत
- ChatGPT की क्षमताओं का विस्तार किया गया है ताकि वह अपने वर्चुअल कंप्यूटर के जरिए यूज़र की ओर से जटिल काम कर सके
- ChatGPT एजेंट, Operator (remote browser आधारित इंटरैक्शन) और deep research (multi-step web reasoning tool) की विश्लेषण क्षमता को एक ही agent model में एकीकृत करता है
- Operator वेब पर manipulation (scrolling, clicking, form input) में मजबूत था, लेकिन गहरी analysis या report writing में उसकी सीमाएँ थीं
- वहीं deep research analysis और summary में विशेषज्ञ था, लेकिन real-time साइट इंटरैक्शन या authenticated content access संभव नहीं था
- इन दोनों tools की पूरक खूबियों को मिलाकर click, filter, data collection तक एक ही environment में उच्च दक्षता मिलती है
- chat interface के भीतर बातचीत और requests के बीच लचीले ढंग से स्विच किया जा सकता है
- उदाहरण:
- “तीन competitors का analysis करके एक slideshow बना दो”
- “हाल की news के आधार पर अगली meeting का सार तैयार कर दो”
काम करने का तरीका और इंटरैक्शन
- ChatGPT एजेंट में GUI आधारित visual browser, text-based browser, direct API connection जैसे कई web access tools शामिल हैं
- सिस्टम काम करते समय browser, API, text reasoning जैसे सबसे प्रभावी tools को स्थिति के अनुसार मिलाकर सबसे उपयुक्त path को dynamically चुनता है
- वेबसाइट पर click करना, filtering, login guidance, code execution, result summary, slideshow generation जैसे end-to-end tasks पूरे किए जा सकते हैं
- यूज़र काम के दौरान किसी भी समय हस्तक्षेप कर सकते हैं, और browser control सीधे अपने हाथ में ले सकते हैं
- किसी भी समय अतिरिक्त निर्देश देना, काम की दिशा बदलना, रोकना और मौजूदा परिणाम माँगना संभव है
- चल रहा काम कभी भी रोककर दोबारा शुरू किया जा सकता है, और context sharing से निरंतरता बनी रहती है
- अनिश्चितता होने पर ChatGPT सक्रिय रूप से अतिरिक्त जानकारी माँगता है
- यूज़र login authentication प्रक्रिया के जरिए enterprise या personal data तक भी सुरक्षित रूप से पहुँचा जा सकता है
बेहतरीन प्रदर्शन और उपयोग के मामले
- प्रतिष्ठित benchmarks में इसने मौजूदा मॉडलों की तुलना में शानदार स्कोर हासिल किए
- Humanity’s Last Exam: expert-level सवालों में 43.1 अंक
- DSBench: data science tasks में मौजूदा मॉडलों पर स्पष्ट बढ़त
- SpreadsheetBench:
.xlsx spreadsheets की direct editing में 45.5%, जो GPT‑4o(13.38%) और Excel Copilot(20%) से काफी अधिक है
- WebArena: वास्तविक web interaction tasks में भी पिछले Operator model से बेहतर
- BrowseComp: कठिन web information collection क्षमता में 68.9 अंक के साथ सर्वोच्च स्कोर
- investment banking analyst के कामों और जटिल data analysis में भी इसने पिछले tools की तुलना में अधिक सटीक और व्यापक परिणाम दिए
- वास्तविक कामकाज और दैनिक automation, दोनों में इसकी उपयोगिता अधिक है
- कामकाज:
- presentation का स्वचालित निर्माण
- meeting schedule का समन्वय
- financial data के आधार पर spreadsheet updates
- दैनिक जीवन:
- travel itinerary planning और booking
- event planning और expert consultation connect करना
activation, उपयोग के मामले और सीमाएँ
- ‘एजेंट मोड’ चुनने के बाद किसी भी काम को हिंदी/अंग्रेज़ी में लिखकर समझाने भर से automation शुरू हो जाता है
- प्रक्रिया के दौरान on-screen narration मिलती है, और ज़रूरत पड़ने पर manual control भी संभव है
- दोहराए जाने वाले कामों की automatic scheduling और monthly task limit जैसी लचीली credit system भी दी गई है
- मौजूदा Operator/deep research यूज़र्स को 30 दिनों से कम की अस्थायी अवधि के बाद एजेंट में एकीकृत कर दिया जाएगा
- slideshow generation जैसी कुछ नई सुविधाएँ अभी beta में हैं, और output quality व completeness में आगे सुधार होगा
सुरक्षा, privacy और malicious activity की रोकथाम
- वास्तविक दुनिया में असर डालने वाले कामों से पहले सिस्टम अनिवार्य रूप से यूज़र की स्पष्ट पुष्टि और action permission माँगता है
- active supervision की ज़रूरत वाले sensitive tasks में step-by-step approval चाहिए, और high-risk transactions व legal interactions को अस्वीकार किया जाता है
- prompt injection जैसे third-party attacks के लिए detection और defense system बनाया गया है; स्थिति स्पष्ट न होने पर risk बताया जाता है, options दिए जाते हैं, और यूज़र की अंतिम पुष्टि के बाद ही कार्रवाई होती है
- misuse रोकने के लिए मौजूदा ChatGPT safety policies को और सख्ती से लागू किया गया है, और OpenAI की terms व policies लागू रहेंगी
- privacy protection मजबूत करने के लिए remote browser data को उसके अपने servers पर store नहीं किया जाता
- यूज़र का browsing data और session control पूरी तरह यूज़र के पास रहता है, इसलिए तुरंत delete या logout किया जा सकता है
- direct control mode में ChatGPT यूज़र की निजी input जानकारी नहीं देख सकता
एजेंट rollout, policies और उपयोग संबंधी जानकारी
- Pro, Plus, Team subscribers इसे तुरंत उपयोग कर सकते हैं, जबकि enterprise/education यूज़र्स तक इसका विस्तार जुलाई में किया जाएगा
- Pro में लगभग unlimited access है, जबकि अन्य plans में प्रति माह 50 uses + additional credits system उपलब्ध है
- हर यूज़र अपने workflow और connectors को जोड़कर read-only information summary, schedule analysis जैसे कई उपयोग कर सकता है
- Operator research preview 30 दिनों बाद समाप्त होगा, जबकि deep research को आवश्यकता अनुसार अलग से सक्रिय किया जा सकेगा
- ChatGPT एजेंट लगातार बेहतर बनाया जा रहा है, और समय के साथ इसकी गहरी workflow intelligence व output quality में सुधार होगा
slideshow फीचर और आगे की दिशा
- slideshow generation अभी beta चरण में है; मौजूदा documents शामिल न होने पर completeness और formatting कमज़ोर हो सकती है
- text, charts, images जैसे elements को आसानी से editable vectors के रूप में बनाया जाता है, जिससे structure और flexibility बेहतर होती है
- upload feature अभी spreadsheets पर लागू है, लेकिन slideshow में यह बाद में आएगा
- आगे और अधिक features, formats और refined output support के साथ automation capability में सुधार की उम्मीद है
अन्य performance comparisons और मानदंड
| मॉडल |
सेल-आधारित |
शीट-आधारित |
कुल स्कोर |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPT एजेंट |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| मानव |
75.56% |
65.00% |
71.33% |
- performance benchmark table के अनुसार,
.xlsx environment processing और LibreOffice evaluation में ChatGPT एजेंट अभी human score तक नहीं पहुँचा है, लेकिन AI models में यह बेहद आगे है
- evaluation environment के अंतर के कारण कुछ आँकड़ों में अंतर हो सकता है, फिर भी पूरी spreadsheet evaluation (912 items) में इसकी समग्र क्षमता सिद्ध हुई है
1 टिप्पणियां
Hacker News राय
मुझे "spreadsheet" उदाहरण वाला वीडियो दिलचस्प लगा। आम तौर पर जटिल और डेटा-भरी रिपोर्ट बनाने में 4~8 घंटे लगते हैं, लेकिन अब कहा जा रहा है कि एजेंट को कहकर टहलने जाओ और लौटकर डेटा ले लो। कहा गया कि 98% सही था, और बस कुछ चीज़ें copy/paste करनी थीं। लगता है इससे समय का 90~95% बच सकता है। लेकिन उस 2% गलती को ढूँढने में ही असली समय लग सकता है। खासकर जटिल कामों या पैसों से जुड़े कामों में "लगभग सही" होना बड़ी परेशानी बन सकता है। अगर वह 2% सूक्ष्म गलती कई चरणों में कहीं छिपी हो, तो वह सच में समस्या है
सुरक्षा जोखिम सच में डरावने लगते हैं। उदाहरण के लिए, अगर आप email और calendar का access दे दें, तो वह आपके सारे राज जान सकता है। लेख में भी prompt injection के खतरे को माना गया है। किसी malicious webpage के hidden elements या metadata में prompt छिपाकर रखा जाए, और एजेंट उसे पकड़ न पाए, तो आपकी निजी जानकारी हमलावर तक लीक हो सकती है। मुझे लगता है कोई malicious website मेरे secrets निकाल सकती है। एक बात जो समझ नहीं आती: लेख में कहा गया है कि महत्वपूर्ण actions से पहले हमेशा user confirmation लिया जाएगा, लेकिन AI आखिर तय कैसे करेगा कि कौन-सा action 'महत्वपूर्ण' है? चिंता यह है कि कहीं गलती से बिना user confirmation के payment न हो जाए
Agentic misalignment पर शोध
उनका विश्लेषण था कि यह किसी भरोसेमंद सहकर्मी के अचानक company policy के खिलाफ काम करने वाले insider threat जैसी स्थिति में व्यवहार कर सकता है
शायद इसलिए कि मैं खुद agent business बना रहा हूँ, मुझे साफ दिखता है कि 90% से 99% तक जाने की छलांग LLM क्षेत्र में बहुत मुश्किल last-mile problem है। जितनी ज्यादा generality, उतनी ज्यादा failure या disappointment। मुझे लगता है असल में लोग demo में जो आसानी से दिखाया जा सकता है उसी को optimize करते हैं, और असुविधाजनक reality को छिपाते हैं। लेकिन इसका मतलब यह नहीं कि agents बेकार हैं; बस उन्हें उनकी संभावित impact और बढ़ा-चढ़ाकर बनाई गई उम्मीदों में फर्क करके देखना चाहिए
लेकिन मुझे लगता है "agent" बस एक marketing term है, और इसके पीछे LLM जितना broadly usable foundation नहीं है। संबंधित data भी लगभग नहीं है
पहले के CLI agents में session persistence की कमी बड़ी समस्या थी, लेकिन इस बार लगता है यह हिस्सा ठीक से सुलझाया गया है। पहले local terminal में claude code चलाते समय जरूरी context आसानी से दिया जा सकता था, लेकिन laptop बंद कर दें या connection टूट जाए तो सब रुक जाता था।
एक अस्थायी उपाय के तौर पर MacOS के Amphetamine से lid बंद होने पर भी process चलती रहती थी, लेकिन heating और battery waste की समस्या थी। दूसरा तरीका यह था कि cloud instance पर repo clone करके tmux से जुड़कर claude चलाया जाए। फिर भी UX के स्तर पर context वापस लाना हमेशा कठिन रहता था। sandboxing की वजह से कुछ सुरक्षा की उम्मीद की जा सकती है, और किसी खास account permission के साथ चलाने का तरीका भी है।
यह दिलचस्प है कि OpenAI शायद non-developers भी इस्तेमाल कर सकें, ऐसे Agent UX पर सोच रहा है
मैं लंबे समय से OpenAI operator इस्तेमाल कर रहा था, लेकिन आजकल LinkedIn और Amazon पर यह block हो रहा है। ये दोनों sites job applications और shopping जैसे core use cases थीं। Operator अपेक्षाकृत कम ध्यान खींचते हुए इस्तेमाल हो रहा था, लेकिन Agent मशहूर होते ही लगता है और भी sites इसे block करेंगी। आखिरकार शायद proxy setup को support करना पड़ेगा
agenttutor.com
AI 2027 team की prediction में: 2025 के मध्य में ‘लड़खड़ाते एजेंट’ आएँगे। पहला AI agent आम जनता के सामने आएगा।
कंप्यूटर को आपकी ओर से चलाने वाले personal-assistant style agents के ads भर जाएंगे। "DoorDash से burrito order कर दो", "budget spreadsheet में इस महीने का total बताओ" जैसे prompts पर ज़ोर होगा। prediction यह थी कि यह पिछले operator से आगे होगा, लेकिन mass adoption में फिर भी मुश्किल होगी
अब भी वह simple feature नहीं है जो मैं चाहता हूँ: project के अंदर document editing। मैं project के हिसाब से कई दस्तावेज़ों पर काम करता हूँ—articles, research, scripts वगैरह। मैं sentence-by-sentence ChatGPT की मदद से काम आगे बढ़ाना चाहता हूँ। यहाँ तक कि टहलते हुए voice-document workflow की कल्पना करता हूँ: "मैं जिस document पर अभी काम कर रहा था, उसमें कहाँ तक पहुँचे? आखिरी दो paragraphs पढ़ो... यहाँ से थोड़ा और लंबा लिखते हैं।" Coding support तो शानदार गति से आगे बढ़ रही है, लेकिन writing अभी भी copy-paste केंद्रित बनी हुई है, यह खलता है
LLM को VPS देने की कोशिशें बहुत हुई हैं, लेकिन OpenAI का यह implementation UI के मामले में सच में मजबूत लगता है। text overlay, आसानी से पढ़ा जा सकने वाला mouse, और custom UI की वजह से user एक नज़र में समझ सकता है कि क्या हो रहा है और क्यों हो रहा है। मुझे लगता है OpenAI UI team की planning वाकई बहुत अच्छी है। LLM usage में नई visual information जोड़ने का तरीका दिलचस्प है, और इसका कुछ हिस्सा मैं अपने personal projects में अपनाना चाहूँगा।
functionality के लिहाज़ से मुझे Claude+XFCE से बहुत बड़ा फर्क नहीं लगता, लेकिन visual polish में OpenAI ज़्यादा convenient लगता है। इसके उलट, पुरानी implementations readability के मामले में काफी मुश्किल थीं
मुझे कल्पना करना कठिन लगता है कि इस स्तर का agent मेरी real life में सच में उपयोगी बन पाएगा। अगर पत्नी के साथ date night plan करनी हो, तो calendar देखना, पसंदीदा restaurants सुझाना, babysitter book करना—ऐसी बहुत-सी चीज़ें ठीक से करनी पड़ती हैं, और उसके लिए बहुत trust चाहिए। इस technology का धीरे-धीरे आगे बढ़ना रोमांचक है, लेकिन अभी मुझे यह ज़्यादातर demo में ही प्रभावशाली लगती है। असली उपयोग के लिए बहुत बड़े system integrations चाहिए होंगे, और अगर Apple या Microsoft जैसे players, जिनके पास यह integration power है, इसमें आएँ, तो शायद सच में useful agent बन सके
मेरी नज़र में बेटी की birthday party plan करना गणित की किसी कठिन समस्या को हल करने से पहले automate नहीं होगा
मेरे हिसाब से agents का "one-shot execution" model ही UX के लिहाज़ से गलत है। अलग-अलग apps में भटकाने के बजाय, chat की तरह सरल और asynchronous आदान-प्रदान में सिर्फ ज़रूरी हिस्से संभालना ही वह चीज़ है जो असल में जीवन में घुल सकती है
जो बात सच में प्रभावशाली लगी, वह यह थी कि असली account credentials और sensitive information तक access देने के जोखिम पर बहुत जोर दिया गया