3 पॉइंट द्वारा GN⁺ 2025-07-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ChatGPT एजेंट अपने वर्चुअल कंप्यूटर का उपयोग करके यूज़र के जटिल कामों को शुरुआत से अंत तक पूरा करता है
  • Operator की वेबसाइट इंटरैक्शन क्षमता और deep research की सूचना-विश्लेषण क्षमता को जोड़कर एक नया agentic सिस्टम बनाया गया है, जो क्लिक, इनपुट और code execution तक लचीले ढंग से कर सकता है
  • यूज़र एजेंट को form submission, booking, file creation जैसे काम अपनी ओर से करने का निर्देश दे सकते हैं, और किसी भी समय बीच में हस्तक्षेप कर सकते हैं
  • SpreadsheetBench, DSBench, BrowseComp जैसे कई वास्तविक benchmarks में इसने मौजूदा मॉडलों की तुलना में बेहतर प्रदर्शन साबित किया
  • Pro, Plus, Team यूज़र्स के लिए यह आज से उपलब्ध है, और यूज़र डेटा नियंत्रण व security features भी सावधानी से डिज़ाइन किए गए हैं

ChatGPT एजेंट, research और action को जोड़ता है

एजेंट फीचर की शुरुआत

  • ChatGPT की क्षमताओं का विस्तार किया गया है ताकि वह अपने वर्चुअल कंप्यूटर के जरिए यूज़र की ओर से जटिल काम कर सके
  • ChatGPT एजेंट, Operator (remote browser आधारित इंटरैक्शन) और deep research (multi-step web reasoning tool) की विश्लेषण क्षमता को एक ही agent model में एकीकृत करता है
    • Operator वेब पर manipulation (scrolling, clicking, form input) में मजबूत था, लेकिन गहरी analysis या report writing में उसकी सीमाएँ थीं
    • वहीं deep research analysis और summary में विशेषज्ञ था, लेकिन real-time साइट इंटरैक्शन या authenticated content access संभव नहीं था
  • इन दोनों tools की पूरक खूबियों को मिलाकर click, filter, data collection तक एक ही environment में उच्च दक्षता मिलती है
  • chat interface के भीतर बातचीत और requests के बीच लचीले ढंग से स्विच किया जा सकता है
  • उदाहरण:
    • “तीन competitors का analysis करके एक slideshow बना दो”
    • “हाल की news के आधार पर अगली meeting का सार तैयार कर दो”

काम करने का तरीका और इंटरैक्शन

  • ChatGPT एजेंट में GUI आधारित visual browser, text-based browser, direct API connection जैसे कई web access tools शामिल हैं
  • सिस्टम काम करते समय browser, API, text reasoning जैसे सबसे प्रभावी tools को स्थिति के अनुसार मिलाकर सबसे उपयुक्त path को dynamically चुनता है
  • वेबसाइट पर click करना, filtering, login guidance, code execution, result summary, slideshow generation जैसे end-to-end tasks पूरे किए जा सकते हैं
  • यूज़र काम के दौरान किसी भी समय हस्तक्षेप कर सकते हैं, और browser control सीधे अपने हाथ में ले सकते हैं
    • किसी भी समय अतिरिक्त निर्देश देना, काम की दिशा बदलना, रोकना और मौजूदा परिणाम माँगना संभव है
    • चल रहा काम कभी भी रोककर दोबारा शुरू किया जा सकता है, और context sharing से निरंतरता बनी रहती है
    • अनिश्चितता होने पर ChatGPT सक्रिय रूप से अतिरिक्त जानकारी माँगता है
  • यूज़र login authentication प्रक्रिया के जरिए enterprise या personal data तक भी सुरक्षित रूप से पहुँचा जा सकता है

बेहतरीन प्रदर्शन और उपयोग के मामले

  • प्रतिष्ठित benchmarks में इसने मौजूदा मॉडलों की तुलना में शानदार स्कोर हासिल किए
    • Humanity’s Last Exam: expert-level सवालों में 43.1 अंक
    • DSBench: data science tasks में मौजूदा मॉडलों पर स्पष्ट बढ़त
    • SpreadsheetBench:
      • .xlsx spreadsheets की direct editing में 45.5%, जो GPT‑4o(13.38%) और Excel Copilot(20%) से काफी अधिक है
    • WebArena: वास्तविक web interaction tasks में भी पिछले Operator model से बेहतर
    • BrowseComp: कठिन web information collection क्षमता में 68.9 अंक के साथ सर्वोच्च स्कोर
  • investment banking analyst के कामों और जटिल data analysis में भी इसने पिछले tools की तुलना में अधिक सटीक और व्यापक परिणाम दिए
  • वास्तविक कामकाज और दैनिक automation, दोनों में इसकी उपयोगिता अधिक है
    • कामकाज:
      • presentation का स्वचालित निर्माण
      • meeting schedule का समन्वय
      • financial data के आधार पर spreadsheet updates
    • दैनिक जीवन:
      • travel itinerary planning और booking
      • event planning और expert consultation connect करना

activation, उपयोग के मामले और सीमाएँ

  • ‘एजेंट मोड’ चुनने के बाद किसी भी काम को हिंदी/अंग्रेज़ी में लिखकर समझाने भर से automation शुरू हो जाता है
  • प्रक्रिया के दौरान on-screen narration मिलती है, और ज़रूरत पड़ने पर manual control भी संभव है
  • दोहराए जाने वाले कामों की automatic scheduling और monthly task limit जैसी लचीली credit system भी दी गई है
  • मौजूदा Operator/deep research यूज़र्स को 30 दिनों से कम की अस्थायी अवधि के बाद एजेंट में एकीकृत कर दिया जाएगा
  • slideshow generation जैसी कुछ नई सुविधाएँ अभी beta में हैं, और output quality व completeness में आगे सुधार होगा

सुरक्षा, privacy और malicious activity की रोकथाम

  • वास्तविक दुनिया में असर डालने वाले कामों से पहले सिस्टम अनिवार्य रूप से यूज़र की स्पष्ट पुष्टि और action permission माँगता है
  • active supervision की ज़रूरत वाले sensitive tasks में step-by-step approval चाहिए, और high-risk transactions व legal interactions को अस्वीकार किया जाता है
  • prompt injection जैसे third-party attacks के लिए detection और defense system बनाया गया है; स्थिति स्पष्ट न होने पर risk बताया जाता है, options दिए जाते हैं, और यूज़र की अंतिम पुष्टि के बाद ही कार्रवाई होती है
  • misuse रोकने के लिए मौजूदा ChatGPT safety policies को और सख्ती से लागू किया गया है, और OpenAI की terms व policies लागू रहेंगी
  • privacy protection मजबूत करने के लिए remote browser data को उसके अपने servers पर store नहीं किया जाता
  • यूज़र का browsing data और session control पूरी तरह यूज़र के पास रहता है, इसलिए तुरंत delete या logout किया जा सकता है
  • direct control mode में ChatGPT यूज़र की निजी input जानकारी नहीं देख सकता

एजेंट rollout, policies और उपयोग संबंधी जानकारी

  • Pro, Plus, Team subscribers इसे तुरंत उपयोग कर सकते हैं, जबकि enterprise/education यूज़र्स तक इसका विस्तार जुलाई में किया जाएगा
  • Pro में लगभग unlimited access है, जबकि अन्य plans में प्रति माह 50 uses + additional credits system उपलब्ध है
  • हर यूज़र अपने workflow और connectors को जोड़कर read-only information summary, schedule analysis जैसे कई उपयोग कर सकता है
  • Operator research preview 30 दिनों बाद समाप्त होगा, जबकि deep research को आवश्यकता अनुसार अलग से सक्रिय किया जा सकेगा
  • ChatGPT एजेंट लगातार बेहतर बनाया जा रहा है, और समय के साथ इसकी गहरी workflow intelligence व output quality में सुधार होगा

slideshow फीचर और आगे की दिशा

  • slideshow generation अभी beta चरण में है; मौजूदा documents शामिल न होने पर completeness और formatting कमज़ोर हो सकती है
  • text, charts, images जैसे elements को आसानी से editable vectors के रूप में बनाया जाता है, जिससे structure और flexibility बेहतर होती है
  • upload feature अभी spreadsheets पर लागू है, लेकिन slideshow में यह बाद में आएगा
  • आगे और अधिक features, formats और refined output support के साथ automation capability में सुधार की उम्मीद है

अन्य performance comparisons और मानदंड

मॉडल सेल-आधारित शीट-आधारित कुल स्कोर
GPT‑4o 15.86% 18.33% 16.81%
OpenAI o3 22.40% 24.60% 23.25%
ChatGPT एजेंट 38.27% 30.48% 35.27%
ChatGPT (.xlsx) 50.56% 37.51% 45.54%
मानव 75.56% 65.00% 71.33%
  • performance benchmark table के अनुसार, .xlsx environment processing और LibreOffice evaluation में ChatGPT एजेंट अभी human score तक नहीं पहुँचा है, लेकिन AI models में यह बेहद आगे है
  • evaluation environment के अंतर के कारण कुछ आँकड़ों में अंतर हो सकता है, फिर भी पूरी spreadsheet evaluation (912 items) में इसकी समग्र क्षमता सिद्ध हुई है

1 टिप्पणियां

 
GN⁺ 2025-07-18
Hacker News राय
  • मुझे "spreadsheet" उदाहरण वाला वीडियो दिलचस्प लगा। आम तौर पर जटिल और डेटा-भरी रिपोर्ट बनाने में 4~8 घंटे लगते हैं, लेकिन अब कहा जा रहा है कि एजेंट को कहकर टहलने जाओ और लौटकर डेटा ले लो। कहा गया कि 98% सही था, और बस कुछ चीज़ें copy/paste करनी थीं। लगता है इससे समय का 90~95% बच सकता है। लेकिन उस 2% गलती को ढूँढने में ही असली समय लग सकता है। खासकर जटिल कामों या पैसों से जुड़े कामों में "लगभग सही" होना बड़ी परेशानी बन सकता है। अगर वह 2% सूक्ष्म गलती कई चरणों में कहीं छिपी हो, तो वह सच में समस्या है

    • मुझे लगता है यही वह स्थिति है जहाँ लोग AI को लेकर अतिउत्साह के जाल में फँसते हैं। डेटा collection और verification को automate करना अच्छा उपयोग है। लेकिन लोग इसे AI द्वारा पूरा काम अपने-आप करने तक बढ़ा-चढ़ाकर सोच रहे हैं। "98% सही" सुनते ही spreadsheet का अनुभव रखने वालों को सतर्क हो जाना चाहिए। क्योंकि जब तक आप खुद जाकर यह न देख लें कि कौन-सा 2% गलत है, तब तक पता लगाना मुश्किल है। कोड में भी यही बात लागू होती है: जो लोग AI की मदद सही तरह लेते हैं और खुद review करते हैं, उनका नतीजा बेहतर आता है। इसके उलट, सिर्फ prompt दोहराकर tests पास करवाना और तुरंत PR भेज देना गंभीर समस्याएँ पैदा कर सकता है
    • AI की दुनिया में उस 2% को तुच्छ समझने का विचार ही सामूहिक सम्मोहन जैसा लगता है। जैसे यह कहावत: 'बटन दबाना: 1 डॉलर, कौन-सा बटन दबाना है यह जानना: 9,999 डॉलर'। उसी तरह यह 2% सुधार वास्तव में बहुत बड़ी कीमत रख सकता है। उसे ढूँढने में भी बाकी 98% जितना समय लग सकता है
    • मुझे लगता है यहाँ Pareto principle काम करता है। पास के क्षेत्र self-driving cars में भी आखिरी 20% पूरा करना कई सालों से अटका हुआ है। एक समय autonomous driving हर बहस के केंद्र में थी, और अब लगभग कोई उसकी बात नहीं करता—यह अजीब लगता है
    • जब भी LLM को ऐसे काम में लगाते हैं जहाँ precision चाहिए, यही समस्या सामने आती है। कई चरणों वाली data pipeline की तरह, ऊपर से सब परफेक्ट दिखता है, लेकिन असली डेटा verify करते ही कुछ न कुछ गड़बड़ निकलती है। फिर लंबा-चौड़ा कोड खंगालते हुए कुछ छोटे लेकिन महत्वपूर्ण bugs ढूँढने में आखिर उतना ही समय और मेहनत लग जाती है जितनी शुरू से खुद लिखने में लगती
  • सुरक्षा जोखिम सच में डरावने लगते हैं। उदाहरण के लिए, अगर आप email और calendar का access दे दें, तो वह आपके सारे राज जान सकता है। लेख में भी prompt injection के खतरे को माना गया है। किसी malicious webpage के hidden elements या metadata में prompt छिपाकर रखा जाए, और एजेंट उसे पकड़ न पाए, तो आपकी निजी जानकारी हमलावर तक लीक हो सकती है। मुझे लगता है कोई malicious website मेरे secrets निकाल सकती है। एक बात जो समझ नहीं आती: लेख में कहा गया है कि महत्वपूर्ण actions से पहले हमेशा user confirmation लिया जाएगा, लेकिन AI आखिर तय कैसे करेगा कि कौन-सा action 'महत्वपूर्ण' है? चिंता यह है कि कहीं गलती से बिना user confirmation के payment न हो जाए

    • मुझे लगता है calendar invite prompt injection attack लगभग तय है। calendar invite में पहले से ही इतनी auto-generated पंक्तियाँ होती हैं जिन्हें कोई ध्यान से नहीं पढ़ता, इसलिए attack code चुपके से घुसाना बहुत आसान होगा। फिर victim का calendar और बाकी personal data भी पूरा का पूरा निकल सकता है
    • IT में पहले से बहुत लोग computing को private और public में बाँटते हैं, लेकिन अब लगता है इनके बीच की एक मध्य-श्रेणी भी चाहिए। जैसे non-sensitive anonymized calendar, बेफिक्र diary, research notes जैसी medium-risk data category पर भी विचार होना चाहिए। मैं ChatGPT से medical या sensitive counseling जैसी बातें नहीं करता। सुनता हूँ बहुत लोग करते हैं, लेकिन मुझे अभी भी असहजता लगती है
    • लगभग कोई भी किसी और के calendar पर invite भेज सकता है (हालाँकि हर कोई उसे accept नहीं करेगा)। अगर ऐसे agents व्यापक हो गए, तो hackers साफ-साफ अपने मनचाहे prompts वाले phishing invites फैलाने लगेंगे
    • अपने data का access देते हुए साथ ही "डर" महसूस करना मेरे लिए समझना कठिन है। चिंता हो सकती है, लेकिन डर तक की बात नहीं
    • Anthropic ने मापा था कि GPT-4.1 की simulated blackmail rate 0.8% थी
      Agentic misalignment पर शोध
      उनका विश्लेषण था कि यह किसी भरोसेमंद सहकर्मी के अचानक company policy के खिलाफ काम करने वाले insider threat जैसी स्थिति में व्यवहार कर सकता है
  • शायद इसलिए कि मैं खुद agent business बना रहा हूँ, मुझे साफ दिखता है कि 90% से 99% तक जाने की छलांग LLM क्षेत्र में बहुत मुश्किल last-mile problem है। जितनी ज्यादा generality, उतनी ज्यादा failure या disappointment। मुझे लगता है असल में लोग demo में जो आसानी से दिखाया जा सकता है उसी को optimize करते हैं, और असुविधाजनक reality को छिपाते हैं। लेकिन इसका मतलब यह नहीं कि agents बेकार हैं; बस उन्हें उनकी संभावित impact और बढ़ा-चढ़ाकर बनाई गई उम्मीदों में फर्क करके देखना चाहिए

    • हाल की AI "innovations" मजबूत वैज्ञानिक उपलब्धियों और research से आई हैं
      • AlphaGo/AlphaZero(MCTS)
      • OpenAI Five(PPO)
      • GPT 1/2/3(Transformers)
      • Dall-e, Stable Diffusion(CLIP, Diffusion)
      • ChatGPT(RLHF)
      • SORA(Diffusion Transformers)
        लेकिन मुझे लगता है "agent" बस एक marketing term है, और इसके पीछे LLM जितना broadly usable foundation नहीं है। संबंधित data भी लगभग नहीं है
    • मुझे लगता है इसमें outsourcing जैसी ही समस्या आती है। 90% काम जल्दी हो जाता है, लेकिन बाकी 10% बहुत कठिन होता है, और वह इस पर निर्भर करता है कि पहले वाला 90% कैसे किया गया
    • मुझे लगता है बहुत-सी कंपनियाँ demo में सिर्फ happy path दिखाती हैं और असली reality छिपाती हैं। आजकल लगभग हर AI company ऐसा ही कर रही है
    • आजकल मेरा मानना है कि अगर RL के जरिए पर्याप्त real usage data जमा करके train किया जाए, तो accuracy बढ़ाई जा सकती है। सिर्फ prompt से काम लेने की सीमा है, इसलिए specific tasks सिखाने का तरीका कहीं बेहतर है। एक और संभावित तरीका parallel generation के बाद majority voting या LLM-as-judge approach है। लेकिन आखिरकार Silicon Valley में hype बहुत अहम भूमिका निभाता है। hype ही company growth को चलाता है, इसलिए लगता नहीं कि यह माहौल बदलने वाला है
    • demo की quality भी इतनी ऊँची नहीं थी। सच में, Sam Altman वाले chat live video में baseball stadium tour planner ने बेहिसाब लाइनें खींच दीं, East Coast को लगभग नज़रअंदाज़ कर Gulf of Mexico में कूद गया—पूरा बिखरा हुआ था। वह pre-recorded चीज़ को live की तरह चलाने पर भी यह हाल था
  • पहले के CLI agents में session persistence की कमी बड़ी समस्या थी, लेकिन इस बार लगता है यह हिस्सा ठीक से सुलझाया गया है। पहले local terminal में claude code चलाते समय जरूरी context आसानी से दिया जा सकता था, लेकिन laptop बंद कर दें या connection टूट जाए तो सब रुक जाता था।
    एक अस्थायी उपाय के तौर पर MacOS के Amphetamine से lid बंद होने पर भी process चलती रहती थी, लेकिन heating और battery waste की समस्या थी। दूसरा तरीका यह था कि cloud instance पर repo clone करके tmux से जुड़कर claude चलाया जाए। फिर भी UX के स्तर पर context वापस लाना हमेशा कठिन रहता था। sandboxing की वजह से कुछ सुरक्षा की उम्मीद की जा सकती है, और किसी खास account permission के साथ चलाने का तरीका भी है।
    यह दिलचस्प है कि OpenAI शायद non-developers भी इस्तेमाल कर सकें, ऐसे Agent UX पर सोच रहा है

    • Lightning.ai पर free CPU-only dev box मिलता है, मैं वहीं Claude code चलाता हूँ
    • मैं ऐसे tasks चला रहा हूँ जो बिना बीच में हस्तक्षेप के कई मिनट से ज्यादा चलते हैं
    • बेहतर है कि dev काम किसी ऐसे server पर किया जाए जो disconnect न हो
  • मैं लंबे समय से OpenAI operator इस्तेमाल कर रहा था, लेकिन आजकल LinkedIn और Amazon पर यह block हो रहा है। ये दोनों sites job applications और shopping जैसे core use cases थीं। Operator अपेक्षाकृत कम ध्यान खींचते हुए इस्तेमाल हो रहा था, लेकिन Agent मशहूर होते ही लगता है और भी sites इसे block करेंगी। आखिरकार शायद proxy setup को support करना पड़ेगा

    • मेरे हिसाब से यही असली core problem है। मुझे लगा था local पर सीधे चलाने या कम-से-कम proxy configure करने का कोई तरीका आएगा, लेकिन ऐसा कोई ज़िक्र नहीं था। Deepseek R1 distill के अनुभव में भी बीच के results या know-how शेयर करने में सावधानी रखी गई थी, शायद उसका असर पड़ा। शुरुआती operator के समय भी data center IP access को block करने वाली sites बहुत थीं, और manual proxy hacks जोड़कर मुश्किल से test हो पाता था, लेकिन बाद में restrictions और कड़ी हो गईं और performance भी नहीं सुधरी। अब तो यह लगभग बेकार लगता है। आखिरकार eastdakota जैसी जगहों के साथ partnership न हो, तो server-side web browsing की कोशिश का बहुत मतलब नहीं होगा। सामान्य "computer use" में ज़्यादातर local files/software कहीं ज़्यादा सुविधाजनक हैं, और विडंबना यह है कि remote agent भी आखिर CLI-based काम ही कर रहा होता है
    • यह Silicon Valley स्टाइल है: पहले चीज़ को market में फेंको और बाद के effects से सीखो। मुझे उम्मीद है कि जल्द ही OpenAI, LinkedIn और Amazon के साथ partnerships करेगा। बल्कि LinkedIn शायद OpenAI access के लिए कोई नया paid tier भी जोड़ दे
    • अगर लोग सच में Agent या operator से physical products order करने लगें, तो Amazon जैसी sites के पास block बनाए रखने की वजह कम हो जाएगी
    • मैंने ऐसा मिलता-जुलता tool बनाया है, जिसमें residential proxy पर desktop चलाकर ज़्यादातर blocks bypass किए जा सकते हैं।
      agenttutor.com
    • agents का robots.txt मानने का दौर शायद जल्द खत्म होगा। लोग सीधे browser extension या पूरा browser install करके अपने cookies और IP के साथ इसे चलाने की दिशा में जाएंगे
  • AI 2027 team की prediction में: 2025 के मध्य में ‘लड़खड़ाते एजेंट’ आएँगे। पहला AI agent आम जनता के सामने आएगा।
    कंप्यूटर को आपकी ओर से चलाने वाले personal-assistant style agents के ads भर जाएंगे। "DoorDash से burrito order कर दो", "budget spreadsheet में इस महीने का total बताओ" जैसे prompts पर ज़ोर होगा। prediction यह थी कि यह पिछले operator से आगे होगा, लेकिन mass adoption में फिर भी मुश्किल होगी

    • सिर्फ 4 महीने आगे की भविष्यवाणी करना कोई बहुत बड़ी बात नहीं है
    • AI 2027 का core point technology growth की exponential acceleration prediction है। "agent" मुझे OpenAI की मौजूदा technology का नया frontend भर लगता है। इसे ठीक से आँकने के लिए शायद 2026 की शुरुआत तक इंतज़ार करना होगा
    • रिपोर्ट लिखे जाने के समय तक यह सार्वजनिक रूप से जाना-पहचाना तथ्य था कि बड़ी कंपनियाँ agent products बना रही हैं। यह कोई revolutionary prediction से ज़्यादा सामान्य समझ की बात थी
  • अब भी वह simple feature नहीं है जो मैं चाहता हूँ: project के अंदर document editing। मैं project के हिसाब से कई दस्तावेज़ों पर काम करता हूँ—articles, research, scripts वगैरह। मैं sentence-by-sentence ChatGPT की मदद से काम आगे बढ़ाना चाहता हूँ। यहाँ तक कि टहलते हुए voice-document workflow की कल्पना करता हूँ: "मैं जिस document पर अभी काम कर रहा था, उसमें कहाँ तक पहुँचे? आखिरी दो paragraphs पढ़ो... यहाँ से थोड़ा और लंबा लिखते हैं।" Coding support तो शानदार गति से आगे बढ़ रही है, लेकिन writing अभी भी copy-paste केंद्रित बनी हुई है, यह खलता है

    • बार-बार clipboard copy करना अक्सर परेशान करता है। उसी वजह से कई बार ChatGPT खोलना भी झंझट लगता है और इस्तेमाल करने का मन नहीं करता। NLE, plugin, या timecode workflows की आदत पड़ जाए तो workflow टूटना और भी असुविधाजनक लगता है
    • Aider free models के साथ लंबे समय से यह काम कर सकता था। लेकिन बड़े services में यह paid होकर भी नहीं मिलता। कभी सोचता हूँ खुद service बना लूँ, फिर लगता है कि जल्द ही कोई बड़ी company दे देगी, तो बेकार मेहनत होगी, और बात वहीं छूट जाती है
  • LLM को VPS देने की कोशिशें बहुत हुई हैं, लेकिन OpenAI का यह implementation UI के मामले में सच में मजबूत लगता है। text overlay, आसानी से पढ़ा जा सकने वाला mouse, और custom UI की वजह से user एक नज़र में समझ सकता है कि क्या हो रहा है और क्यों हो रहा है। मुझे लगता है OpenAI UI team की planning वाकई बहुत अच्छी है। LLM usage में नई visual information जोड़ने का तरीका दिलचस्प है, और इसका कुछ हिस्सा मैं अपने personal projects में अपनाना चाहूँगा।
    functionality के लिहाज़ से मुझे Claude+XFCE से बहुत बड़ा फर्क नहीं लगता, लेकिन visual polish में OpenAI ज़्यादा convenient लगता है। इसके उलट, पुरानी implementations readability के मामले में काफी मुश्किल थीं

  • मुझे कल्पना करना कठिन लगता है कि इस स्तर का agent मेरी real life में सच में उपयोगी बन पाएगा। अगर पत्नी के साथ date night plan करनी हो, तो calendar देखना, पसंदीदा restaurants सुझाना, babysitter book करना—ऐसी बहुत-सी चीज़ें ठीक से करनी पड़ती हैं, और उसके लिए बहुत trust चाहिए। इस technology का धीरे-धीरे आगे बढ़ना रोमांचक है, लेकिन अभी मुझे यह ज़्यादातर demo में ही प्रभावशाली लगती है। असली उपयोग के लिए बहुत बड़े system integrations चाहिए होंगे, और अगर Apple या Microsoft जैसे players, जिनके पास यह integration power है, इसमें आएँ, तो शायद सच में useful agent बन सके

    • शायद "execution decisions का मूल सबक" यह है कि जीवन की कठिन समस्याएँ अक्सर information processing से कम, और values व human relationships की जटिलता से ज्यादा कठिन होती हैं। उदाहरण के लिए, restaurant booking आसान है, लेकिन उसी दिन कौन-सा restaurant चुनना है, यह वास्तव में मुश्किल सवाल है। क्या LLM को हमारे पहले date की जगह याद है? क्या उसे पता है कि पत्नी को पिछली बार sushi खाने से food poisoning हुई थी? वह इतनी hyper-personalization तक नहीं पहुँचता। सच तो यह है कि मानव concierge के लिए भी यह आसान नहीं होता।
      मेरी नज़र में बेटी की birthday party plan करना गणित की किसी कठिन समस्या को हल करने से पहले automate नहीं होगा
    • ऐसे agents की ताकत वैसी ही है जैसी बेहद व्यस्त लोग personal assistant रखते समय पाते हैं, बस यह बहुत सस्ता है। जैसे एक assistant पूछे: "यह sitter या यह restaurant कैसा है? बुक कर दूँ?"—उसी तरह एक single interface में स्वाभाविक बातचीत से चीज़ें करवाना मानसिक रूप से बहुत आसान है। बस "हाँ, बुक कर दो" कहने भर की बात।
      मेरे हिसाब से agents का "one-shot execution" model ही UX के लिहाज़ से गलत है। अलग-अलग apps में भटकाने के बजाय, chat की तरह सरल और asynchronous आदान-प्रदान में सिर्फ ज़रूरी हिस्से संभालना ही वह चीज़ है जो असल में जीवन में घुल सकती है
    • वास्तव में agents बस core chat model + system prompt + response parsing और action execution + result को अगले prompt में डालना + model को actions की सूची बताना हैं। यह कोई बुनियादी क्रांति नहीं है, और खुद बनाना भी आसान है। असली चीज़ wrapper और system instructions की design है। उदाहरण के लिए, अगर calendar, location history, और sitter booking सबको जोड़कर guided chat बना दी जाए, तो automation संभव है
    • मेरे लिए सच्चा आदर्श "personal agent" कुछ ऐसा ही है। पिछले साल Apple ने WWDC में यही वादा किया था, इसलिए निराशा और भी ज़्यादा हुई। Pixel 9 pro पर Gemini आज़माने पर भी इस स्तर की integration बहुत दूर लगी। सबसे बड़ी दीवार अब भी trust है। LLM गलत जवाब बहुत आत्मविश्वास से देता है, इसलिए मेरे behalf पर message भेजना या calendar में किसे जोड़ना है जैसी चीज़ों में मैं पूरी autonomy देने से हिचकता हूँ
    • खासकर travel में, यह जानकारी जुटाने और तुलना करने में उपयोगी है, लेकिन मेरे और मेरी मौजूदा location, time, weather, booking/payment जैसी चीज़ों के साथ real-time personalized बातचीत अब भी असुविधाजनक है। आगे चलकर अगर यह सच में personalized (या group-personalized) travel assistant बन सके, तो बहुत शानदार होगा
  • जो बात सच में प्रभावशाली लगी, वह यह थी कि असली account credentials और sensitive information तक access देने के जोखिम पर बहुत जोर दिया गया

    • यह भी हैरानी की बात है कि यह टिप्पणी इतनी नीचे आकर मुश्किल से दिख रही है। शायद इसलिए कि अमेरिका के बाहर रहने वाले के रूप में मेरा नज़रिया अलग है