Claude Computer Use - क्या Vision अंतिम API है?

xguru · 2024-10-28T09:41:01+09:00

Anthropic के Computer Use API को आज़माने के नतीजे: यह धीमा है, भरोसेमंद नहीं है, और कंप्यूटर पर आसानी से कब्ज़ा कर सकता है, लेकिन "बेहद दिलचस्प" है Claude Computer में Vision वह API है जो सब कुछ जोड़ती है, इसलिए यह हमेशा कुछ न कुछ कर सकता है और एक सच्चे 'agent' जैसा अनुभव देता है यह कैसे काम करता है? Claude Computer Use मूल रूप से Claude3.5 का वह रूप लगता है जिसे कंप्यूटर इंटरैक्शन डेटा पर fine-tune किया गया है यह दूसरे मॉडलों की तुलना में कंप्यूटर और उसके भीतर मौजूद चीज़ों के screenshots को कहीं बेहतर समझता है [यह क्या अच्छा करता है] स्क्रीन पढ़ना और नेविगेट करना (तुलनात्मक रूप से) Claude को screenshot की सामग्री गलत पढ़ते हुए मैंने लगभग कभी नहीं देखा दूसरे AI की तुलना में यह (500,250) 위치의 입력창을 클릭하세요 जैसे coordinates समझने में काफ़ी सक्षम है (हालाँकि स्क्रीन आकार के अनुसार थोड़ा चूक सकता है) function calling मैं function calling को structured output से सख्ती से खराब मानने का आदी था, लेकिन Claude Computer इसे अच्छी तरह इस्तेमाल करता है उदाहरण के लिए, अगर कोई browser tool function दिया गया हो जो तुरंत किसी website पर जा सके, तो यह browser icon पर क्लिक करने के बजाय उस function को प्राथमिकता देता है step-by-step सोच अगर उससे काम को छोटे हिस्सों में बाँटने के लिए कहा जाए, तो Claude आमतौर पर ज़रूरी steps पहचानने और शुरुआत करने में काफ़ी अच्छा है [यह कहाँ चूकता है] यह जानना कि स्क्रीन कब पढ़नी है screenshot लेना महँगा पड़ता है, इसलिए AI यह मान लेने की प्रवृत्ति रखता है कि उसकी कार्रवाई सफल रही उदाहरण के लिए, अगर वह किसी field में टाइप करता है लेकिन focus नहीं है, तो बाद में इसका पता लगाना बहुत मुश्किल हो जाता है. OS function calling को यह बहुत सटीक तरीके से बताना चाहिए कि इच्छित परिणाम वास्तव में हुआ या नहीं Claude सबसे ज़्यादा इसी तरह अटकता है. जब तक वह नया screenshot लेता है, तब तक उसे अपनी प्रगति का पता नहीं रहता और अधिक डेटा लाना अगर उससे सबसे नज़दीकी 3 shawarma दुकानों को खोजने के लिए कहा जाए, तो Claude Google Maps में 'shawarma' टाइप करेगा और ऊपर के 3 नतीजे चुन लेगा अगर क्लिक करना पड़े, तो यह लगभग कभी भी पहले menu में जाकर 'distance के अनुसार sort' नहीं करता बेहतर prompt structure से इसे सुधारा जा सकता है state याद रखना Computer Use में program state का बड़ा हिस्सा image में संग्रहीत होता है, और ऐसा लगता है कि उसे याद करने में यह अधिक कमज़ोर है यह पहले खोले गए tabs या बदले गए applications जैसी पिछली गतिविधियों पर भी लागू होता है बेहतर है कि Claude से जितना संभव हो, प्रासंगिक state को text में आउटपुट कराया जाए और tools के ज़रिए system state उपलब्ध कराया जाए modal और popup नेविगेट करना Claude सबसे अधिक modal और popup में उलझता है; यह नहीं समझ पाता कि उन पर क्लिक करके बाहर कैसे निकले या यह पहचान नहीं पाता कि वह सही state में नहीं है [क्या चाहिए?] जितना संभव हो उतनी system state उपलब्ध कराना आदर्श रूप से, हम चाहेंगे कि Claude Computer Vision का इस्तेमाल केवल तब करे जब उसकी बिल्कुल ज़रूरत हो अगर ऐसे tools दिए जाएँ जो Vision के बिना भी state को आसानी से समझा सकें, तो यह तेज़ी से आगे बढ़ सकता है और अधिक स्पष्ट सोच सकता है निम्न चीज़ें देना बहुत मददगार होता है: खुली हुई applications की सूची किस application पर active focus है उस application के भीतर किस चीज़ पर focus है उस application को खास तौर पर नेविगेट करने के लिए जितने संभव हों उतने function calls खासकर browser tools बहुत महत्वपूर्ण हैं (जैसे किसी खास URL पर जाना या search करना) अनिश्चितता को संभालने का तरीका यह agent development की सबसे बड़ी अनसुलझी समस्या है agents में सबसे महत्वपूर्ण चीज़ भरोसा है, और भरोसे के लिए input और feedback चाहिए testing के दौरान कई बार साफ़ था कि Claude नहीं जानता कि उसे क्या करना चाहिए, लेकिन रुकने या पूछने के बजाय वह आगे बढ़ता रहा AI से सवाल पूछवाने या फँसने पर reasoning करवाने के लिए question tool बनाने में मैंने काफ़ी समय लगाया, लेकिन उसने इसका शायद ही इस्तेमाल किया यह तर्कसंगत है. function calling तब सबसे अच्छा काम करता है जब उसे पता हो कि जानकारी चाहिए और बस उसे हासिल करना हो लेकिन यह जानना कि अनिश्चितता कब है, एक अलग समस्या है. agent developers को यह भरोसा होना चाहिए कि AI अपनी अनिश्चितता की रिपोर्ट करेगा [आगे का रास्ता] Claude Computer Use सच्चे agent behavior की दिशा में पहला कदम है संभव है कि हम अभी भी इस मौजूदा model की क्षमताओं का पूरा उपयोग नहीं कर रहे हों लेकिन यह स्पष्ट है कि एक सच्चा agent अनुभव बनाने के लिए सिर्फ LLM function calling से अधिक की ज़रूरत होगी

Anthropic के Computer Use API को आज़माने के नतीजे:
- यह धीमा है, भरोसेमंद नहीं है, और कंप्यूटर पर आसानी से कब्ज़ा कर सकता है, लेकिन "बेहद दिलचस्प" है
Claude Computer में Vision वह API है जो सब कुछ जोड़ती है, इसलिए यह हमेशा कुछ न कुछ कर सकता है और एक सच्चे 'agent' जैसा अनुभव देता है

यह कैसे काम करता है?

Claude Computer Use मूल रूप से Claude3.5 का वह रूप लगता है जिसे कंप्यूटर इंटरैक्शन डेटा पर fine-tune किया गया है
यह दूसरे मॉडलों की तुलना में कंप्यूटर और उसके भीतर मौजूद चीज़ों के screenshots को कहीं बेहतर समझता है

[यह क्या अच्छा करता है]

स्क्रीन पढ़ना और नेविगेट करना (तुलनात्मक रूप से)

Claude को screenshot की सामग्री गलत पढ़ते हुए मैंने लगभग कभी नहीं देखा
दूसरे AI की तुलना में यह (500,250) 위치의 입력창을 클릭하세요 जैसे coordinates समझने में काफ़ी सक्षम है (हालाँकि स्क्रीन आकार के अनुसार थोड़ा चूक सकता है)

function calling

मैं function calling को structured output से सख्ती से खराब मानने का आदी था, लेकिन Claude Computer इसे अच्छी तरह इस्तेमाल करता है
उदाहरण के लिए, अगर कोई browser tool function दिया गया हो जो तुरंत किसी website पर जा सके, तो यह browser icon पर क्लिक करने के बजाय उस function को प्राथमिकता देता है

step-by-step सोच

अगर उससे काम को छोटे हिस्सों में बाँटने के लिए कहा जाए, तो Claude आमतौर पर ज़रूरी steps पहचानने और शुरुआत करने में काफ़ी अच्छा है

[यह कहाँ चूकता है]

यह जानना कि स्क्रीन कब पढ़नी है

screenshot लेना महँगा पड़ता है, इसलिए AI यह मान लेने की प्रवृत्ति रखता है कि उसकी कार्रवाई सफल रही
उदाहरण के लिए, अगर वह किसी field में टाइप करता है लेकिन focus नहीं है, तो बाद में इसका पता लगाना बहुत मुश्किल हो जाता है. OS function calling को यह बहुत सटीक तरीके से बताना चाहिए कि इच्छित परिणाम वास्तव में हुआ या नहीं
Claude सबसे ज़्यादा इसी तरह अटकता है. जब तक वह नया screenshot लेता है, तब तक उसे अपनी प्रगति का पता नहीं रहता

और अधिक डेटा लाना

अगर उससे सबसे नज़दीकी 3 shawarma दुकानों को खोजने के लिए कहा जाए, तो Claude Google Maps में 'shawarma' टाइप करेगा और ऊपर के 3 नतीजे चुन लेगा
अगर क्लिक करना पड़े, तो यह लगभग कभी भी पहले menu में जाकर 'distance के अनुसार sort' नहीं करता
बेहतर prompt structure से इसे सुधारा जा सकता है

state याद रखना

Computer Use में program state का बड़ा हिस्सा image में संग्रहीत होता है, और ऐसा लगता है कि उसे याद करने में यह अधिक कमज़ोर है
यह पहले खोले गए tabs या बदले गए applications जैसी पिछली गतिविधियों पर भी लागू होता है
बेहतर है कि Claude से जितना संभव हो, प्रासंगिक state को text में आउटपुट कराया जाए और tools के ज़रिए system state उपलब्ध कराया जाए

modal और popup नेविगेट करना

Claude सबसे अधिक modal और popup में उलझता है; यह नहीं समझ पाता कि उन पर क्लिक करके बाहर कैसे निकले या यह पहचान नहीं पाता कि वह सही state में नहीं है

[क्या चाहिए?]

जितना संभव हो उतनी system state उपलब्ध कराना

आदर्श रूप से, हम चाहेंगे कि Claude Computer Vision का इस्तेमाल केवल तब करे जब उसकी बिल्कुल ज़रूरत हो
अगर ऐसे tools दिए जाएँ जो Vision के बिना भी state को आसानी से समझा सकें, तो यह तेज़ी से आगे बढ़ सकता है और अधिक स्पष्ट सोच सकता है
निम्न चीज़ें देना बहुत मददगार होता है:
- खुली हुई applications की सूची
- किस application पर active focus है
- उस application के भीतर किस चीज़ पर focus है
- उस application को खास तौर पर नेविगेट करने के लिए जितने संभव हों उतने function calls
  - खासकर browser tools बहुत महत्वपूर्ण हैं (जैसे किसी खास URL पर जाना या search करना)

अनिश्चितता को संभालने का तरीका

यह agent development की सबसे बड़ी अनसुलझी समस्या है
agents में सबसे महत्वपूर्ण चीज़ भरोसा है, और भरोसे के लिए input और feedback चाहिए
testing के दौरान कई बार साफ़ था कि Claude नहीं जानता कि उसे क्या करना चाहिए, लेकिन रुकने या पूछने के बजाय वह आगे बढ़ता रहा
AI से सवाल पूछवाने या फँसने पर reasoning करवाने के लिए question tool बनाने में मैंने काफ़ी समय लगाया, लेकिन उसने इसका शायद ही इस्तेमाल किया
यह तर्कसंगत है. function calling तब सबसे अच्छा काम करता है जब उसे पता हो कि जानकारी चाहिए और बस उसे हासिल करना हो
लेकिन यह जानना कि अनिश्चितता कब है, एक अलग समस्या है. agent developers को यह भरोसा होना चाहिए कि AI अपनी अनिश्चितता की रिपोर्ट करेगा

[आगे का रास्ता]

Claude Computer Use सच्चे agent behavior की दिशा में पहला कदम है
संभव है कि हम अभी भी इस मौजूदा model की क्षमताओं का पूरा उपयोग नहीं कर रहे हों
लेकिन यह स्पष्ट है कि एक सच्चा agent अनुभव बनाने के लिए सिर्फ LLM function calling से अधिक की ज़रूरत होगी