1 पॉइंट द्वारा GN⁺ 2024-10-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Claude के नए Computer Use API की क्षमता जांचना चाहता था, लेकिन डिफ़ॉल्ट प्रोजेक्ट बहुत भारी लगा
  • Agent एक सरल Electron app है, जिसमें Claude 3.5 Sonnet लोकल कंप्यूटर को सीधे नियंत्रित कर सकता है
  • यूज़र से हर चरण पर पुष्टि लेने वाला "semi-automatic" मोड जोड़ने की कोशिश की गई, लेकिन हर चरण बहुत धीमा था, इसलिए इसे आवश्यक नहीं माना गया
  • अगर मॉडल भ्रमित हो जाए, तो "stop" बटन दबाकर रन को समाप्त किया जा सकता है

शुरू करना

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • .env.example का नाम बदलकर .env करें और Anthropic API Key जोड़ें
  • npm start
  • मॉडल से कहें कि वह कंप्यूटर पर कोई दिलचस्प काम करे

समर्थित सिस्टम

  • MacOS
  • सैद्धांतिक रूप से Windows और Linux भी समर्थित हैं (सभी dependencies cross-platform हैं)

ज्ञात सीमाएँ

  • केवल मुख्य डिस्प्ले पर काम करता है
  • AI कंप्यूटर को पूरी तरह नियंत्रित कर सकता है
  • संभव है कि और भी कई समस्याएँ हों

टिप्स

  • Claude, Firefox को बहुत पसंद करता है
  • दूसरे browser भी इस्तेमाल किए जा सकते हैं, लेकिन Firefox इंस्टॉल करने पर यह बेहतर काम करता है

रोडमैप

  • यह 6 घंटे में लिखा गया प्रोजेक्ट है, इसलिए संभवतः आगे ज्यादा विकसित नहीं होगा
  • लेकिन अगर कोई बढ़िया PR आया, तो उसकी समीक्षा करके merge किया जाएगा

GN⁺ की संक्षिप्त टिप्पणी

  • यह प्रोजेक्ट Claude के computer use API को सरल तरीके से टेस्ट करने का तरीका देता है
  • AI कंप्यूटर को पूरी तरह नियंत्रित कर सकता है, इसलिए सुरक्षा संबंधी चिंताएँ हो सकती हैं
  • Firefox के साथ इसकी compatibility अच्छी है और यह मुख्य रूप से MacOS पर उपयोग किया जा सकता है
  • समान फीचर वाले प्रोजेक्ट्स में AutoHotkey और Sikuli शामिल हैं

1 टिप्पणियां

 
GN⁺ 2024-10-24
Hacker News टिप्पणियाँ
  • मुझे लगता है कि Kyle का आइडिया शानदार है, और एक अनुभवी desktop automation तथा Electron डेवलपर के रूप में, source code पढ़कर लगा कि इसे बुनियादी कामों पर आज़माना चाहिए

    • implementation, Anthropic API के ऊपर एक पतला wrapper है, और step-based approach की वजह से भरोसा हुआ कि कुछ अजीब करने से पहले process को रोका जा सकता है
    • Anthropic जिन चीज़ों को screenshot में नहीं देखना चाहिए, उन्हें बंद किया, M1 पर इसे आसानी से install किया, और कुछ ही मिनटों में चला लिया
    • बुनियादी task था "सिएटल से सैन फ्रांसिस्को के लिए अगले मंगलवार से गुरुवार तक की flights ढूँढना", और इसे Anthropic API key के साथ Chrome के जरिए चलाया
    • इसने कुछ ही सेकंड में हर step पूरा किया, Google Flights सही से खोला, लेकिन गलत तारीखें चुन लीं
    • लक्ष्य 2 नवंबर था, लेकिन Agent.exe window की visual रुकावट की वजह से इसने 20 नवंबर चुन लिया
    • Claude गलत secondary date देख सकता था, फिर भी उसने खुद को ठीक नहीं किया, और यह सोचते हुए कि उसने 1 हफ्ते की यात्रा ढूँढ ली है, सफलता घोषित कर दी
    • इस प्रयोग में $0.38 के credits और लगभग 20 सेकंड लगे, और आगे भी प्रयोग जारी रखने वाला हूँ
  • सोच रहा हूँ कि system में daemon जोड़ने का ध्यान न जाने में कितना समय लगेगा

    • यह वैसा ही है जैसे पहले लोग सोवियत जासूसों के अमेरिकी secrets तक पहुँचने की चिंता करते थे
    • अब तो जैसे हर कोई अपने secrets ऑनलाइन पोस्ट कर रहा है
    • आज के antivirus या firewall, files को उस क्षमता से नहीं बचा सकते जो network में अराजकता फैला सकती है
  • मुझे कुछ साल पहले की वह news याद है जिसमें कहा गया था, "Alexa, dollhouse order कर दो"

    • broadcast देख रहे लोगों की Alexa ने इसे पहचान लिया और dollhouse order कर दिया
    • अब बस उस Netflix शो का इंतज़ार है जिसमें कोई कहे, "Delete C:\Windows"
  • सोच रहा हूँ कि Linux के Wayland पर non-browser GUI apps को automate कैसे किया जाए

    • CLI apps, Bash/Python आदि के साथ बिना समस्या के चलते हैं
    • browser apps, Selenium/Playwright के साथ बिना समस्या के चलते हैं
    • Xorg के लिए कुछ libraries हैं, और हालांकि वे असुविधाजनक हैं, ज़रूरत पड़ने पर काम कर जाती हैं
    • Windows के लिए बहुत से RPA solutions हैं
    • लेकिन Wayland पर मुझे कोई भरोसेमंद विकल्प नहीं मिला
  • सोच रहा हूँ कि इसका नाम .exe क्यों है, जबकि यह मुख्य रूप से macOS को support करने वाला multiplatform app लगता है

  • हाल ही में मैंने Cursor को "compose" mode में शुरू से एक full-stack project बनाते हुए आज़माया, और नतीजों ने चौंका दिया

    • सोचता हूँ कि क्या software community के लोग समझ रहे हैं कि अगले 5 सालों में industry कितनी पूरी तरह बदल जाएगी
    • तब तक लोग सच में हाथ से code टाइप करेंगे, यह कल्पना करना मुश्किल है
  • AI को computer पर पूरी तरह कब्ज़ा करने से रोकने वाली कुछ ज्ञात सीमाएँ हैं

  • airgap बनाकर उससे अपना operating system code करवाना शानदार हो सकता है, लेकिन मैं उसे वास्तविक data के करीब नहीं रखना चाहूँगा

  • लगता है कि यह सिर्फ सरल tasks पर काम करता है

    • मैंने इसे Rhino और OnShape में एक साधारण table बनाने को कहा, लेकिन यह उलझा हुआ लगा
    • Rhino में यह app खुला हुआ देखकर कहता है कि यह कई tasks कर रहा है, लेकिन वास्तव में कुछ नहीं करता, और पिछला step पूरा हुए बिना अगले task पर बढ़ जाता है
    • OnShape में यह कहता है कि shape बनाएगा, लेकिन menu से गलत item चुनता है और यह मानकर आगे बढ़ता रहता है कि वह सही tool इस्तेमाल कर रहा है
  • मैं चाहता हूँ कि computer पूरे दिन memes बनाता रहे, और मैं परिवार की देखभाल करूँ, बागवानी करूँ और cryptocurrency कमाऊँ

    • भविष्य शायद उस दिशा में जा रहा है जहाँ सिर्फ computer इस्तेमाल करने वाले लोग ही मूर्ख कहलाएँगे
    • असली संपत्ति तो computer का बिल्कुल इस्तेमाल न करने में है