- Claude के नए Computer Use API की क्षमता जांचना चाहता था, लेकिन डिफ़ॉल्ट प्रोजेक्ट बहुत भारी लगा
- Agent एक सरल Electron app है, जिसमें Claude 3.5 Sonnet लोकल कंप्यूटर को सीधे नियंत्रित कर सकता है
- यूज़र से हर चरण पर पुष्टि लेने वाला "semi-automatic" मोड जोड़ने की कोशिश की गई, लेकिन हर चरण बहुत धीमा था, इसलिए इसे आवश्यक नहीं माना गया
- अगर मॉडल भ्रमित हो जाए, तो "stop" बटन दबाकर रन को समाप्त किया जा सकता है
शुरू करना
git clone https://github.com/corbt/agent.exe
cd agent.exe
npm install
.env.example का नाम बदलकर .env करें और Anthropic API Key जोड़ें
npm start
- मॉडल से कहें कि वह कंप्यूटर पर कोई दिलचस्प काम करे
समर्थित सिस्टम
- MacOS
- सैद्धांतिक रूप से Windows और Linux भी समर्थित हैं (सभी dependencies cross-platform हैं)
ज्ञात सीमाएँ
- केवल मुख्य डिस्प्ले पर काम करता है
- AI कंप्यूटर को पूरी तरह नियंत्रित कर सकता है
- संभव है कि और भी कई समस्याएँ हों
टिप्स
- Claude, Firefox को बहुत पसंद करता है
- दूसरे browser भी इस्तेमाल किए जा सकते हैं, लेकिन Firefox इंस्टॉल करने पर यह बेहतर काम करता है
रोडमैप
- यह 6 घंटे में लिखा गया प्रोजेक्ट है, इसलिए संभवतः आगे ज्यादा विकसित नहीं होगा
- लेकिन अगर कोई बढ़िया PR आया, तो उसकी समीक्षा करके merge किया जाएगा
GN⁺ की संक्षिप्त टिप्पणी
- यह प्रोजेक्ट Claude के computer use API को सरल तरीके से टेस्ट करने का तरीका देता है
- AI कंप्यूटर को पूरी तरह नियंत्रित कर सकता है, इसलिए सुरक्षा संबंधी चिंताएँ हो सकती हैं
- Firefox के साथ इसकी compatibility अच्छी है और यह मुख्य रूप से MacOS पर उपयोग किया जा सकता है
- समान फीचर वाले प्रोजेक्ट्स में AutoHotkey और Sikuli शामिल हैं
1 टिप्पणियां
Hacker News टिप्पणियाँ
मुझे लगता है कि Kyle का आइडिया शानदार है, और एक अनुभवी desktop automation तथा Electron डेवलपर के रूप में, source code पढ़कर लगा कि इसे बुनियादी कामों पर आज़माना चाहिए
सोच रहा हूँ कि system में daemon जोड़ने का ध्यान न जाने में कितना समय लगेगा
मुझे कुछ साल पहले की वह news याद है जिसमें कहा गया था, "Alexa, dollhouse order कर दो"
सोच रहा हूँ कि Linux के Wayland पर non-browser GUI apps को automate कैसे किया जाए
सोच रहा हूँ कि इसका नाम .exe क्यों है, जबकि यह मुख्य रूप से macOS को support करने वाला multiplatform app लगता है
हाल ही में मैंने Cursor को "compose" mode में शुरू से एक full-stack project बनाते हुए आज़माया, और नतीजों ने चौंका दिया
AI को computer पर पूरी तरह कब्ज़ा करने से रोकने वाली कुछ ज्ञात सीमाएँ हैं
airgap बनाकर उससे अपना operating system code करवाना शानदार हो सकता है, लेकिन मैं उसे वास्तविक data के करीब नहीं रखना चाहूँगा
लगता है कि यह सिर्फ सरल tasks पर काम करता है
मैं चाहता हूँ कि computer पूरे दिन memes बनाता रहे, और मैं परिवार की देखभाल करूँ, बागवानी करूँ और cryptocurrency कमाऊँ