नमस्ते, मैंने AgentBlue नाम का एक मोबाइल एजेंट सिस्टम बनाया है.

AgentBlue एक ओपन सोर्स AI automation system है, जिसमें आप terminal में प्राकृतिक भाषा का कमांड दर्ज करते हैं और Android device अपने-आप app browse करता है, tap करता है, और typing करता है.

यह कैसे काम करता है

Android की Accessibility Service के ज़रिये मौजूदा स्क्रीन का UI tree पढ़ा जाता है, और इसे LLM को भेजकर अगला action तय किया जाता है. यह ReAct(Reasoning + Acting) loop completion condition पूरी होने तक दोहराया जाता है.

"YouTube में lo-fi music search कर दो"
→ UI parsing → LLM decision → CLICK "YouTube" → TYPE "lo-fi" → CLICK search → DONE
CLI और Android app Firebase Firestore को relay server की तरह इस्तेमाल करके real-time में communicate करते हैं. अलग server के बिना 8-अंकों के session code से pairing होती है.

मुख्य विशेषताएँ

  • multi-LLM support — OpenAI, Google Gemini, Anthropic Claude, DeepSeek में से चुनें
  • terminal REPL — agentblue start से session शुरू करें, प्राकृतिक भाषा में command भेजें
  • remote settings — CLI में /setting, /model से Android app settings बदलें
  • real-time status check — हर step की progress terminal में real-time देखें
  • safety guard — payment confirmation, account deletion जैसे irreversible actions से पहले अपने-आप रुकता है
  • Stuck detection और recovery — एक ही स्क्रीन पर बार-बार failure होने पर hint inject करता है या BACK को force से चलाता है
  • device-only usage — CLI के बिना floating button से device पर सीधे command दर्ज किए जा सकते हैं
    तेज़ शुरुआत

उपयोग कैसे करें

npm install -g @agentblue/cli
agentblue init # Firebase setup + भाषा चयन (shared server डिफ़ॉल्ट रूप से उपलब्ध)
agentblue start # session code जारी → Android app में दर्ज करें → connection पूरा
Android app में सिर्फ Accessibility Service और overlay permission की अनुमति देनी होती है, उसके बाद इसे तुरंत इस्तेमाल किया जा सकता है.

इसे क्यों बनाया

ज़्यादातर RPA tools screen coordinates पर आधारित होते हैं, इसलिए app update के एक ही बदलाव से script टूट जाती है. AgentBlue UI के semantic meaning (text, contentDescription, resource ID) के आधार पर target ढूँढ़ता है, इसलिए layout change के प्रति यह कहीं ज़्यादा मज़बूत है. LLM हर step पर "अगला क्या करना है" यह नए सिरे से तय करता है, इसलिए पहले से scenario लिखने की ज़रूरत नहीं पड़ती.

feedback और contribution का स्वागत है. खासकर अगर आपके पास बेहतर UI parsing strategy या Stuck detection सुधारने के ideas हों, तो issue, PR, या comment के ज़रिये बताइए!

धन्यवाद

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.