बॉट्स से आगे: AI agents एंटरप्राइज़ ऑटोमेशन की अगली लहर को आगे बढ़ा रहे हैं

xguru · 2024-10-07T11:21:01+09:00

हर नौकरी को इंसानों और मशीनों के बीच साझा किए जाने वाले कार्यों के एक बंडल के रूप में देखा जा सकता है सॉफ़्टवेयर अब अधिक से अधिक काम संभाल रहा है, लेकिन अधिकांश बिज़नेस प्रोसेस अभी भी इंसानों के स्वामित्व में हैं उम्मीद है कि AI agent इस कार्य-संतुलन को निर्णायक रूप से बदल देंगे पिछली पीढ़ी के सॉफ़्टवेयर के विपरीत, ये नए cognitive architecture के ज़रिए end-to-end processes को dynamic तरीके से automate कर सकते हैं यह सिर्फ पढ़ने और लिखने वाला AI नहीं है, बल्कि ऐसा AI है जो application logic के flow को तय कर सकता है और उपयोगकर्ता की ओर से कार्रवाई कर सकता है; यह एंटरप्राइज़ में LLM के लिए सबसे बड़े अवसर का प्रतिनिधित्व करता है क्या यह बस RPA ही नहीं है? : RPA की सीमाएँ और समस्याएँ यह बात जानी-पहचानी लग सकती है, क्योंकि UiPath और Zapier पिछले 10 वर्षों से "bot automation" के नाम पर इसी तरह का विज़न बेचते आए हैं UiPath, एक RPA दिग्गज, screen scraping और GUI automation के ज़रिए उपयोगकर्ता के व्यवहार को रिकॉर्ड करता है और क्रमिक steps की नकल करके documents से जानकारी निकालने, folders को move करने, forms भरने और databases को update करने जैसी प्रक्रियाओं को automate करता है बाद में Zapier जैसे iPaaS providers ने हल्का "API automation" approach पेश किया, लेकिन UiPath के विपरीत इसकी सीमा web app automation तक ही रही UiPath और Zapier ने यह साबित किया कि departments या industry-specific software systems के भीतर और उनके बीच मौजूद enterprise processes के long tail को हल करने के लिए composable, rules-based, horizontal automation platforms का बाज़ार मौजूद है लेकिन जैसे-जैसे enterprises ने bot-based automation को scale किया, मौजूदा architecture की क्षमता और वादा की गई autonomy के बीच का अंतर सामने आने लगा अभी भी बहुत अधिक manpower और manual work की ज़रूरत पड़ती है। automation को build और maintain करने की प्रक्रिया अब भी तकलीफ़देह रूप से manual है UI automation नाज़ुक है और API integrations सीमित हैं। सॉफ़्टवेयर UI बदलते ही UI automation अक्सर टूट जाता है, और APIs अधिक स्थिर होने के बावजूद legacy या on-premise software के साथ बहुत कम integrations देती हैं यह unstructured data को संभाल नहीं सकता। enterprise data का 80% unstructured या semi-structured होता है, लेकिन sequence-based automation इस data के साथ बुद्धिमानी से काम नहीं कर सकता मौजूदा RPA और iPaaS solutions, LLM को integrate करने की कोशिश करते समय भी, deterministic architecture की बेड़ियों में जकड़े हुए हैं UiPath का Autopilot और Zapier का AI Actions केवल sub-agent design patterns के लिए LLM उपलब्ध कराते हैं, जैसे text-to-action या semantic search, synthesis और one-shot generation के लिए nodes ये AI capabilities शक्तिशाली हो सकती हैं, लेकिन process automation में LLM के अधिक परिवर्तनकारी use cases अभी भी छूट रहे हैं AI agent निर्णय इंजन के रूप में मूल रूप से अलग हैं आज के RPA bots या RAG apps से अलग, agent application के control flow के केंद्र में एक decision engine के रूप में बैठते हैं पहली बार ये adaptability, multi-step actions, complex reasoning और मज़बूत exception handling को संभव बनाते हैं Invoice Reconciliation के उदाहरण से समझें: किसी नई invoice PDF को कंपनी के general ledger से मिलाने वाले एक सरल process diagram में भी workflow की complexity तेज़ी से संभालना मुश्किल हो जाती है केवल शुरुआती 3 decision sets के भीतर ही सभी संबंधित exception scenarios पर विचार करना लगभग असंभव हो जाता है इस workflow को रोबोट की तरह चलाने वाला RPA bot अक्सर error देता है और partial match या missing items को इंसान के पास escalate कर देता है लेकिन उसी workflow पर agent लागू करने पर यह कहीं बेहतर प्रदर्शन करता है नई परिस्थितियों के अनुरूप ढलना: बुनियादी reasoning और संबंधित business context के आधार पर यह नए data sources, invoice formats, naming conventions, account numbers और policy changes को बुद्धिमानी से पहचान और adapt कर सकता है multi-step tasks करना: अगर invoice amount मेल नहीं खाती, तो यह vendor के हालिया emails की जाँच करके price change की संभावना की पुष्टि करने जैसी multi-step investigation कर सकता है complex reasoning दिखाना: अगर किसी international vendor की invoice को ledger से reconcile करना हो, तो invoice currency, ledger currency, transaction date, exchange rate fluctuation, cross-border charges और bank fees जैसे कई तत्वों को साथ में खोजकर calculate करना पड़ता है। Agent इस तरह की intelligence दिखा सकता है, जबकि RPA bot इसे इंसान तक escalate कर सकता है uncertainty को ध्यान में रखना: line items में rounding errors या अपठनीय numbers जैसी exceptions के लिए यह total order amount match, पिछली invoices के timing और frequency जैसे context के आधार पर मज़बूती से handle कर सकता है AI agent बाज़ार का परिदृश्य AI agent अब science fiction नहीं रहे। startups से लेकर Fortune 500 कंपनियों तक, लोग इन systems को पहले ही बड़े पैमाने पर खरीद और उपयोग कर रहे हैं मौजूदा agent market को दो मुख्य आयामों में देखा जा सकता है: domain specificity और LLM autonomy domain specificity: healthcare या customer support जैसे vertical industries या departments के लिए specialized agents से लेकर व्यापक और सामान्य क्षमताओं वाले horizontal agent platforms तक LLM autonomy: यह दर्शाता है कि language model application logic को स्वतंत्र रूप से कितनी हद तक plan और direct कर सकता है market map के ऊपर-दाईं ओर सबसे अधिक horizontal और generalizable agents आते हैं Enterprise agent: scalable platforms जो natural language SOPs या नए कर्मचारियों को दिए जाने वाले नियमों जैसी चीज़ों के आधार पर कई functions और workflows में agents को build और manage कर सकते हैं। अधिकांश "agent on rails" architecture का उपयोग करते हैं, जहाँ हर नए process के लिए agent को pre-defined tasks, business context और guardrails के सेट पर आधारित होना पड़ता है Browser agent: "general AI agent" design का पालन करते हैं, जो web browsing, visual UI tasks और text input जैसी चीज़ों को automate करने के लिए विभिन्न software interfaces और underlying codebases पर trained vision transformers का उपयोग करते हैं। ये generalizability तो देते हैं, लेकिन अक्सर consistency की कीमत पर AI-enabled services: "agent on rails" design को वास्तव में काम करने योग्य बनाने के लिए व्यापक data infrastructure और guardrails की ज़रूरत होती है, इसलिए Distyl और Agnetic जैसी कंपनियाँ "Palantir for AI" मॉडल के तहत forward-deployed engineering services देकर ग्राहकों के साथ इस अंतर को भरती हैं हालाँकि, सभी agents horizontal और generalizable होने का लक्ष्य नहीं रखते। domain और workflow-specific agents की संख्या बढ़ रही है, क्योंकि problem type को सीमित करके reliability बढ़ाई जा सकती है Vertical agent: सबसे आशाजनक अवसर उन manual और procedure-centric processes में हैं जिन्हें लोग SOPs या rules के अनुसार संभालते हैं। customer support, hiring, software development के tasks जैसे code review/testing/maintenance, cold sales और security operations प्रमुख श्रेणियाँ हैं AI assistant: agent के focus को domain specificity के बजाय task specificity के ज़रिए सीमित करने का एक और तरीका। enterprise और vertical agents द्वारा संभाले जाने वाले complex end-to-end processes की तुलना में, ये अधिक सरल और productivity-focused tasks करते हैं भले ही वे स्वयं agent न हों, RAG architecture पर बने generative AI solutions कभी-कभी agent-based solutions के समान budgets और workflows के लिए प्रतिस्पर्धा करते हैं Vertical AI: healthcare automation platform Tennr fax, PDF और phone जैसे विभिन्न स्रोतों से unstructured data निकालकर उसे clinics के EHR में दर्ज करता है, जिससे referral processing आगे बढ़ती है और कर्मचारियों की manual data entry की ज़रूरत खत्म होती है RAG-as-a-Service: Danswer और Gradient जैसी कंपनियाँ ग्राहकों को PDF जैसे unstructured data sources को query करने, data extract करने और उसे अधिक structured databases या systems में दर्ज करने में सक्षम बनाती हैं Enterprise search: Glean, Perplexity, Sana आदि semantic queries उपलब्ध कराते हैं, ताकि conceptually related documents को index और retrieve करके संगठन-भर के ज्ञान का बेहतर प्रबंधन हो सके और data silos टूट सकें एंटरप्राइज़ ऑटोमेशन का भविष्य generative AI की दूसरी लहर केवल पढ़ने और लिखने से नहीं, बल्कि ऐसे agents से परिभाषित होगी जो उपयोगकर्ता की ओर से सोच और कार्रवाई कर सकें जैसे-जैसे ये architectures परिपक्व होंगे, वे AI द्वारा service economy पर कब्ज़ा करने के लिए एक शक्तिशाली catalyst बनेंगे

(menlovc.com)

9 पॉइंट द्वारा xguru 2024-10-07 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

हर नौकरी को इंसानों और मशीनों के बीच साझा किए जाने वाले कार्यों के एक बंडल के रूप में देखा जा सकता है
सॉफ़्टवेयर अब अधिक से अधिक काम संभाल रहा है, लेकिन अधिकांश बिज़नेस प्रोसेस अभी भी इंसानों के स्वामित्व में हैं
उम्मीद है कि AI agent इस कार्य-संतुलन को निर्णायक रूप से बदल देंगे
पिछली पीढ़ी के सॉफ़्टवेयर के विपरीत, ये नए cognitive architecture के ज़रिए end-to-end processes को dynamic तरीके से automate कर सकते हैं
यह सिर्फ पढ़ने और लिखने वाला AI नहीं है, बल्कि ऐसा AI है जो application logic के flow को तय कर सकता है और उपयोगकर्ता की ओर से कार्रवाई कर सकता है; यह एंटरप्राइज़ में LLM के लिए सबसे बड़े अवसर का प्रतिनिधित्व करता है

क्या यह बस RPA ही नहीं है? : RPA की सीमाएँ और समस्याएँ

यह बात जानी-पहचानी लग सकती है, क्योंकि UiPath और Zapier पिछले 10 वर्षों से "bot automation" के नाम पर इसी तरह का विज़न बेचते आए हैं
UiPath, एक RPA दिग्गज, screen scraping और GUI automation के ज़रिए उपयोगकर्ता के व्यवहार को रिकॉर्ड करता है और क्रमिक steps की नकल करके documents से जानकारी निकालने, folders को move करने, forms भरने और databases को update करने जैसी प्रक्रियाओं को automate करता है
बाद में Zapier जैसे iPaaS providers ने हल्का "API automation" approach पेश किया, लेकिन UiPath के विपरीत इसकी सीमा web app automation तक ही रही
UiPath और Zapier ने यह साबित किया कि departments या industry-specific software systems के भीतर और उनके बीच मौजूद enterprise processes के long tail को हल करने के लिए composable, rules-based, horizontal automation platforms का बाज़ार मौजूद है
लेकिन जैसे-जैसे enterprises ने bot-based automation को scale किया, मौजूदा architecture की क्षमता और वादा की गई autonomy के बीच का अंतर सामने आने लगा
- अभी भी बहुत अधिक manpower और manual work की ज़रूरत पड़ती है। automation को build और maintain करने की प्रक्रिया अब भी तकलीफ़देह रूप से manual है
- UI automation नाज़ुक है और API integrations सीमित हैं। सॉफ़्टवेयर UI बदलते ही UI automation अक्सर टूट जाता है, और APIs अधिक स्थिर होने के बावजूद legacy या on-premise software के साथ बहुत कम integrations देती हैं
- यह unstructured data को संभाल नहीं सकता। enterprise data का 80% unstructured या semi-structured होता है, लेकिन sequence-based automation इस data के साथ बुद्धिमानी से काम नहीं कर सकता
मौजूदा RPA और iPaaS solutions, LLM को integrate करने की कोशिश करते समय भी, deterministic architecture की बेड़ियों में जकड़े हुए हैं
- UiPath का Autopilot और Zapier का AI Actions केवल sub-agent design patterns के लिए LLM उपलब्ध कराते हैं, जैसे text-to-action या semantic search, synthesis और one-shot generation के लिए nodes
ये AI capabilities शक्तिशाली हो सकती हैं, लेकिन process automation में LLM के अधिक परिवर्तनकारी use cases अभी भी छूट रहे हैं

AI agent निर्णय इंजन के रूप में मूल रूप से अलग हैं

आज के RPA bots या RAG apps से अलग, agent application के control flow के केंद्र में एक decision engine के रूप में बैठते हैं
पहली बार ये adaptability, multi-step actions, complex reasoning और मज़बूत exception handling को संभव बनाते हैं
Invoice Reconciliation के उदाहरण से समझें: किसी नई invoice PDF को कंपनी के general ledger से मिलाने वाले एक सरल process diagram में भी workflow की complexity तेज़ी से संभालना मुश्किल हो जाती है
- केवल शुरुआती 3 decision sets के भीतर ही सभी संबंधित exception scenarios पर विचार करना लगभग असंभव हो जाता है
- इस workflow को रोबोट की तरह चलाने वाला RPA bot अक्सर error देता है और partial match या missing items को इंसान के पास escalate कर देता है
लेकिन उसी workflow पर agent लागू करने पर यह कहीं बेहतर प्रदर्शन करता है
- नई परिस्थितियों के अनुरूप ढलना: बुनियादी reasoning और संबंधित business context के आधार पर यह नए data sources, invoice formats, naming conventions, account numbers और policy changes को बुद्धिमानी से पहचान और adapt कर सकता है
- multi-step tasks करना: अगर invoice amount मेल नहीं खाती, तो यह vendor के हालिया emails की जाँच करके price change की संभावना की पुष्टि करने जैसी multi-step investigation कर सकता है
- complex reasoning दिखाना: अगर किसी international vendor की invoice को ledger से reconcile करना हो, तो invoice currency, ledger currency, transaction date, exchange rate fluctuation, cross-border charges और bank fees जैसे कई तत्वों को साथ में खोजकर calculate करना पड़ता है। Agent इस तरह की intelligence दिखा सकता है, जबकि RPA bot इसे इंसान तक escalate कर सकता है
- uncertainty को ध्यान में रखना: line items में rounding errors या अपठनीय numbers जैसी exceptions के लिए यह total order amount match, पिछली invoices के timing और frequency जैसे context के आधार पर मज़बूती से handle कर सकता है

AI agent बाज़ार का परिदृश्य

AI agent अब science fiction नहीं रहे। startups से लेकर Fortune 500 कंपनियों तक, लोग इन systems को पहले ही बड़े पैमाने पर खरीद और उपयोग कर रहे हैं
मौजूदा agent market को दो मुख्य आयामों में देखा जा सकता है: domain specificity और LLM autonomy
- domain specificity: healthcare या customer support जैसे vertical industries या departments के लिए specialized agents से लेकर व्यापक और सामान्य क्षमताओं वाले horizontal agent platforms तक
- LLM autonomy: यह दर्शाता है कि language model application logic को स्वतंत्र रूप से कितनी हद तक plan और direct कर सकता है
market map के ऊपर-दाईं ओर सबसे अधिक horizontal और generalizable agents आते हैं
- Enterprise agent: scalable platforms जो natural language SOPs या नए कर्मचारियों को दिए जाने वाले नियमों जैसी चीज़ों के आधार पर कई functions और workflows में agents को build और manage कर सकते हैं। अधिकांश "agent on rails" architecture का उपयोग करते हैं, जहाँ हर नए process के लिए agent को pre-defined tasks, business context और guardrails के सेट पर आधारित होना पड़ता है
- Browser agent: "general AI agent" design का पालन करते हैं, जो web browsing, visual UI tasks और text input जैसी चीज़ों को automate करने के लिए विभिन्न software interfaces और underlying codebases पर trained vision transformers का उपयोग करते हैं। ये generalizability तो देते हैं, लेकिन अक्सर consistency की कीमत पर
- AI-enabled services: "agent on rails" design को वास्तव में काम करने योग्य बनाने के लिए व्यापक data infrastructure और guardrails की ज़रूरत होती है, इसलिए Distyl और Agnetic जैसी कंपनियाँ "Palantir for AI" मॉडल के तहत forward-deployed engineering services देकर ग्राहकों के साथ इस अंतर को भरती हैं
हालाँकि, सभी agents horizontal और generalizable होने का लक्ष्य नहीं रखते। domain और workflow-specific agents की संख्या बढ़ रही है, क्योंकि problem type को सीमित करके reliability बढ़ाई जा सकती है
- Vertical agent: सबसे आशाजनक अवसर उन manual और procedure-centric processes में हैं जिन्हें लोग SOPs या rules के अनुसार संभालते हैं। customer support, hiring, software development के tasks जैसे code review/testing/maintenance, cold sales और security operations प्रमुख श्रेणियाँ हैं
- AI assistant: agent के focus को domain specificity के बजाय task specificity के ज़रिए सीमित करने का एक और तरीका। enterprise और vertical agents द्वारा संभाले जाने वाले complex end-to-end processes की तुलना में, ये अधिक सरल और productivity-focused tasks करते हैं
भले ही वे स्वयं agent न हों, RAG architecture पर बने generative AI solutions कभी-कभी agent-based solutions के समान budgets और workflows के लिए प्रतिस्पर्धा करते हैं
- Vertical AI: healthcare automation platform Tennr fax, PDF और phone जैसे विभिन्न स्रोतों से unstructured data निकालकर उसे clinics के EHR में दर्ज करता है, जिससे referral processing आगे बढ़ती है और कर्मचारियों की manual data entry की ज़रूरत खत्म होती है
- RAG-as-a-Service: Danswer और Gradient जैसी कंपनियाँ ग्राहकों को PDF जैसे unstructured data sources को query करने, data extract करने और उसे अधिक structured databases या systems में दर्ज करने में सक्षम बनाती हैं
- Enterprise search: Glean, Perplexity, Sana आदि semantic queries उपलब्ध कराते हैं, ताकि conceptually related documents को index और retrieve करके संगठन-भर के ज्ञान का बेहतर प्रबंधन हो सके और data silos टूट सकें

एंटरप्राइज़ ऑटोमेशन का भविष्य

generative AI की दूसरी लहर केवल पढ़ने और लिखने से नहीं, बल्कि ऐसे agents से परिभाषित होगी जो उपयोगकर्ता की ओर से सोच और कार्रवाई कर सकें
जैसे-जैसे ये architectures परिपक्व होंगे, वे AI द्वारा service economy पर कब्ज़ा करने के लिए एक शक्तिशाली catalyst बनेंगे