21 पॉइंट द्वारा GN⁺ 2025-08-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • मौजूदा LLM-आधारित एजेंट आम तौर पर सिर्फ टूल्स को बार-बार कॉल करने वाली 'shallow एजेंट' संरचना तक सीमित रहे हैं, लेकिन Deep Agents जटिल और दीर्घकालिक कार्यों को भी गहराई से हल करने वाले योजनाबद्ध और संरचित AI एजेंट हैं
  • Deep Research, Manus, Claude Code जैसे नवीनतम एजेंट ऐसे 'deep agents' को लागू करते हैं जो विषयों की अधिक गहरी पड़ताल और context management कर सकते हैं
    • विस्तृत system prompt, planning tools, sub-agents, और file system का उपयोग 'deep agent' की मुख्य विशेषताएँ हैं
  • LangChain ने ऐसा open source पैकेज deepagents जारी किया है जिससे कोई भी अपने vertical (domain) के अनुरूप deep agent आसानी से बना सके
    • custom prompt, tool, और sub-agent सेटिंग संभव है, और research, development आदि विभिन्न क्षेत्रों में लागू किया जा सकने वाला एक general-purpose framework प्रदान किया गया है

मौजूदा LLM एजेंटों की सीमाएँ और Deep Agents की विशेषताएँ

  • पारंपरिक एजेंट: LLM लूप में चलते हुए सिर्फ टूल कॉल करता है → छोटा context, केवल अल्पकालिक और सरल कार्यों के लिए उपयुक्त
  • Deep Agents: दीर्घकालिक लक्ष्य और जटिल tasks को भी स्वयं विभाजित, योजनाबद्ध, ट्रैक और collaborative तरीके से संभाल सकते हैं

Deep Agents को बनाने वाले 4 तत्व

  1. विस्तृत system prompt

    • Claude Code जैसे प्रमुख उदाहरणों की तरह, ऐसे prompts का उपयोग जो टूल उपयोग के तरीके और व्यवहार के उदाहरणों को विस्तार से बताते हैं
    • जटिल निर्देशों और few-shot उदाहरणों से अधिक 'deep' reasoning और execution को प्रेरित किया जाता है
  2. Planning tool

    • वास्तविक functionality न होने पर भी 'To-Do list' जैसे planning tools को routine में शामिल कर context management और execution क्षमता बनाए रखी जाती है
    • no-op (कोई कार्रवाई न करने वाला) होने पर भी prompt में context देने का प्रभाव रहता है
  3. Sub Agents

    • उप-कार्य के अनुसार sub-agent बनाए और विभाजित किए जाते हैं, और हर एजेंट अलग-अलग काम करने के बाद परिणामों को एकीकृत करता है
    • बड़े और जटिल problems को parallel और विभाजित कार्य संरचना में संभाला जा सकता है
  4. File system

    • सिर्फ वास्तविक file operations के लिए नहीं, बल्कि notes और context repository के रूप में भी उपयोग
    • कई एजेंट और sub-agents file system साझा करके collaboration और long-term context बनाए रखते हैं

LangChain का Deep Agents framework: deepagents

  • open source Python package (pip install deepagents), custom prompt, tool, और sub-agent configuration संभव
    • Claude Code से प्रेरित system prompt, जिसे अधिक general रूप में संशोधित किया गया है
    • no-op ToDo list planning tool (Claude Code जैसा)
    • sub-agent creation और custom specification संभव
    • LangGraph की अवधारणा का उपयोग करने वाला virtual file system (agent state का उपयोग)
  • उदाहरण के रूप में deep research agent sample दिया गया है, जिससे vertical-विशेष एजेंट आसानी से बनाए जा सकते हैं

उपयोग के उदाहरण और महत्व

  • research, development, code generation, research, जटिल automation जैसे दीर्घकालिक और बहु-स्तरीय AI कार्यों के लिए अनुकूलित
  • विस्तृत context design और विभाजित कार्य संरचना के माध्यम से अधिक गहरे परिणाम उत्पन्न किए जा सकते हैं
  • कोई भी अपने domain के अनुसार 'deep agent' बना सकता है—यह AI उपयोग के अगले चरण का संकेत देता है

1 टिप्पणियां

 
GN⁺ 2025-08-07
Hacker News टिप्पणियाँ
  • मैं लेखक हूँ। हाल में यह देखना काफ़ी प्रभावशाली लगा कि claude code, manus, deep research जैसे कई agents लंबे समयावधि वाले कामों को खास तौर पर अच्छी तरह चला लेते हैं। असल में अंदर से LLM loop चलाते हुए tools call करता है। लेकिन अगर इसे बिना ज़्यादा सोचे ऐसे ही कर दिया जाए, तो LLM जटिल या लंबे काम ठीक से पूरा नहीं कर पाता। इसलिए जिज्ञासा हुई कि दूसरे agents यह कैसे कर लेते हैं। जो common points मिले, वे ये थे: 1) planning tool का उपयोग 2) sub-agents का उपयोग 3) file system की तरह context offload करने वाली संरचना 4) detailed system prompt design (prompt engineering अब भी महत्वपूर्ण है)। इनमें से हर तरीका पहले से मौजूद था, लेकिन agent development में इन्हें व्यापक रूप से इस्तेमाल किया जाता हो, ऐसा नहीं है। मुझे लगता है कि असली insight यही combination है। feedback स्वागत है

  • अलग-अलग राय पर विचार करने के बाद, मैं इस बात से सहमत हूँ कि deep agents की अवधारणा भी आखिरकार agent + tool combination से बहुत अलग नहीं है। मेरे हिसाब से मुख्य बिंदु ये हैं: 1) base knowledge के लिए अच्छा LLM चाहिए 2) LLM को सही तरह guide करने वाला prompt महत्वपूर्ण है (उसे agent बनाना) 3) जिन functions में अलग judgment की ज़रूरत नहीं है, उन्हें tool के रूप में implement करें 4) जब agent+tool flow जटिल हो जाए, तो focused prompts और कम tools वाले sub-agents में बाँटकर हर domain को अलग करें

    • आखिरकार यह शायद ऐसे "coordinator" model की ओर बढ़ेगा जहाँ top-level agent तय करेगा कि क्या करना है और कौन-सा agent उस काम के लिए उपयुक्त है। यह संरचना recursively चल सकती है (जैसे: हर product के लिए एक agent हो, और वह agent आगे frontend/backend काम संभालने वाले agents में विभाजित हो)। ऐसी संरचना में वास्तविक काम करने वाले agents को केवल सीमित context और tools पर ध्यान देना होगा, और ऊपर वाले agent को सिर्फ़ इतना पता होना चाहिए कि sub-agents क्या कर सकते हैं
  • deep agents = planning जोड़ा हुआ agent + agent tool combination, इसलिए मुझे यह आखिरकार मौजूदा agents जैसा ही लगता है। अफ़सोस इस बात का है कि LangChain अक्सर सरल concepts को भी unnecessarily जटिल पैकेजिंग में पेश करता है और बेवजह नए terms या concepts बनाकर प्रचार करता है। हाँ, LangSmith को ज़्यादा बेचना है तो शायद यह टाला नहीं जा सकता

    • मैं पहले ऐसा consulting करता था। पूरी तरह वही चीज़ है, ऐसा तो नहीं कहूँगा, लेकिन मूल रूप से यह बहुत आम तरीका है। साधारण चीज़ को नाटकीय अंदाज़ में पेश करो, अपनी terminology और classification बनाओ, और फिर उसे बेचो। अगला चरण होता है अपनी अवधारणाओं से SEO भर देना। deep * और agent जैसे लोकप्रिय keywords पर सवार हो जाओ तो काम बन जाता है… ऐसी बातें सोचो तो मूलतः corporate माहौल में आत्मा निकलती हुई महसूस होती है
  • यह लगभग वैसा ही परिणाम है जिसकी मुझे उम्मीद थी। अब जब साफ़ हो गया है कि सीधे MCP server लिखना ज़्यादा असरदार नहीं रहा, तो ऐसी नई पद्धति चाहिए जिसे तेज़ी से mainstream बनाया जा सके। gemini या claude code की तरह सीधे agent बनाना आजकल trend है। entry barrier कम है, कुछ हद तक उपयोगी भी है, गहरी AI expertise भी नहीं चाहिए, और marketing भी आसान है। यह कुछ-कुछ “cursor for X” मॉडल जैसा है, बल्कि उससे भी तेज़ी से product बनाया जा सकता है। शायद ऐसे coding agents बहुत बड़ी संख्या में बनेंगे, लेकिन अभी तक इसमें कुछ बहुत नया महसूस नहीं होता। फिर भी, इतनी जल्दी शुरुआत कर पाना इस मायने में अच्छा है कि intuition से बनाए गए claude code clones की value जल्द ही 0 के क़रीब आ जाएगी

  • मैं इस repo के code को लगातार follow करते हुए analyze कर रहा हूँ https://github.com/ghuntley/claude-code-source-code-deobfuscation लेखक ने Claude Code का reverse engineering किया है और architecture को अच्छी तरह समझाया है। लिंक को बेहतर repo में बदल दिया गया है

    • क्या कोई समझा सकता है कि यह क्या दिखाता है? मुझे तो बस एक बहुत बड़ा readme और system commands ही दिखाई दे रहे हैं
  • मैं rust में एक general-purpose agent cli+library बना रहा हूँ: https://github.com/fdietze/alors अभी development के शुरुआती चरण में है, लेकिन मैं इसे खुद इसी के development में इस्तेमाल भी कर रहा हूँ। feedback स्वागत है

  • मेरी नज़र में Jetbrains का Junie सबसे पहले वास्तव में high-quality to do list feature लेकर आया था, और वही मुझे सबसे अच्छा लगा। paid होने के बाद मैंने उसे इस्तेमाल नहीं किया, लेकिन उस समय Junie धीमा और सावधान था। Cursor बार-बार उन files को भी overwrite कर देता था जिनमें कोई समस्या नहीं थी, और Claude बीच का अनुभव देता था

    • Cursor todo list के लिए dedicated UI भी देता है और agent को वही इस्तेमाल करने के लिए guide करता है (UX अच्छा है, लेकिन files को अलग से सीधे नहीं देखा जा सकता)। amazon का kiro tasks.md में काम और spec दोनों manage करता है। अब tools इतने ज़्यादा हैं कि बस जो आपके लिए सही हो, उसे चुनकर इस्तेमाल करें
  • सबसे दिलचस्प हिस्सा पूरी तरह छिपा हुआ है। असली बात यह है कि parsing से execution तक tool calls को कैसे manage किया जाता है

  • context को sub-agent के ज़रिए अलग करना ही सच में innovative point है। बाकी तो बस langgraph react agent है

    • यह क़ीमती है, लेकिन वास्तव में पूरी तरह नया idea नहीं है
  • मैं इस हिस्से के बारे में और जानकारी चाहता हूँ कि todo list tool no-op है। यह ठीक-ठीक कैसे काम करता है, जानना चाहता हूँ

    • अगर code में सीधे देखना है, तो हमारे बनाए Sketch agent में TODO list tool का उपयोग कुछ इस तरह किया गया है: https://github.com/boldsoftware/sketch/blob/main/claudetool/todo.go agent से यह tool इस्तेमाल करवाना अपेक्षाकृत आसान है। ज़्यादातर काम इसे UI में दिखाने पर जाता है
    • मेरा भी वही सवाल है। इसका मतलब क्या है, ठीक से समझ नहीं आ रहा। लेकिन साफ़ है कि Claude Code के बेहतरीन होने का यह एक कारण लगता है
    • मेरी राय में यह बस एक simple concat function है। वास्तव में उपयोगी prompt techniques का implementation ज़्यादातर काफ़ी सरल होता है। उतना ही चौंकाने वाली बात यह है कि TODO जैसा simple idea इतना आगे तक जाता है! (गंभीर production environment में agent framework मुश्किल होते हैं। जैसे: सही combination और settings चुनना सच में कठिन है, और infra में multi-tenancy, multithreading, streaming, cancellation वगैरह बहुत कुछ संभालना पड़ता है)। मैं पूरी तरह सहमत हूँ कि TODO list महत्वपूर्ण है। louie.ai की security log analysis competition जैसी चीज़ों में भी इसी तरीके से बहुत speed-up मिला। यह CoT को कुछ turns में ही टूट जाने से रोकता है। एक मज़ेदार aha moment यह था कि nested todo (A.2.i...) उपयोगी होता है, और LLM के लिए यह वैसे भी linearize हो जाता है, इसलिए इसे संभालना मुश्किल नहीं होता। हम claude code की बजाय internally इस तरह के plan prompt से manage करते हैं: https://github.com/graphistry/louie-py/blob/main/ai/prompts/PLAN.md
    • context में सिर्फ़ यह रिकॉर्ड होता है कि tool call हुआ था। actual todo list data को फिर से नहीं लाया जाता
    • मेरी समझ से इसे बस TODO list लिखने वाले prompt की तरह समझना चाहिए