• प्रोजेक्ट आगे बढ़ने पर साधारण स्क्रिप्ट लिखने से स्वायत्त AI एजेंट बनाने की दिशा में विकास का पैटर्न बार-बार दिखाई देता है
  • विकसित किए जा रहे टूल्स को टूल एक्सेस देने पर साधारण conversational model योजना बना सकने, निष्पादन, और दोहराव कर सकने वाले एजेंट में बदल जाता है
  • classifier या conditional-logic आधारित संरचनाएं अंततः एजेंट आर्किटेक्चर से बदल दी जाती हैं, और मॉडल द्वारा चुने गए tool calls पर केंद्रित सरल संरचना अधिक लचीली और शक्तिशाली होती है
  • इंसान की भूमिका Human-in-the-Loop से Human-on-the-Loop की ओर जाती है, और लक्ष्य तथा guardrails सेट करना मुख्य कार्य बन जाता है
  • कोड की जटिलता से अधिक विश्वास और judgment management महत्वपूर्ण हो जाते हैं, और एजेंट डेवलपर के साथ बढ़ने वाली प्रणाली के रूप में स्थापित होते हैं

साधारण स्क्रिप्ट से एजेंट की ओर अभिसरण

  • 2025 के दौरान किए गए अधिकांश AI प्रोजेक्ट अंततः एजेंट के रूप में समाप्त हुए
  • इनपुट·प्रोसेसिंग·आउटपुट संरचना वाली सरल स्क्रिप्ट repetition loop, tool array, JSON parsing जोड़ते हुए एजेंट में विकसित हो जाती है
  • लेखक की नज़र में एजेंट की परिभाषा: ऐसा मॉडल जो टूल्स तक पहुंच रखता हो और loop के माध्यम से execute होता हो
  • यानी, पर्याप्त समय दिया जाए तो हर AI प्रोजेक्ट एजेंट की ओर अभिसरित हो जाता है

स्वायत्तता की ओर गुरुत्वाकर्षण

  • साधारण automation से आगे बढ़कर, software ‘digital intern’ की तरह स्वयं निर्णय लेने और काम करने वाले चरण में पहुंचता है
    • Gemini Scribe शुरुआत में Obsidian के लिए एक साधारण chat plugin था, लेकिन read_file टूल एक्सेस मिलने पर उसने संदर्भ प्रबंधन और execution खुद करना शुरू कर दिया
    • उपयोगकर्ता को अब मॉडल का input हाथ से manage नहीं करना पड़ता, बल्कि सिर्फ “मीटिंग नोट्स पढ़ो और उनका सारांश दो” जैसे निर्देश-स्तर के कमांड देने होते हैं
  • यह बदलाव conversation से delegation की ओर संक्रमण को दर्शाता है, जहां एजेंट योजना, execution और repetition संभालता है

स्क्रिप्ट से Sudoers तक

  • Gemini CLI के विकास में भी, मॉडल ने command execution tools का उपयोग करते हुए साधारण code generator से आगे बढ़कर स्वायत्त executor का रूप लिया
    • मॉडल ने tests चलाए, failures पहचाने, फिर खुद सुधार करके दोबारा execution करने वाला loop बनाया
  • इस प्रक्रिया में security और trust के मुद्दे उभरकर सामने आए, इसलिए sudoers फ़ाइल जैसी permission separation policy system की जरूरत पड़ी
    • साधारण स्क्रिप्ट को policy engine की जरूरत नहीं होती, लेकिन एजेंट के लिए judgment errors रोकने वाले guardrails अनिवार्य हैं

classifier बनना चाहता था एजेंट

  • Podcast RAG project में, उपयोगकर्ता की query के आधार पर search target को classify करने वाला AI classifier बनाया गया, लेकिन उसकी सीमाएं सामने आईं
    • classification logic उपयोगकर्ता के इरादे को पूरी तरह नहीं पकड़ पाई, और जो निर्णय मॉडल पहले से अच्छे से कर सकता था, उसे कोड ने सीमित कर दिया
  • समाधान यह था कि classifier हटाकर एजेंट को search_descriptions, search_episodes ये दो टूल दे दिए जाएं
    • एजेंट परिस्थिति के अनुसार टूल्स चुनता है, उन्हें साथ में भी इस्तेमाल करता है, और अधिक लचीली search करता है
  • Gemini Scribe में भी जटिल context prediction logic हटाकर, ज़रूरत पड़ने पर फ़ाइल पढ़ने वाली tool-call संरचना से चीज़ें सरल की गईं
  • “अगर आप if/else से तय कर रहे हैं कि AI को क्या करना चाहिए, तो आप पहले ही एजेंट बना रहे हैं” — यह एक डेवलपमेंट मानदंड के रूप में प्रस्तुत किया गया

Human-on-the-Loop की ओर संक्रमण

  • इंसान की भूमिका हर चरण को approve करने वाली संरचना से बदलकर सिर्फ लक्ष्य और सीमाएं तय करने वाले supervisor की हो जाती है
    • एजेंट बिना लगातार मानवीय हस्तक्षेप के काम करता है, इसलिए स्पष्ट लक्ष्य, सीमाएं और exception handling की परिभाषा अनिवार्य है
  • उचित guardrails न हों तो एजेंट के input का इंतज़ार करते रहने या गैर-उत्पादक रास्तों में फंसने का जोखिम भी रहता है
  • इंसान executor नहीं, बल्कि supervisor और boundary setter के रूप में सिस्टम की दिशा संभालता है

जटिलता को स्वीकार करना

  • एजेंट बनाना दिखने जितना कठिन नहीं है; उल्टा, condition branching और exception handling logic हटाकर इसे सरल बनाया जा सकता है
    • क्योंकि मॉडल परिस्थिति के अनुसार निर्णय लेता है, इसलिए पहले से अनुमान लगाने वाली logic की जरूरत नहीं रहती
  • असली जटिलता कोड में नहीं, बल्कि trust और judgment delegation में है
    • डेवलपर को syntax errors से अधिक judgment errors रोकने वाली design पर ध्यान देना चाहिए
  • स्थिर स्क्रिप्ट के विपरीत, एजेंट उपयोगकर्ता के अनुरोध के अनुसार विकसित होते हुए बेहतर तरीके खोजने वाली प्रणाली है
  • जब आपको साधारण स्क्रिप्ट में tool definitions जोड़ने का मन होने लगे, तो समझिए आप एजेंट बनाने के चरण में प्रवेश कर चुके हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.