Microsoft Agent Lightning: कोड बदले बिना AI एजेंट के लिए reinforcement learning training framework

(aisparkup.com)

13 पॉइंट द्वारा davespark 2025-10-27 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Microsoft Research द्वारा पेश किया गया Agent Lightning एक अभिनव framework है, जो मौजूदा AI agent code में लगभग कोई बदलाव किए बिना उसे reinforcement learning (RL) से train करने की सुविधा देता है। यह LangChain, AutoGen जैसे विभिन्न agent frameworks के साथ compatible है, और SQL agent tests में accuracy को 73.2% से 80.4% तक बढ़ाने जैसे प्रमाणित परिणाम दिखा चुका है.

प्रमुख विशेषताएँ

Training-Agent Disaggregation architecture: agent execution और RL training को पूरी तरह अलग करता है। Sidecar design के ज़रिये non-intrusive data collection (prompts, tool calls, reward signals) संभव बनाता है, जिससे zero code changes के साथ काम हो सकता है।
Framework independence: OpenAI-compatible API के माध्यम से LangChain, OpenAI Agent SDK, CrewAI जैसे किसी भी agent को तुरंत integrate किया जा सकता है।
GRPO algorithm: PPO का एक variant, जो group के भीतर relative performance comparison के आधार पर memory-efficient learning करता है। LightningRL जटिल multi-turn interactions को transition में तोड़कर credit assignment संभालता है।

व्यावहारिक उपयोग उदाहरण: SQL agent

LangGraph-आधारित SQL agent (natural language प्रश्नों को SQL queries में बदलना, उन्हें चलाना, और error-fixing loop) पर training की गई:

Training process: server चलाने के बाद सिर्फ client connection से शुरुआत। उदाहरण: Qwen2.5-Coder-3B model का उपयोग।
परिणाम: Spider dataset पर accuracy 73.2% → 80.4%, और average transitions 3.30 → 2.60 होकर efficiency बढ़ी। 7B model ने 84.4% हासिल किया।

installation और उपयोग

pip install agentlightning (अतिरिक्त: [apo] या [verl] option)।
GitHub examples में Text-to-SQL, RAG आदि के उदाहरण उपलब्ध हैं। multi-agent systems में भी selective optimization संभव है।
समर्थित algorithms: GRPO/PPO, Supervised Fine-tuning, APO (prompt optimization)।

भविष्य की दिशा

open source project के रूप में community सक्रिय हो रही है (DeepWerewolf आदि)। आगे richer reward mechanisms, Off-policy RL, curriculum learning जैसी क्षमताएँ जोड़ी जाने की योजना है। agent development और optimization को अलग करने वाला यह दृष्टिकोण adaptive agents के युग की ओर एक महत्वपूर्ण कदम माना जा रहा है।