• OpenAI द्वारा घोषित DeepResearch वेब सर्च के ज़रिये कंटेंट का सारांश बनाता है और प्रश्न-उत्तर करता है
    • GAIA benchmark में उच्च स्कोर हासिल करने के कारण इस पर ध्यान गया
    • एक शक्तिशाली LLM को आंतरिक agent framework के साथ जोड़कर वेब ब्राउज़िंग जैसे कई tools का चरणबद्ध उपयोग करता है
  • OpenAI ने agent framework के विस्तृत विवरण सार्वजनिक नहीं किए, इसलिए इसे open source में दोबारा बनाने के लिए 24 घंटे तक प्रयोग किया गया

agent framework क्या है और यह क्यों महत्वपूर्ण है?

  • agent framework वह संरचना है जो LLM के ऊपर एक अतिरिक्त layer जोड़कर browsing, PDF पढ़ना जैसी कई actions कराती है
  • LLM को सिर्फ़ साधारण chat के रूप में उपयोग करने की तुलना में, agent system के साथ जोड़ने पर यह कहीं अधिक शक्तिशाली हो जाता है
  • smolagents जैसी library के ज़रिये एक सरल agent framework लागू करने पर भी performance में बड़ा सुधार होता है
  • OpenAI DeepResearch भी इसी तरीके का उपयोग करके उत्कृष्ट performance हासिल करता है

GAIA benchmark

  • GAIA agent performance का मूल्यांकन करने के लिए बनाया गया एक बहुत कठिन benchmark है
  • उदाहरण के तौर पर, “Embroidery from Uzbekistan” में आने वाले फलों को किसी विशेष जहाज़ के पुराने breakfast menu से जोड़कर क्रम में लिखने जैसा जटिल प्रश्न दिया जाता है
  • केवल एकल LLM के साथ स्कोर लगभग 7% तक सीमित रहता है, लेकिन DeepResearch 67% से अधिक हासिल करता है, जिससे बड़ा अंतर दिखाई देता है
  • GAIA के प्रश्नों में multi-step reasoning, information retrieval, multimodal processing आदि की ज़रूरत होती है, इसलिए agent approach की असली क्षमता परखने के लिए यह उपयुक्त है

Open Deep Research बनाना

  • DeepResearch के तरीके को दोहराने के लिए open source LLM और agent framework को जोड़ने का प्रयोग किया गया
  • लक्ष्य एक साधारण text-based web browser और file inspection tool जैसी चीज़ों से GAIA performance बढ़ाना था
  • CodeAgent का उपयोग
    • CodeAgent तरीका JSON की जगह actions को code के रूप में व्यक्त करता है
    • Wang et al. (2024) के शोध के अनुसार, code representation अधिक compact, intuitive और LLM के लिए optimized होता है
    • steps की संख्या घटने से cost कम होती है और multimodal state management में भी यह फायदेमंद है
  • उपयुक्त tools बनाना
    • पहला tool: text-based web browser
      • Operator जैसी समृद्ध सुविधाएँ अभी लागू नहीं की गई हैं, लेकिन शुरुआती चरण में केवल basic browsing सुविधा दी गई है
    • दूसरा tool: text file formats देखने के लिए inspector
      • एक सरल document processing tool के माध्यम से सामग्री पढ़ने की सुविधा दी गई है
    • आगे चलकर अधिक विस्तृत file format support, web browsing के दौरान vision model integration, और GUI agent जोड़ने की योजना है

परिणाम

  • 24 घंटे के भीतर किए गए पुनर्निर्माण प्रयोग में GAIA benchmark पर 54% स्तर तक पहुँचा गया
  • JSON की जगह code representation उपयोग करने पर स्कोर 33% से बढ़कर 54% हो गया
  • खुले smolagents framework और tools का उपयोग करके कोई भी इसे दोहरा सकता है
  • Operator-स्तर के browser या शक्तिशाली local models के साथ इसे जोड़कर और सुधार की काफी गुंजाइश है

समुदाय द्वारा बनाए गए पुनर्निर्माण

  • dzhng, assafelovic, nickscamara, jina-ai, mshumer आदि की कई implementations समुदाय में सामने आई हैं
  • हर implementation अलग libraries का उपयोग करती है या अलग search/indexing methods आज़माती है
  • आगे open LLM, vision models, और code-based action representation का उपयोग करने वाले पुनर्निर्माण परिणाम साझा कर इसे और विकसित करने की योजना है

सबसे महत्वपूर्ण अगला कदम

  • OpenAI के Operator की तरह उन्नत web browsing सुविधाओं को support करने के लिए GUI agent बनाना महत्वपूर्ण है
  • स्क्रीन को देखकर mouse और keyboard से नियंत्रण करने वाली क्षमता को open source के रूप में उपलब्ध कराने का लक्ष्य है
  • smolagents, OpenAI Operator आदि के साथ integration करके इसे और परिपक्व बनाने की योजना है
  • GAIA स्कोर में सुधार, open LLM का उपयोग, और visual web browsing का कार्यान्वयन प्रमुख चुनौतियाँ हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.