OpenAI ने AI एजेंट डेवलपमेंट के लिए डेवलपर टूल्स पेश किए

xguru · 2025-03-12T09:08:31+09:00

Web Search: वेब से नवीनतम जानकारी खोजता है और citation URL लौटाता है File Search: अपलोड की गई फ़ाइलों की सूची में semantic/keyword search Computer Use: कंप्यूटर को नियंत्रित करके काम करता है Responses API: उन्नत integrated response interface. टेक्स्ट/इमेज input संभव है और web/file search तथा CUA फीचर सभी का उपयोग कर सकता है Agents SDK: एजेंट डेवलपमेंट के लिए orchestration framework पात्र कुछ डेवलपर्स/कंपनियां OpenAI के साथ prompts साझा करके मॉडल को बेहतर बनाने में मदद कर सकती हैं इस साल अप्रैल के अंत तक gpt-4.5-preview, gpt-4o, o1 के लिए प्रति दिन अधिकतम 10 लाख tokens, और gpt-4o-mini, o1-mini, o3-mini के लिए अधिकतम 1 करोड़ tokens तक मुफ्त उपयोग संभव पात्रता OpenAI डेवलपर डैशबोर्ड में देखी जा सकती है OpenAI का परिचय लेख : New tools for building agents Web Search ChatGPT में नवीनतम जानकारी देने के लिए सीधे वेब से जानकारी खोज सकता है Chat Completions API के जरिए fine-tuned models और search tools को सीधे उपयोग किया जा सकता है Chat Completions API में web search उपयोग का तरीका मॉडल response से पहले हमेशा वेब से नवीनतम जानकारी खोजता है यदि केवल जरूरत पड़ने पर web search tool(web_search_preview) का उपयोग करवाना हो, तो Responses API पर स्विच करना होगा वे मॉडल जिनमें web search उपलब्ध है gpt-4o-search-preview gpt-4o-mini-search-preview File Search मॉडल response बनाने से पहले उपयोगकर्ता की फ़ाइलों से संबंधित जानकारी खोज सकता है यह Responses API में उपलब्ध है, और अपलोड की गई फ़ाइलों के knowledge base से semantic search और keyword search के जरिए जानकारी खोजता है Vector Store और semantic search का उपयोग Vector Store बनाकर और फ़ाइलें अपलोड करके मॉडल के बेसिक knowledge को विस्तारित किया जा सकता है यह OpenAI द्वारा managed tool है, इसलिए उपयोगकर्ता को खुद कोड implement करने की जरूरत नहीं है जब मॉडल को जरूरत लगती है, तो यह अपने-आप tool call करके फ़ाइलों से जानकारी खोजता है और response बनाता है उपयोग का तरीका पहले Vector Store में knowledge base सेट करना और फ़ाइलें अपलोड करना जरूरी है Vector Store सेट होने के बाद file_search tool को मॉडल के उपलब्ध tools की सूची में जोड़ा जा सकता है फिलहाल एक बार में सिर्फ एक Vector Store में ही search संभव है (केवल एक single Vector Store ID का उपयोग किया जा सकता है) Computer Use उपयोगकर्ता के कंप्यूटर पर काम कर सकने वाले Computer-Using Agent(CUA) मॉडल पर आधारित GPT-4o की visual processing और advanced reasoning क्षमता को जोड़कर कंप्यूटर interface को नियंत्रित कर सकता है और काम कर सकता है यह Responses API के जरिए उपलब्ध है, Chat Completions में उपलब्ध नहीं है अभी यह beta version में है, इसलिए vulnerabilities या mistakes की संभावना है. पूरी तरह authenticated environment या महत्वपूर्ण कामों में इसका उपयोग अनुशंसित नहीं है काम करने का तरीका मॉडल क्लिक(x, y), इनपुट(text) जैसे कंप्यूटर कार्य commands भेजता है उपयोगकर्ता का कोड उन कार्यों को कंप्यूटर या browser environment में चलाता है और परिणाम का screenshot लौटाता है मॉडल screenshot के आधार पर environment की स्थिति समझता है और अगला काम सुझाता है लगातार loop के जरिए क्लिक, इनपुट, स्क्रॉल जैसे विभिन्न काम automate किए जा सकते हैं उपयोग के उदाहरण : फ्लाइट बुकिंग, प्रोडक्ट सर्च, फॉर्म भरना Responses API OpenAI का सबसे उन्नत model interface टेक्स्ट और इमेज input को support करता है, और टेक्स्ट output बनाता है stateful interaction देता है, जिसमें पिछले response के output को अगले input के रूप में उपयोग किया जा सकता है फीचर विस्तार संभव built-in tools के जरिए मॉडल की क्षमताएं बढ़ाई जा सकती हैं File Search – अपलोड की गई फ़ाइलों में semantic और keyword search संभव Web Search – वेब से नवीनतम जानकारी खोजी जा सकती है Computer Use – कंप्यूटर interface को नियंत्रित करके automation tasks किए जा सकते हैं Function Calling – बाहरी systems और data तक पहुंच संभव Python functions को call किया जा सकता है और external systems के साथ interact किया जा सकता है Agents SDK जटिल abstraction के बिना, सरल और उपयोग में आसान package के रूप में Agent-आधारित AI apps विकसित किए जा सकते हैं पिछले experimental platform Swarm का production-level upgraded version मुख्य components(Primitive): Agents – निर्देशों और tools से लैस LLM-आधारित agents Handoffs – किसी खास काम को दूसरे agent को सौंपना Guardrails – agent के input values का validation और filtering Python integration और मजबूत फीचर्स Python के साथ उपयोग करने पर tools के बीच मजबूत relationships सेट किए जा सकते हैं और complex workflows लागू किए जा सकते हैं visualization और debugging के लिए Tracing फीचर शामिल है evaluation, debugging और model fine-tuning तक को support करता है Agents SDK की मुख्य विशेषताएं डिज़ाइन सिद्धांत फीचर्स पर्याप्त रूप से शक्तिशाली हों, लेकिन सीखने के लिए कम चीजें हों ताकि जल्दी अभ्यस्त हुआ जा सके default state में उत्कृष्ट performance दे, और जरूरत पड़ने पर detailed settings की जा सकें बेसिक फीचर्स Agent Loop : built-in loop के जरिए tool call → result processing → LLM response generation → समाप्ति तक अपने-आप प्रोसेस Python-first डिज़ाइन : Python language features का सीधे उपयोग करके agents को जोड़ना और orchestrate करना संभव Handoffs : कई agents के बीच काम का delegation और coordination संभव Guardrails : input values का validation और parallel checks, तथा error होने पर early termination संभव Function Tools : Python functions को अपने-आप tools में बदलना → automatic schema generation और validation Tracing : built-in tracing के जरिए workflow visualization, debugging, evaluation और improvement संभव

(x.com/OpenAIDevs)

21 पॉइंट द्वारा xguru 2025-03-12 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Web Search: वेब से नवीनतम जानकारी खोजता है और citation URL लौटाता है
File Search: अपलोड की गई फ़ाइलों की सूची में semantic/keyword search
Computer Use: कंप्यूटर को नियंत्रित करके काम करता है
Responses API: उन्नत integrated response interface. टेक्स्ट/इमेज input संभव है और web/file search तथा CUA फीचर सभी का उपयोग कर सकता है
Agents SDK: एजेंट डेवलपमेंट के लिए orchestration framework

पात्र कुछ डेवलपर्स/कंपनियां OpenAI के साथ prompts साझा करके मॉडल को बेहतर बनाने में मदद कर सकती हैं
- इस साल अप्रैल के अंत तक gpt-4.5-preview, gpt-4o, o1 के लिए प्रति दिन अधिकतम 10 लाख tokens, और gpt-4o-mini, o1-mini, o3-mini के लिए अधिकतम 1 करोड़ tokens तक मुफ्त उपयोग संभव
- पात्रता OpenAI डेवलपर डैशबोर्ड में देखी जा सकती है

OpenAI का परिचय लेख : New tools for building agents

Web Search

ChatGPT में नवीनतम जानकारी देने के लिए सीधे वेब से जानकारी खोज सकता है
Chat Completions API के जरिए fine-tuned models और search tools को सीधे उपयोग किया जा सकता है
Chat Completions API में web search उपयोग का तरीका
- मॉडल response से पहले हमेशा वेब से नवीनतम जानकारी खोजता है
- यदि केवल जरूरत पड़ने पर web search tool(web_search_preview) का उपयोग करवाना हो, तो Responses API पर स्विच करना होगा
वे मॉडल जिनमें web search उपलब्ध है
- gpt-4o-search-preview
- gpt-4o-mini-search-preview

File Search

मॉडल response बनाने से पहले उपयोगकर्ता की फ़ाइलों से संबंधित जानकारी खोज सकता है
यह Responses API में उपलब्ध है, और अपलोड की गई फ़ाइलों के knowledge base से semantic search और keyword search के जरिए जानकारी खोजता है
Vector Store और semantic search का उपयोग
- Vector Store बनाकर और फ़ाइलें अपलोड करके मॉडल के बेसिक knowledge को विस्तारित किया जा सकता है
- यह OpenAI द्वारा managed tool है, इसलिए उपयोगकर्ता को खुद कोड implement करने की जरूरत नहीं है
- जब मॉडल को जरूरत लगती है, तो यह अपने-आप tool call करके फ़ाइलों से जानकारी खोजता है और response बनाता है
उपयोग का तरीका
- पहले Vector Store में knowledge base सेट करना और फ़ाइलें अपलोड करना जरूरी है
- Vector Store सेट होने के बाद file_search tool को मॉडल के उपलब्ध tools की सूची में जोड़ा जा सकता है
- फिलहाल एक बार में सिर्फ एक Vector Store में ही search संभव है (केवल एक single Vector Store ID का उपयोग किया जा सकता है)

Computer Use

उपयोगकर्ता के कंप्यूटर पर काम कर सकने वाले Computer-Using Agent(CUA) मॉडल पर आधारित
GPT-4o की visual processing और advanced reasoning क्षमता को जोड़कर कंप्यूटर interface को नियंत्रित कर सकता है और काम कर सकता है
यह Responses API के जरिए उपलब्ध है, Chat Completions में उपलब्ध नहीं है
अभी यह beta version में है, इसलिए vulnerabilities या mistakes की संभावना है. पूरी तरह authenticated environment या महत्वपूर्ण कामों में इसका उपयोग अनुशंसित नहीं है
काम करने का तरीका
- मॉडल क्लिक(x, y), इनपुट(text) जैसे कंप्यूटर कार्य commands भेजता है
- उपयोगकर्ता का कोड उन कार्यों को कंप्यूटर या browser environment में चलाता है और परिणाम का screenshot लौटाता है
- मॉडल screenshot के आधार पर environment की स्थिति समझता है और अगला काम सुझाता है
- लगातार loop के जरिए क्लिक, इनपुट, स्क्रॉल जैसे विभिन्न काम automate किए जा सकते हैं
उपयोग के उदाहरण : फ्लाइट बुकिंग, प्रोडक्ट सर्च, फॉर्म भरना

Responses API

OpenAI का सबसे उन्नत model interface
टेक्स्ट और इमेज input को support करता है, और टेक्स्ट output बनाता है
stateful interaction देता है, जिसमें पिछले response के output को अगले input के रूप में उपयोग किया जा सकता है
फीचर विस्तार संभव
- built-in tools के जरिए मॉडल की क्षमताएं बढ़ाई जा सकती हैं
  - File Search – अपलोड की गई फ़ाइलों में semantic और keyword search संभव
  - Web Search – वेब से नवीनतम जानकारी खोजी जा सकती है
  - Computer Use – कंप्यूटर interface को नियंत्रित करके automation tasks किए जा सकते हैं
- Function Calling – बाहरी systems और data तक पहुंच संभव
  - Python functions को call किया जा सकता है और external systems के साथ interact किया जा सकता है

Agents SDK

जटिल abstraction के बिना, सरल और उपयोग में आसान package के रूप में Agent-आधारित AI apps विकसित किए जा सकते हैं
पिछले experimental platform Swarm का production-level upgraded version
मुख्य components(Primitive):
- Agents – निर्देशों और tools से लैस LLM-आधारित agents
- Handoffs – किसी खास काम को दूसरे agent को सौंपना
- Guardrails – agent के input values का validation और filtering
Python integration और मजबूत फीचर्स
- Python के साथ उपयोग करने पर tools के बीच मजबूत relationships सेट किए जा सकते हैं और complex workflows लागू किए जा सकते हैं
- visualization और debugging के लिए Tracing फीचर शामिल है
- evaluation, debugging और model fine-tuning तक को support करता है
Agents SDK की मुख्य विशेषताएं
- डिज़ाइन सिद्धांत
  - फीचर्स पर्याप्त रूप से शक्तिशाली हों, लेकिन सीखने के लिए कम चीजें हों ताकि जल्दी अभ्यस्त हुआ जा सके
  - default state में उत्कृष्ट performance दे, और जरूरत पड़ने पर detailed settings की जा सकें
- बेसिक फीचर्स
  - Agent Loop : built-in loop के जरिए tool call → result processing → LLM response generation → समाप्ति तक अपने-आप प्रोसेस
  - Python-first डिज़ाइन : Python language features का सीधे उपयोग करके agents को जोड़ना और orchestrate करना संभव
  - Handoffs : कई agents के बीच काम का delegation और coordination संभव
  - Guardrails : input values का validation और parallel checks, तथा error होने पर early termination संभव
  - Function Tools : Python functions को अपने-आप tools में बदलना → automatic schema generation और validation
  - Tracing : built-in tracing के जरिए workflow visualization, debugging, evaluation और improvement संभव