- Web Search: वेब से नवीनतम जानकारी खोजता है और citation URL लौटाता है
- File Search: अपलोड की गई फ़ाइलों की सूची में semantic/keyword search
- Computer Use: कंप्यूटर को नियंत्रित करके काम करता है
- Responses API: उन्नत integrated response interface. टेक्स्ट/इमेज input संभव है और web/file search तथा CUA फीचर सभी का उपयोग कर सकता है
- Agents SDK: एजेंट डेवलपमेंट के लिए orchestration framework
- पात्र कुछ डेवलपर्स/कंपनियां OpenAI के साथ prompts साझा करके मॉडल को बेहतर बनाने में मदद कर सकती हैं
- इस साल अप्रैल के अंत तक
gpt-4.5-preview, gpt-4o, o1 के लिए प्रति दिन अधिकतम 10 लाख tokens, और gpt-4o-mini, o1-mini, o3-mini के लिए अधिकतम 1 करोड़ tokens तक मुफ्त उपयोग संभव
- पात्रता OpenAI डेवलपर डैशबोर्ड में देखी जा सकती है
- ChatGPT में नवीनतम जानकारी देने के लिए सीधे वेब से जानकारी खोज सकता है
- Chat Completions API के जरिए fine-tuned models और search tools को सीधे उपयोग किया जा सकता है
- Chat Completions API में web search उपयोग का तरीका
- मॉडल response से पहले हमेशा वेब से नवीनतम जानकारी खोजता है
- यदि केवल जरूरत पड़ने पर web search tool(
web_search_preview) का उपयोग करवाना हो, तो Responses API पर स्विच करना होगा
- वे मॉडल जिनमें web search उपलब्ध है
gpt-4o-search-preview
gpt-4o-mini-search-preview
- मॉडल response बनाने से पहले उपयोगकर्ता की फ़ाइलों से संबंधित जानकारी खोज सकता है
- यह Responses API में उपलब्ध है, और अपलोड की गई फ़ाइलों के knowledge base से semantic search और keyword search के जरिए जानकारी खोजता है
- Vector Store और semantic search का उपयोग
- Vector Store बनाकर और फ़ाइलें अपलोड करके मॉडल के बेसिक knowledge को विस्तारित किया जा सकता है
- यह OpenAI द्वारा managed tool है, इसलिए उपयोगकर्ता को खुद कोड implement करने की जरूरत नहीं है
- जब मॉडल को जरूरत लगती है, तो यह अपने-आप tool call करके फ़ाइलों से जानकारी खोजता है और response बनाता है
- उपयोग का तरीका
- पहले Vector Store में knowledge base सेट करना और फ़ाइलें अपलोड करना जरूरी है
- Vector Store सेट होने के बाद file_search tool को मॉडल के उपलब्ध tools की सूची में जोड़ा जा सकता है
- फिलहाल एक बार में सिर्फ एक Vector Store में ही search संभव है (केवल एक single Vector Store ID का उपयोग किया जा सकता है)
- उपयोगकर्ता के कंप्यूटर पर काम कर सकने वाले Computer-Using Agent(CUA) मॉडल पर आधारित
- GPT-4o की visual processing और advanced reasoning क्षमता को जोड़कर कंप्यूटर interface को नियंत्रित कर सकता है और काम कर सकता है
- यह Responses API के जरिए उपलब्ध है, Chat Completions में उपलब्ध नहीं है
- अभी यह beta version में है, इसलिए vulnerabilities या mistakes की संभावना है. पूरी तरह authenticated environment या महत्वपूर्ण कामों में इसका उपयोग अनुशंसित नहीं है
- काम करने का तरीका
- मॉडल क्लिक(x, y), इनपुट(text) जैसे कंप्यूटर कार्य commands भेजता है
- उपयोगकर्ता का कोड उन कार्यों को कंप्यूटर या browser environment में चलाता है और परिणाम का screenshot लौटाता है
- मॉडल screenshot के आधार पर environment की स्थिति समझता है और अगला काम सुझाता है
- लगातार loop के जरिए क्लिक, इनपुट, स्क्रॉल जैसे विभिन्न काम automate किए जा सकते हैं
- उपयोग के उदाहरण : फ्लाइट बुकिंग, प्रोडक्ट सर्च, फॉर्म भरना
- OpenAI का सबसे उन्नत model interface
- टेक्स्ट और इमेज input को support करता है, और टेक्स्ट output बनाता है
- stateful interaction देता है, जिसमें पिछले response के output को अगले input के रूप में उपयोग किया जा सकता है
- फीचर विस्तार संभव
- built-in tools के जरिए मॉडल की क्षमताएं बढ़ाई जा सकती हैं
- File Search – अपलोड की गई फ़ाइलों में semantic और keyword search संभव
- Web Search – वेब से नवीनतम जानकारी खोजी जा सकती है
- Computer Use – कंप्यूटर interface को नियंत्रित करके automation tasks किए जा सकते हैं
- Function Calling – बाहरी systems और data तक पहुंच संभव
- Python functions को call किया जा सकता है और external systems के साथ interact किया जा सकता है
- जटिल abstraction के बिना, सरल और उपयोग में आसान package के रूप में Agent-आधारित AI apps विकसित किए जा सकते हैं
- पिछले experimental platform Swarm का production-level upgraded version
- मुख्य components(Primitive):
- Agents – निर्देशों और tools से लैस LLM-आधारित agents
- Handoffs – किसी खास काम को दूसरे agent को सौंपना
- Guardrails – agent के input values का validation और filtering
- Python integration और मजबूत फीचर्स
- Python के साथ उपयोग करने पर tools के बीच मजबूत relationships सेट किए जा सकते हैं और complex workflows लागू किए जा सकते हैं
- visualization और debugging के लिए Tracing फीचर शामिल है
- evaluation, debugging और model fine-tuning तक को support करता है
- Agents SDK की मुख्य विशेषताएं
- डिज़ाइन सिद्धांत
- फीचर्स पर्याप्त रूप से शक्तिशाली हों, लेकिन सीखने के लिए कम चीजें हों ताकि जल्दी अभ्यस्त हुआ जा सके
- default state में उत्कृष्ट performance दे, और जरूरत पड़ने पर detailed settings की जा सकें
- बेसिक फीचर्स
- Agent Loop : built-in loop के जरिए tool call → result processing → LLM response generation → समाप्ति तक अपने-आप प्रोसेस
- Python-first डिज़ाइन : Python language features का सीधे उपयोग करके agents को जोड़ना और orchestrate करना संभव
- Handoffs : कई agents के बीच काम का delegation और coordination संभव
- Guardrails : input values का validation और parallel checks, तथा error होने पर early termination संभव
- Function Tools : Python functions को अपने-आप tools में बदलना → automatic schema generation और validation
- Tracing : built-in tracing के जरिए workflow visualization, debugging, evaluation और improvement संभव
अभी कोई टिप्पणी नहीं है.