OpenAI ने o3 और o4-mini मॉडल पेश किए

(openai.com)

5 पॉइंट द्वारा GN⁺ 2025-04-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

o3 और o4-mini मॉडल ChatGPT की reasoning क्षमता को काफी बेहतर बनाते हैं
ये दोनों मॉडल साधारण सवाल-जवाब से आगे बढ़कर टूल्स के संयोजन का उपयोग, visual सामग्री का analysis, image generation, Python code execution जैसे जटिल काम भी कर सकते हैं
खास तौर पर, यूज़र के सवाल पूछने पर ये खुद तय करके कि कौन-सा टूल कब इस्तेमाल करना है, उसे चला भी सकते हैं
ये जटिल समस्या-समाधान, visual reasoning, multi-step analysis आदि में मजबूत हैं, और ज़्यादा मानवीय बातचीत शैली की ओर बढ़ते हैं
o3 जटिल समस्या-समाधान के लिए, और o4-mini तेज़ व कुशल reasoning के लिए बना मॉडल है, यानी दोनों में high performance और high efficiency का संतुलन है
इनमें image और text को साथ लेकर सोचने की multimodal reasoning क्षमता और उन्नत agentic tool use क्षमता मौजूद है

मुख्य फीचर बदलाव

OpenAI o3

अब तक का सबसे शक्तिशाली reasoning-केंद्रित मॉडल
coding, math, science, visual analysis जैसे कई क्षेत्रों में state-of-the-art प्रदर्शन
Codeforces, SWE-bench, MMMU जैसे benchmarks में सर्वोच्च प्रदर्शन दर्ज
बाहरी विशेषज्ञ मूल्यांकन के अनुसार, o1 की तुलना में 20% कम गंभीर error rate
programming, consulting, biology, engineering जैसे क्षेत्रों में idea generation और critical evaluation में बेहद सक्षम

OpenAI o4-mini

speed और cost efficiency के लिए optimized छोटा मॉडल
खासकर math, coding, visual problem solving में बेहतरीन
AIME 2024, 2025 benchmarks में अपनी श्रेणी का शीर्ष प्रदर्शन
o3-mini की तुलना में STEM के बाहर के क्षेत्रों में भी बेहतर प्रदर्शन
ज़्यादा usage और तेज़ response की मांग वाले वातावरण के लिए उपयुक्त

दोनों मॉडल instruction understanding, response usefulness, reliability में पिछले मॉडलों से बेहतर हैं
conversation memory और personalized response देने की क्षमता भी मजबूत हुई है

मल्टीमोडल फीचर्स

image को सिर्फ पहचानने के बजाय reasoning के हिस्से के रूप में उपयोग किया जा सकता है
यूज़र whiteboard की फोटो, किताबों के diagrams, hand-drawn sketches आदि अपलोड कर सकते हैं
मॉडल धुंधली या विकृत images को भी पहचान और analyze कर सकता है
rotation, zoom, transform जैसे image processing काम भी टूल्स के ज़रिए अपने आप किए जा सकते हैं
text और visual जानकारी को मिलाकर जटिल समस्या-समाधान क्षमता बेहतर हुई है

टूल उपयोग-केंद्रित reasoning तरीका

o3 और o4-mini को ChatGPT के सभी टूल्स तक पहुंच मिल सकती है
यूज़र के सवाल पर ज़रूरी टूल्स (web search, file analysis, code execution आदि) को अपने आप चुनकर इस्तेमाल कर सकते हैं
उदाहरण: "कैलिफ़ोर्निया की गर्मियों में बिजली उपयोग का पूर्वानुमान" जैसे अनुरोध पर web search → Python code generation → graph creation तक पूरा क्रम लगातार कर सकते हैं
real-time information का उपयोग, multi-step reasoning, modality-integrated responses संभव हैं

कुशल reasoning प्रदर्शन

लागत के मुकाबले प्रदर्शन

o3 ने o1 की तुलना में, और o4-mini ने o3-mini की तुलना में बेहद बड़ा cost efficiency improvement हासिल किया है
AIME 2025 math competition के नतीजों के आधार पर o3 और o4-mini दोनों पिछले संस्करणों से सस्ते भी हैं और ज़्यादा स्मार्ट भी
वास्तविक उपयोग वातावरण में भी इन्हें ज़्यादा समझदार और कम लागत वाला विकल्प माना जा रहा है

सुरक्षा सुधार

biological threats, malware, jailbreak prompts आदि को अस्वीकार करने की क्षमता के लिए नए training data से फिर से train किया गया
मॉडल responses के जोखिम को अपने आप पहचानने वाला LLM-आधारित safety monitoring system पेश किया गया
internal test results के अनुसार, 99% से अधिक risky conversations detection में सफलता
bio/chem, cybersecurity, AI self-improvement जैसे जोखिम क्षेत्रों में high-risk स्तर से नीचे आंका गया
नवीनतम Preparedness Framework मानक के अनुसार stability verification पूरी

Codex CLI: टर्मिनल में इस्तेमाल होने वाला उन्नत reasoning agent

यह एक ऐसा टूल है जो o3 और o4-mini की reasoning क्षमता को terminal में भी उपलब्ध कराता है
यूज़र code, images, screenshots आदि को CLI के ज़रिए सीधे मॉडल को दे सकते हैं
मॉडल local environment के code से जुड़कर multimodal reasoning कर सकता है
open source के रूप में जारी: github.com/openai/codex
OpenAI ने Codex CLI-आधारित projects के लिए 10 लाख डॉलर का support program भी शुरू किया है

एक्सेस कैसे मिलेगा

ChatGPT Plus, Pro, Team यूज़र: o3, o4-mini, o4-mini-high मॉडल तुरंत उपलब्ध
Enterprise और Education यूज़र: 1 हफ्ते बाद से एक्सेस मिलेगा
free यूज़र भी ‘Think’ विकल्प चुनकर o4-mini इस्तेमाल कर सकते हैं
API यूज़र भी आज से इस्तेमाल कर सकते हैं (organization verification की ज़रूरत हो सकती है)
Responses API में reasoning summaries, function calling के आसपास reasoning preservation, web search tools जैसी कई सुविधाएं भी दी जाएंगी

आगे की दिशा

o series की विशेषज्ञ reasoning क्षमता और GPT series की स्वाभाविक बातचीत क्षमता को मिलाने की योजना
आगे चलकर मॉडल ऐसे विकसित होंगे जो टूल्स का सक्रिय उपयोग करते हुए स्वाभाविक बातचीत जारी रख सकें

1 टिप्पणियां

GN⁺ 2025-04-17

Hacker News की राय

Final Fantasy VII के reverse engineering के बारे में तकनीकी सवाल पूछा, लेकिन AI ने गलत जानकारी दी
- AI ने फ़ोरम और साइटों से जानकारी खोजी, लेकिन गलत विवरण गढ़ लिए, इसलिए नतीजा सटीक नहीं था
- AI को पता था कि उसे जवाब नहीं मालूम, फिर भी उसने आत्मविश्वास से गलत मान बताए
- उम्मीद है कि अगर AI को सही जवाब न मिले, तो वह ईमानदारी से यह कहे
NixOS पर नवीनतम Webstorm इंस्टॉल करने के लिए o3 का इस्तेमाल किया, जिसने NixOS VM चलाया, पैकेज डाउनलोड किया और इंस्टॉलेशन निर्देश दिए
- लगता है कि उसने GUI टेस्ट भी किए, जो काफी प्रभावशाली है
Claude 3.7 अभी भी SWE-bench पर सबसे बेहतरीन प्रदर्शन दिखाता है
- OpenAI के मॉडल भी शायद इसी तरह का प्रदर्शन दिखा सकते हैं
C# में base 62 converter लिखने वाला एक सरल "Turing test" o4-mini-high के साथ सफलतापूर्वक किया गया
2025 के अगस्त के new moon की तारीख कई AI से पूछी, लेकिन ज़्यादातर से गलत जवाब मिले
- Claude ने किसी खास search engine को block करने के तरीके पर जवाब देने से मना कर दिया
o3 और o4 ने यह पहचाना कि उनके पास web search tool नहीं है और जवाब देने से इनकार किया
- 4o और 4.1 ने गलत जानकारी दी
- नया web search फीचर उपयोगी है, और अब गैर-ज़रूरी Python scripts हटाई जा सकती हैं
Codex CLI open source के रूप में उपलब्ध है
Sonnet 3.7 या Gemini Pro 2.5 के साथ कोई तुलना नहीं थी
बड़े पैमाने की reinforcement learning में यह रुझान दिखता है कि जितने अधिक computing resources इस्तेमाल हों, प्रदर्शन उतना बेहतर होता है
- सवाल है कि यह रुझान कब तक जारी रहेगा
एक उपभोक्ता के रूप में यह ट्रैक करते रहना थकाने वाला है कि कौन-सा मॉडल इस्तेमाल करना चाहिए

OpenAI ने o3 और o4-mini मॉडल पेश किए

मुख्य फीचर बदलाव

OpenAI o3

OpenAI o4-mini

मल्टीमोडल फीचर्स

टूल उपयोग-केंद्रित reasoning तरीका

कुशल reasoning प्रदर्शन

लागत के मुकाबले प्रदर्शन

सुरक्षा सुधार

Codex CLI: टर्मिनल में इस्तेमाल होने वाला उन्नत reasoning agent

एक्सेस कैसे मिलेगा

आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय