- o3 और o4-mini मॉडल ChatGPT की reasoning क्षमता को काफी बेहतर बनाते हैं
- ये दोनों मॉडल साधारण सवाल-जवाब से आगे बढ़कर टूल्स के संयोजन का उपयोग, visual सामग्री का analysis, image generation, Python code execution जैसे जटिल काम भी कर सकते हैं
- खास तौर पर, यूज़र के सवाल पूछने पर ये खुद तय करके कि कौन-सा टूल कब इस्तेमाल करना है, उसे चला भी सकते हैं
- ये जटिल समस्या-समाधान, visual reasoning, multi-step analysis आदि में मजबूत हैं, और ज़्यादा मानवीय बातचीत शैली की ओर बढ़ते हैं
- o3 जटिल समस्या-समाधान के लिए, और o4-mini तेज़ व कुशल reasoning के लिए बना मॉडल है, यानी दोनों में high performance और high efficiency का संतुलन है
- इनमें image और text को साथ लेकर सोचने की multimodal reasoning क्षमता और उन्नत agentic tool use क्षमता मौजूद है
मुख्य फीचर बदलाव
OpenAI o3
- अब तक का सबसे शक्तिशाली reasoning-केंद्रित मॉडल
- coding, math, science, visual analysis जैसे कई क्षेत्रों में state-of-the-art प्रदर्शन
- Codeforces, SWE-bench, MMMU जैसे benchmarks में सर्वोच्च प्रदर्शन दर्ज
- बाहरी विशेषज्ञ मूल्यांकन के अनुसार, o1 की तुलना में 20% कम गंभीर error rate
- programming, consulting, biology, engineering जैसे क्षेत्रों में idea generation और critical evaluation में बेहद सक्षम
OpenAI o4-mini
- speed और cost efficiency के लिए optimized छोटा मॉडल
- खासकर math, coding, visual problem solving में बेहतरीन
- AIME 2024, 2025 benchmarks में अपनी श्रेणी का शीर्ष प्रदर्शन
- o3-mini की तुलना में STEM के बाहर के क्षेत्रों में भी बेहतर प्रदर्शन
- ज़्यादा usage और तेज़ response की मांग वाले वातावरण के लिए उपयुक्त
- दोनों मॉडल instruction understanding, response usefulness, reliability में पिछले मॉडलों से बेहतर हैं
- conversation memory और personalized response देने की क्षमता भी मजबूत हुई है
मल्टीमोडल फीचर्स
- image को सिर्फ पहचानने के बजाय reasoning के हिस्से के रूप में उपयोग किया जा सकता है
- यूज़र whiteboard की फोटो, किताबों के diagrams, hand-drawn sketches आदि अपलोड कर सकते हैं
- मॉडल धुंधली या विकृत images को भी पहचान और analyze कर सकता है
- rotation, zoom, transform जैसे image processing काम भी टूल्स के ज़रिए अपने आप किए जा सकते हैं
- text और visual जानकारी को मिलाकर जटिल समस्या-समाधान क्षमता बेहतर हुई है
टूल उपयोग-केंद्रित reasoning तरीका
- o3 और o4-mini को ChatGPT के सभी टूल्स तक पहुंच मिल सकती है
- यूज़र के सवाल पर ज़रूरी टूल्स (web search, file analysis, code execution आदि) को अपने आप चुनकर इस्तेमाल कर सकते हैं
- उदाहरण: "कैलिफ़ोर्निया की गर्मियों में बिजली उपयोग का पूर्वानुमान" जैसे अनुरोध पर web search → Python code generation → graph creation तक पूरा क्रम लगातार कर सकते हैं
- real-time information का उपयोग, multi-step reasoning, modality-integrated responses संभव हैं
कुशल reasoning प्रदर्शन
लागत के मुकाबले प्रदर्शन
- o3 ने o1 की तुलना में, और o4-mini ने o3-mini की तुलना में बेहद बड़ा cost efficiency improvement हासिल किया है
- AIME 2025 math competition के नतीजों के आधार पर o3 और o4-mini दोनों पिछले संस्करणों से सस्ते भी हैं और ज़्यादा स्मार्ट भी
- वास्तविक उपयोग वातावरण में भी इन्हें ज़्यादा समझदार और कम लागत वाला विकल्प माना जा रहा है
सुरक्षा सुधार
- biological threats, malware, jailbreak prompts आदि को अस्वीकार करने की क्षमता के लिए नए training data से फिर से train किया गया
- मॉडल responses के जोखिम को अपने आप पहचानने वाला LLM-आधारित safety monitoring system पेश किया गया
- internal test results के अनुसार, 99% से अधिक risky conversations detection में सफलता
- bio/chem, cybersecurity, AI self-improvement जैसे जोखिम क्षेत्रों में high-risk स्तर से नीचे आंका गया
- नवीनतम Preparedness Framework मानक के अनुसार stability verification पूरी
Codex CLI: टर्मिनल में इस्तेमाल होने वाला उन्नत reasoning agent
- यह एक ऐसा टूल है जो o3 और o4-mini की reasoning क्षमता को terminal में भी उपलब्ध कराता है
- यूज़र code, images, screenshots आदि को CLI के ज़रिए सीधे मॉडल को दे सकते हैं
- मॉडल local environment के code से जुड़कर multimodal reasoning कर सकता है
- open source के रूप में जारी: github.com/openai/codex
- OpenAI ने Codex CLI-आधारित projects के लिए 10 लाख डॉलर का support program भी शुरू किया है
एक्सेस कैसे मिलेगा
- ChatGPT Plus, Pro, Team यूज़र: o3, o4-mini, o4-mini-high मॉडल तुरंत उपलब्ध
- Enterprise और Education यूज़र: 1 हफ्ते बाद से एक्सेस मिलेगा
- free यूज़र भी ‘Think’ विकल्प चुनकर o4-mini इस्तेमाल कर सकते हैं
- API यूज़र भी आज से इस्तेमाल कर सकते हैं (organization verification की ज़रूरत हो सकती है)
- Responses API में reasoning summaries, function calling के आसपास reasoning preservation, web search tools जैसी कई सुविधाएं भी दी जाएंगी
आगे की दिशा
- o series की विशेषज्ञ reasoning क्षमता और GPT series की स्वाभाविक बातचीत क्षमता को मिलाने की योजना
- आगे चलकर मॉडल ऐसे विकसित होंगे जो टूल्स का सक्रिय उपयोग करते हुए स्वाभाविक बातचीत जारी रख सकें
1 टिप्पणियां
Hacker News की राय
Final Fantasy VII के reverse engineering के बारे में तकनीकी सवाल पूछा, लेकिन AI ने गलत जानकारी दी
NixOS पर नवीनतम Webstorm इंस्टॉल करने के लिए o3 का इस्तेमाल किया, जिसने NixOS VM चलाया, पैकेज डाउनलोड किया और इंस्टॉलेशन निर्देश दिए
Claude 3.7 अभी भी SWE-bench पर सबसे बेहतरीन प्रदर्शन दिखाता है
C# में base 62 converter लिखने वाला एक सरल "Turing test" o4-mini-high के साथ सफलतापूर्वक किया गया
2025 के अगस्त के new moon की तारीख कई AI से पूछी, लेकिन ज़्यादातर से गलत जवाब मिले
o3 और o4 ने यह पहचाना कि उनके पास web search tool नहीं है और जवाब देने से इनकार किया
Codex CLI open source के रूप में उपलब्ध है
Sonnet 3.7 या Gemini Pro 2.5 के साथ कोई तुलना नहीं थी
बड़े पैमाने की reinforcement learning में यह रुझान दिखता है कि जितने अधिक computing resources इस्तेमाल हों, प्रदर्शन उतना बेहतर होता है
एक उपभोक्ता के रूप में यह ट्रैक करते रहना थकाने वाला है कि कौन-सा मॉडल इस्तेमाल करना चाहिए