5 पॉइंट द्वारा GN⁺ 2025-04-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • o3 और o4-mini मॉडल ChatGPT की reasoning क्षमता को काफी बेहतर बनाते हैं
  • ये दोनों मॉडल साधारण सवाल-जवाब से आगे बढ़कर टूल्स के संयोजन का उपयोग, visual सामग्री का analysis, image generation, Python code execution जैसे जटिल काम भी कर सकते हैं
  • खास तौर पर, यूज़र के सवाल पूछने पर ये खुद तय करके कि कौन-सा टूल कब इस्तेमाल करना है, उसे चला भी सकते हैं
  • ये जटिल समस्या-समाधान, visual reasoning, multi-step analysis आदि में मजबूत हैं, और ज़्यादा मानवीय बातचीत शैली की ओर बढ़ते हैं
  • o3 जटिल समस्या-समाधान के लिए, और o4-mini तेज़ व कुशल reasoning के लिए बना मॉडल है, यानी दोनों में high performance और high efficiency का संतुलन है
  • इनमें image और text को साथ लेकर सोचने की multimodal reasoning क्षमता और उन्नत agentic tool use क्षमता मौजूद है

मुख्य फीचर बदलाव

OpenAI o3

  • अब तक का सबसे शक्तिशाली reasoning-केंद्रित मॉडल
  • coding, math, science, visual analysis जैसे कई क्षेत्रों में state-of-the-art प्रदर्शन
  • Codeforces, SWE-bench, MMMU जैसे benchmarks में सर्वोच्च प्रदर्शन दर्ज
  • बाहरी विशेषज्ञ मूल्यांकन के अनुसार, o1 की तुलना में 20% कम गंभीर error rate
  • programming, consulting, biology, engineering जैसे क्षेत्रों में idea generation और critical evaluation में बेहद सक्षम

OpenAI o4-mini

  • speed और cost efficiency के लिए optimized छोटा मॉडल
  • खासकर math, coding, visual problem solving में बेहतरीन
  • AIME 2024, 2025 benchmarks में अपनी श्रेणी का शीर्ष प्रदर्शन
  • o3-mini की तुलना में STEM के बाहर के क्षेत्रों में भी बेहतर प्रदर्शन
  • ज़्यादा usage और तेज़ response की मांग वाले वातावरण के लिए उपयुक्त
  • दोनों मॉडल instruction understanding, response usefulness, reliability में पिछले मॉडलों से बेहतर हैं
  • conversation memory और personalized response देने की क्षमता भी मजबूत हुई है

मल्टीमोडल फीचर्स

  • image को सिर्फ पहचानने के बजाय reasoning के हिस्से के रूप में उपयोग किया जा सकता है
  • यूज़र whiteboard की फोटो, किताबों के diagrams, hand-drawn sketches आदि अपलोड कर सकते हैं
  • मॉडल धुंधली या विकृत images को भी पहचान और analyze कर सकता है
  • rotation, zoom, transform जैसे image processing काम भी टूल्स के ज़रिए अपने आप किए जा सकते हैं
  • text और visual जानकारी को मिलाकर जटिल समस्या-समाधान क्षमता बेहतर हुई है

टूल उपयोग-केंद्रित reasoning तरीका

  • o3 और o4-mini को ChatGPT के सभी टूल्स तक पहुंच मिल सकती है
  • यूज़र के सवाल पर ज़रूरी टूल्स (web search, file analysis, code execution आदि) को अपने आप चुनकर इस्तेमाल कर सकते हैं
  • उदाहरण: "कैलिफ़ोर्निया की गर्मियों में बिजली उपयोग का पूर्वानुमान" जैसे अनुरोध पर web search → Python code generation → graph creation तक पूरा क्रम लगातार कर सकते हैं
  • real-time information का उपयोग, multi-step reasoning, modality-integrated responses संभव हैं

कुशल reasoning प्रदर्शन

लागत के मुकाबले प्रदर्शन

  • o3 ने o1 की तुलना में, और o4-mini ने o3-mini की तुलना में बेहद बड़ा cost efficiency improvement हासिल किया है
  • AIME 2025 math competition के नतीजों के आधार पर o3 और o4-mini दोनों पिछले संस्करणों से सस्ते भी हैं और ज़्यादा स्मार्ट भी
  • वास्तविक उपयोग वातावरण में भी इन्हें ज़्यादा समझदार और कम लागत वाला विकल्प माना जा रहा है

सुरक्षा सुधार

  • biological threats, malware, jailbreak prompts आदि को अस्वीकार करने की क्षमता के लिए नए training data से फिर से train किया गया
  • मॉडल responses के जोखिम को अपने आप पहचानने वाला LLM-आधारित safety monitoring system पेश किया गया
  • internal test results के अनुसार, 99% से अधिक risky conversations detection में सफलता
  • bio/chem, cybersecurity, AI self-improvement जैसे जोखिम क्षेत्रों में high-risk स्तर से नीचे आंका गया
  • नवीनतम Preparedness Framework मानक के अनुसार stability verification पूरी

Codex CLI: टर्मिनल में इस्तेमाल होने वाला उन्नत reasoning agent

  • यह एक ऐसा टूल है जो o3 और o4-mini की reasoning क्षमता को terminal में भी उपलब्ध कराता है
  • यूज़र code, images, screenshots आदि को CLI के ज़रिए सीधे मॉडल को दे सकते हैं
  • मॉडल local environment के code से जुड़कर multimodal reasoning कर सकता है
  • open source के रूप में जारी: github.com/openai/codex
  • OpenAI ने Codex CLI-आधारित projects के लिए 10 लाख डॉलर का support program भी शुरू किया है

एक्सेस कैसे मिलेगा

  • ChatGPT Plus, Pro, Team यूज़र: o3, o4-mini, o4-mini-high मॉडल तुरंत उपलब्ध
  • Enterprise और Education यूज़र: 1 हफ्ते बाद से एक्सेस मिलेगा
  • free यूज़र भी ‘Think’ विकल्प चुनकर o4-mini इस्तेमाल कर सकते हैं
  • API यूज़र भी आज से इस्तेमाल कर सकते हैं (organization verification की ज़रूरत हो सकती है)
  • Responses API में reasoning summaries, function calling के आसपास reasoning preservation, web search tools जैसी कई सुविधाएं भी दी जाएंगी

आगे की दिशा

  • o series की विशेषज्ञ reasoning क्षमता और GPT series की स्वाभाविक बातचीत क्षमता को मिलाने की योजना
  • आगे चलकर मॉडल ऐसे विकसित होंगे जो टूल्स का सक्रिय उपयोग करते हुए स्वाभाविक बातचीत जारी रख सकें

1 टिप्पणियां

 
GN⁺ 2025-04-17
Hacker News की राय
  • Final Fantasy VII के reverse engineering के बारे में तकनीकी सवाल पूछा, लेकिन AI ने गलत जानकारी दी

    • AI ने फ़ोरम और साइटों से जानकारी खोजी, लेकिन गलत विवरण गढ़ लिए, इसलिए नतीजा सटीक नहीं था
    • AI को पता था कि उसे जवाब नहीं मालूम, फिर भी उसने आत्मविश्वास से गलत मान बताए
    • उम्मीद है कि अगर AI को सही जवाब न मिले, तो वह ईमानदारी से यह कहे
  • NixOS पर नवीनतम Webstorm इंस्टॉल करने के लिए o3 का इस्तेमाल किया, जिसने NixOS VM चलाया, पैकेज डाउनलोड किया और इंस्टॉलेशन निर्देश दिए

    • लगता है कि उसने GUI टेस्ट भी किए, जो काफी प्रभावशाली है
  • Claude 3.7 अभी भी SWE-bench पर सबसे बेहतरीन प्रदर्शन दिखाता है

    • OpenAI के मॉडल भी शायद इसी तरह का प्रदर्शन दिखा सकते हैं
  • C# में base 62 converter लिखने वाला एक सरल "Turing test" o4-mini-high के साथ सफलतापूर्वक किया गया

  • 2025 के अगस्त के new moon की तारीख कई AI से पूछी, लेकिन ज़्यादातर से गलत जवाब मिले

    • Claude ने किसी खास search engine को block करने के तरीके पर जवाब देने से मना कर दिया
  • o3 और o4 ने यह पहचाना कि उनके पास web search tool नहीं है और जवाब देने से इनकार किया

    • 4o और 4.1 ने गलत जानकारी दी
    • नया web search फीचर उपयोगी है, और अब गैर-ज़रूरी Python scripts हटाई जा सकती हैं
  • Codex CLI open source के रूप में उपलब्ध है

  • Sonnet 3.7 या Gemini Pro 2.5 के साथ कोई तुलना नहीं थी

  • बड़े पैमाने की reinforcement learning में यह रुझान दिखता है कि जितने अधिक computing resources इस्तेमाल हों, प्रदर्शन उतना बेहतर होता है

    • सवाल है कि यह रुझान कब तक जारी रहेगा
  • एक उपभोक्ता के रूप में यह ट्रैक करते रहना थकाने वाला है कि कौन-सा मॉडल इस्तेमाल करना चाहिए