OpenAI o3-Mini लॉन्च

(openai.com)

13 पॉइंट द्वारा GN⁺ 2025-02-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI o3-mini लागत-कुशल reasoning model series का सबसे नया मॉडल है
दिसंबर 2024 प्रीव्यू के बाद इसे आधिकारिक रूप से लॉन्च किया गया है, और यह ChatGPT तथा API में उपलब्ध है
विज्ञान, गणित, कोडिंग जैसे STEM क्षेत्रों में यह शानदार प्रदर्शन दिखाता है, जबकि OpenAI o1-mini की तुलना में कम लागत और latency बनाए रखता है

मुख्य सुविधाएँ और सुधार

OpenAI o3-mini पहला छोटा reasoning model है जो function calling, structured outputs, developer messages को सपोर्ट करता है
यह streaming को सपोर्ट करता है, और low, medium, high के तीन reasoning effort options देता है ताकि स्थिति के अनुसार अनुकूलन किया जा सके
यह vision (image) फीचर को सपोर्ट नहीं करता; जिन मामलों में visual reasoning चाहिए, वहाँ OpenAI o1 इस्तेमाल करने की सिफारिश है
यह Chat Completions API, Assistants API, Batch API में उपलब्ध है, और API usage tier 3~5 के developers को दिया जा रहा है
ChatGPT Plus, Team, Pro उपयोगकर्ता इसे आज से इस्तेमाल कर सकते हैं, जबकि Enterprise उपयोगकर्ताओं के लिए सपोर्ट फरवरी से आने वाला है
यह OpenAI o1-mini की जगह लेता है और अधिक गति तथा बेहतर reasoning क्षमता प्रदान करता है
Plus और Team उपयोगकर्ताओं की message limit पहले o1-mini के 50 से बढ़ाकर 150 कर दी गई है
इसमें search फीचर जोड़ा गया है, और web links के साथ नवीनतम जानकारी देने वाले फीचर का प्रयोग किया जा रहा है

मुफ्त उपयोगकर्ताओं के लिए पहुँच का विस्तार

मुफ्त उपयोगकर्ता भी message composer में ‘Reason’ चुनकर या response regenerate करके o3-mini का उपयोग कर सकते हैं
यह पहली बार है जब ChatGPT में कोई reasoning model मुफ्त उपयोगकर्ताओं को उपलब्ध कराया गया है

STEM के लिए अनुकूलन और प्रदर्शन में सुधार

यह STEM क्षेत्रों के लिए अनुकूलित प्रदर्शन देता है और o1-mini की तुलना में अधिक तेज़ तथा अधिक सटीक responses बनाता है
विशेषज्ञ testers के मूल्यांकन में, o3-mini को 56% मामलों में o1-mini से अधिक पसंद किया गया, और कठिन समस्याओं में मुख्य errors में 39% कमी देखी गई
AIME, GPQA जैसे कठिन reasoning और intelligence evaluations में o1 के समान प्रदर्शन दिखाते हुए, यह अधिक तेज़ response speed भी देता है

मुख्य प्रदर्शन तुलना

गणित (AIME 2024):
- low reasoning effort पर o1-mini के समान प्रदर्शन, medium reasoning effort पर o1 के समान प्रदर्शन
- high reasoning effort पर o1 और o1-mini से बेहतर प्रदर्शन
PhD-स्तर के science questions (GPQA Diamond):
- biology, chemistry, physics समस्याओं में low reasoning effort पर भी o1-mini से बेहतर प्रदर्शन
- high reasoning effort पर o1 के समान प्रदर्शन
उन्नत गणित (FrontierMath):
- Python tools का उपयोग करने पर यह पहली कोशिश में 32% से अधिक समस्याएँ हल करता है, और उच्च कठिनाई वाली समस्याएँ (T3) भी 28% से अधिक हल करता है
competitive programming (Codeforces):
- reasoning effort बढ़ने के साथ यह अधिक ऊँचा Elo score दर्ज करता है, और o1-mini से बेहतर प्रदर्शन करता है
- medium reasoning effort पर o1 के समान प्रदर्शन
software engineering (SWE-bench Verified):
- SWEbench-verified में अब तक जारी मॉडलों में सबसे अच्छा प्रदर्शन दर्ज किया गया
वास्तविक coding tests (LiveBench Coding):
- यह o1-high से बेहतर प्रदर्शन दिखाता है, और high reasoning effort पर और भी अधिक प्रभावशाली प्रदर्शन करता है
सामान्य knowledge evaluation:
- समग्र knowledge evaluation में o1-mini से बेहतर परिणाम दिखाता है
user preference evaluation:
- विशेषज्ञ परीक्षणों में o3-mini को o1-mini की तुलना में 56% अधिक पसंद किया गया, और कठिन समस्याओं में 39% errors की कमी दर्ज की गई

गति और प्रदर्शन में सुधार

o1 जैसी intelligence बनाए रखते हुए भी, यह अधिक तेज़ performance और बेहतर efficiency देता है
गणित और factuality evaluations में medium reasoning effort पर भी बेहतर परिणाम मिलते हैं
A/B test results के अनुसार, o3-mini की response speed o1-mini से 24% अधिक तेज़ है
- औसत response time: o3-mini(7.7 सेकंड) vs o1-mini(10.16 सेकंड)
- पहला token output speed: o3-mini, o1-mini से औसतन 2500ms तेज़

सुरक्षा और प्रतिक्रिया उपाय

OpenAI o3-mini को ‘deliberative alignment’ तकनीक का उपयोग करके अधिक सुरक्षित responses उत्पन्न करने के लिए प्रशिक्षित किया गया है
OpenAI o1 की तुलना में, यह GPT-4o से भी उच्च स्तर की सुरक्षा और jailbreak defense क्षमता दिखाता है
लॉन्च से पहले, preparedness evaluations, external red team testing, safety evaluations के जरिए इसका गहन सत्यापन किया गया
o3-mini के disallowed content response evaluation और jailbreak evaluation results system card में उपलब्ध हैं

आगे की योजनाएँ और दृष्टिकोण

OpenAI o3-mini लागत-कुशल AI intelligence की प्रगति के नए चरण का संकेत देता है
STEM optimization और low-cost model development के ज़रिए उच्च-गुणवत्ता वाला AI अधिक उपयोगकर्ताओं तक पहुँचाने का लक्ष्य जारी है
GPT-4 लॉन्च के बाद token प्रति कीमत में 95% कमी लाते हुए भी, शीर्ष-स्तरीय reasoning क्षमता बनाए रखने की दिशा में विकास जारी है
AI के व्यापक अपनाने के बीच, कंपनी intelligence, efficiency और safety के संतुलन वाले models के विकास पर ध्यान केंद्रित करने की योजना बना रही है

1 टिप्पणियां

GN⁺ 2025-02-01

Hacker News राय

Claude-3.5-sonnet मॉडल की consistency बेहतरीन है, जबकि दूसरे मॉडल ADHD जैसी समस्याओं से जूझते दिखते हैं
- जब NextJS ऐप में shadcn components इस्तेमाल करने की कोशिश की जाती है, तो sonnet लगभग पूरी तरह सही काम करता है, लेकिन दूसरे मॉडल radix-ui इस्तेमाल करने की कोशिश करते हैं
- o3-mini मॉडल भी इसी समस्या से जूझ रहा है
- संभव है कि cursor का instruction set ही समस्या हो
- sonnet ही एकमात्र व्यावहारिक coding विकल्प बचा है
o3-mini के जवाब o1-mini की तुलना में 56% अधिक पसंद किए गए
- जब दोनों जवाब 2,000 शब्दों के हों, तो लोग उस जवाब को चुनने की ओर झुकते हैं जिसने सवाल का उत्तर जल्दी दिया हो
- यह सर्वे अर्थहीन है, और 50% response rate सिक्का उछालने जैसा है
o3-mini का इस्तेमाल करके thread का सारांश साझा किया गया
- 18,936 input, 2,905 output पर 3.3612 सेंट का खर्च आया
AI coding में o3-mini ने o1 के समान स्कोर हासिल किया, जबकि लागत 10 गुना कम है
- मध्यम effort पर o3-mini ने R1 और Sonnet के बीच का स्कोर हासिल किया
नए मॉडल और reasoning_effort option को सपोर्ट करने वाले LLM CLI tool की नई release की घोषणा की गई
- इस्तेमाल का उदाहरण साझा किया गया
यह बताया गया कि o3-mini का SWE benchmark स्कोर 61% से गिरकर 49.3% हो गया है
- वास्तविक coding tasks में o3-mini, Claude जैसी performance दिखाता है
o3-mini-high ने seg fault के root cause को सफलतापूर्वक ढूंढ लिया
- इसने वह समस्या हल कर दी जिसे o1 पहले नहीं पकड़ पाया था
SWE-Bench में काफ़ी बढ़ोतरी दिखी है, और यह फिर से आज़माने लायक है कि क्या यह उन tasks को संभाल सकता है जिन्हें o1-mini पहले नहीं कर पाता था
- लागत में $4/मिलियन output tokens बनाम $60 का अंतर है
AI ecosystem तेज़ी से बदल रहा है, और नए AI models लगातार सामने आ रहे हैं
- लोग सोच रहे हैं कि AI में यह बदलाव इस release और आने वाली releases को कैसे प्रभावित करेगा

OpenAI o3-Mini लॉन्च

मुख्य सुविधाएँ और सुधार

मुफ्त उपयोगकर्ताओं के लिए पहुँच का विस्तार

STEM के लिए अनुकूलन और प्रदर्शन में सुधार

मुख्य प्रदर्शन तुलना

गति और प्रदर्शन में सुधार

सुरक्षा और प्रतिक्रिया उपाय

आगे की योजनाएँ और दृष्टिकोण

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय