- OpenAI o3-mini लागत-कुशल reasoning model series का सबसे नया मॉडल है
- दिसंबर 2024 प्रीव्यू के बाद इसे आधिकारिक रूप से लॉन्च किया गया है, और यह ChatGPT तथा API में उपलब्ध है
- विज्ञान, गणित, कोडिंग जैसे STEM क्षेत्रों में यह शानदार प्रदर्शन दिखाता है, जबकि OpenAI o1-mini की तुलना में कम लागत और latency बनाए रखता है
मुख्य सुविधाएँ और सुधार
- OpenAI o3-mini पहला छोटा reasoning model है जो function calling, structured outputs, developer messages को सपोर्ट करता है
- यह streaming को सपोर्ट करता है, और low, medium, high के तीन reasoning effort options देता है ताकि स्थिति के अनुसार अनुकूलन किया जा सके
- यह vision (image) फीचर को सपोर्ट नहीं करता; जिन मामलों में visual reasoning चाहिए, वहाँ OpenAI o1 इस्तेमाल करने की सिफारिश है
- यह Chat Completions API, Assistants API, Batch API में उपलब्ध है, और API usage tier 3~5 के developers को दिया जा रहा है
- ChatGPT Plus, Team, Pro उपयोगकर्ता इसे आज से इस्तेमाल कर सकते हैं, जबकि Enterprise उपयोगकर्ताओं के लिए सपोर्ट फरवरी से आने वाला है
- यह OpenAI o1-mini की जगह लेता है और अधिक गति तथा बेहतर reasoning क्षमता प्रदान करता है
- Plus और Team उपयोगकर्ताओं की message limit पहले o1-mini के 50 से बढ़ाकर 150 कर दी गई है
- इसमें search फीचर जोड़ा गया है, और web links के साथ नवीनतम जानकारी देने वाले फीचर का प्रयोग किया जा रहा है
मुफ्त उपयोगकर्ताओं के लिए पहुँच का विस्तार
- मुफ्त उपयोगकर्ता भी message composer में ‘Reason’ चुनकर या response regenerate करके o3-mini का उपयोग कर सकते हैं
- यह पहली बार है जब ChatGPT में कोई reasoning model मुफ्त उपयोगकर्ताओं को उपलब्ध कराया गया है
STEM के लिए अनुकूलन और प्रदर्शन में सुधार
- यह STEM क्षेत्रों के लिए अनुकूलित प्रदर्शन देता है और o1-mini की तुलना में अधिक तेज़ तथा अधिक सटीक responses बनाता है
- विशेषज्ञ testers के मूल्यांकन में, o3-mini को 56% मामलों में o1-mini से अधिक पसंद किया गया, और कठिन समस्याओं में मुख्य errors में 39% कमी देखी गई
- AIME, GPQA जैसे कठिन reasoning और intelligence evaluations में o1 के समान प्रदर्शन दिखाते हुए, यह अधिक तेज़ response speed भी देता है
मुख्य प्रदर्शन तुलना
- गणित (AIME 2024):
- low reasoning effort पर o1-mini के समान प्रदर्शन, medium reasoning effort पर o1 के समान प्रदर्शन
- high reasoning effort पर o1 और o1-mini से बेहतर प्रदर्शन
- PhD-स्तर के science questions (GPQA Diamond):
- biology, chemistry, physics समस्याओं में low reasoning effort पर भी o1-mini से बेहतर प्रदर्शन
- high reasoning effort पर o1 के समान प्रदर्शन
- उन्नत गणित (FrontierMath):
- Python tools का उपयोग करने पर यह पहली कोशिश में 32% से अधिक समस्याएँ हल करता है, और उच्च कठिनाई वाली समस्याएँ (T3) भी 28% से अधिक हल करता है
- competitive programming (Codeforces):
- reasoning effort बढ़ने के साथ यह अधिक ऊँचा Elo score दर्ज करता है, और o1-mini से बेहतर प्रदर्शन करता है
- medium reasoning effort पर o1 के समान प्रदर्शन
- software engineering (SWE-bench Verified):
- SWEbench-verified में अब तक जारी मॉडलों में सबसे अच्छा प्रदर्शन दर्ज किया गया
- वास्तविक coding tests (LiveBench Coding):
- यह o1-high से बेहतर प्रदर्शन दिखाता है, और high reasoning effort पर और भी अधिक प्रभावशाली प्रदर्शन करता है
- सामान्य knowledge evaluation:
- समग्र knowledge evaluation में o1-mini से बेहतर परिणाम दिखाता है
- user preference evaluation:
- विशेषज्ञ परीक्षणों में o3-mini को o1-mini की तुलना में 56% अधिक पसंद किया गया, और कठिन समस्याओं में 39% errors की कमी दर्ज की गई
गति और प्रदर्शन में सुधार
- o1 जैसी intelligence बनाए रखते हुए भी, यह अधिक तेज़ performance और बेहतर efficiency देता है
- गणित और factuality evaluations में medium reasoning effort पर भी बेहतर परिणाम मिलते हैं
- A/B test results के अनुसार, o3-mini की response speed o1-mini से 24% अधिक तेज़ है
- औसत response time: o3-mini(7.7 सेकंड) vs o1-mini(10.16 सेकंड)
- पहला token output speed: o3-mini, o1-mini से औसतन 2500ms तेज़
सुरक्षा और प्रतिक्रिया उपाय
- OpenAI o3-mini को ‘deliberative alignment’ तकनीक का उपयोग करके अधिक सुरक्षित responses उत्पन्न करने के लिए प्रशिक्षित किया गया है
- OpenAI o1 की तुलना में, यह GPT-4o से भी उच्च स्तर की सुरक्षा और jailbreak defense क्षमता दिखाता है
- लॉन्च से पहले, preparedness evaluations, external red team testing, safety evaluations के जरिए इसका गहन सत्यापन किया गया
- o3-mini के disallowed content response evaluation और jailbreak evaluation results system card में उपलब्ध हैं
आगे की योजनाएँ और दृष्टिकोण
- OpenAI o3-mini लागत-कुशल AI intelligence की प्रगति के नए चरण का संकेत देता है
- STEM optimization और low-cost model development के ज़रिए उच्च-गुणवत्ता वाला AI अधिक उपयोगकर्ताओं तक पहुँचाने का लक्ष्य जारी है
- GPT-4 लॉन्च के बाद token प्रति कीमत में 95% कमी लाते हुए भी, शीर्ष-स्तरीय reasoning क्षमता बनाए रखने की दिशा में विकास जारी है
- AI के व्यापक अपनाने के बीच, कंपनी intelligence, efficiency और safety के संतुलन वाले models के विकास पर ध्यान केंद्रित करने की योजना बना रही है
1 टिप्पणियां
Hacker News राय
Claude-3.5-sonnet मॉडल की consistency बेहतरीन है, जबकि दूसरे मॉडल ADHD जैसी समस्याओं से जूझते दिखते हैं
o3-mini के जवाब o1-mini की तुलना में 56% अधिक पसंद किए गए
o3-mini का इस्तेमाल करके thread का सारांश साझा किया गया
AI coding में o3-mini ने o1 के समान स्कोर हासिल किया, जबकि लागत 10 गुना कम है
नए मॉडल और reasoning_effort option को सपोर्ट करने वाले LLM CLI tool की नई release की घोषणा की गई
यह बताया गया कि o3-mini का SWE benchmark स्कोर 61% से गिरकर 49.3% हो गया है
o3-mini-high ने seg fault के root cause को सफलतापूर्वक ढूंढ लिया
SWE-Bench में काफ़ी बढ़ोतरी दिखी है, और यह फिर से आज़माने लायक है कि क्या यह उन tasks को संभाल सकता है जिन्हें o1-mini पहले नहीं कर पाता था
AI ecosystem तेज़ी से बदल रहा है, और नए AI models लगातार सामने आ रहे हैं