13 पॉइंट द्वारा GN⁺ 2025-02-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI o3-mini लागत-कुशल reasoning model series का सबसे नया मॉडल है
  • दिसंबर 2024 प्रीव्यू के बाद इसे आधिकारिक रूप से लॉन्च किया गया है, और यह ChatGPT तथा API में उपलब्ध है
  • विज्ञान, गणित, कोडिंग जैसे STEM क्षेत्रों में यह शानदार प्रदर्शन दिखाता है, जबकि OpenAI o1-mini की तुलना में कम लागत और latency बनाए रखता है

मुख्य सुविधाएँ और सुधार

  • OpenAI o3-mini पहला छोटा reasoning model है जो function calling, structured outputs, developer messages को सपोर्ट करता है
  • यह streaming को सपोर्ट करता है, और low, medium, high के तीन reasoning effort options देता है ताकि स्थिति के अनुसार अनुकूलन किया जा सके
  • यह vision (image) फीचर को सपोर्ट नहीं करता; जिन मामलों में visual reasoning चाहिए, वहाँ OpenAI o1 इस्तेमाल करने की सिफारिश है
  • यह Chat Completions API, Assistants API, Batch API में उपलब्ध है, और API usage tier 3~5 के developers को दिया जा रहा है
  • ChatGPT Plus, Team, Pro उपयोगकर्ता इसे आज से इस्तेमाल कर सकते हैं, जबकि Enterprise उपयोगकर्ताओं के लिए सपोर्ट फरवरी से आने वाला है
  • यह OpenAI o1-mini की जगह लेता है और अधिक गति तथा बेहतर reasoning क्षमता प्रदान करता है
  • Plus और Team उपयोगकर्ताओं की message limit पहले o1-mini के 50 से बढ़ाकर 150 कर दी गई है
  • इसमें search फीचर जोड़ा गया है, और web links के साथ नवीनतम जानकारी देने वाले फीचर का प्रयोग किया जा रहा है

मुफ्त उपयोगकर्ताओं के लिए पहुँच का विस्तार

  • मुफ्त उपयोगकर्ता भी message composer में ‘Reason’ चुनकर या response regenerate करके o3-mini का उपयोग कर सकते हैं
  • यह पहली बार है जब ChatGPT में कोई reasoning model मुफ्त उपयोगकर्ताओं को उपलब्ध कराया गया है

STEM के लिए अनुकूलन और प्रदर्शन में सुधार

  • यह STEM क्षेत्रों के लिए अनुकूलित प्रदर्शन देता है और o1-mini की तुलना में अधिक तेज़ तथा अधिक सटीक responses बनाता है
  • विशेषज्ञ testers के मूल्यांकन में, o3-mini को 56% मामलों में o1-mini से अधिक पसंद किया गया, और कठिन समस्याओं में मुख्य errors में 39% कमी देखी गई
  • AIME, GPQA जैसे कठिन reasoning और intelligence evaluations में o1 के समान प्रदर्शन दिखाते हुए, यह अधिक तेज़ response speed भी देता है

मुख्य प्रदर्शन तुलना

  • गणित (AIME 2024):
    • low reasoning effort पर o1-mini के समान प्रदर्शन, medium reasoning effort पर o1 के समान प्रदर्शन
    • high reasoning effort पर o1 और o1-mini से बेहतर प्रदर्शन
  • PhD-स्तर के science questions (GPQA Diamond):
    • biology, chemistry, physics समस्याओं में low reasoning effort पर भी o1-mini से बेहतर प्रदर्शन
    • high reasoning effort पर o1 के समान प्रदर्शन
  • उन्नत गणित (FrontierMath):
    • Python tools का उपयोग करने पर यह पहली कोशिश में 32% से अधिक समस्याएँ हल करता है, और उच्च कठिनाई वाली समस्याएँ (T3) भी 28% से अधिक हल करता है
  • competitive programming (Codeforces):
    • reasoning effort बढ़ने के साथ यह अधिक ऊँचा Elo score दर्ज करता है, और o1-mini से बेहतर प्रदर्शन करता है
    • medium reasoning effort पर o1 के समान प्रदर्शन
  • software engineering (SWE-bench Verified):
    • SWEbench-verified में अब तक जारी मॉडलों में सबसे अच्छा प्रदर्शन दर्ज किया गया
  • वास्तविक coding tests (LiveBench Coding):
    • यह o1-high से बेहतर प्रदर्शन दिखाता है, और high reasoning effort पर और भी अधिक प्रभावशाली प्रदर्शन करता है
  • सामान्य knowledge evaluation:
    • समग्र knowledge evaluation में o1-mini से बेहतर परिणाम दिखाता है
  • user preference evaluation:
    • विशेषज्ञ परीक्षणों में o3-mini को o1-mini की तुलना में 56% अधिक पसंद किया गया, और कठिन समस्याओं में 39% errors की कमी दर्ज की गई

गति और प्रदर्शन में सुधार

  • o1 जैसी intelligence बनाए रखते हुए भी, यह अधिक तेज़ performance और बेहतर efficiency देता है
  • गणित और factuality evaluations में medium reasoning effort पर भी बेहतर परिणाम मिलते हैं
  • A/B test results के अनुसार, o3-mini की response speed o1-mini से 24% अधिक तेज़ है
    • औसत response time: o3-mini(7.7 सेकंड) vs o1-mini(10.16 सेकंड)
    • पहला token output speed: o3-mini, o1-mini से औसतन 2500ms तेज़

सुरक्षा और प्रतिक्रिया उपाय

  • OpenAI o3-mini को ‘deliberative alignment’ तकनीक का उपयोग करके अधिक सुरक्षित responses उत्पन्न करने के लिए प्रशिक्षित किया गया है
  • OpenAI o1 की तुलना में, यह GPT-4o से भी उच्च स्तर की सुरक्षा और jailbreak defense क्षमता दिखाता है
  • लॉन्च से पहले, preparedness evaluations, external red team testing, safety evaluations के जरिए इसका गहन सत्यापन किया गया
  • o3-mini के disallowed content response evaluation और jailbreak evaluation results system card में उपलब्ध हैं

आगे की योजनाएँ और दृष्टिकोण

  • OpenAI o3-mini लागत-कुशल AI intelligence की प्रगति के नए चरण का संकेत देता है
  • STEM optimization और low-cost model development के ज़रिए उच्च-गुणवत्ता वाला AI अधिक उपयोगकर्ताओं तक पहुँचाने का लक्ष्य जारी है
  • GPT-4 लॉन्च के बाद token प्रति कीमत में 95% कमी लाते हुए भी, शीर्ष-स्तरीय reasoning क्षमता बनाए रखने की दिशा में विकास जारी है
  • AI के व्यापक अपनाने के बीच, कंपनी intelligence, efficiency और safety के संतुलन वाले models के विकास पर ध्यान केंद्रित करने की योजना बना रही है

1 टिप्पणियां

 
GN⁺ 2025-02-01
Hacker News राय
  • Claude-3.5-sonnet मॉडल की consistency बेहतरीन है, जबकि दूसरे मॉडल ADHD जैसी समस्याओं से जूझते दिखते हैं

    • जब NextJS ऐप में shadcn components इस्तेमाल करने की कोशिश की जाती है, तो sonnet लगभग पूरी तरह सही काम करता है, लेकिन दूसरे मॉडल radix-ui इस्तेमाल करने की कोशिश करते हैं
    • o3-mini मॉडल भी इसी समस्या से जूझ रहा है
    • संभव है कि cursor का instruction set ही समस्या हो
    • sonnet ही एकमात्र व्यावहारिक coding विकल्प बचा है
  • o3-mini के जवाब o1-mini की तुलना में 56% अधिक पसंद किए गए

    • जब दोनों जवाब 2,000 शब्दों के हों, तो लोग उस जवाब को चुनने की ओर झुकते हैं जिसने सवाल का उत्तर जल्दी दिया हो
    • यह सर्वे अर्थहीन है, और 50% response rate सिक्का उछालने जैसा है
  • o3-mini का इस्तेमाल करके thread का सारांश साझा किया गया

    • 18,936 input, 2,905 output पर 3.3612 सेंट का खर्च आया
  • AI coding में o3-mini ने o1 के समान स्कोर हासिल किया, जबकि लागत 10 गुना कम है

    • मध्यम effort पर o3-mini ने R1 और Sonnet के बीच का स्कोर हासिल किया
  • नए मॉडल और reasoning_effort option को सपोर्ट करने वाले LLM CLI tool की नई release की घोषणा की गई

    • इस्तेमाल का उदाहरण साझा किया गया
  • यह बताया गया कि o3-mini का SWE benchmark स्कोर 61% से गिरकर 49.3% हो गया है

    • वास्तविक coding tasks में o3-mini, Claude जैसी performance दिखाता है
  • o3-mini-high ने seg fault के root cause को सफलतापूर्वक ढूंढ लिया

    • इसने वह समस्या हल कर दी जिसे o1 पहले नहीं पकड़ पाया था
  • SWE-Bench में काफ़ी बढ़ोतरी दिखी है, और यह फिर से आज़माने लायक है कि क्या यह उन tasks को संभाल सकता है जिन्हें o1-mini पहले नहीं कर पाता था

    • लागत में $4/मिलियन output tokens बनाम $60 का अंतर है
  • AI ecosystem तेज़ी से बदल रहा है, और नए AI models लगातार सामने आ रहे हैं

    • लोग सोच रहे हैं कि AI में यह बदलाव इस release और आने वाली releases को कैसे प्रभावित करेगा