14 पॉइंट द्वारा xguru 2025-02-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI का o3-mini मॉडल नया जारी किया गया है, और दूसरे o series मॉडलों की तरह इसका मूल्यांकन करना थोड़ा कठिन है
    • अब मौजूदा GPT-4o, o1, o1 Pro आदि के साथ यह तय करना पड़ता है कि उपयोग के उद्देश्य के अनुसार कौन-सा मॉडल चुनें
  • o3-mini System Card (PDF) के अनुसार, कुछ evaluation metrics में o3-mini, GPT-4o और o1 से बेहतर है, लेकिन हर category में लगातार उच्च प्रदर्शन नहीं दिखाता
    • Codeforces ELO जैसे competitive programming performance benchmarks में इसने खास तौर पर अच्छा प्रदर्शन किया
  • OpenAI, o3-mini का उपयोग करके इंटरनेट खोज के बाद ChatGPT में परिणामों का सारांश देने की अनुमति देने वाला है
    • मौजूदा o1 मॉडल ChatGPT में web search tool का उपयोग नहीं करता था, इसलिए इस नई सुविधा की उपयोगिता पर ध्यान जा रहा है
  • साथ ही o3-mini vision (image) फीचर को support नहीं करता, लेकिन अगले mini मॉडल में vision शामिल होने की संभावना है
  • मेरे द्वारा बनाया गया CLI tool LLM 0.21 अब o3-mini को support करता है
    • -o reasoning_effort option से high, medium, low निर्दिष्ट किए जा सकते हैं
  • फिलहाल o3-mini केवल Tier 3 या उससे ऊपर के उपयोगकर्ताओं के लिए उपलब्ध है
    • इस tier में आने के लिए न्यूनतम API उपयोग खर्च $100 होना चाहिए
  • o3-mini की लागत
    • प्रति 10 लाख input tokens पर $1.10
    • प्रति 10 लाख output tokens पर $4.40
    • GPT-4o($2.50/$10) की तुलना में आधे से भी कम कीमत, और o1($15/$60) की तुलना में 1/10 से भी कम कीमत
  • Hacker News पोस्ट(42890627) का सारांश बनाने के लिए hn-summary.sh script को o3-mini पर चलाया गया
    • hn-summary.sh 42890627 -o o3-mini
    • 18,936 input tokens और 2,905 output tokens का उपयोग हुआ, कुल लागत लगभग $0.033612 (3.3612 सेंट) रही
  • o3-mini की अधिकतम output token limit 100,000 है
    • यह GPT-4o(16,000), DeepSeek R1(8,000), Claude 3.5(8,000) से कहीं अधिक है
    • internal reasoning में उपयोग होने वाले tokens भी इसी सीमा में गिने जाते हैं, इसलिए वास्तविक output का 100,000 तक पहुँचना कठिन हो सकता है
  • input tokens अधिकतम 200,000 तक संभव हैं, जो GPT-4o के 128,000 से अधिक क्षमता है
  • लंबे translation tasks आदि में इसके उपयोग की संभावना काफी अधिक दिखती है
    • क्योंकि इसकी कीमत कम है और यह लंबे input-output को संभालने में अनुकूल है
  • Hacker News पर पेशेवर अनुवादक Tom Gally की टिप्पणी दिलचस्प है
    • उन्होंने कहा कि DeepSeek R1 और o3-mini, दोनों ने लंबे text translation में बाद के हिस्से में quality गिरावट दिखाई
    • शुरुआत में R1 भी ठीक लगा, लेकिन o3-mini ने अधिक smooth और natural English में, मांगी गई writing style के ज्यादा करीब परिणाम दिए
    • लेकिन output length में R1 5,855 अक्षर, o3-mini 9,052 अक्षर, और हाथ से सुधारा गया संस्करण 11,021 अक्षर का था
    • R1 ने बाद के कुछ paragraphs छोड़ दिए, और o3-mini ने एक अजीब abbreviated style इस्तेमाल की (संज्ञाओं के बीच and की जगह / का उपयोग)
    • उनका मत था कि पहले ChatGPT, Claude, Gemini आदि ने उसी text के translation में ऐसी समस्या नहीं दिखाई थी

1 टिप्पणियां