Simon Willison के o3-mini पर नोट्स

xguru · 2025-02-02T10:07:02+09:00

OpenAI का o3-mini मॉडल नया जारी किया गया है, और दूसरे o series मॉडलों की तरह इसका मूल्यांकन करना थोड़ा कठिन है अब मौजूदा GPT-4o, o1, o1 Pro आदि के साथ यह तय करना पड़ता है कि उपयोग के उद्देश्य के अनुसार कौन-सा मॉडल चुनें o3-mini System Card (PDF) के अनुसार, कुछ evaluation metrics में o3-mini, GPT-4o और o1 से बेहतर है, लेकिन हर category में लगातार उच्च प्रदर्शन नहीं दिखाता Codeforces ELO जैसे competitive programming performance benchmarks में इसने खास तौर पर अच्छा प्रदर्शन किया OpenAI, o3-mini का उपयोग करके इंटरनेट खोज के बाद ChatGPT में परिणामों का सारांश देने की अनुमति देने वाला है मौजूदा o1 मॉडल ChatGPT में web search tool का उपयोग नहीं करता था, इसलिए इस नई सुविधा की उपयोगिता पर ध्यान जा रहा है साथ ही o3-mini vision (image) फीचर को support नहीं करता, लेकिन अगले mini मॉडल में vision शामिल होने की संभावना है मेरे द्वारा बनाया गया CLI tool LLM 0.21 अब o3-mini को support करता है -o reasoning_effort option से high, medium, low निर्दिष्ट किए जा सकते हैं फिलहाल o3-mini केवल Tier 3 या उससे ऊपर के उपयोगकर्ताओं के लिए उपलब्ध है इस tier में आने के लिए न्यूनतम API उपयोग खर्च $100 होना चाहिए o3-mini की लागत प्रति 10 लाख input tokens पर $1.10 प्रति 10 लाख output tokens पर $4.40 GPT-4o($2.50/$10) की तुलना में आधे से भी कम कीमत, और o1($15/$60) की तुलना में 1/10 से भी कम कीमत Hacker News पोस्ट(42890627) का सारांश बनाने के लिए hn-summary.sh script को o3-mini पर चलाया गया hn-summary.sh 42890627 -o o3-mini 18,936 input tokens और 2,905 output tokens का उपयोग हुआ, कुल लागत लगभग $0.033612 (3.3612 सेंट) रही o3-mini की अधिकतम output token limit 100,000 है यह GPT-4o(16,000), DeepSeek R1(8,000), Claude 3.5(8,000) से कहीं अधिक है internal reasoning में उपयोग होने वाले tokens भी इसी सीमा में गिने जाते हैं, इसलिए वास्तविक output का 100,000 तक पहुँचना कठिन हो सकता है input tokens अधिकतम 200,000 तक संभव हैं, जो GPT-4o के 128,000 से अधिक क्षमता है लंबे translation tasks आदि में इसके उपयोग की संभावना काफी अधिक दिखती है क्योंकि इसकी कीमत कम है और यह लंबे input-output को संभालने में अनुकूल है Hacker News पर पेशेवर अनुवादक Tom Gally की टिप्पणी दिलचस्प है उन्होंने कहा कि DeepSeek R1 और o3-mini, दोनों ने लंबे text translation में बाद के हिस्से में quality गिरावट दिखाई शुरुआत में R1 भी ठीक लगा, लेकिन o3-mini ने अधिक smooth और natural English में, मांगी गई writing style के ज्यादा करीब परिणाम दिए लेकिन output length में R1 5,855 अक्षर, o3-mini 9,052 अक्षर, और हाथ से सुधारा गया संस्करण 11,021 अक्षर का था R1 ने बाद के कुछ paragraphs छोड़ दिए, और o3-mini ने एक अजीब abbreviated style इस्तेमाल की (संज्ञाओं के बीच and की जगह / का उपयोग) उनका मत था कि पहले ChatGPT, Claude, Gemini आदि ने उसी text के translation में ऐसी समस्या नहीं दिखाई थी

(simonwillison.net)

14 पॉइंट द्वारा xguru 2025-02-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI का o3-mini मॉडल नया जारी किया गया है, और दूसरे o series मॉडलों की तरह इसका मूल्यांकन करना थोड़ा कठिन है
- अब मौजूदा GPT-4o, o1, o1 Pro आदि के साथ यह तय करना पड़ता है कि उपयोग के उद्देश्य के अनुसार कौन-सा मॉडल चुनें
o3-mini System Card (PDF) के अनुसार, कुछ evaluation metrics में o3-mini, GPT-4o और o1 से बेहतर है, लेकिन हर category में लगातार उच्च प्रदर्शन नहीं दिखाता
- Codeforces ELO जैसे competitive programming performance benchmarks में इसने खास तौर पर अच्छा प्रदर्शन किया
OpenAI, o3-mini का उपयोग करके इंटरनेट खोज के बाद ChatGPT में परिणामों का सारांश देने की अनुमति देने वाला है
- मौजूदा o1 मॉडल ChatGPT में web search tool का उपयोग नहीं करता था, इसलिए इस नई सुविधा की उपयोगिता पर ध्यान जा रहा है
साथ ही o3-mini vision (image) फीचर को support नहीं करता, लेकिन अगले mini मॉडल में vision शामिल होने की संभावना है
मेरे द्वारा बनाया गया CLI tool LLM 0.21 अब o3-mini को support करता है
- -o reasoning_effort option से high, medium, low निर्दिष्ट किए जा सकते हैं
फिलहाल o3-mini केवल Tier 3 या उससे ऊपर के उपयोगकर्ताओं के लिए उपलब्ध है
- इस tier में आने के लिए न्यूनतम API उपयोग खर्च $100 होना चाहिए
o3-mini की लागत
- प्रति 10 लाख input tokens पर $1.10
- प्रति 10 लाख output tokens पर $4.40
- GPT-4o($2.50/$10) की तुलना में आधे से भी कम कीमत, और o1($15/$60) की तुलना में 1/10 से भी कम कीमत
Hacker News पोस्ट(42890627) का सारांश बनाने के लिए hn-summary.sh script को o3-mini पर चलाया गया
- hn-summary.sh 42890627 -o o3-mini
- 18,936 input tokens और 2,905 output tokens का उपयोग हुआ, कुल लागत लगभग $0.033612 (3.3612 सेंट) रही
o3-mini की अधिकतम output token limit 100,000 है
- यह GPT-4o(16,000), DeepSeek R1(8,000), Claude 3.5(8,000) से कहीं अधिक है
- internal reasoning में उपयोग होने वाले tokens भी इसी सीमा में गिने जाते हैं, इसलिए वास्तविक output का 100,000 तक पहुँचना कठिन हो सकता है
input tokens अधिकतम 200,000 तक संभव हैं, जो GPT-4o के 128,000 से अधिक क्षमता है
लंबे translation tasks आदि में इसके उपयोग की संभावना काफी अधिक दिखती है
- क्योंकि इसकी कीमत कम है और यह लंबे input-output को संभालने में अनुकूल है
Hacker News पर पेशेवर अनुवादक Tom Gally की टिप्पणी दिलचस्प है
- उन्होंने कहा कि DeepSeek R1 और o3-mini, दोनों ने लंबे text translation में बाद के हिस्से में quality गिरावट दिखाई
- शुरुआत में R1 भी ठीक लगा, लेकिन o3-mini ने अधिक smooth और natural English में, मांगी गई writing style के ज्यादा करीब परिणाम दिए
- लेकिन output length में R1 5,855 अक्षर, o3-mini 9,052 अक्षर, और हाथ से सुधारा गया संस्करण 11,021 अक्षर का था
- R1 ने बाद के कुछ paragraphs छोड़ दिए, और o3-mini ने एक अजीब abbreviated style इस्तेमाल की (संज्ञाओं के बीच and की जगह / का उपयोग)
- उनका मत था कि पहले ChatGPT, Claude, Gemini आदि ने उसी text के translation में ऐसी समस्या नहीं दिखाई थी

1 टिप्पणियां

xguru 2025-02-02

OpenAI o3-Mini रिलीज़

Simon Willison के o3-mini पर नोट्स

संबंधित पढ़ाई

1 टिप्पणियां