OpenAI ने GPT-4.1 पेश किया

(openai.com)

3 पॉइंट द्वारा GN⁺ 2025-04-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

GPT-4.1, GPT-4.1 mini, GPT-4.1 nano — तीन मॉडल पेश किए गए
GPT-4o की तुलना में कुल मिलाकर बेहतर प्रदर्शन, खासकर coding, instruction following, और long-context understanding में उल्लेखनीय सुधार
तीनों मॉडल अधिकतम 1 million tokens का context window सपोर्ट करते हैं, इसलिए बड़े codebase और जटिल दस्तावेज़ विश्लेषण के लिए उपयुक्त हैं
कम latency और कम लागत के साथ शानदार प्रदर्शन
प्रमुख प्रदर्शन सुधार
- coding क्षमता: SWE-bench Verified में 54.6%, जो GPT-4o की तुलना में +21.4%p सुधार है
- instruction following: MultiChallenge स्कोर 38.3%, जो GPT-4o से +10.5%p बेहतर है
- multimodal long-context understanding: Video-MME(long, no subtitles) में 72.0%, GPT-4o की तुलना में +6.7%p
GPT-4.1 मॉडल परिवार की विशेषताएँ
- GPT-4.1 mini: intelligence evaluation में GPT-4o से बेहतर, latency आधी, लागत 83% कम
- GPT-4.1 nano: सबसे कम लागत और सबसे कम latency, फिर भी उच्च प्रदर्शन बनाए रखता है
GPT-4.5 Preview 14 जुलाई 2025 को बंद किया जाएगा, GPT-4.1 series पर जाने की सिफारिश
vision (image understanding और multimodal)
- GPT-4.1 mini image-based benchmark में GPT-4o से आगे
- MMMU, MathVista, CharXiv आदि में उच्च सटीकता
- Video-MME (30~60 मिनट के बिना subtitle वाले वीडियो पर प्रश्न): 72.0% accuracy
pricing policy
- सभी मॉडल जारी किए गए हैं और उपयोग के लिए उपलब्ध हैं
- GPT-4.1 GPT-4o से औसतन 26% सस्ता है
- GPT-4.1 nano सबसे कम लागत वाला मॉडल है
- cached input पर 75% छूट, और long context पर कोई अतिरिक्त लागत नहीं
मॉडल-वार कीमत
- GPT-4.1: input प्रति 1 million tokens $2.00, output $8.00, औसत लागत लगभग $1.84
- GPT-4.1 mini: input $0.40, output $1.60, औसत $0.42
- GPT-4.1 nano: input $0.10, output $0.40, औसत $0.12
- prompt cache discount को पहले के 50% से बढ़ाकर 75% तक किया गया
- long-context requests पर कोई अतिरिक्त शुल्क नहीं, केवल token usage के आधार पर शुल्क

1 टिप्पणियां

GN⁺ 2025-04-15

Hacker News राय

ChatGPT उपयोगकर्ताओं ने अलग-अलग models चुनने की स्थिति को लेकर भ्रम व्यक्त किया
- 4o में web search, Canvas उपयोग, Python server-side evaluation, image generation संभव है, लेकिन chain of thought नहीं है
- o3-mini में web search, CoT, Canvas संभव हैं, लेकिन image generation संभव नहीं है
- o1 में CoT संभव है, लेकिन Canvas, web search, या image generation संभव नहीं है
- Deep Research शक्तिशाली है, लेकिन महीने में केवल 10 बार उपयोग संभव होने के कारण लगभग इस्तेमाल नहीं होता
- 4.5 creative writing में उत्कृष्ट है, लेकिन request limits हैं और यह स्पष्ट नहीं है कि क्या यह अन्य features को support करता है
- 4o "with scheduled tasks" tool के बजाय model क्यों है, इस पर सवाल उठाया गया
SWE-bench Verified, Aider Polyglot, लागत, प्रति सेकंड output tokens, knowledge cutoff month/year की तुलना
- Claude, Gemini, GPT-4.1, DeepSeek R1, Grok 3 Beta के performance और cost की तुलना
- अलग-अलग test environments और reasoning levels शामिल हो सकते हैं, इसलिए सीधी तुलना कठिन है
OAI ने GPT 4.1 के लिए prompt guide जारी की
- model को persistence देना performance सुधारने में मदद करता है
- JSON के बजाय XML या arxiv 2406.13121 (GDM format) के उपयोग की सिफारिश की गई
- prompts को ऊपर और नीचे रखना चाहिए
OpenAI की घोषणा के अनुसार, Claude Sonnet 3.7 के साथ code review generation मुकाबले में GPT-4.1 ने 55% मामलों में बेहतर सुझाव दिए
- GPT-4.1 precision और comprehensiveness में बेहतर है
हाल की Ted Talk में Sam ने कहा कि models आते-जाते रहेंगे, लेकिन वे सबसे अच्छा platform बनना चाहते हैं
- यह एक बड़ा बदलाव महसूस होता है
जटिल code base में GPT-4.1 का उपयोग करने का अनुभव साझा किया गया
- यह OpenAI का पहला agent model लगता है
- अभी भी सुधार की जरूरत है, और tool calling अक्सर विफल हो जाती है
- Claude की तुलना में जटिलता संभालने की क्षमता कम है
- अगर request बहुत जटिल न हो, तो यह request के प्रति वफादार रहता है
लंबे max token models के performance पर benchmark की आवश्यकता उठाई गई
- Gemini models में 200k के बाद quality गिरने का अनुभव साझा किया गया
- max token limit बढ़ाना वास्तव में उपयोगी है या नहीं, इस पर सवाल है
बड़े AI research labs एक साथ कई market wars लड़ रहे हैं
- consumer growth, enterprise workloads, frontier research, reasoning promises, और DeepSeek threat के जवाब सहित कई मोर्चों पर प्रतिस्पर्धा चल रही है
GPT-4.1 ने 164 comments वाले Hacker News thread का सारांश बनाया
- इसे instructions अच्छी तरह follow करने वाला माना गया
- total token cost और अन्य models के साथ तुलना भी दी गई

OpenAI ने GPT-4.1 पेश किया

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय