3 पॉइंट द्वारा GN⁺ 2025-04-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-4.1, GPT-4.1 mini, GPT-4.1 nano — तीन मॉडल पेश किए गए
  • GPT-4o की तुलना में कुल मिलाकर बेहतर प्रदर्शन, खासकर coding, instruction following, और long-context understanding में उल्लेखनीय सुधार
  • तीनों मॉडल अधिकतम 1 million tokens का context window सपोर्ट करते हैं, इसलिए बड़े codebase और जटिल दस्तावेज़ विश्लेषण के लिए उपयुक्त हैं
  • कम latency और कम लागत के साथ शानदार प्रदर्शन
  • प्रमुख प्रदर्शन सुधार
    • coding क्षमता: SWE-bench Verified में 54.6%, जो GPT-4o की तुलना में +21.4%p सुधार है
    • instruction following: MultiChallenge स्कोर 38.3%, जो GPT-4o से +10.5%p बेहतर है
    • multimodal long-context understanding: Video-MME(long, no subtitles) में 72.0%, GPT-4o की तुलना में +6.7%p
  • GPT-4.1 मॉडल परिवार की विशेषताएँ
    • GPT-4.1 mini: intelligence evaluation में GPT-4o से बेहतर, latency आधी, लागत 83% कम
    • GPT-4.1 nano: सबसे कम लागत और सबसे कम latency, फिर भी उच्च प्रदर्शन बनाए रखता है
  • GPT-4.5 Preview 14 जुलाई 2025 को बंद किया जाएगा, GPT-4.1 series पर जाने की सिफारिश
  • vision (image understanding और multimodal)
    • GPT-4.1 mini image-based benchmark में GPT-4o से आगे
    • MMMU, MathVista, CharXiv आदि में उच्च सटीकता
    • Video-MME (30~60 मिनट के बिना subtitle वाले वीडियो पर प्रश्न): 72.0% accuracy
  • pricing policy
    • सभी मॉडल जारी किए गए हैं और उपयोग के लिए उपलब्ध हैं
    • GPT-4.1 GPT-4o से औसतन 26% सस्ता है
    • GPT-4.1 nano सबसे कम लागत वाला मॉडल है
    • cached input पर 75% छूट, और long context पर कोई अतिरिक्त लागत नहीं
  • मॉडल-वार कीमत
    • GPT-4.1: input प्रति 1 million tokens $2.00, output $8.00, औसत लागत लगभग $1.84
    • GPT-4.1 mini: input $0.40, output $1.60, औसत $0.42
    • GPT-4.1 nano: input $0.10, output $0.40, औसत $0.12
    • prompt cache discount को पहले के 50% से बढ़ाकर 75% तक किया गया
    • long-context requests पर कोई अतिरिक्त शुल्क नहीं, केवल token usage के आधार पर शुल्क

1 टिप्पणियां

 
GN⁺ 2025-04-15
Hacker News राय
  • ChatGPT उपयोगकर्ताओं ने अलग-अलग models चुनने की स्थिति को लेकर भ्रम व्यक्त किया

    • 4o में web search, Canvas उपयोग, Python server-side evaluation, image generation संभव है, लेकिन chain of thought नहीं है
    • o3-mini में web search, CoT, Canvas संभव हैं, लेकिन image generation संभव नहीं है
    • o1 में CoT संभव है, लेकिन Canvas, web search, या image generation संभव नहीं है
    • Deep Research शक्तिशाली है, लेकिन महीने में केवल 10 बार उपयोग संभव होने के कारण लगभग इस्तेमाल नहीं होता
    • 4.5 creative writing में उत्कृष्ट है, लेकिन request limits हैं और यह स्पष्ट नहीं है कि क्या यह अन्य features को support करता है
    • 4o "with scheduled tasks" tool के बजाय model क्यों है, इस पर सवाल उठाया गया
  • SWE-bench Verified, Aider Polyglot, लागत, प्रति सेकंड output tokens, knowledge cutoff month/year की तुलना

    • Claude, Gemini, GPT-4.1, DeepSeek R1, Grok 3 Beta के performance और cost की तुलना
    • अलग-अलग test environments और reasoning levels शामिल हो सकते हैं, इसलिए सीधी तुलना कठिन है
  • OAI ने GPT 4.1 के लिए prompt guide जारी की

    • model को persistence देना performance सुधारने में मदद करता है
    • JSON के बजाय XML या arxiv 2406.13121 (GDM format) के उपयोग की सिफारिश की गई
    • prompts को ऊपर और नीचे रखना चाहिए
  • OpenAI की घोषणा के अनुसार, Claude Sonnet 3.7 के साथ code review generation मुकाबले में GPT-4.1 ने 55% मामलों में बेहतर सुझाव दिए

    • GPT-4.1 precision और comprehensiveness में बेहतर है
  • हाल की Ted Talk में Sam ने कहा कि models आते-जाते रहेंगे, लेकिन वे सबसे अच्छा platform बनना चाहते हैं

    • यह एक बड़ा बदलाव महसूस होता है
  • जटिल code base में GPT-4.1 का उपयोग करने का अनुभव साझा किया गया

    • यह OpenAI का पहला agent model लगता है
    • अभी भी सुधार की जरूरत है, और tool calling अक्सर विफल हो जाती है
    • Claude की तुलना में जटिलता संभालने की क्षमता कम है
    • अगर request बहुत जटिल न हो, तो यह request के प्रति वफादार रहता है
  • लंबे max token models के performance पर benchmark की आवश्यकता उठाई गई

    • Gemini models में 200k के बाद quality गिरने का अनुभव साझा किया गया
    • max token limit बढ़ाना वास्तव में उपयोगी है या नहीं, इस पर सवाल है
  • बड़े AI research labs एक साथ कई market wars लड़ रहे हैं

    • consumer growth, enterprise workloads, frontier research, reasoning promises, और DeepSeek threat के जवाब सहित कई मोर्चों पर प्रतिस्पर्धा चल रही है
  • GPT-4.1 ने 164 comments वाले Hacker News thread का सारांश बनाया

    • इसे instructions अच्छी तरह follow करने वाला माना गया
    • total token cost और अन्य models के साथ तुलना भी दी गई