GPT‑5.4 जारी
(openai.com)- ChatGPT, API और Codex में लागू किया गया नवीनतम frontier model, जो reasoning, coding और agent workflow performance को एकीकृत करता है
- native computer-use फ़ीचर बिल्ट-इन है, जिससे agent वेबसाइट और software को सीधे ऑपरेट कर जटिल workflow पूरे कर सकता है
- अधिकतम 1M token context window का समर्थन, और tool search व efficient token usage के ज़रिये speed और cost में कमी
- ChatGPT के Thinking mode में जवाब के बीच सोचने की प्रक्रिया को समायोजित किया जा सकता है, और deep web research व context retention बेहतर हुए हैं
- GPT-5.3-Codex की coding performance को समाहित करते हुए spreadsheet, presentation और document work की accuracy और efficiency में बड़ा सुधार
GPT‑5.4 का अवलोकन
- GPT‑5.4 ChatGPT (Thinking mode), API और Codex में एक साथ डिप्लॉय किया गया सबसे शक्तिशाली और कुशल मॉडल है
- GPT‑5.4 Pro वर्ज़न जटिल कार्यों में अधिकतम performance देता है
- GPT‑5.3‑Codex की coding क्षमताओं को एकीकृत किया गया है, और spreadsheet, presentation और document work जैसे प्रोफेशनल कार्य-परिवेश में accuracy और efficiency को मजबूत किया गया है
- tools और software environments के बीच interoperability बेहतर हुई है, जिससे वास्तविक काम करते समय बार-बार संवाद की ज़रूरत घटती है
ChatGPT के Thinking mode में सुधार
- GPT-5.4 Thinking काम शुरू करते समय thinking process का pre-planning (preamble) दिखाता है, जिससे उपयोगकर्ता response generation के बीच में दिशा समायोजित कर सकता है
- इसे इस तरह डिज़ाइन किया गया है कि अतिरिक्त turn के बिना final output उपयोगकर्ता के इरादे से अधिक सटीक मेल खाए
- deep web research performance में सुधार, खासकर बहुत विशिष्ट query पर प्रभावी
- जिन सवालों में लंबी सोच की ज़रूरत होती है, उनमें पिछले context को बनाए रखने की क्षमता बेहतर हुई है, जिससे तेज़ी से उच्च-गुणवत्ता वाले जवाब मिलते हैं
- chatgpt.com और Android app पर तुरंत उपलब्ध, iOS app के लिए बाद में समर्थन आएगा
computer use और vision फ़ीचर
- GPT-5.4 सामान्य-उद्देश्य वाले मॉडलों में पहला है जिसमें native computer-use फ़ीचर शामिल है
- Playwright जैसी libraries के ज़रिये code-based computer control और screenshot-based mouse/keyboard commands — दोनों का समर्थन
- developer messages के माध्यम से behavior समायोजित किया जा सकता है, और custom confirmation policy से risk tolerance को अलग-अलग सेट किया जा सकता है
- OSWorld-Verified में 75.0% हासिल, जो मानव प्रदर्शन 72.4% से अधिक है और GPT-5.2 के 47.3% की तुलना में बड़ा सुधार है
- WebArena-Verified में DOM + screenshot आधारित interaction के साथ 67.3% हासिल (GPT-5.2: 65.4%)
- Online-Mind2Web में केवल screenshot-based observation से 92.8% हासिल (ChatGPT Atlas Agent Mode: 70.9%)
visual recognition और document parsing में सुधार
- बेहतर general visual recognition capability ही computer-use फ़ीचर की नींव है
- MMMU-Pro में बिना tools के 81.2% (GPT-5.2: 79.5%), tools के साथ 82.1% (GPT-5.2: 80.4%)
- OmniDocBench में बिना reasoning के average error (normalized edit distance) 0.109 हासिल (GPT-5.2: 0.140)
- नया
originalimage input detail level पेश: अधिकतम 10.24M pixels या 6000px max dimension तक full-fidelity recognition supporthighlevel को अधिकतम 2.56M pixels या 2048px max dimension तक बढ़ाया गया- शुरुआती API user tests में localization ability, image understanding और click accuracy में मज़बूत सुधार देखा गया
coding performance
- GPT-5.3-Codex की coding strengths को professional work और computer-use capabilities के साथ जोड़ा गया है
- SWE-Bench Pro में 57.7% हासिल (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
- सभी reasoning levels पर GPT-5.3-Codex की तुलना में कम latency
- Codex में /fast mode सक्षम करने पर अधिकतम 1.5x तेज token speed, वही model और वही intelligence level बरकरार
- API में Priority Processing के ज़रिये वही high-speed performance उपलब्ध
- जटिल frontend कार्यों में पिछले मॉडलों की तुलना में स्पष्ट रूप से अधिक सुंदर और functional output तैयार करता है
- experimental Codex skill "Playwright (Interactive)" जारी: web और Electron apps की visual debugging का समर्थन, build हो रहे app को real time में test किया जा सकता है
Tool Search फ़ीचर
- पहले सभी tool definitions prompt में पहले से शामिल करनी पड़ती थीं, जिससे हज़ारों से लेकर दसियों हज़ार tokens खर्च होते थे; अब Tool Search के साथ केवल हल्की tool list दी जाती है और ज़रूरत पड़ने पर definition dynamically fetch की जाती है
- tool-intensive workflows में token usage नाटकीय रूप से घटता है और cache सुरक्षित रहती है, जिससे speed और cost दोनों बेहतर होते हैं
- दसियों हज़ार tokens आकार वाली MCP server tool definitions में यह efficiency gain खास तौर पर बड़ा है
- Scale के MCP Atlas benchmark के 250 tasks के आधार पर, 36 MCP servers को पूरी तरह Tool Search पर स्विच करने से कुल token usage 47% कम हुआ, जबकि accuracy समान रही
tool calling और agent performance
- GPT-5.4 reasoning के दौरान tools कब और कैसे इस्तेमाल करने हैं, इसमें accuracy और efficiency बेहतर करता है
- Toolathlon में 54.6% हासिल (GPT-5.2: 45.7%), कम turns में अधिक accuracy
- email पढ़ना, assignment attachment निकालना, upload करना, grading करना, और result spreadsheet में दर्ज करना जैसी multi-step real-world tool tasks का मूल्यांकन
- बिना reasoning वाले low-latency scenarios में भी τ2-bench Telecom पर 64.3% हासिल (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
- BrowseComp में 82.7%, और GPT-5.4 Pro ने 89.3% के साथ नया सर्वोच्च प्रदर्शन हासिल किया (GPT-5.2: 65.8%)
- “haystack में needle खोजने” जैसे कठिन information retrieval में कई rounds तक लगातार search करने की क्षमता बेहतर हुई
professional work और knowledge work performance
- GDPval में अमेरिका की GDP के शीर्ष 9 industries और 44 occupations के वास्तविक कार्य-आउटपुट (sales presentation, accounting spreadsheet, emergency care schedule, manufacturing diagram, short video आदि) का मूल्यांकन
- GPT-5.4: 83.0% मामलों में expert level के बराबर या उससे बेहतर (GPT-5.2: 70.9%)
- internal investment banking spreadsheet modeling benchmark में औसत 87.3% (GPT-5.2: 68.4%)
- presentation evaluation में मानव evaluators ने GPT-5.4 output को 68.0% मामलों में प्राथमिकता दी (aesthetic quality, visual diversity, image generation utilization बेहतर)
- hallucination और errors में कमी: जिन prompts पर उपयोगकर्ताओं ने factual error report किया, उनमें individual claims के false होने की संभावना 33% कम, और पूरे response में error होने की संभावना 18% कम हुई (GPT-5.2 की तुलना में)
1M context window और long-context performance
- अधिकतम 1M token context का समर्थन, जिससे agent लंबे दायरे वाले कार्यों की planning, execution और verification कर सकता है
- Codex में experimental रूप से 1M context window support, जिसे
model_context_windowऔरmodel_auto_compact_token_limitsettings से configure किया जा सकता है- standard 272K context window से अधिक requests पर 2x pricing लागू होगी
- Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
- OpenAI MRCR v2 8-needle: 4K–8K पर 97.3%, 128K–256K पर 79.3%, 512K–1M पर 36.6%
abstract reasoning और academic benchmarks
- ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
- GPT-5.4 Pro ने ARC-AGI-2 में 83.3% हासिल किया
- Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
- FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro ने 38.0% हासिल किया
- GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
- Humanity's Last Exam: बिना tools के 39.8%, tools के साथ 52.1% (GPT-5.2: क्रमशः 34.5%, 45.5%)
- GPT-5.4 Pro ने tools के साथ 58.7% हासिल किया
safety और security
- GPT-5.3-Codex में पेश किए गए safeguards को लगातार बेहतर किया जा रहा है, और Preparedness Framework में इसे High cyber capability के रूप में वर्गीकृत किया गया है
- विस्तारित cyber safety stack: monitoring systems, trust-based access control, और Zero Data Retention (ZDR) surfaces पर asynchronous blocking शामिल
- cyber security capability की dual-use प्रकृति को ध्यान में रखते हुए proactive deployment approach अपनाई गई है; classifier accuracy में सुधार जारी है, इसलिए कुछ false positives संभव हैं
- लक्ष्य यह है कि misuse prevention safeguards बनाए रखते हुए अनावश्यक refusals और अत्यधिक hint-like responses कम किए जाएँ
- Chain-of-Thought (CoT) monitoring पर शोध जारी: नया open source evaluation tool CoT controllability जारी
- GPT-5.4 Thinking में CoT control क्षमता कम है, जिससे model के लिए reasoning छिपाना कठिन होता है और यह safety के लिहाज़ से सकारात्मक माना गया है
pricing और release जानकारी
- API model name:
gpt-5.4, Pro version:gpt-5.4-pro - API pricing (प्रति M tokens):
- gpt-5.4: input $2.50, cached input $0.25, output $15
- gpt-5.4-pro: input $30, output $180
- gpt-5.2: input $1.75, cached input $0.175, output $14
- GPT-5.2 की तुलना में token के हिसाब से कीमत अधिक है, लेकिन बेहतर token efficiency के कारण प्रति task कुल token usage घटता है
- Batch और Flex pricing standard की आधी, Priority Processing standard की 2x
- ChatGPT में GPT-5.4 Thinking Plus, Team, Pro उपयोगकर्ताओं के लिए तुरंत उपलब्ध है, और GPT-5.2 Thinking की जगह लेता है
- GPT-5.2 Thinking paid users के लिए Legacy Models सेक्शन में 3 महीने तक रहेगा, उसके बाद 5 जून 2026 को समाप्त होगा
- Enterprise और Edu plans में admin settings के ज़रिये early access सक्षम किया जा सकता है
- GPT-5.4 Pro Pro और Enterprise plans में उपलब्ध है
- GPT-5.4, GPT-5.3-Codex की frontier coding capabilities को एकीकृत करने वाला पहला mainline reasoning model है, और Instant model व Thinking model आगे चलकर अलग-अलग गति से विकसित होंगे
2 टिप्पणियां
Hacker News की राय
ब्लॉग पोस्ट के नीचे वाला “Ask ChatGPT” बॉक्स मज़ेदार लगा
अगर आप उससे पोस्ट का सारांश माँगते हैं तो एक नई विंडो खुलती है, लेकिन जवाब सिर्फ इतना आता है कि “बाहरी URL तक पहुँच नहीं हो सकती”
सोच रहा हूँ कि क्या OpenAI को पता है कि यह फीचर वास्तव में काम नहीं कर रहा
लॉग-इन रहने पर यह ठीक से चला, और मैंने टीम को bug report भेज दी
शेयर किया गया उदाहरण लिंक देखें
मैं भी लॉग-इन था
शायद लॉग-इन स्टेटस के हिसाब से बाहरी URL एक्सेस की अनुमति बदलती है
लगता है Anthropic इस तरह की बारीक UX डिटेल्स पर ज़्यादा ध्यान देता है
लगता है OpenAI की मॉडल लाइनअप बहुत ज़्यादा जटिल हो गई है
GPT‑5.1, 5.2, 5.4 के साथ Codex 5.3 और Instant 5.3 भी मिले हुए हैं
दूसरी ओर Anthropic सिर्फ तीन मॉडलों को साफ़ तौर पर अलग करता है, और Google के पास अब भी सिर्फ Preview मॉडल हैं
डेवलपर के तौर पर स्थिर वर्ज़न इस्तेमाल करना मुश्किल लगता है
हर बार लगता है कि दोनों में से सिर्फ एक ही चुन सकते हैं
अगर आप engineer हैं, तो 5.4 > 5.2 > 5.1 समझना मुश्किल नहीं होना चाहिए
3.x अब भी Preview में है, इसलिए और भ्रम होता है
Opus, Sonnet, और Haiku के versions एक-दूसरे से अलग-अलग हैं, और pricing structure भी जटिल है
आख़िर में सभी कंपनियाँ लगभग वही समस्याएँ झेल रही हैं
अब ऐसा दौर है जहाँ सिर्फ API बदलकर आसानी से switch किया जा सकता है
GPT‑5.4 की सबसे बड़ी बात 1M token context window है
आधिकारिक price sheet के हिसाब से 200k से ऊपर भी कोई अतिरिक्त शुल्क नहीं दिखता
यह Opus 4.6 से काफ़ी सस्ता है, लेकिन 1M context से वास्तव में कितना फ़ायदा होगा, इस पर संदेह है
अपडेटेड docs के अनुसार यह GPT‑5.3‑Codex की जगह लेता है
272K tokens से ऊपर इनपुट पर 2x और आउटपुट पर 1.5x शुल्क लगता है
token बढ़ने के साथ cost और latency दोनों बढ़ते हैं
OpenAI की internal testing में ज़्यादातर मामलों में छोटा context ज़्यादा efficient था
(कर्मचारी की टिप्पणी)
इसलिए तुलना per-task cost के आधार पर करनी चाहिए
व्यवहार में GPT‑5.x और Opus की लागत लगभग एक जैसी पड़ती है
benchmark से ज़्यादा असली काम के नतीजे मायने रखते हैं
लेकिन वास्तव में developer docs ज़्यादा सटीक हैं
बेसिक दरें सिर्फ 272k तक ही लागू होती हैं
Anthropic के पास लंबे कार्यों के लिए RL के ज़रिए इसे कम करने की योजना है
मैंने GPT‑5.4 को कुछ बार इस्तेमाल किया, और लेखन की स्पष्टता और विश्लेषण क्षमता प्रभावशाली लगी
यह 5.3‑Codex की तुलना में कहीं ज़्यादा स्वाभाविक और मानवीय शैली में लिखता है
हो सकता है इसकी वजह मेरा AGENTS.md हो, जो सरल भाषा की मांग करता है
लगता है वही पैटर्न फिर दोहर रहा है
Claude तुलनात्मक रूप से थोड़ा ढीला-ढाला लगता है
OpenAI ने 8 महीनों तक version numbering confusion से बचाव किया, लेकिन आखिरकार फिर वही जटिलता लौट आई
GPT‑5.3 Instant, GPT‑5.4 Thinking जैसे नाम फिर मिल रहे हैं
इन्हें सही use case के लिए इस्तेमाल करना चाहिए
ब्लॉग का RPG game demo प्रभावशाली लगा
यह “Battle Brothers” जैसी गुणवत्ता का लगा, और autonomous engineering का अच्छा उदाहरण था
अगर यही गति रही, तो low-code tool market को खतरा हो सकता है
इससे Codex web app को विज़ुअली debug और test कर सका
लगता है इस मॉडल का उपयोग सैन्य और सुरक्षा क्षेत्रों में भी होगा
GPT‑5.4 ने browser screenshot को समझकर Gmail UI पर क्लिक करते हुए ईमेल भेजने की क्षमता दिखाई
लेकिन मुझे लगता है कि इस तरीके की बजाय Gmail API इस्तेमाल करना ज़्यादा efficient होगा
screenshot एक साथ docs, API, और navigation का काम कर देता है
अगर यह सफल होता है, तो इसकी generality बहुत बढ़ जाती है, लेकिन API-आधारित तरीका भी अब भी उपयोगी है
यह तरीका उन सीमाओं को bypass कर सकता है
जबकि सिर्फ API सँभालने वाला मॉडल ऐसा नहीं कर सकता
आर्थिक प्रसार के लिहाज़ से पहला ज़्यादा मूल्यवान है
आखिर में सुविधा ही सबसे ऊपर रहती है
मेरी रोज़मर्रा की coding में ऊपर के 3 coding agents ही काफ़ी हैं
SWE‑bench Verified के हिसाब से GPT‑5.2 Codex को 72.8 अंक मिले थे, और GPT‑5.4 लगभग 2 अंक ऊपर है
यह कोई बड़ा jump नहीं है, लेकिन सुधार ज़रूर है
SWE‑bench में Claude 4.6 Opus अब भी 75.6 अंक के साथ आगे है
हालांकि Codex CLI की agent capabilities बहुत बेहतर हुई हैं और अब Claude Code के क़रीब पहुँचती दिखती हैं
OpenAI पहले मॉडलों को एकीकृत करता है और फिर दोबारा सूक्ष्म versioning लेकर आता है, यह काफ़ी उलझाने वाला है
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro — बहुत ज़्यादा हैं
फिर भी 1M context window का समर्थन स्वागतयोग्य है
ज़रूरत के हिसाब से चुना जा सकता है, और आम यूज़र अब भी Auto mode इस्तेमाल कर सकते हैं